Il “New York Times” fa causa a ChatGPT: la vera posta in gioco
Un patrimonio di informazioni e opinioni di professionisti qualificati finisce saccheggiato gratuitamente dentro il calderone dei contenuti cui attinge l’IA
Filtra per rubrica
Filtra per autore/trice
Un patrimonio di informazioni e opinioni di professionisti qualificati finisce saccheggiato gratuitamente dentro il calderone dei contenuti cui attinge l’IA
• – Redazione
Per risalire la china e soprattutto bloccare la strada alla le Pen, il presidente francese sceglie Gabriel Attal, che sarà il più giovane capo di governo nella storia della Quinta Repubblica, ed eventuale candidato alla sua successione all’Eliseo
• – Aldo Sofia
Quanti morti innocenti è lecito mettere nel conto al fine di sconfiggere il male? È una questione antica che ha attraversato tutto il secolo scorso e che ha interpellato drammaticamente il diritto internazionale
• – Redazione
Definiti “diavoli” dalla copresidente Rosario Murillo, alti prelati, sacerdoti e addirittura presbiteri affrontano ogni giorno l’arresto, l’incarcerazione, l’espulsione dal Paese
• – Gianni Beretta
La prima democrazia liberale in lingua cinese va al voto il 13 gennaio. La posta in gioco è enorme: un’escalation militare minaccerebbe gli equilibri globali. L’alternativa è un riavvicinamento a Pechino, tra mille incognite sul futuro
• – Redazione
Intervista al direttore della rivista di geopolitica LIMES, che dedica il suo ultimo numero alla storia e all'attualità della Confederazione - Conferenza l'11 gennaio a Lugano
• – Aldo Sofia
Ricordando l’opera e la figura di Norberto Bobbio, il massimo filosofo della politica italiano del Novecento, a vent’anni dalla scomparsa
• – Marcello Ostinelli
La parabola di “Kaiser Franz”, una leggenda del calcio, fra straordinarie prestazioni sportive e poco trasparenti operazioni da dirigente, scomparso domenica all’età di 78 anni
• – Libano Zanolari
Parla Shuruq Asad, la portavoce del Sindacato in Palestina: «Fare informazione nella Striscia significa essere sfollati in una tenda, poter morire ogni minuto»
• – Redazione
Hanno brindato al nuovo anno i paperoni del mondo, che in un 2023 poco positivo per quasi tutti si sono arricchiti di altri 1500 miliardi di dollari
• – Aldo Sofia
Un patrimonio di informazioni e opinioni di professionisti qualificati finisce saccheggiato gratuitamente dentro il calderone dei contenuti cui attinge l’IA
Il 27 dicembre 2023 il New York Times ha portato dinanzi alla Corte distrettuale di New York OpenAI e Microsoft (quest’ultima quale partner avendo investito in OpenAI). Con l’atto di citazione in giudizio il NYT accusa le due aziende di aver addestrato i loro sistemi di intelligenza artificiale, cioè ChatGPT (poi inserito anche nei sistemi Microsoft come Copilot), su milioni di contenuti del quotidiano newyorkese, continuando inoltre ad attingere al materiale del giornale per fornire risposte agli utenti. Non si tratta della prima causa legale intentata contro i sistemi di intelligenza artificiale, già vari scrittori, attori e giornalisti hanno percorso la strada giudiziaria per difendere i loro diritti, ritenendosi danneggiati da questi modelli. Ma la causa del New York Times è la prima intentata da uno dei principali editori di notizie. Si tratta, quindi, per il peso dell’attore, di una iniziativa legale che potrebbe avere pesanti conseguenze sullo sviluppo dei sistemi di intelligenza artificiale e che sicuramente plasmerà il relativo mercato di riferimento.
In sintesi, il New York Times chiede innanzitutto un risarcimento, non quantificato nello specifico ma solo genericamente, dell’ordine di miliardi di dollari di danni effettivi. Chiede altresì che i dati dei giornali siano espunti dai sistemi di intelligenza artificiale citati in giudizio, quindi la distruzione del set di dati utilizzato per addestrare la AI, cosa che potrebbe portare allo spegnimento delle attuali versioni della AI. Infine chiede che sia impedito a tali sistemi di accedere in futuro ai dati del giornale.
Nella citazione si menziona espressamente il pericolo che le “allucinazioni” prodotte dalle AI, mischiate ai dati presi dal giornale, possano mettere in cattiva luce lo stesso giornale, potendo gli utenti credere che gli errori delle AI siano in realtà imputabili al giornale. Inoltre, si paventa anche il pericolo che i sistemi di AI possano entrare in concorrenza con il giornale, in quanto gli utenti potrebbero limitarsi a leggere le notizie costruite dalle AI, senza passare quindi dal giornale medesimo. E questo, ovviamente, senza fornire alcun compenso al giornale. Il NYT conclude sostenendo che le due aziende hanno risparmiato miliardi, sfruttando senza compenso i dati del giornale, così evitando di “spendere i miliardi di dollari che il New York Times ha investito nella creazione di quell’opera, usandola senza permesso o compenso”.
La domanda alla quale dovrà rispondere la Corte distrettuale è, in sintesi, la seguente: premesso che le AI sono addestrate su enormi quantità di dati, laddove i set di dati più grandi (miliardi di pezzi di testo generati dall’uomo) spesso utilizzano materiali protetti da copyright in quanto sono generalmente contenuti di alta qualità, l’uso di tali dati è da considerarsi una violazione del copyright?
Le implicazioni sono ovvie: se la risposta è si, questo potrebbe ostacolare lo sviluppo delle AI negli Stati Uniti e nei paesi che adottassero lo stesso approccio, in quanto le aziende dovrebbero stringere accordi con i produttori di contenuti. E questo potrebbe avere delle ricadute di non poco conto. Non è solo un problema di costi, la selezione accurata dei dataset potrebbe finire per essere una barriera all’ingresso del mercato, per cui solo le grandi aziende potrebbero permettersi i costi dell’addestramento di una AI. Questo porterebbe a meno concorrenza nel settore.
Inoltre, data la difficoltà di stringere accordi con tutti, è evidente che le aziende produttrici di AI stringeranno accordi solo coi principali produttori di contenuti, i grandi editori, che quindi si ritroverebbero favoriti in questo nuovo mercato, a discapito dei piccoli produttori. Un po’ lo stesso effetto che si è riscontrato a seguito dell’introduzione, nella direttiva copyright, di un nuovo diritto a favore degli editori in base al quale le piattaforme del web devono compensare l’utilizzo degli estratti di news.
L’aspetto da non sottovalutare è che i paesi che adotteranno un approccio di questo tipo potrebbero trovarsi in svantaggio rispetto ad altri paesi che adottano un approccio differente. Ad esempio, la Cina potrebbe introdurre norme che autorizzano liberamente l’uso di dati anche soggetti a copyright, per l’addestramento delle AI. In tal modo si potrebbe realizzare un vantaggio per tali paesi. Il Giappone, ad esempio, ha già adottato questo approccio consentendo alle aziende l’uso di materiali protetti dal copyright anche senza necessità di autorizzazione. In questo modo si favorisce certamente lo sviluppo delle AI.
L’Unione Europea ha adottato un approccio differente, con la legge sull’intelligenza artificiale richiede agli sviluppatori di rivelare nel dettaglio quali materiali protetti da copyright sono stati utilizzati per l’addestramento della AI. In questo modo i detentori del copyright potrebbero avere un potere di azione nei confronti delle aziende. Però i dataset utilizzati inglobano quantità enormi di dati, per cui è piuttosto difficile quantificare quanto un creatore abbia contribuito e quindi stabilire l’entità del compenso.
Il New York Times è stato in grado di dimostrare, almeno presuntivamente, la quantità di dati che OpenAI avrebbe utilizzato per il suo addestramento. Questo perché il dataset utilizzato da ChatGPT, cioè Common Crawl, espressamente indicato nella citazione del quotidiano statunitense, notoriamente ingloba testi che provengono da specifiche fonti, tra le quali il NYT che contribuisce per una percentuale specifica essendo la terza fonte immediatamente dopo Wikipedia e un database di brevetti statunitensi. È ovvio che una prova del genere sarebbe decisamente più difficile per un piccolo autore.
Un altro aspetto che non va trascurato è che stringere accordi con i grandi editori potrebbe portare a una visione ristretta da parte delle AI della società stessa, e quindi a pregiudizi culturali. In genere gli algoritmi soffrono già di pregiudizi, tendono a replicare su larga scala i pregiudizi che sono insiti nella società perché di fatto funzionano inglobando i dati della società che, prodotti da noi esseri umani, sono già intrisi dei nostri pregiudizi. Una AI che si limiti a usare per l’addestramento i dati dei principali editori potrebbe mancare dei dati, delle informazioni, e quindi dei punti di vista e delle opinioni delle minoranze della nostra società. Nella società moderna l’ampliamento del campo informativo ha determinato la nascita di una pluralità di fonti, alcune delle quali si occupano specificamente delle problematiche di minoranze e soggetti generalmente discriminati. Le grandi inchieste dei grandi editori, dovendo rivolgersi alla massa dei cittadini, invece, tendono a dare meno spazio a tali categorie, a fare, per così dire, un discorso più generale sfumando le particolarità sociali. […]
L’articolo in forma integrale si può leggere qui
Nell’immagine: OpenAI e la giustizia visti… dall’intelligenza artificiale
Ogni santo giorno in Italia c’è da occuparsi di Andrea Giambruno, che se non avesse conosciuto la presidente del Consiglio sarebbe rimasto uno che si ravana il pacco in una...
Non è vincendo la Terza guerra mondiale che Washington può brillare di nuova luce, l’America globale non è possibile. Prepariamoci a convivere con una lunga stagione di caos