Il “New York Times” fa causa a ChatGPT: la vera posta in gioco

Un patrimonio di informazioni e opinioni di professionisti qualificati finisce saccheggiato gratuitamente dentro il calderone dei contenuti cui attinge l’IA

Redazione

Il “New York Times” fa causa a ChatGPT: la...

• 11 Gennaio 2024 – Redazione

Se ti piace quello che facciamo dacci una mano a continuare anche nel 2024 – Clicca qui per sapere come

Stampa / Pdf

Di Bruno Saetta, Valigia blu

Il 27 dicembre 2023 il New York Times ha portato dinanzi alla Corte distrettuale di New York OpenAI e Microsoft (quest’ultima quale partner avendo investito in OpenAI). Con l’atto di citazione in giudizio il NYT accusa le due aziende di aver addestrato i loro sistemi di intelligenza artificiale, cioè ChatGPT (poi inserito anche nei sistemi Microsoft come Copilot), su milioni di contenuti del quotidiano newyorkese, continuando inoltre ad attingere al materiale del giornale per fornire risposte agli utenti. Non si tratta della prima causa legale intentata contro i sistemi di intelligenza artificiale, già vari scrittori, attori e giornalisti hanno percorso la strada giudiziaria per difendere i loro diritti, ritenendosi danneggiati da questi modelli. Ma la causa del New York Times è la prima intentata da uno dei principali editori di notizie. Si tratta, quindi, per il peso dell’attore, di una iniziativa legale che potrebbe avere pesanti conseguenze sullo sviluppo dei sistemi di intelligenza artificiale e che sicuramente plasmerà il relativo mercato di riferimento.

La causa giudiziaria del New York Times a OpenAI

In sintesi, il New York Times chiede innanzitutto un risarcimento, non quantificato nello specifico ma solo genericamente, dell’ordine di miliardi di dollari di danni effettivi. Chiede altresì che i dati dei giornali siano espunti dai sistemi di intelligenza artificiale citati in giudizio, quindi la distruzione del set di dati utilizzato per addestrare la AI, cosa che potrebbe portare allo spegnimento delle attuali versioni della AI. Infine chiede che sia impedito a tali sistemi di accedere in futuro ai dati del giornale.

Nella citazione si menziona espressamente il pericolo che le “allucinazioni” prodotte dalle AI, mischiate ai dati presi dal giornale, possano mettere in cattiva luce lo stesso giornale, potendo gli utenti credere che gli errori delle AI siano in realtà imputabili al giornale. Inoltre, si paventa anche il pericolo che i sistemi di AI possano entrare in concorrenza con il giornale, in quanto gli utenti potrebbero limitarsi a leggere le notizie costruite dalle AI, senza passare quindi dal giornale medesimo. E questo, ovviamente, senza fornire alcun compenso al giornale. Il NYT conclude sostenendo che le due aziende hanno risparmiato miliardi, sfruttando senza compenso i dati del giornale, così evitando di “spendere i miliardi di dollari che il New York Times ha investito nella creazione di quell’opera, usandola senza permesso o compenso”.

La domanda alla quale dovrà rispondere la Corte distrettuale è, in sintesi, la seguente: premesso che le AI sono addestrate su enormi quantità di dati, laddove i set di dati più grandi (miliardi di pezzi di testo generati dall’uomo) spesso utilizzano materiali protetti da copyright in quanto sono generalmente contenuti di alta qualità, l’uso di tali dati è da considerarsi una violazione del copyright?

Le implicazioni sono ovvie: se la risposta è si, questo potrebbe ostacolare lo sviluppo delle AI negli Stati Uniti e nei paesi che adottassero lo stesso approccio, in quanto le aziende dovrebbero stringere accordi con i produttori di contenuti. E questo potrebbe avere delle ricadute di non poco conto. Non è solo un problema di costi, la selezione accurata dei dataset potrebbe finire per essere una barriera all’ingresso del mercato, per cui solo le grandi aziende potrebbero permettersi i costi dell’addestramento di una AI. Questo porterebbe a meno concorrenza nel settore.

Inoltre, data la difficoltà di stringere accordi con tutti, è evidente che le aziende produttrici di AI stringeranno accordi solo coi principali produttori di contenuti, i grandi editori, che quindi si ritroverebbero favoriti in questo nuovo mercato, a discapito dei piccoli produttori. Un po’ lo stesso effetto che si è riscontrato a seguito dell’introduzione, nella direttiva copyright, di un nuovo diritto a favore degli editori in base al quale le piattaforme del web devono compensare l’utilizzo degli estratti di news.

L’aspetto da non sottovalutare è che i paesi che adotteranno un approccio di questo tipo potrebbero trovarsi in svantaggio rispetto ad altri paesi che adottano un approccio differente. Ad esempio, la Cina potrebbe introdurre norme che autorizzano liberamente l’uso di dati anche soggetti a copyright, per l’addestramento delle AI. In tal modo si potrebbe realizzare un vantaggio per tali paesi. Il Giappone, ad esempio, ha già adottato questo approccio consentendo alle aziende l’uso di materiali protetti dal copyright anche senza necessità di autorizzazione. In questo modo si favorisce certamente lo sviluppo delle AI.

L’Unione Europea ha adottato un approccio differente, con la legge sull’intelligenza artificiale richiede agli sviluppatori di rivelare nel dettaglio quali materiali protetti da copyright sono stati utilizzati per l’addestramento della AI. In questo modo i detentori del copyright potrebbero avere un potere di azione nei confronti delle aziende. Però i dataset utilizzati inglobano quantità enormi di dati, per cui è piuttosto difficile quantificare quanto un creatore abbia contribuito e quindi stabilire l’entità del compenso.

Il New York Times è stato in grado di dimostrare, almeno presuntivamente, la quantità di dati che OpenAI avrebbe utilizzato per il suo addestramento. Questo perché il dataset utilizzato da ChatGPT, cioè Common Crawl, espressamente indicato nella citazione del quotidiano statunitense, notoriamente ingloba testi che provengono da specifiche fonti, tra le quali il NYT che contribuisce per una percentuale specifica essendo la terza fonte immediatamente dopo Wikipedia e un database di brevetti statunitensi. È ovvio che una prova del genere sarebbe decisamente più difficile per un piccolo autore.

Un altro aspetto che non va trascurato è che stringere accordi con i grandi editori potrebbe portare a una visione ristretta da parte delle AI della società stessa, e quindi a pregiudizi culturali. In genere gli algoritmi soffrono già di pregiudizi, tendono a replicare su larga scala i pregiudizi che sono insiti nella società perché di fatto funzionano inglobando i dati della società che, prodotti da noi esseri umani, sono già intrisi dei nostri pregiudizi. Una AI che si limiti a usare per l’addestramento i dati dei principali editori potrebbe mancare dei dati, delle informazioni, e quindi dei punti di vista e delle opinioni delle minoranze della nostra società. Nella società moderna l’ampliamento del campo informativo ha determinato la nascita di una pluralità di fonti, alcune delle quali si occupano specificamente delle problematiche di minoranze e soggetti generalmente discriminati. Le grandi inchieste dei grandi editori, dovendo rivolgersi alla massa dei cittadini, invece, tendono a dare meno spazio a tali categorie, a fare, per così dire, un discorso più generale sfumando le particolarità sociali. […]

L’articolo in forma integrale si può leggere qui
Nell’immagine: OpenAI e la giustizia visti… dall’intelligenza artificiale

Stampa / Pdf

Dal nostro archivio