Interactive

La guerra per i data set è il nuovo fronte della GenAI: i Tech Giant pagano cifre inarrivabili per chiunque. Ma la UE che cosa aspetta per investire davvero in iniziative che combinino mercato ed etica?

Chatbot training
di Massimo Bolchi

I dati sono il cuore dei sistemi avanzati di AI di oggi, ma il loro costo è sempre più elevato e li rende irraggiungibili per tutte le aziende tecnologiche, tranne che per le più ricche. Anche il recente AI Act, che dà alle aziende fino a due anni di tempo per mettersi in regole, sembra sottostimare questo punto: eppure i dati di addestramento – e non il design, l’architettura o qualsiasi altra caratteristica di un modello LLM – sono la chiave per ottenere sistemi di AI sempre più sofisticati e capaci. Se addestrati sullo stesso set di dati per un tempo sufficientemente lungo, afferma la teoria dell’AI, praticamente tutti i modelli convergono verso lo stesso punto, a risposte che sono sostazialmente le stesse.

I sistemi di intelligenza artificiale generativa sono fondamentalmente modelli probabilistici, un insieme enorme di statistiche: in base a una grande quantità di esempi, ‘indovinano’ quali sono le parole più ‘sensate’ (in realtà la più probabili) da collocare per proseguire la frase che si sta elaborando. Intuitivo, quindi, che più esempi un modello ha a disposizione, migliori sono le prestazioni. Questo non significa che l’addestramento su insiemi di dati esponenzialmente più grandi sia un percorso sicuro per ottenere modelli esponenzialmente migliori. I modelli funzionano secondo il paradigma ‘garbage in, garbage out’, quindi la cura e la qualità dei dati contano molto, forse più della quantità pura e semplice.

Molti modelli di intelligenza artificiale, compresi il modello text-to-image di OpenAI DALL-E 3, vengono addestrati facendo etichettare i dati da annotatori umani, in modo che il modello possa imparare ad associare quelle etichette ad altre caratteristiche osservate dei dati. Per esempio, un modello che viene alimentato con molte immagini di gatti con annotazioni per ogni razza, alla fine ‘imparerà’ ad associare termini come bobtail e shorthair con i loro tratti visivi distintivi.

Aziende grandi e piccole si affidano a lavoratori di Paesi del terzo mondo pagati solo pochi dollari all’ora per creare annotazioni per i set di addestramento. Alcuni di questi annotatori – assunti da startup gigantesche come Scale AI – lavorano letteralmente giorni e giorni per portare a termine compiti, senza alcun beneficio o garanzia di futuri ingaggi. In altre parole, anche gli accordi sui dati più trasparenti non stanno esattamente promuovendo un ecosistema di AI generativa aperto ed equo, come accade con il commercio alimentare, peraltro.

Gli esperti più attenti ai temi etici temono che la crescente enfasi su set di dati di addestramento di grandi dimensioni e di alta qualità accentri lo sviluppo dell’AI nei pochi operatori con budget miliardari, che sono al momento gli unici che possono permettersi di acquisire questi dataset. Grandi innovazioni nei dati sintetici o nell’architettura di base potrebbero sconvolgere lo status quo, ma non sembrano essere all’orizzonte. In effetti, anche laddove la corsa all’acquisizione di un maggior numero di dati per l’addestramento non ha portato a comportamenti non etici (e forse anche illegali) come l’aggregazione di contenuti protetti da copyright, ha premiato comunque i tech giant con risorse quasi illimitate da spendere in licenze di dati.

I modelli di intelligenza artificiale generativa sono addestrati principalmente su immagini, testi, audio, video e altri dati – alcuni protetti da copyright – provenienti da pagine web pubbliche (compresi, problematicamente, quelli generati dall’intelligenza artificiale, ma questo è un altro problema, e forse parleremo in seguito di AI addestrate dall’AI, ndr). Le AI di tutto il mondo sostengono che il fair use le mette al riparo da problemi legali. Molti detentori di diritti non sono d’accordo, ma, almeno per ora, non possono fare molto per impedire questa pratica: in quest’ambito ha fatto scalpore, e ha segnato una strada per le rivendicazioni, la causa del NYT a OpenAI e Microsoft. Bisogna però attendere per scoperire come andrà a finire: il verdetto non è per nulla scontato.

Esistono moltissimi esempi di fornitori di AI generativa che acquisiscono enormi serie di dati con attività quantomeno discutibili per addestrare i loro modelli. OpenAI ha riferito di aver trascritto più di un milione di ore di video di YouTube senza il permesso di YouTube – o il permesso dei creatori – per alimentare il suo modello di punta GPT-4. Google ha recentemente ampliato i suoi termini di servizio, in parte per poter attingere ai Google Docs pubblici, alle recensioni dei ristoranti su Google Maps e ad altro materiale online per i suoi prodotti di intelligenza artificiale. Vi sono anche rumors che affermano come Meta abbia preso in considerazione la possibilità di rischiare cause legali per addestrare i suoi modelli su contenuti ‘protetti’.

OpenAI, dal canto suo, ha speso centinaia di milioni di dollari per ottenere la licenza di contenuti da editori di news, come Axel Springer e Le Monde, e media library(e altro) per addestrare i suoi modelli di AI – un budget di gran lunga superiore a quello della maggior parte dei gruppi di ricerca accademici, delle organizzazioni non profit e delle startup. Meta è arrivata al punto di valutare l’acquisizione dell’editore Simon & Schuster per i diritti sugli estratti di e-book (alla fine Simon & Schuster è stata venduta alla società di private equity KKR per 1,62 miliardi di dollari nel 2023).

Poiché si prevede che il mercato dei dati per l’addestramento dell’intelligenza artificiale crescerà dai circa 2,5 miliardi di dollari attuali a quasi 30 miliardi di dollari entro un decennio, gli intermediari di dati e le piattaforme si stanno affrettando a chiedere il massimo prezzo, in alcuni casi anche contro le proteste dei loro utenti: Shutterstock ha stretto accordi con fornitori di AI che vanno dai 25 ai 50 milioni di dollari per cessione, e Reddit sostiene di aver guadagnato centinaia di milioni dalla concessione di licenze di dati a organizzazioni come Google e OpenAI. Sono i dati delle piattaforme da commercializzare – almeno secondo le argomentazioni dei legali – ma nella stragrande maggioranza dei casi gli utenti non vedono un centesimo dei profitti. E questo crea un vulnus potenziale per una causa legale, soprattutto in quei paesi dove le class action sono previste.

Ma se l’alternativa ai Tech Giant dominatori del mercato sono il social profiling e il riconoscimento facciale utilizzati dal PCC cinese per controllare un miliardo e mezzo di persone, la scelta sarebbe sì ardua, ma alla fine dovrebbe essere netta. In attesa che la UE, esaurito il proprio ‘compito’ normativo, decida di investire in misura sufficiente per sviluppare i propri modelli capaci di coniugare logiche di mercato e rispetto dei diritti di tutti.