di Massimo Bolchi
Le applicazioni di IA, alimentate da algoritmi sofisticati e da grandi quantità di dati, stanno diventando sempre più comuni, gestendo compiti che vanno dal riconoscimento delle immagini alla traduzione linguistica. Tuttavia, nonostante i notevoli progressi dell’IA, esiste una minaccia nascosta che può paralizzare anche l’applicazione IA più sofisticata: la deprivazione dei dati. Perché tutti algoritmi di IA sono guidati dai dati e si basano su di essi per apprendere modelli, fare previsioni ed eseguire compiti complessi. La qualità e la quantità dei dati diventano così fondamentali per lo sviluppo e l’implementazione dell’IA. Senza dati sufficienti, le applicazioni di IA possono diventare inaffidabili, distorte o addirittura non funzionare del tutto.
Diversi fattori possono contribuire alla mancanza di dati nelle applicazioni di IA. Un problema crescente è la mancanza di accesso ai dati rilevanti. Ciò può verificarsi a causa delle normative sulla privacy, delle restrizioni sulla proprietà dei dati o semplicemente per la mancanza di iniziative di raccolta dei dati. Basta pensare, a questo riguardo, a quanto stanno facendo i giornali USA, The NY Times in testa, che rifiutano esplicitamente di fornire dati per ‘addestrare’ le AI. O chiedono cospicui pagamente per rilasciare i permessi d’uso. Un’altra sfida, direttamente collegata alla prima, è rappresentata dalla qualità dei dati: dati imprecisi, incompleti o distorti possono portare a modelli di intelligenza artificiale difettosi e a risultati errati.
Si scopre insomma, con una sorpresa piuttosto stupefacente, che i dati potrebbero addirittura essere una risorsa finita. Uno studio dell’Università di Aston prevede che stiamo rapidamente esaurendo lo spazio di archiviazione per tutti i dati generati: ma questo è solo un problema tecnologico, facilmente risolvibile dalla potenza del cloud se si volesse, mentre lo spettro dell’esaurimento dei general training data, denunciato dalla MIT Review, è tutta un’altra faccenda: la povertà di dati sta manifestandosi per ora in modi limitati, ma tutti caratterizzati dalla carenza di usable data.
La forma più comune è la scarsità di dati tout court, quando semplicemente non esistono dati sufficienti per addestrare efficacemente un modello di intelligenza artificiale. Questo può essere particolarmente impegnativo in domini specializzati o di nicchia, dove la raccolta dei dati è intrinsecamente difficile o costosa. Un’altra forma di povertà di dati è quando i dati disponibili non sono sufficientemente diversificati o rappresentativi della popolazione o dell’ambiente di destinazione, il che ha come output modelli imprecisi o distorti. Infine, vi è anche il degrado dei dati, quando la qualità dei dati è compromessa a causa di rumore, errori o incongruenze, e anch’essa può contribuire alla povertà di dati.
Le conseguenze della povertà di dati possono essere di vasta portata: i modelli di IA addestrati su dati insufficienti o di bassa qualità possono produrre risultati ingiusti o dannosi. Ad esempio, un algoritmo di credit scoring potrebbe svantaggiare alcuni gruppi di persone, perpetuando le disuguaglianze esistenti. Oppure un sistema di diagnosi medica addestrato su dati limitati potrebbe non riuscire a rilevare pattern o anomalie meno che evidenti, portando potenzialmente a diagnosi errate e a esiti negativi per i pazienti.
Per affrontare le sfide della povertà di dati e garantire allo stesso tempo uno sviluppo responsabile dell’IA, si possono adottare diverse strategie, quali la Data Augmentation o la Data Curation. La prima usa tecniche come la generazione di dati sintetici che aumentare artificialmente le dimensioni e la diversità dei set di dati esistenti, mentre la seconda comporta la pulizia, il filtraggio e l’organizzazione dei dati per garantirne la qualità e la rilevanza ai fini di ottenerne altri, maggiormente validi per l’addestramento dell’IA. Si possono anche sfruttare le conoscenze dei modelli di IA pre-addestrati per ridurre la necessita di dati per l’addestramento di nuovi modelli.
Infine vi è la possibilità di inserire una componente umana nel loop: esperti umani che possono aiutare a identificare e risolvere le distorsioni dei dati, garantendo l’equità e l’affidabilità dei sistemi di IA. Ma ‘Quis custodiet ipsos custodes?’ si chiedeva già Giovenale all’inizio del Secondo Secolo: una domanda rimaste finora senza risposta.