Interactive

The Data Dilemma: in che modo le ‘nascenti’ applicazioni di intelligenza artificiale possono essere vittime della ‘deprivazione’ dei dati, consumati in gran numero per il loro sviluppo

AI Image
di Massimo Bolchi

Le applicazioni di IA, alimentate da algoritmi sofisticati e da grandi quantità di dati, stanno diventando sempre più comuni, gestendo compiti che vanno dal riconoscimento delle immagini alla traduzione linguistica. Tuttavia, nonostante i notevoli progressi dell’IA, esiste una minaccia nascosta che può paralizzare anche l’applicazione IA più sofisticata: la deprivazione dei dati. Perché tutti algoritmi di IA sono guidati dai dati e si basano su di essi per apprendere modelli, fare previsioni ed eseguire compiti complessi. La qualità e la quantità dei dati diventano così fondamentali per lo sviluppo e l’implementazione dell’IA. Senza dati sufficienti, le applicazioni di IA possono diventare inaffidabili, distorte o addirittura non funzionare del tutto.

Diversi fattori possono contribuire alla mancanza di dati nelle applicazioni di IA. Un problema crescente è la mancanza di accesso ai dati rilevanti. Ciò può verificarsi a causa delle normative sulla privacy, delle restrizioni sulla proprietà dei dati o semplicemente per la mancanza di iniziative di raccolta dei dati. Basta pensare, a questo riguardo, a quanto stanno facendo i giornali USA, The NY Times in testa, che rifiutano esplicitamente di fornire dati per ‘addestrare’ le AI. O chiedono cospicui pagamente per rilasciare i permessi d’uso. Un’altra sfida, direttamente collegata alla prima, è rappresentata dalla qualità dei dati: dati imprecisi, incompleti o distorti possono portare a modelli di intelligenza artificiale difettosi e a risultati errati.

Si scopre insomma, con una sorpresa piuttosto stupefacente, che i dati potrebbero addirittura essere una risorsa finita. Uno studio dell’Università di Aston prevede che stiamo rapidamente esaurendo lo spazio di archiviazione per tutti i dati generati: ma questo è solo un problema tecnologico, facilmente risolvibile dalla potenza del cloud se si volesse, mentre  lo spettro dell’esaurimento dei general training data, denunciato dalla MIT Review, è tutta un’altra faccenda: la povertà di dati sta manifestandosi per ora in modi limitati, ma tutti caratterizzati dalla carenza di usable data.

La forma più comune è la scarsità di dati tout court, quando semplicemente non esistono dati sufficienti per addestrare efficacemente un modello di intelligenza artificiale. Questo può essere particolarmente impegnativo in domini specializzati o di nicchia, dove la raccolta dei dati è intrinsecamente difficile o costosa. Un’altra forma di povertà di dati è quando i dati disponibili non sono sufficientemente diversificati o rappresentativi della popolazione o dell’ambiente di destinazione, il che ha come output modelli imprecisi o distorti.  Infine, vi è anche il degrado dei dati, quando la qualità dei dati è compromessa a causa di rumore, errori o incongruenze, e anch’essa può contribuire alla povertà di dati.

Le conseguenze della povertà di dati possono essere di vasta portata: i modelli di IA addestrati su dati insufficienti o di bassa qualità possono produrre risultati ingiusti o dannosi. Ad esempio, un algoritmo di credit scoring potrebbe svantaggiare alcuni gruppi di persone, perpetuando le disuguaglianze esistenti. Oppure un sistema di diagnosi medica addestrato su dati limitati potrebbe non riuscire a rilevare pattern o anomalie meno che evidenti, portando potenzialmente a diagnosi errate e a esiti negativi per i pazienti.

Per affrontare le sfide della povertà di dati e garantire allo stesso tempo uno sviluppo responsabile dell’IA, si possono adottare diverse strategie, quali la Data Augmentation o la Data Curation. La prima usa tecniche come la generazione di dati sintetici che aumentare artificialmente le dimensioni e la diversità dei set di dati esistenti, mentre la seconda comporta la pulizia, il filtraggio e l’organizzazione dei dati per garantirne la qualità e la rilevanza ai fini di ottenerne altri, maggiormente validi per l’addestramento dell’IA. Si possono anche sfruttare le conoscenze dei modelli di IA pre-addestrati per ridurre la necessita di dati per l’addestramento di nuovi modelli.

Infine vi è la possibilità di inserire una componente umana nel loop: esperti umani che possono aiutare a identificare e risolvere le distorsioni dei dati, garantendo l’equità e l’affidabilità dei sistemi di IA. Ma ‘Quis custodiet ipsos custodes?’ si chiedeva già Giovenale all’inizio del Secondo Secolo: una domanda rimaste finora senza risposta.