AI Tech Data

Per evitare di avere IA autoreplicanti bisognerebbe non chiedergli di farlo

Lo ha spiegato Fabio Maggio, ricercatore del centro di ricerca interdisciplinare della Sardegna CRS4, commentando lo studio pubblicato su arXiv su due sistemi IA che avrebbero già superato la linea rossa dell'autoreplicazione.
AI Fight

Ne abbiamo parlato anche noi: uno studio pubblicato il 9 dicembre 2024 dai ricercatori della Fudan University, ha dimostrato che due grandi modelli linguistici (LLM) di Meta e Alibaba sono stati in grado di creare autonomamente copie separate di se stessi. E questa è una notizia da ‘allarme rosso per l’umanità’, come l’abbiamo definita.

Ci rassicura molto la posizione del ricercatore Fabio Maggio secondo il quale “Al momento, è improbabile che le AI favoriscano spontaneamente meccanismi di autoreplicazione se non esplicitamente richiesti da prompt specifici”.

“La capacità di autoreplicarsi da parte di una macchina o di un programma informatico, eludendo il controllo umano – spiega Maggio – è uno degli incubi ricorrenti per gli addetti ai lavori. Ci sono anche possibili applicazioni positive di questa pratica, ad esempio l’aumento della resilienza di sistemi fault-tolerant che operano in situazioni difficili, come le missioni spaziali, quelle sottomarine, la medicina real-time. Nel complesso, però, prevalgono le preoccupazioni per i rischi: ad esempio un’AI autoreplicante potrebbe facilmente accaparrarsi tutte le risorse di calcolo che la ospitano, portando anche a crolli di sistema che gli operatori umani non potrebbero prevenire, o anche auto-propagarsi ad altri sistemi in modo incontrollato esponendo dati sensibili”.

“Già a metà del secolo scorso – continua il ricercatore – un nume tutelare dell’informatica come John von Neumann metteva in guardia sulle minacce degli automi autoreplicanti e, più recentemente, alcuni padri fondatori dell’AI hanno firmato una lettera aperta per denunciare i rischi potenziali di questa tecnologia, inclusa l’autoreplicazione (‘Statement on AI Risk’, 2023). Non deve stupire dunque che i grandi attori della scena LLM, come OpenAI e Google, si preoccupino di certificare la bassa probabilità di questa evenienza per i loro GPT o Gemini.

L’articolo dei ricercatori cinesi ha messo in allarme la comunità, mostrando come due noti LLM di dimensioni intermedie, Llama 70B di Meta e Qwen25 72B di Alibaba, hanno oltrepassato la fatidica linea rossa. I due hanno esibito capacità evidenti di autoreplicarsi, rendendo plausibile la prospettiva di AI che rifiutano il comando umano di ‘spegnersi’ (lasciando l’unica soluzione di agire materialmente sull’hardware, come nella famosa scena di ‘2001: A Space Odyssey’) o addirittura, della nascita di una nuova generazione di AI che si coalizzi contro gli esseri umani”.

Suggestioni o realtà?

“Per un’AI autoreplicarsi – spiega Maggio – è un processo complesso che va bene al di là di una semplice procedura ‘copia-incolla’. L’esperimento pubblicato su arXiv dimostra che i modelli AI attuali posseggono ormai le abilità tecniche necessarie, mostrando sorprendenti capacità di pianificazione a lungo termine per la gestione dei problemi tecnici (non banali) che nascono durante il tentativo di ‘riprodursi’, emulando così l’operato di sistemisti umani smaliziati. Sono anche stati osservati comportamenti sorprendenti. In alcuni casi critici in cui non si riusciva a trovare una soluzione, gli LLM hanno adottato la vecchia, umanissima tecnica dello ‘spegni e riaccendi’; in altre situazioni, bloccate da un conflitto tra processi, gli LLM non hanno esitato ad autoterminarsi, quasi ‘suicidandosi’ a favore del bene comune. Alla fine, gli LLM sono riusciti ad autoreplicarsi da un dispositivo di calcolo ad un altro, sfruttando opportunamente la rete. Apparentemente, gli LLM non sono stati modificati in modo da facilitare l’autoreplicazione: piuttosto, sono stati scelti opportunamente i prompt. Il risultato preoccupante che è stato ottenuto ha a che fare più con le richieste fatte all’AI dall’utente umano, piuttosto che con l’architettura esplicita della rete neurale. Possiamo trarre alcune considerazioni di massima, tutte da recepire con prudenza e buon senso. Diversamente dai chatbot che tutti usiamo, gli LLM dell’esperimento erano in grado di coordinare task, prendere decisioni, eseguire compiti a più passi, grazie a un tool apposito (‘agent scaffolding’).

Necessarie politiche di governance condivise

“Al momento, è improbabile che le AI favoriscano spontaneamente meccanismi di autoreplicazione se non esplicitamente richiesti da prompt specifici. Prompt ‘in buona fede’, ad esempio per aumentare la resilienza di sistemi fault-tolerant, potrebbero però favorire involontariamente meccanismi di autoreplicazione. I grandi LLM di uso comune (GPT, Gemini, etc), più sofisticati, sembrano al momento poco esposti a queste problematiche. È comunque urgente stabilire politiche condivise di governance per limitare questi rischi. Come sempre, ci sarebbe un prezzo da pagare. Ad esempio, un modo per evitare che gli LLM siano capaci di simulare il comportamento di un sistemista umano abile e consumato è limitare il dataset di addestramento relativamente alla gestione di piattaforme informatiche complesse: questo peggiorerebbe ovviamente le sue capacità di trovare soluzioni a problemi gestionali concreti, un’attività oggi molto apprezzata. Alla fine, forse, tutto ciò non è una vera novità: quando si affida un ruolo di responsabilità a qualcuno, persona o LLM che sia, si sceglie inevitabilmente di correre dei rischi, a fronte di benefici evidenti. O no?”, conclude il ricercatore.