Google, in collaborazione con i ricercatori del Georgia Tech e il lavoro sul campo del Wild Dolphin Project (WDP), ha presentato i progressi compiuti con DolphinGemma: un modello di intelligenza artificiale specificamente addestrato per interpretare la struttura delle vocalizzazioni dei delfini e produrre nuove sequenze sonore che le imitano fedelmente. Questa strategia, volta a svelare i segreti della comunicazione tra le specie, amplia le frontiere dell’intelligenza artificiale e le potenzialità del legame dell’uomo con l’ambiente marino.
Si tratta di un passo avanti per i ricercatori, che potranno utilizzare questo ‘strumento’ per sintetizzare i propri dati, individuare schemi ricorrenti e persino prevedere cosa potrebbe ‘dire’ un delfino.
Decenni di ricerca sulla rete sociale dei delfini
Dal 1985, il WDP conduce il più longevo progetto di ricerca subacquea sui delfini, studiando una specifica comunità di stenelle maculate atlantiche selvatiche (Stenella frontalis) alle Bahamas, seguendole nel corso delle generazioni. Questo approccio non invasivo, basato sull’osservazione “nel loro mondo, alle loro condizioni”, ha permesso di raccogliere un insieme di dati unico: decenni di registrazioni video e audio subacquee, accuratamente associate all’identità di ogni delfino, alla sua storia di vita e ai comportamenti osservati.
L’obiettivo finale di questo lavoro osservativo è comprendere la struttura e il potenziale significato all’interno di queste sequenze sonore naturali – cercando modelli e regole che potrebbero indicare un linguaggio. Questa analisi a lungo termine delle forme di comunicazione naturale costituisce la base della ricerca del WDP e fornisce un contesto essenziale per qualsiasi analisi di intelligenza artificiale.
Il ruolo di DolphinGemma
Sviluppato da Google, questo modello di intelligenza artificiale sfrutta specifiche tecnologie audio: il tokenizer SoundStream codifica efficientemente i suoni dei delfini, che vengono poi elaborati da un’architettura di modello ideale per sequenze complesse. Questo modello, con circa 400 milioni di parametri, è dimensionato in modo ottimale per essere eseguito direttamente sui telefoni Pixel utilizzati dal WDP sul campo.
Questo modello trae ispirazione da Gemma, la famiglia di modelli open source leggeri e all’avanguardia di Google, sviluppati a partire dalla stessa ricerca e tecnologia che alimenta i modelli Gemini.
Addestrato estesamente sul database acustico del WDP riguardante le stenelle maculate atlantiche selvatiche, DolphinGemma funziona come un modello audio-in, audio-out, elabora sequenze di suoni naturali di delfini per identificare modelli, strutture e, in ultima analisi, prevedere i suoni che con maggiore probabilità seguiranno in una sequenza. Questo processo è molto simile a come i grandi modelli linguistici per il linguaggio umano anticipano la parola o il token successivo in una frase.
Un modello open source
Google prevede di rendere disponibile DolphinGemma come modello open source nel corso di quest’estate.
“Mettendo a disposizione strumenti come DolphinGemma, auspichiamo di fornire ai ricercatori di tutto il mondo gli strumenti per analizzare i propri set di dati acustici, accelerare l’individuazione di schemi e approfondire collettivamente la nostra comprensione di questi intelligenti mammiferi marini”, si legge in un blogpost dell’azienda.