Google ha appena annunciato Gemini Robotics e Gemini Robotics-ER, i nuovi modelli di AI basati su Gemini 2.0 che abilitano una nuova generazione di robot più versatili, interattivi e precisi, sfruttando le capacità avanzate di Gemini. Entrambi i modelli consentono a una serie di robot di svolgere una gamma più ampia di compiti del mondo reale rispetto al passato.
Gemini Robotics è il modello di visione-linguaggio-azione di Google più avanzato e attinge alla comprensione multimodale del mondo di Gemini: aggiunge le azioni fisiche come nuova modalità di output. Gemini Robotics-ER è un modello di visione-linguaggio con una comprensione spaziale avanzata, che consente a chi progetta robot di eseguire i propri programmi utilizzando le capacità di ragionamento di Gemini.
Il modello di visione-linguaggio-azione più avanzato
Per essere utili e di aiuto alle persone, i modelli di intelligenza artificiale per la robotica hanno bisogno di tre qualità principali: devono essere generali, cioè in grado di adattarsi a situazioni diverse; devono essere interattivi, cioè in grado di capire e rispondere rapidamente alle istruzioni o ai cambiamenti dell’ambiente; e devono essere abili, cioè in grado di fare il tipo di cose che le persone generalmente fanno con le mani e le dita, come manipolare con cura gli oggetti.
“Sebbene il nostro lavoro precedente abbia dimostrato progressi in queste aree, Gemini Robotics rappresenta un sostanziale passo avanti nelle prestazioni su tutti e tre gli assi, avvicinandoci a robot veramente ‘universali’, si legge in un blog post dell’azienda.
Collaborazioni in corso
Google sta collaborando con Apptronik per far avanzare la prossima generazione di robot umanoidi. Inoltre, ha reso disponibile il modello Gemini Robotics-ER a una selezione di trusted tester, tra cui Agile Robots, Agility Robots, Boston Dynamics ed Enchanted Tools.
Un approccio olistico alla ricerca
Per far progredire la ricerca sulla sicurezza della robotica in ambito accademico e industriale, Google rilascerà nuovi benchmark e framework per la sicurezza semantica nell’intelligenza artificiale e nella robotica. Il tutto all’insegna di un approccio olistico nella ricerca, capace di combinare la sicurezza fisica, dei contenuti e semantica.