AI Tech Data

Google I/O 2025: dalla ricerca alla realtà. Pichai: “Una nuova fase dell’evoluzione delle piattaforme di AI”

IO25 Gemini

“Sempre più intelligenza è disponibile, per tutti, ovunque. E il mondo sta rispondendo, adottando l’AI più velocemente che mai”, ha esordito così il  Ceo di Alphabet e Google Sundar Pichai nel suo discorso d’apertura a I/O 2025, la conferenza degli sviluppatori che si è tenuta a Montain View.

E lo ha fatto citando alcuni dati davvero impressionanti: “L’anno scorso, in questo stesso periodo, elaboravamo 9,7 trilioni di token al mese nei nostri prodotti e API. Ora ne elaboriamo oltre 480 trilioni, ovvero 50 volte di più. Oltre 7 milioni di sviluppatori creano con Gemini, cinque volte in più rispetto all’anno scorso nello stesso periodo, e l’utilizzo di Gemini su Vertex AI è aumentato di 40 volte. L’app Gemini ha ora oltre 400 milioni di utenti attivi mensili. Assistiamo a una crescita e a un coinvolgimento forti, in particolare con la serie di modelli 2.5. Per chi usa 2.5 Pro nell’app Gemini, l’utilizzo è cresciuto del 45%”.

“Questi sviluppi – ha continuato – indicano che siamo entrati in una nuova fase dell’evoluzione delle piattaforme di AI, dove anni di ricerca si stanno concretizzando in applicazioni reali per utenti, imprese e comunità in tutto il mondo.

Le novità annunciate

Tra queste c’è Google Beam, una nuova piattaforma di comunicazione video orientata all’AI. Beam impiega un modello video di ultima generazione per trasformare gli stream video 2D in un’esperienza 3D realistica: utilizzando un sistema di sei videocamere e l’AI, gli stream video vengono uniti e resi su un display 3D con tecnologia lightfield. Il sistema garantisce un tracciamento della testa quasi perfetto, con precisione millimetrica e a 60 frame al secondo, tutto in tempo reale. Il risultato è un’esperienza conversazionale molto più naturale e immersiva. In collaborazione con HP, i primi dispositivi Google Beam saranno disponibili per i primi clienti entro la fine dell’anno.

Un altra novità riguarda l’arrivo della traduzione vocale su Google Meet. La nuova tecnologia è in grado di riprodurre, quasi in tempo reale, la voce, il tono e persino le espressioni di chi parla, facilitando sempre di più conversazioni naturali e fluide tra lingue diverse. La traduzione in inglese e spagnolo è in fase di lancio per gli abbonati a Google AI Pro e Ultra in versione beta, altre lingue saranno aggiunte nelle prossime settimane. I clienti Business di Workspace potranno testare questa funzionalità in anteprima quest’anno.

Pichai ha poi annunciato che Gemini Live ora incorpora le funzionalità di condivisione dello schermo e della fotocamera di Project Astra. Questa funzionalità è già disponibile per tutti gli utenti Android e sarà esteso agli utenti iOS a partire dal 20 maggio.

Verso gli Agenti AI

“Pensiamo agli agenti come a dei sistemi che combinano l’intelligenza dei modelli avanzati di AI con l’accesso agli strumenti, così da poter agire per vostro conto e sotto il vostro controllo”, ha spiegato Pichai. “Project Mariner, il nostro prototipo di ricerca iniziale, rappresenta un primo passo verso agenti in grado di utilizzare il computer per interagire con il web e svolgere attività al posto vostro. Rilasciato come prototipo di ricerca a dicembre, da allora abbiamo fatto notevoli passi avanti, in particolare con nuove funzionalità di multitasking e con un metodo chiamato ‘insegna e ripeti’, che consente all’agente di imparare un’attività dopo averla osservata una sola volta e di applicare quanto appreso ad attività simili in futuro”.

Le capacità di utilizzo del computer di Project Mariner saranno rese disponibili agli sviluppatori tramite l’API Gemini. Alcuni trusted tester, come Automation Anywhere e UiPath, stanno già iniziando a creare soluzioni basate su questa tecnologia, che sarà distribuita più ampiamente questa estate.

“Il computer è solo uno degli strumenti fondamentali necessari per costruire un ecosistema di agenti efficace. Ne sono un esempio il nostro protocollo aperto Agent2Agent, che consente agli agenti di comunicare tra loro, o il protocollo Model Context di Anthropic, che permette agli agenti di accedere a servizi esterni. Oggi siamo felici di annunciare che la nostra API Gemini e il nostro SDK sono ora compatibili con gli strumenti MCP”, ha continuato il Ceo di Google.

Funzionalità agentiche verranno presto integrare  in Chrome, nella Ricerca Google e nell’app Gemini. Ad esempio, il nuovo Agent Mode nell’app Gemini aiuterà a portare a termine sempre più attività. Ad esempio se state cercando casa, l’agente può trovare annunci in linea con i vostri criteri su siti come Zillow, regolare i filtri, usare MCP per accedere agli annunci e persino fissare una visita.

Una versione sperimentale di Agent Mode arriverà presto per gli abbonati nell’app Gemini.

AI Mode nella Ricerca

Per quanto riguarda la ricerca Google sta introducendo AI Mode in una versione rinnovata, disponibile per il momento solo negli Stati Uniti.

“La Ricerca viene completamente ripensata”, ha spiegato Pichai. “Grazie a capacità di ragionamento più avanzate, sarà possibile porre ad AI Mode domande più lunghe e complesse. Gli early tester hanno già iniziato a fare domande da due a tre volte più lunghe rispetto alle ricerche tradizionali, con la possibilità di proseguire con domande aggiuntive. Questa funzionalità è disponibile come nuova scheda all’interno della Ricerca.

Le novità creative: Veo 3, Imagen 4 e Flow

Veo 3 è l’ultimo modello video che ora include la generazione di audio nativa. In arrivo anche Imagen 4, il modello di generazione di immagini più recente e potente. Entrambi sono disponibili nell’app Gemini.

Infine c’è Flow, uno strumento dedicato ai registi che permette di creare clip cinematografiche e trasformare un clip breve in una scena più lunga.

La ricerca di oggi è alla base della realtà di domani

“L’opportunità offerta dall’AI è davvero enorme. Sarà compito di questa nuova generazione di sviluppatori, innovatori e risolutori di problemi fare in modo che i vantaggi dell’AI possano raggiungere quante più persone possibile. È particolarmente stimolante pensare che la ricerca a cui stiamo lavorando oggi sarà alla base della realtà di domani, dalla robotica al calcolo quantistico, da AlphaFold a Waymo”, ha concluso Pichai.