Interactive

Da Google I/O la risposta a Open AI: Project Astra, un assistente universale, e Veo, per creare video da un testo senza i ‘difetti’ di Sora. E ‘AI Overviews’, per i miliardi di utenti globali del search

di Massimo Bolchi

Non sono passate neanche 24 ore dall’annuncio di OpenAI, che ha presentato la sua ChatGPT-4o, che Google, come previsto dai concorrenti – in primo luogo la stessa OpenAI e Microsoft – ha riposto con una serie di novità lungamente preparate che hanno ‘entusiasmato’ gli sviluppatori presenti all’annuale appuntamento Google I/O. In questa sede ci limiteremo a una breve sommario, riservandoci di approfondire i temi più interessanti in un secondo momento.

Ha aperto l’evento allo Shoreline Amphitheatre, il Ceo di Google, Sundar Pichai che ha presentato il nuovo ‘assistente universale’, battezzato Project Astra. Il funzionamento è molto semplice: si apre l’AI app sullo smartphone – per ora, ma domani chissà – e gli si rivolgono le più domande più diverse, a voce o per iscritto, utilizzando anche la fotocamera per far ‘vedere’ al terminale che cosa lo circonda e arricchire così di ulteriori informazioni il contesto.

In un altro annuncio Google ha presentato un modello di intelligenza artificiale’ text-to-video’, chiamata Veo, in grado di creare filmati generati al computer sulla base di suggerimenti scritti. La promessa di Veo è quella di migliorare le performance del concorrente Sora, già presentato qualche mese fa da OpenAI, che conserva alcuni difetti nella rappresentazione dei movimenti di persone e animali, nella sincronizzazione dell’audio e nella produzione di alcuni ‘effetti’ comuni al cinema, quali il time-lapse.

Ma soprattutto è stato svelato che ‘AI Overviews’ si espanderà dagli Stati Uniti a miliardi di utenti in vari Paesi entro la fine dell’anno. AI Overviews utilizza il Gemini AI per creare sommari di ricerca che appaiono accanto alle tradizionali risposte alle query di ricerca, basate su link, fornendo una serie di collegamenti ad approfondimenti una volta ricevuta una domanda generica. È anche in grado di rispondere a domande e sottodomande più complesse in pochi secondi, utilizzando il ‘multi reasoning’ nel search.

Nel corso dell’evento, infine, Google ha anche annunciato miglioramenti al suo modello Gemini Pro 1.5, raddoppiando la sua finestra di contesto fino a 2 milioni di token, il che significa che può rispondere più rapidamente alle domande o ‘ingerire’ video a una velocità maggiore. Oltre ad svelare Gemini 1.5 Flash, per le applicazioni che si possono ‘accontentare’ di una latenza inferiore a un costo però ridotto rispetto al più potente modello Pro. Flash è stato progettato per essere veloce e conveniente da utilizzare – nella parole di Demis Hassabis, a capo di Google DeepMind – pur “mantenendo la capacità di ragionamento multimodale”.