OpenAI ha presentato un agente AI che utilizza il proprio browser per eseguire una serie di compiti ripetitivi come “compilare moduli, ordinare la spesa, prenotare ristoranti e viaggi”. L’agente, chiamato Operator, “è in grado di andare sul web per eseguire compiti al posto vostro”, si legge sul sito dell’azienda.
Operator è attualmente in ‘anteprima di ricerca’ il che significa che ha delle limitazioni e si evolverà in base al feedback degli utenti. Inoltre è disponibile solo per i clienti statunitensi che pagano per utilizzare il servizio ChatGPT Pro di OpenAI. L’azienda ha dichiarato che “imparerà dai primi utilizzatori di Operator come migliorare il servizio prima di offrirlo a un numero maggiore di abbonati a pagamento”.
Come funziona Operator
Operator si basa su un nuovo modello chiamato Computer-Using Agent (CUA). Combinando le capacità di visione di GPT-4o con un ragionamento avanzato attraverso il reinforcement learning, CUA è addestrato a interagire con le interfacce grafiche (GUI) – i pulsanti, i menu e i campi di testo che le persone vedono su uno schermo.
L’operatore può ‘vedere’ (attraverso le schermate) e ‘interagire’ (utilizzando tutte le azioni consentite da mouse e tastiera) con un browser, consentendogli di agire sul web senza richiedere integrazioni API personalizzate.
Se incontra difficoltà o commette errori, Operator può sfruttare le sue capacità di ragionamento per autocorreggersi. Quando si blocca e ha bisogno di assistenza, restituisce semplicemente il controllo all’utente, assicurando un’esperienza fluida e collaborativa.
Collaborazioni
L’azienda sta collaborando con aziende come DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber e altre per “garantire che Operator risponda alle esigenze del mondo reale nel rispetto delle norme vigenti”.
di Monica Gianotti