Interactive

iGenius presenta ‘Italia’, la GenAI made in Italy open source e gratuita. Il Ceo Uljan Sharka: “È il primo passo verso un nuovo Rinascimento Digitale”

Uljan Sharka, Ceo iGenius
Uljan Sharka, Ceo iGenius

iGenius, l’azienda deep-tech che sviluppa tecnologie di AI fondata da Uljan Sharka, presenta ‘Italia’, il modello di linguaggio di grandi dimensioni (LLM) addestrato con fonti native in italiano, rilasciato Open Source con licenza MIT.

‘Italia’ è un modello di linguaggio sviluppato in conformità con le normative europee sull’Intelligenza Artificiale. È stato pensato per aiutare le aziende nell’adozione dell’Intelligenza Artificiale generativa in settori altamente regolamentati, come i servizi finanziari, l’industria e la Pubblica Amministrazione.

L’addestramento di ‘Italia’ continuerà anche dopo questo primo rilascio, difatti iGenius sta lavorando a nuove versioni che siano ancora più potenti, accurate e versatili, nonché ad una versione multilingua.

iGenius, GenAI Italia

Sviluppato in 5 mesi, addestrato dal supercomputer Leonardo

Il modello è stato sviluppato in 5 mesi dai membri del team iGenius, che dal 2016 lavora nell’ambito dei modelli di linguaggio, ed è stato addestrato sul supercomputer Leonardo, una delle infrastrutture di calcolo più potenti al mondo, gestita dal Consorzio Interuniversitario Cineca.

iGenius, inoltre, ha collaborato con Editoriale Nazionale, società del gruppo Monrif, per utilizzare il loro archivio storico di articoli di stampa come fonte integrativa per migliorare il modello. Questa collaborazione proseguirà con l’addestramento delle future versioni di ‘Italia’, per estendere ulteriormente il livello di conoscenza generale del modello.

‘Italia’ è stato addestrato da zero in italiano su oltre mille miliardi di parole, utilizzando un mix eterogeneo di fonti: sorgenti pubbliche, dati sintetici e contenuti di settore forniti da partner commerciali selezionati di iGenius.

Per garantire l’integrità etica dei contenuti generati dal modello, sono stati sviluppati dei filtri di sicurezza specifici per la lingua italiana, pensati per rimuovere contenuti sensibili, espliciti e ad alto potenziale di bias, nonché per limitare al massimo l’esposizione di contenuti coperti da copyright.

Un Tokenizer proprietario per elaborare e generare token in italiano

La prima versione di ‘Italia’ è un Foundational LLM con un’architettura Transformer da 9 miliardi di parametri, una finestra di contesto di 4.096 token e un vocabolario di 50.000 token. Rispetto ad altri modelli di linguaggio, si distingue per la sua efficacia nella gestione delle parole italiane.

Grazie a un Tokenizer proprietario, sviluppato dal team iGenius specificamente per questo modello, ‘Italia’ è in grado di elaborare e generare token in italiano con prestazioni equivalenti a un aumento del 60% della sua finestra di contesto. Questo si traduce direttamente in una notevole efficienza in termini di costi e risorse necessarie per servire il modello, aspetto essenziale per una soluzione di intelligenza artificiale pensata per il mondo aziendale.

Verso un nuovo Rinascimento Digitale

“La decisione di sviluppare Italia come modello open source riflette pienamente la nostra missione di umanizzare i dati e democratizzare la conoscenza aziendale. Crediamo che Italia rappresenti il primo passo verso un nuovo Rinascimento Digitale, in cui le soluzioni di AI siano progettate mettendo al centro le persone, non la tecnologia. Adesso il nostro obiettivo è investire in nuovi modelli che siano rappresentativi di altre lingue e culture. Stiamo lavorando per rilasciare a breve una versione di Italia da 10 miliardi di parametri e, successivamente, una versione multilingua”, ha spiegato in una nota Uljan Sharka, Fondatore e Ceo di iGenius.

“Un’azienda italiana, con un progetto innovativo e di notevole interesse, ha avuto la possibilità di accedere alla potenza di calcolo di Leonardo, uno dei supercomputer più avanzati al mondo: tutto ciò a conferma del ruolo di Cineca come abilitatore dell’innovazione digitale e della competitività del Paese. La nostra infrastruttura, che è pubblica e aperta per definizione, trova in questa avventura una delle sue espressioni meno scontate, ma certamente più coerenti con la volontà di progettare il futuro, innovando e generando valore per la nostra comunità”, ha sottolineato Alessandra Poggiani, Direttrice Generale di Cineca.

‘Italia’ è scaricabile sul sito web di iGenius e, a breve, sarà disponibile anche su Hugging Face e sulle principali piattaforme di sviluppo di prodotti AI, come i Model Catalog o gli AI Studio.