Interactive

I dati come prodotti: dal ‘Data Lake’ al Data Mesh, un nuovo paradigma dei data product gestito da una ‘governance computazionale federata’

Che i dati, proprio come il petrolio, debbano essere ‘lavorati’ per creare valore è ormai assodato. Dopo il ‘crollo’ forzato – e ancora in corso in non pochi casi – dei silos aziendali, ecco l’arrivo dei ‘data lake’, con tutti i dati a disposizione di tutti. Un paradigma che porta con sé, tuttavia, altre problematiche, a partire dal reale possesso dei dati per arrivare alla movimentazione/trasformazione degli stessi, oltre ai costi ad essi connessi.

Il nuovo paradigma emergente è oggi quello del ‘Data Mesh’, che assimila i dati ai prodotti venduti su un marketplace, all’interno di una infrastruttura di proprietà e architettura dei dati decentralizzata organizzata in domini, utilizzabile dagli aventi bisogno ‘as-a-service’ e ‘as-a-platform’. Secono i principi indicati da Zhamak Dehghani, la ‘pioniera’ in quest’ambito, nel Data Mesh si parla più di pubblicazione che di importazione dei dati, poiché è più importante individuare e utilizzare questi dati piuttosto che estrarli e caricarli da un’altra parte, evitando i relativi costi di gestione e di manutanzione degli stessi. È importante specificare che spostamento e copia dei dati non implica denormalizzazione degli stessi. La denormalizzazione è abbastanza usuale quando si hanno più utenti con esigenze diverse, ma ciò non implica un trasferimento di proprietà dei dati.

Il paradigma Data Mesh rappresenta anche una fortissima garanzia contro il rischio dell’obsolescenza tecnologica. In futuro, quando emergeranno nuove tecnologie, ogni ‘sistema sorgente’ (ovvero dove i dati vengono creati) potrà adottarle senza problemi. La continuità di funzionamento dell’intero sistema è infatti assicurata dalla possibilità di creare nuovi connettori, specifici per i dati generati da queste nuove tecnologie, che permettano di renderli disponibili al resto dell’azienda tramite servizi Mesh (da cui l’intero Data Mesh prende il nome) attraverso quello che è definito come un sistema di ‘scaffolding’, ovvero un’impalcatura che circonda e mette in comunicazione i dati provenienti dai vari sistemi sorgente.

Per comprendere il concetto del Data Product, ovvero quello del pensare al dato come un prodotto e un punto cardine del Data Mesh, possiamo usare un’analogia con quanto avviene, ad esempio, su Amazon. Il venditore espone il proprio prodotto in una ‘vetrina virtuale’ o catalogo di prodotti, in maniera sostanzialmente autonoma: Amazon non ne riceve infatti una copia per fotografarla, scriverne la descrizione, stabilire il prezzo e così via. L’acquirente ha immediata visibilità di che cosa è disponibile e non deve interagire con il venditore per trovare un accordo, ad esempio, sulle modalità di pagamento, che vengono gestite dalla piattaforma di eCommerce. Oltre a fornire un servizio, Amazon si occupa anche di stabilire delle regole (ad esempio non si possono vendere armi o sostanze illecite) in ottemperanza con le leggi vigenti nei vari Paesi; crea, inoltre, uno standard per la presentazione dei prodotti disponibili che il venditore deve adottare per poter essere trovato dai possibili acquirenti, nonché fornisce un sistema che consenta ai potenziali consumatori di valutare la qualità dei prodotti offerti (come ad esempio la valutazione dello stesso da parte di altri consumatori, visibile a tutti). Il valore di un prodotto è dato dalla quantità di consumatori (soddisfatti) dello stesso: lo stesso principio vale in un ecosistema dati.

È abbastanza evidente che la creazione di un marketplace come Amazon, capace di crescere per gestire un sempre maggior volume di prodotti, non sia un’impresa banale.

“Allo stesso modo anche la creazione di un Data Mesh richiede un iniziale ingente investimento in termini di infrastruttura, nonché di ridisegno dell’intero sistema di gestione dei dati in azienda”, scrive in una riflessione pubblica il management di Agile Lab, azienda italiana che si occupa di tecnologie distribuite innovative e di sviluppo applicazioni in ambito Big Data, Intelligenza Artificiale e Machine Learning. “In particolare, è necessario implementare un’architettura di tipo self-service per infrastruttura e servizi, tramite la quale ogni dominio è libero di percorrere la propria roadmap tecnologica, utilizzando gli strumenti che meglio si adattano alle necessità dei propri data product, mantenendo trasparente e visibile l’utilizzo delle risorse per consentire una più accurata analisi dei costi a livello di organizzazione. Il concetto di self-serve si declina anche nella forma di consultazione e ‘approvvigionamento’ autonomo da parte dei potenziali data consumers, attraverso un catalogo nel quale ogni data product esponga la propria offerta (in termini di porte di output), dipendenze (in termini di lineage dati), conoscenza sui dati esposti (in termini di documentazione), recensioni e feedback di altri eventuali utilizzatori, il tutto finalizzato a favorire autonomia, riutilizzo, accessibilità e creazione di fiducia tra le business units”.

L’offerta e l’approvvigionamento dei dati deve avvenire tramite modalità e formati standardizzati, oppure tramite layer di astrazione ‘normati’ a livello di policy di accesso, standard di sicurezza, ecc.

“Questo compito è affidato alla ‘governance computazionale federata’, altro pillar del paradigma Data Mesh”, prosegue la nota di Agile Lab. “Una federazione di proprietari di Data Product (quindi assolutamente interna all’organizzazione) con il compito – impegnativo – di creare regole, standard, garantire una misurazione di metriche comuni e trasversali, garantire il monitoraggio della piattaforma e automatizzare (o almeno semplificare) l’aderenza a tali standard seguendo, per quanto possibile, metodologie DevOps e Infrastructure-as-code”.

Anche la governance computazionale federata dovrebbe essere molto aperta al cambiamento, lasciando che la piattaforma evolva insieme con i propri utenti (team di prodotto) per rispondere sempre puntualmente alle loro esigenze, che mutano nel tempo, e adattarsi efficacemente alle nuove tecnologie che emergeranno.