ClustCube: Un Framework Analitico basato sul Paradigma OLAP per il Clustering e il Mining di Oggetti Complessi

Università della Calabria

Risultato della ricerca:

ClustCube identifica un insieme di metodologie per il supporto delle fasi di clustering e mining di oggetti complessi mediante il paradigma dell’analisi OLAP (OnLine Analytical Processing).

ClustCube combina le tecniche classiche di clustering con i consolidati paradigmi OLAP, consentendo di raggiungere un maggior potere espressivo ed una maggiore accuratezza nella fase di mining rispetto alle tradizionali tecniche che sono tipicamente orientate alle tuple anziché agli oggetti. In effetti, l’innovazione sostanziale di ClustCube consiste nel cavalcare la dicotomia tuple/oggetti che, tipicamente, caratterizza la transizione da sistemi informativi legacy a sistemi informativi di nuova generazione.

Infatti, nell’attuale contesto delle nuove tecnologie e dei nuovi ambienti computazionali (come, ad esempio, Clouds, reti sociali, sistemi di big data analytics, ecc.), il concetto di tupla espone un sempre più basso potere espressivo rispetto a quello del concetto di oggetto. Si pensi, ad esempio, alle ben diffuse apps dei sistemi Cloud mobili per smartphone.

Similmente alle applicazioni OLAP tradizionali, anche nel modello analitico sotteso da ClustCube il data cube OLAP rappresenta l’elemento fondamentale di tutta l’architettura. Un data cube OLAP aggrega dati in strutture multidimensionali caratterizzate da dimensioni e misure, che individuano, in uno spazio multidimensionale, un insieme di celle contenenti il risultato di una funzione di aggregazione SQL (esempio: SUM, COUNT, ecc.). Il problema fondamentale nei sistemi OLAP è rappresentato proprio dall’algoritmo per il calcolo del data cube, in quanto esso ha pesanti ricadute sull’efficienza spazio-temporale di tutte le successive fasi di elaborazione del data cube (accesso, indicizzazione, esecuzione di query, mining, ecc.). Similmente, nel modello analitico di ClustCube il problema fondamentale consiste nel “calcolo” del cosiddetto clust cube. La differenza sostanziale tra clust cube e data cube consiste nel fatto che i clust cube contengono aggregazioni di oggetti, quindi gruppi di oggetti, anziché aggregazioni di tuple, quindi valori scalari, come nei data cube.

Non a caso, il risultato più rilevante della ricerca presentata in consiste nella collezione di algoritmi per il calcolo dei clust cube, e della loro completa gerarchia di cuboidi, che è definita come la collezione di tutti i cuboidi che si possono “costruire” sullo spazio multidimensionale target, secondo tutte le possibili permutazioni definibili sulle dimensioni di input. Nei sistemi OLAP tradizionali, questo genera una occupazione di spazio di memoria secondaria complessiva di scala esponenziale, e, di conseguenza, l’impossibilità di rappresentare tutta la gerarchia di cuboidi completa. Pertanto, tipicamente si rappresenta solo una loro partizione, determinata sulla base della frequenza delle query attraverso le quali il data cube viene acceduto e interrogato. Nel caso di ClustCube, i clust cube e la loro gerarchia di cuboidi vengono calcolati mediante una collezione di algoritmi che implementano un innovativo approccio distributivo che trae vantaggio sia dalla tipica natura strutturata degli oggetti che popolano una tipica applicazione di prossima generazione (Clouds, reti sociali, ecc.) sia dalla peculiare natura distributiva del clustering gerarchico, che rappresenta il modello algoritmico più adatto al caso dell’analisi clustering su oggetti complessi basata su paradigma OLAP definita da ClustCube.

Riferimento a finanziamenti precedenti:

La ricerca non è stata oggetto di finanziamenti precedenti.

Innovatività rispetto a soluzioni già esistenti:

Analizzando la letteratura scientifica esistente non si rilevano approcci simili.

In ClustCube il clustering è il “risultato” delle celle di aggregazione dei clust cube, a conferma della generalità e della versatilità dell’integrazione OLAP/clustering.

Sempre nel contesto dell’idea di integrazione di OLAP e Data Mining, ad esempio, vengono proposte regole associative per l’analisi delle correlazioni tra le misure di un data cube OLAP in input e tecniche di clustering per oggetti costruiti a partire da basi di dati spaziali.

Passando al contesto industriale, a tutt’oggi non esistono in commercio OLAP server che siano in grado di operare su collezioni di oggetti (complessi), ma solo su collezioni di tuple (elementari), sebbene esistano tuttavia alcune estensioni di tali server che possono operare su tipi di dati non tradizionali (esempio: grafi, testi, ecc.).

ClustCube è particolarmente adatto al supporto di applicazioni innovative basate sulla big data analytics. Infatti, le caratteristiche principali di tali applicazioni (cioè: eterogeneità, larga scala, scalabilità, ecc.) impongono l’adozione di tecnologie che guardano sempre più a oggetti complessi e sempre meno alle proprietà elementari catturate dalle tuple. Questo si sposa perfettamente con il più generale paradigma dei design patterns, che consente di sviluppare sistemi complessi e scalabili.

Titoli di proprietà intellettuale:

I risultati delle attività di ricerca sono stati oggetto di pubblicazioni scientifiche internazionali che descrivono e validano le soluzioni (algoritmi, ottimizzazioni) alla base della tecnica ClustCube e sono stati incorporati in implementazioni prototipali di laboratorio.

Pur non essendo oggetto di privative industriali, di fatto non concedibili per la normativa europea sulla proprietà intellettuale, la tecnologia ClustCube è associata ad un bagaglio di “secret know-how” di grande valore, maturato nelle sperimentazioni in laboratorio per l’affinamento delle tecniche impiegate, che sarà oggetto di un processo di trasferimento tecnologico sulla base di un accordo di cooperazione con la/le imprese interessate.

Principali applicazioni e mercato di riferimento:

Le principali applicazioni di ClustCube sono molteplici e ricadono nell’emergente contesto della big data analytics. In effetti, ClustCube costituirebbe il core layer di piattaforme di big data analytics che utilizzino, in modo assolutamente innovativo, il paradigma dell’analisi multidimensionale OLAP. L’analisi multidimensionale OLAP è caratterizzata, da un lato, da una elevata potenza che consente una grande accuratezza nei processi di tipo decision making che si basino su di essa, e, dall’altro lato, da una elevata semplicità che consente anche a knowledge administrator non specificatamente esperti di ICT (occorrenza, questa, che si realizza spesso in ambito di applicazioni inter-disciplinari) di comprendere e dominare con facilità processi di data analysis e decision making complessi.

In tale ottica, di seguito si riportano alcuni ambiti applicativi nei quali ClustCube può essere applicato con successo:

  • web intelligence in contesti di tipo business competitive, e-government, e-procurement, ecc. (ad esempio per analisi di mercato e tecnologiche per specifici prodotti o analisi di scenari e tendenze di sviluppo);
  • analisi di dati di domanda/offerta per la definizione di sistemi di supporto alle decisioni in ambito di politiche (lavorative, sociali, per l’innovazione) a livello regionale e nazionale;
  • social computing in ambito governance (es.: previsione di tendenze politiche e sociali a partire dall’analisi delle informazioni contenute nelle reti sociali);
  • analisi di dati streaming provenienti da reti di sensori (es.: sensori ambientali, sensori elettro-medicali, sensori per la diagnostica e la prognostica in ambito di produzione industriale, ecc.);
  • processi produttivi di tipo Industria 4.0 e relativa innovazione di impianti industriali e di filiera agro-alimentare;
  • analisi di dati clinici e medici per la definizione di sistemi di supporto alle decisioni in ambito epidemiologico a livello regionale e nazionale (es.: definizione e monitoraggio campagne vaccinazioni, farmacovigilanza, ecc.);
  • analisi di tipo cybersecurity per grandi organizzazioni, al fine di individuare intrusioni, violazioni di sicurezza dei dati, violazioni di privacy dei dati, ecc.

Il mercato di riferimento per il framework ClustCube è rappresentato da tutti quei contesti applicativi dove la big data analytics assume un ruolo rilevante. Pertanto, il mercato di ClustCube è, potenzialmente, molto esteso, essendo i sistemi e gli strumenti di big data analytics tra i software maggiormente richiesti, ad oggi, sul mercato. Ad esempio, una stima del 2018, che rappresenta, ad oggi, un risultato consolidato, riportava che il mercato italiano della big data analytics aveva raggiunto al 2018 un valore complessivo di 1,393 miliardi di Euro, con una crescita del 26% rispetto al 2017. Un risultato che conferma il trend positivo dei precedenti tre anni, in cui il settore è cresciuto in media del 21% ogni dodici mesi. Le aziende italiane, quindi, hanno maturato consapevolezza sul tema e l’hanno trasformata in investimenti infrastrutturali, sperimentazioni e progetti in produzione.

Inoltre, si rileva anche che il 45% della spesa in big data analytics è dedicato ai software (database e strumenti per acquisire, elaborare, visualizzare e analizzare i dati, applicativi per specifici processi aziendali), il 34% ai servizi (personalizzazione dei software, integrazione con i sistemi informativi aziendali, consulenza di riprogettazione dei processi) e il 21% alle risorse infrastrutturali (capacità di calcolo, server e storage da impiegare nella creazione di servizi di big data analytics). I software sono anche l’ambito con la crescita più elevata (+37%), seguito dai servizi (+23%) e risorse infrastrutturali (+9%).

Esigenze per l’ulteriore sviluppo – Industrializzazione:

Lo sviluppo successivo dei risultati della ricerca connessa a ClustCube, ad oggi allo stadio TRL 4, si esplicherà attraverso i seguenti step:

  • setting e applicazione di ClustCube in un ambiente industriale di riferimento, quale, ad esempio, quello della web intelligence basata sulla big data analytics, al fine di verificarne l’efficacia e le prestazioni “sul campo”, ed eventualmente individuare punti di forza e punti di debolezza, pervenendo, così, ad una completa validazione del framework;
  • utilizzo di ClustCube come tecnologia verificata e matura nel settore di riferimento (es.: web intelligence) su dataset reali, mostrandone l’efficacia in ambienti operazionali reali;
  • completa dimostrazione del prototipo ClustCube “reale”, da utilizzare in ambienti operazionali di riferimento – il caso della web intelligence rappresenta ancora un opportuno contesto applicativo rispetto al quale ottenere una completa dimostrazione di ClustCube;
  • release finale di ClustCube nella veste di framework completo e perfettamente operante – il settore della web intelligence costituirà ancora un utile contesto operativo;

La commercializzazione finale del framework ClustCube potrebbe avvenire nel contesto della web intelligence.

Ortogonale rispetto ai vari stadi descritti, l’aspetto più rilevante da considerare nell’ottica di una efficace ingegnerizzazione del prototipo ClustCube è rappresentato, senza dubbio, dalle prestazioni rispetto alle fasi di accesso, gestione, elaborazione e mining dei big data. Infatti, essendo ClustCube un framework che adotta il paradigma della big data analytics, la complessità dati è quella che impatta maggiormente sulle prestazioni complessive del sistema. In quest’ottica, bisognerà definire e sviluppare ottimizzazioni “ad-hoc” che possano far transire ClustCube da efficace prototipo a sistema reale e scalabile che sia in grado di elaborare efficacemente i big dataset.

Codice:

0051

Area di Innovazione:

ICT e terziario innovativo - Ecosistemi digitali