L'infrastruttura

DOMUS, un’infrastruttura digitale per la gestione di oggetti digitali

DOMUS - Infrastructure for Digital Objects è un’infrastruttura digitale aperta, robusta, scalabile e flessibile, di tipo collaborativo, in grado di gestire milioni di oggetti digitali, che rappresenta l’evoluzione della Science & Technology Digital Library.
DOMUS è oggi in grado di gestire grandi volumi di documenti, dati e informazioni ed è a disposizione di quanti intendano avvalersene sia per lo sviluppo di iniziative di digital library, repository, sistemi di digital preservation, ecc. che per la gestione e la valorizzazione dei propri patrimoni informativi.
L’impianto complessivo di DOMUS e i suoi componenti si prestano infatti ad essere utilizzati, in toto o in parte, nell’ambito di iniziative di tipo federato mirate a ottimizzare i processi per l’accesso, la condivisione, la gestione, la conservazione, la valorizzazione, l’utilizzo/riutilizzo di dati e risorse informative.
Allo stato attuale DOMUS è impiegata, in misura crescente, nell’ambito di iniziative per la sistematizzazione e la valorizzazione del patrimonio storico e culturale nazionale, patrocinate da un’ampia rappresentanza di istituzioni pubbliche. È altresì al servizio di enti e organizzazioni culturali che, a diverso titolo, contribuiscono ad arricchire il patrimonio culturale del Paese.
Fin dalla sua ideazione, essa si caratterizza per la visione di sistema e la logica inclusiva e si fonda sull’armonizzazione e l’integrazione, l’interoperabilità e gli standard, la condivisione e la cooperazione, la dimensione sociale e relazionale delle community e delle partnership.
Il suo sviluppo ha previsto la messa a punto di un ventaglio completo e coerente di azioni, strategie, metodi e strumenti.

L’architettura del sistema è stata concepita secondo logiche di modularità, scalabilità e apertura tali da rendere possibile l’interoperabilità sia dei singoli componenti che del sistema nel suo complesso.
L’infrastruttura tecnologica permette infatti di integrare/integrarsi anche con componenti e sistemi esterni concepiti secondo gli stessi principi.

 

Il modello architetturale

Lo schema logico-funzionale cui si ispira il modello architetturale è stato concepito per gestire grandi quantità di contenuti digitali e per erogare servizi di tipo federato.
Le componenti principali di DOMUS permettono l’acquisizione di oggetti digitali provenienti da diversi provider e da sistemi gestionali esterni all’infrastruttura e ne consentono la gestione del ciclo di vita fino alla conservazione di lungo termine sulla base di regole definite da specifiche policy.
Il sistema è nativamente orientato alla multi-canalità, sia in input che in output, ed è predisposto per l’integrazione nella nuvola dei Linked Open Data (LOD).

 

L’architettura tecnica

Coerente con lo schema logico-funzionale è l’architettura tecnica del sistema: l’infrastruttura è infatti aperta, scalabile e flessibile, concepita per gestire una varietà assai diversificata di contenuti, generati da comunità/organizzazioni eterogenee e caratterizzati da una notevole varietà di formati, sia per quel che riguarda la codifica che per quanto attiene ai metadati associati.

L’architettura di DOMUS è stata progettata in modo tale da soddisfare un’ampia gamma di requisiti e da assicurare nel contempo molteplici funzionalità. Si segnalano in particolare:
- riservatezza e integrità dei contenuti
- alta disponibilità del servizio e scalabilità per far fronte a eventuali aumenti dei carichi
- ingestion e harvesting di dati e metadati con schemi differenti e/o provenienti da fonti eterogenee
- ricerca su dati e metadati e accesso a cataloghi federati
- implementazione di cruscotti per il monitoraggio di Key Performance Indicators
- realizzazione di servizi a supporto dell’utente come forum o helpdesk
- transcodifica e trasformazione dei dati
- knowledge extraction, arricchimento semantico dei contenuti, Linked Data e interlinking con altri dataset esterni.
Dal punto di vista logico l’architettura si compone di numerosi moduli organizzati su cinque livelli: Acquisition, Workflow, Service, Data e Presentation.
L’elevata modularità e la strutturazione a livelli rendono possibile l’interoperabilità a livello sia dei singoli moduli sia del sistema nel suo complesso.

 

DOMUS e le tecnologie semantiche: dai Linked Data alle applicazioni intelligenti

Un punto di forza di DOMUS è rappresentato dall'impiego ad ampio spettro delle tecnologie semantiche allo scopo di garantire sia l'integrazione dei dati a fronte di una loro eterogeneità anche elevata, che l’arricchimento del patrimonio informativo e la realizzazione di servizi a valore aggiunto.
I Linked Data sono stati identificati come un paradigma centrale nell’ambito dell’infrastruttura DOMUS. Grazie all’utilizzo di ontologie – concettualizzazioni condivise e riusabili sui dati stessi – i Linked Data permettono infatti l’integrazione di dati provenienti da sorgenti documentali eterogenee; inoltre, la modellazione dei dati come Linked Data favorisce nativamente non solo l’adozione di tecnologie semantiche, ma anche lo sviluppo di applicazioni intelligenti.

Dal punto di vista metodologico, il primo step corrisponde all’integrazione dei differenti schemi; seguono l’integrazione dei dati e, da ultimo, l’interlinking con altri dataset.
In primo luogo, quindi, i dati presenti negli archivi e nelle collezioni provenienti da soggetti differenti sono modellati, a motivo della loro varietà, mediante schemi non omogenei; si compie poi un ulteriore sforzo di modellazione concettuale finalizzato alla definizione di uno schema od ontologia comune, che costituisce pertanto il risultato del processo di integrazione degli schemi associati a dati eterogenei.
Successivamente si passa all’integrazione dei dati, la quale comprende la generazione dei Linked Data veri e propri a partire dai dati resi disponibili dai fornitori; in questa fase, per la conversione in Linked Data di informazioni in formato strutturato, si impiegano strumenti e tecnologie allo stato dell’arte.
Infine, una volta generati i Linked Data, si procede al loro collegamento con altri dataset esistenti, come ad esempio DBpedia.

I Linked Data e le connesse tecnologie semantiche sono poi impiegati per lo sviluppo di applicazioni intelligenti, cioè di sistemi software che, oltre i limiti degli algoritmi tradizionali di programmazione, sono in grado di capire, imparare, predire e adattarsi anche in modo autonomo. Grazie a questo approccio, in DOMUS sono stati implementati dei servizi, come ad esempio il servizio di similarità, che non sfruttano esclusivamente aspetti sintattici e/o statistici, ma la semantica resa esplicita e associata ai dati.
Ci si può avvalere, ad esempio, del servizio di similarità per identificare duplicati presenti nel repository oppure per implementare sistemi di raccomandazione/suggerimento per gli utenti. Le risorse presenti nei Linked Data generati contengono anche informazioni testuali in linguaggio naturale (come etichette, commenti, abstract, descrizioni, ecc.), una sorgente preziosa per effettuare attività di Knowledge Extraction sulla base dell’utilizzo combinato di tecniche semantiche, natural language processing, machine learning, linguistica computazionale, ecc.
I Linked Data gestiti da DOMUS rappresentano di fatto un Knowledge Graph, al quale si possono applicare una serie di metriche derivate dalla teoria dei grafi e dalla network analysis.

 

 

Dalla Science & Technology Digital Library a DOMUS: un po’ di storia

La Science & Technology Digital Library (S&TDL) è il risultato di un Progetto, della durata di circa tre anni, che prevedeva, fra i numerosi obiettivi, anche la realizzazione di un sistema prototipale per l’accesso all’informazione sulla R&S e a contenuti d’interesse storico e culturale.
La S&TDL attualmente gestisce una ricca gamma di strumenti e contenuti integrati, facilmente utilizzabili grazie ad un accesso unico semplificato. In particolare, mette a disposizione alcune centinaia di migliaia di risorse digitali, ma l'infrastruttura è dimensionata per gestire numeri di gran lunga superiori. 
Le risorse informative attualmente presenti sono di natura assai eterogenea:
- prodotti della ricerca, datasets, contenuti digitalizzati di interesse storico e culturale, oggetti tridimensionali e materiali multimediali
- dati e informazioni riguardanti le attività di ricerca, i progetti, gli attori della R&S e le loro expertise, le differenti aree di competenze e le community di riferimento.
L'accesso alla S&TDL avviene attraverso il Portale, all'indirizzo https://dl.cnr.it/ ed è riservato: gli utenti che desiderano accedervi possono farne richiesta attraverso l’apposito modulo.

Quanto è stato sviluppato e realizzato finora nell’ambito della S&TDL costituisce in tal modo un esempio efficace di alcune fra le più significative potenzialità di DOMUS e dei suoi ambiti di applicabilità.