Exposer ses données avec Nakala

Dernière modification le 13 novembre 2015

Partant du constat que de nombreuses équipes et projets de recherches ne disposent pas de l'infrastructure numérique nécessaire qui permettrait un accès persistant et interopérable à leurs données numériques, la TGIR Huma-Num a mis en oeuvre un service d'exposition de données appelé NAKALA. 

NAKALA propose deux grands types de services : des services d'accès aux données elles-mêmes et des services de présentation des métadonnées.  Les producteurs de données numériques ainsi soulagés de la gestion purement technique, peuvent ainsi se consacrer à la valorisation scientifique de leurs données.

Les données hébergées par NAKALA peuvent être éditorialisées à l’aide du pack NAKALONA (associant Oméka et NAKALA) développé et géré par Huma-Num.

Accéder à la plateforme NAKALA.

Les services d’accès aux données

  • Un identifiant pérenne

Un identifiant unique est associé à chaque donnée et permet ainsi de citer les données indépendamment de leur localisation réelle : la technologie proposée est basée sur l’attribution d’identifiants de type handle, qui possèdent un mécanisme d’adressage générique, sans lien avec l’institution qui porte le service. C’est ce qui rend pérenne l’accès à la donnée, même en cas de changement ou d’évolution de l’institution qui porte le service.

  • Un accès permanent

L’accessibilité permanente aux données est assurée par l’utilisation de l’infrastructure de la grille de la TGIR.

  • La sécurisation des données

Les données sont stockées sur l’infrastructure gérée par la TGIR et sont ainsi sauvegardées régulièrement. La TGIR possède ses propres serveurs sécurisés au sein du centre de calcul de l’IN2P3-CNRS, partenaire des SHS depuis 2003.

Les services de présentation des métadonnées

  • Une exposition basée sur les technologies du Web de données

NAKALA dispose d’un entrepôt RDF (Resource Description Framework) de type Triple Store, qui permet de partager les informations en utilisant les principes, méthodes et technologies du Web de données. L’utilisation de ces technologies standardisées permet de bâtir des applications de valorisation de ces données, par exemple des cartes interactives.

Il sera aussi envisageable de les connecter à d’autres entrepôts existants comme DBPedia (http://fr.dbpedia.org/), la version adaptée au Web de données de Wikipedia.

  • Un accès interopérable utilisant le protocole OAI-PMH

NAKALA permet à chaque producteur de données de disposer de son propre entrepôt OAI-PMH, le standard d’interopérabilité des métadonnées utilisé depuis 1999 dans le domaine de la recherche et de l’enseignement supérieur.

Les données peuvent ainsi être « moissonnées » par des services spécialisés, comme par exemple ISIDORE, mais aussi Europeana, Gallica, etc., ce qui permettra d’en accroître la visibilité.

En pratique les métadonnées descriptives seront exprimées classiquement, en utilisant le format standard Dublin Core étendu (dcterms).

Ce que ne propose pas NAKALA …

NAKALA ne propose pas de moteur de recherche, ni de site Web d’éditorialisation scientifique, ni de dispositif d’enrichissement de données : en revanche, il est possible de bâtir ces outils en s’appuyant sur les services offerts par NAKALA ou bien d’utiliser ISIDORE pour enrichir ces données avec des référentiels scientifiques.

Comment fonctionne NAKALA ?

Les services proposés par NAKALA sont simples et bien identifiés, les outils de gestion associés le sont également.

  • L’interface de gestion

L’interface de gestion permet d’avoir une vue d’ensemble de son espace et de gérer les données et les collections de manière simple et aisée.

Cette interface permet également de déposer des données si ces dépôts sont de taille modeste.

  • Un dispositif adapté aux dépôts de grande taille

Pour insérer d’importants volumes de données, NAKALA propose un dispositif de traitement par lots. Cet outil est développé en langage Java et peut ainsi fonctionner sur les principales plateformes existantes.

Comment utiliser NAKALA ?

Ce service vient compléter les différents services centrés sur les données, proposés par la TGIR Huma-Num. Sa mise en place s’inscrit dans la ligne des actions générales menées par la TGIR, qui prônent le partage de données à travers l’utilisation de technologies et de formats interopérables ouverts et documentés associés à de bonnes pratiques.

Avec ce nouveau dispositif, l’entrée des données dans ISIDORE (http://www.rechercheisidore.fr), autre service de la TGIR, sera largement facilitée, de même que la préparation de leur archivage sur le long terme. Enfin NAKALA s’inscrit pleinement dans le cadre du web de données en s’appuyant sur ces normes ouvertes, validées par le W3C (organisme international qui gère le web et ses évolutions).

L’exposition des données dans NAKALA permet ainsi d’envisager l’interopérabilité, par exemple avec des projets portés par le ministère de la Culture et de la Communication (BNF, JocondeLab), ou encore de s’inscrire dans les appels à projets de la Bibliothèque Scientifique Numérique (BSN).

 

Petit glossaire pour en savoir plus ...

Nakala est un mot issu du swahili qui signifie « copie », « exemplaire ».

Pour en savoir plus : http://en.wiktionary.org/wiki/nakala

Un identifiant pérenne (ou PID, pour persistent identifier) permet de désigner une ressource numérique indépendamment de sa localisation. NAKALA utilise des identifiants de type handle gérés par la Corporation for National Research Initiatives qui est une organisation à but non lucratif. Il existe d’autres dispositifs d’identifiant, DOI (qui sont des handles avec des services payants associés), ARK, URN, etc.
Pour en savoir plus : http://www.handle.net

Un Triple Store, comme son nom l’indique, diffuse des données exprimées sous la forme de « triplets » d’informations (sujet, prédicat, objet) : Le Triple Store constitue la base du Web de données (ou Web Sémantique).
Le format de modélisation et de représentation de ces triplets se nomme RDF (Resource Description Framework) et le langage d’interrogation SPARQL. Ces technologies sont au cœur des projets tel qu’ISIDORE ou encore Europeana.
Pour en savoir plus : http://fr.wikipedia.org/wiki/Triplestore

Un entrepôt OAI-PMH permet la diffusion de métadonnées descriptives via le protocole standardisé OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting).
Pour en savoir plus : http://fr.wikipedia.org/wiki/Open_Archives_Initiative

JocondeLab est une expérimentation du ministère de la Culture et de la Communication, basée sur les technologies du web de données, visant essentiellement à rendre multilingue la base de données Joconde en utilisant les ressources de DBPedia France (http://fr.dbpedia.org).
Pour en savoir plus : http://jocondelab.iri- research.org/jocondelab