LES SERVICES PAR ÉTAPES
ORGANISATION
A cette étape Huma-Num met à disposition des services pour organiser et faciliter le travail en équipe et la gestion de projets.
ShareDocs
Il s’agit d’un gestionnaire de fichiers (logiciel FileRun) pouvant être utilisé via un navigateur web, un client WebDAV ou un logiciel de synchronisation de fichiers.
Ce service de stockage et de partage de fichiers en ligne permet, à cette étape d’organisation, de stocker ses données sur un serveur hautement sécurisé, d’organiser ses données et de les partager de manière sécurisée.
Il est adapté pour le travail quotidien et la mise à jour régulière des fichiers.
GitLab
L’instance GitLab d’Huma-Num permet l’hébergement sécurisé et le partage maîtrisé de fichiers de code.
Il s’agit d’une implémentation du logiciel https://about.gitlab.com/.
Les principales fonctionnalités sont la gestion de version et des dépôts (git), l’intégration continue, la génération de sites web (pages), la gestion de ticket.
Kanboard
L’instance Kanboard d’Huma-Num est un gestionnaire de projets permettant aux membres d’une équipe d’organiser visuellement les tâches sur un projet et de visualiser le flux d’activité du projet.
L’activité est affichée sur des tableaux, les tâches peuvent avoir des dates d’échéance etc.
Il s’agit d’une implémentation du logiciel Kanban Project Management Software : https://kanboard.org/.
Mattermost
L’instance Mattermost d’Huma-Num est une plateforme de messagerie instantanée qui stocke et facilite les échanges en équipe. Elle permet :
- De partager des messages et des fichiers sur différentes plateformes notamment, les PCs, les téléphones et les tablettes.
- Le stockage continu et la recherche instantanée, et prend en charge les notifications et les intégrations avec vos outils existants.
Il s’agit d’une implémentation du logiciel https://mattermost.com/.
Avertissement :
Des outils similaires pour l’organisation du travail collaboratif sont parfois mis à disposition des équipes de recherche par leur établissements.
Le CNRS offre par exemple la suite ods.
La plateforme Osmose de la Direction interministérielle du numérique ou encore Renater proposent des services qui recouvrent en partie ces mêmes besoins.
COLLECTE
L’étape de collecte des données regroupe la collecte de données existantes et la création de données nouvelles. A ce moment du projet il est nécessaire de pouvoir stocker ces données qui peuvent être de types très hétérogènes et représenter un volume important.
Huma-Num propose ici des services qui permettent de stocker des données « telles quelles », afin de disposer d’une copie hors de l’espace de travail personnel ou d’une infrastructure locale. Ces outils permettent de stocker « hors les murs » et de disposer d’une copie sécurisée des données (ou documents) d’un travail en cours. Les outils disponibles dans le service stockage doivent être vus comme un environnement adapté aux besoins d’une équipe de recherche souhaitant stocker, partager des données (ou documents) en maîtrisant et en gérant l’accès à ces derniers.
ShareDocs
Le gestionnaire de fichiers (logiciel FileRun) ShareDocs permet, à cette étape de collecte, de stocker les données d’un projet de recherche sur un serveur hautement sécurisé, d’organiser les données et de les partager entre les participants.
Il peut être utilisé via un navigateur web, un client WebDAV ou un logiciel de synchronisation de fichiers.
Il est adapté au travail quotidien et à la mise à jour régulière des fichiers. Son volume peut aller jusqu’à environ 1 téraoctet de données.
Huma-Num Box
Le service Huma-Num Box est un service de stockage sécurisé pour la préservation de volumes importants de données (plusieurs tera-octets), par réplication et distribution sur plusieurs sites en France.
Il s’agit d’un service de stockage qui s’utilise comme un disque réseau ou via le protocole SFTP (avec un client comme Filezilla).
Il est accessible depuis tout Internet, indépendamment de la présence ou non d’un serveur du dispositif sur son site géographique.
Il est destiné aux données dites froides ou tièdes, qui ne sont pas fréquemment accédées.
Logiciels dediés
Pour des besoins spécifiques, la création de données peut devoir se faire directement dans des outils métiers dédiés. C’est par exemple le cas si le projet recourt à l’utilisation d’un système d’information géographique (SIG) ou des logiciels d’enquêtes et d’analyses de données.
TRAITEMENT
Les services de traitement répondent aux besoins de transformation et d’analyses de données : extraction et annotation de données sérielles ou textuelles, calcul, ou annotation des données multimédia, audio/vidéo, 3D, cartographie, visualisation, encodage, puissance de calcul etc.
Si la puissance des ordinateurs individuels permet aujourd’hui de traiter localement de nombreux besoins, ces programmes peuvent avoir besoin d’opérer un passage à l’échelle. Le traitement des données recouvre aussi la possibilité de gérer, d’indexer, ou d’analyser des données et leurs informations au sein de bases de données relationnelles accessibles sur le web ou via des applications (y compris pour dispositifs mobiles).
Les conditions d’utilisations de ces services sont soumises aux licences évolutives de chaque fournisseur. Aussi, la liste des logiciels mis à disposition par l’IR* Huma-Num n’est pas stable et les modalités d’usage évoluent parfois de manière rapide.
Des outils ou la mise en œuvre de processus de traitement peuvent nécessiter la mise à disposition d’une machine virtuelle par l’ ‘IR* Huma-Num auprès de l’utilisateur.
A cette étape l’utilisateur est donc invité à décrire son besoin, le Comité de la grille répondra autant que faire ce peut en lui indiquant les solutions possibles existantes : logiciel hébergé par Huma-Num, solution libre et gratuite connue, autre solution payante possible, etc.
PRESERVATION
La préservation des données numériques regroupe un ensemble de bonnes pratiques et d’outils complexes à articuler. On peut présenter cette complexité par les différentes dimensions qui entrent en œuvre dans la préservation des données.
Ce qu’on appelle stockage sécurisé désigne la sauvegarde des fichiers informatiques et le mécanisme de vérification de l’intégrité de chaque copie.
Ce qu’on appelle préservation ou archivage à long terme désigne un niveau plus sophistiqué consistant à maintenir dans le temps la lisibilité du contenu informationnel des données (fichiers informatiques) ainsi que des informations périphériques (métadonnées). Le maintien de cette lisibilité peut passer le cas échéant par des transformations (conversions de formats) en cas d’obsolescence.
NAKALA
NAKALA est un entrepôt de données de recherche. Il s’agit d’une base de données destinée à accueillir, conserver, rendre visible et accessible les données de recherche. Il permet d’enregistrer des données, de les décrire en vue de les exposer et les rendre réutilisables. Ainsi, le dépôt de données dans NAKALA offre des services sur plusieurs étapes du cycle de vie des données, sur la préservation, la publication et la réutilisation.
Le service NAKALA offre deux niveaux de préservation :
Un niveau par défaut qui est mis en pratique dès lors qu’une donnée est enregistrée dans NAKALA. La donnée est décrite, contextualisée et stockée de manière sécurisée.
Un niveau avancé qui s’inscrit dans un partenariat avec le CINES. Dans ce circuit de dépôt avancé, la préservation à long terme est assurée par le CINES. Le CINES apporte des garanties supplémentaires telles que la valeur juridique du dépôt, l’intégrité du fichier, la migration des formats pour leur lisibilité, etc.
Huma-Num Box
Le service Huma-Num Box est un service de stockage sécurisé pour la préservation de volumes importants de données (plusieurs tera-octets), par réplication et distribution sur plusieurs sites en France.
C’est un service de stockage qui s’utilise comme un disque réseau ou via le protocole SFTP (avec un client comme Filezilla).
Il est accessible depuis tout Internet, indépendamment de la présence ou non d’un serveur du dispositif sur son site géographique.
Il est destiné aux données dites froides ou tièdes, qui ne sont pas fréquemment accédées.
C’est un premier niveau d’archivage sécurisé et fermé.
Préservation à long terme
L’IR* Huma-Num propose à la communauté des producteurs de données numériques en Sciences Humaines et Sociales un service d’archivage à long terme. Elle s’appuie, pour cette activité, sur les infrastructures et les compétences d’un centre labellisé, le Centre Informatique National de l’Enseignement Supérieur (CINES) avec qui elle a signé une convention.
Huma-Num accompagne les producteurs de données tout au long du processus d’archivage à long terme et est le lien entre les communautés scientifiques et le CINES. Elle procure aide et conseils aux producteurs de données pour choisir les formats de données adéquats, mais aussi pour concevoir sous une forme normalisée les données descriptives (méta-données) indispensables pour les faire entrer dans le système d’archivage du CINES.
Ce service s’adresse à des projets produisant ou ayant produit des volumes importants et homogènes de données, dotés de compétences techniques pour la mise en œuvre des échanges avec une plateforme d’archivage. Pour les autres projets, le passage par l’entrepôt NAKALA sera à privilégier.
PUBLICATION
La publication de données sur le web recouvre les opérations de sélection de données à montrer et leur éditorialisation pour les mettre en ligne sur le web à destination du public.
Les services fournis par Huma-Num favorisent dans ce contexte le libre accès aux données et à minima, le libre accès aux métadonnées.
NAKALA
Les données déposées et décrites dans l’entrepôt NAKALA peuvent être directement publiées sur le web.
NAKALA embarque un système de publication (NAKALA-PRESS) de contenu entièrement intégré permettant d’éditorialiser un site web personnalisable à partir d’une collection de données déposées dans l’entrepôt. NAKALA-Press permet de générer un site web doté d’un nom de domaine personnalisé de type https://nom.nakala.fr et d’une interface web publique personnalisée. La gestion du contenu est accessible pour l’administrateur, depuis son compte NAKALA personnel.
Hébergement web mutualisé
Le service d’hébergement Web mutualisé permet d’héberger un site web pour diffuser les données d’un projet de recherche.
Il permet d’accueillir toute application Web utilisant les technologies classiques PHP, MySQL, PostgreSQL, Java.
L’utilisateur a la charge exclusive d’assurer la maintenance technique des outils logiciels qu’il met en œuvre.
Huma-Num prend à sa charge la gestion technique des serveurs et briques techniques sous-jacentes, ainsi que les sauvegardes.
Dans l’objectif de garantir l’accès à long terme des données, Huma-Num rappelle et incite les équipes à faire le choix d’un dépôt des données et documents dans NAKALA pour construire « par-dessus » l’application ou le site web de diffusion.
Hébergement de machines virtuelles
Huma-Num met à disposition des serveurs virtuels (Virtual Machines) pour la mise en oeuvre d’applications Web et de traitements complexes. Ce service donne également de l’autonomie logicielle aux projets.
L’utilisateur formule librement les caractéristiques et les ressources dont il a besoin.
Il lui est fourni des accès SSH et HTTP/HTTPS sur une machine virtuelle dont il assume ensuite l’ensemble des tâches d’administration.
REUTILISATION
Les outils et services sont clairement orientés pour permettre et faciliter la réutilisation des données hébergées par les utilisateurs.
NAKALA
Dans NAKALA, les utilisateurs sont invités à attribuer à leurs données, une licence de diffusion qui va permettre de protéger le producteur des données et d’encadrer l’utilisation autorisée des données qu’ils exposent.
L’utilisateur est également invité à utiliser des référentiels standards pour décrire ses données.
La réutilisation des données depuis NAKALA est également rendue possible par les principes et fonctionnalités du service garantissant la plus grande interopérabilité possible :
- Attribution d’un identifiant pérenne (Handle avant décembre 2020, DOI depuis la nouvelle version)
- Exposition des métadonnées et des données
- Accès aux données et aux métadonnées par le web, le triplestore, des API de recherche et le protocole OAI-PMH
ISIDORE
ISIDORE est un ensemble de services numériques qui collectent, traitent, enrichissent, indexent les publications en libre accès, les documents d’archives, les mémoires et thèses, les corpus de documents numériques, les évènements et les bases de données en sciences humaines et sciences sociales (SHS). C’est un accès unifié, ouvert à toutes et tous, qui valorise, dissémine et tisse des relations sémantiques entre les documents et données des communautés d’enseignement et de recherche des SHS.
Fonctionnement :
ISIDORE collecte des métadonnées et du texte intégral venant du monde entier en s’appuyant sur les principaux standards internationaux d’interopérabilité et qui sont accessibles sur le web en libre accès (open access).
Une fois collectées, les métadonnées sont enrichies en trois langues (anglais, espagnol et français) grâce à l’utilisation de plusieurs référentiels scientifiques internationaux établis par les communautés scientifiques d’enseignant·e·s-chercheur·e·s, de doctorant·e·s, de bibliothécaires, de documentalistes, etc tels que LCSH (USA), Thesaurus BNE (Espagne) Thèmes Data BnF (France), Pactols/BackBone Thesaurus, Lexvo, etc. Les référentiels utilisés sont des listes de vocabulaires, des thésaurus, des taxonomies, etc.
Les enrichissements multilingues permettent de relier les métadonnées entre-elles. Ces informations constituent des points d’entrée vers le texte intégral qui est lui aussi indexé quand il est disponible ou que les éditeurs en permettent l’indexation par ISIDORE. L’interface d’ISIDORE est également disponible dans les trois langues.
ISIDORE collecte plusieurs milliers de sources de données : les principales plateformes d’édition électronique en SHS, un très grand nombre de bibliothèques (de recherche, universitaire, municipale) mais aussi de nombreuses bases de données des SHS ou archives ouvertes venant du monde entier.
Valorisations et réutilisations :
ISIDORE permet aux chercheur·e·s, doctorant·e·s de valoriser leurs productions scientifiques (publications, bases de données, corpus numériques) à l’aide de leur profil utilisateur dans lequel ils.elles peuvent :
- regrouper leurs articles, chapitres d’ouvrages, documents, mémoires, rapports, évènements, etc. ;
- regrouper et partager des résultats de requêtes dans le moteur de recherche (ex. pour alimenter une bibliographie dans le cadre d’un enseignement ou d’un projet de recherche) ;
- suivre les publications de collègues ou de thématiques scientifiques (veille scientifique) ;
ISIDORE propose un service d’identifiants pour tous les documents qui n’en ont pas et est capable de réexposer les identifiants DOI, Ark ou Handle des documents qui en sont dotés.
ISIDORE constitue un service favorisant la réutilisation des données, il est utilisable de plusieurs façons :
- Sur le web, via le portail isidore.science ;
- Au travers d’applications embarquées dans les outils d’édition électronique (blogs et sites web sous WordPress) ;
- De widgets pouvant être embarqué dans les sites web et largement paramétrable via le site widgets.isidore.science ;
- Une documentation est en ligne dans la base de connaissance d’Huma-Num ;
- De nombreuses bibliothèques universitaires et le réseau des Urfist proposent des formations à l’utilisation d’ISIDORE.
Pour les développeurs, architecte de données, documentalistes et webmestres :
- Des widgets de développement « ISIDORE à la demande » dans le cadre de l’application IMOCO ;
- Une API du moteur de recherche ISIDORE contenant l’ensemble des données, des référentiels et auteurs ;
- Une interface d’interrogation SPARQL (web sémantique) pour interroger le graph RDF enrichi et les contenus d’ISIDORE ;
- ISIDORE est disponible également sous la technologie OpenSearch
La préservation des données pour leur réutilisation
Le circuit de préservation à long terme d’Huma-Num insère les données dans un cycle de vie qui va de leur production/collecte pour les besoins initiaux d’une recherche à leur réutilisation pour d’autres recherches et éventuellement par d’autres communautés. Ce circuit permet de passer des données de recherche dans le domaine du patrimonial. Ainsi, à l’issue d’une durée définie en accord avec les producteurs et les services d’archives, les données peuvent être confiées au CINES pour une période dite « intermédiaire » avant d’être transférées pour une conservation sans plus de limite de temps au service d’archives compétent (Archives nationales, Archives départementales). La réutilisation visée est essentiellement vue dans une perspective à très long terme (entre générations) et dans un objectif de recherche historique, statistique, épistémologique, etc. pour des usages non prévus initialement.