Comprendre la typologie et le stockage des données
Où stocker mes données ?
Typologie des données | Chaudes (utilisées plusieurs fois par semaine) |
Tièdes (utilisées plusieurs fois par mois) |
Froides (utilisées occasionnellement) |
Bureautique / administrative / Articles (doc, xls, ppt, pdf,...) |
Cronos (snps - NU) |
Pas de solutions d'archivage
>Archives départementales |
|
Données Scientifiques (Fichiers issus d'appareil de mesure et de leur analyse) |
Cronos (snps - NU) |
Déposées sur un entrepôt adapté et/ou publiées
|
|
Données Privées (Photos de vacances, musiques, ...) |
Domicile ou cloud privé |
Pensez à faire du tri régulièrement dans vos données et entre chacune de ces typologies de données !
Quelques explications des outils mis à votre disposition par vos tutelles :
Glossaire
Le CNRS répertorie une liste de définitions autour de l’écosystème de la science ouverte et des infrastructures numériques :
Par ex : ARCHIVAGE / DATA CENTRE / ENTREPOT DE DONNEES / MESOCENTRE / STOCKAGE, ...
Cronos
Service accessible à l’échelle du Pôle santé et administré/géré par le SNPS (service numérique.......)
Destiné au stockage des données bureautiques/administratives et personnelles liées à l'activité professionnelle.
Mise à disposition gratuite.
Accès aux données sans délai via un lecteur réseau.
Toute structure/service et chaque utilisateur dispose d'un espace dédié. Dans le cadre d’un projet, un nouveau répertoire de stockage peut être créé avec les droits de partage nécessaires créés.
UNCloud
Accès
Compte personnel avec un quota (100 Go)
Utilisable pour travailler de manière collaborative sur des fichiers (suite only office, et gestion de projet et de tâche Deck)
Le service UNCLOUD a pour vocation de simplifier et favoriser la manipulation et l'échange de fichiers au sein de l'université tout en offrant un niveau de sécurisation adéquat.
Accès modes d’emploi :
> UNCloud,
> Deck,
> UNCloud pour les pièces jointes de Thunderbird,
> UNCloud pour les mobiles,
> UNCloud pour synchroniser ses fichiers avec sa station de travail,
Cloud de l'Inserm
Solution payante
Liens d'accès vers les informations
LabStorage
Données nécessitant des calculs HPC
GLiCID
Le Groupement Ligérien pour le Calcul Intensif Distribué (GLiCID) est une structure régionale inter-établissements, portée par les 3 universités (Nantes, Angers et Le Mans) et l'Ecole centrale de Nantes. Elle a pour mission de mettre à disposition de l'ensemble de ses personnels des moyens informatiques avancés et mutualisés pour le calcul intensif et l'exploitation des données de la recherche ayant un lien avec le calcul. GLiCID fait partie du projet régional de Pays de la Loire Datacenter et Calcul Scientifique (DaCaS), géré par le Service Inter-Établissements Numérique en Pays de la Loire (SIEN).
Accès au site
Destiné au stockage de la donnée associée à du calcul scientifique pendant la durée d’un projet de recherche.
Proposé pour les données générées par les plateformes nécessitant des moyens de calcul associés (par GenoA, MicroPICell, Cytocell) et à tous les utilisateurs ayant demandé un compte.
Accessible en ligne de commande et via le déploiement de services (JupyerHub, déploiement de machines virtuelles).
Mise à disposition gratuite dans la limite de 3 To. (payante au-delà).
Cas particulier des données d'imagerie
L’infrastructure informatique pour l’imagerie a été conçue pour répondre a différents besoins :
- besoin d’accès en visualisation à des images de formats et dimensions très variables
- besoin d’accès aux ressources en stockage et calcul des mésocentres régionaux
- besoin de libérer les machines d’acquisition des données au plus vite
- besoin de valoriser les données par des annotations adéquates dès le démarrage des projets
Cette infrastructure doit également faire face à des contraintes fortes. Elle doit permettre une facilité d’utilisation pour des utilisateurs non informaticiens, un maintien de plusieurs instances de gestion distribuée nationalement, être disponible aux utilisateurs au niveau national et international, respecter des standards internationaux du domaine dans la description des données et s’accommoder de la prédominance des machines Windows parmi les utilisateurs et les machines d’acquisition.
Le scénario d’utilisation retenu est donc le déploiement de serveurs tampons au plus proche des machines d’acquisitions. L’utilisateur des stations de microscopie dépose ses données après l’acquisition dans un répertoire sur le serveur tampon (Carthage2) au sein de l’IRS-UN après s’être authentifié via un fédérateur d’identité. Ces données sont annotées en respectant un standard d’annotation propre à l’imagerie biologique et poussées automatiquement dans le mésocentre GLICID, ainsi que rentrés automatiquement dans une base de données image offrant des fonctionnalités de visualisation et traitement à distance. L’utilisateur peut gérer de manière autonome le partage de ces données, y compris public. Lors de la publication de son projet, les données peuvent être transmises avec un minimum d’effort sur un entrepôt public européen respectant les principes FAIR. Le projet est en cours déploiement et à l’étape de test. Les utilisateurs de la plateforme sont formés à son utilisation.
Plus d’information (à venir).
Autres projets en cours
- LabStorage: stockage cloud à la demande pour les données de recherche : ce service permet de stocker des fichiers avec édition collaborative sur OnlyOffice pour des besoins de l’ordre de 500 Go à 20 To.
Développé par le SIEN (Service Inter-établissements Numérique en Pays de la Loire)
Information du projet
Comment choisir entre UNCloud et Cronos ?
UNCloud, quant à lui, est un outil d'édition collaborative et de partage de fichiers à des personnes internes ou externes à NU - avec un quota de 100 Go par personne.
Attention aux mêmes fichiers enregistrés sur plusieurs outils. Pensez à supprimer les doublons !
Combien de temps et sous quel format puis-je garder mes fichiers ?
Pour les fichiers non répertoriés, les durées sont à définir en fonction des besoins, en se posant par exemple les questions suivantes:
- Le contenu est-il valorisé ou toujours valorisable ?
- Le fichier et son contenu seront-ils toujours compréhensibles ?
- Le support physique utilisé va-t-il résister dans le temps ?
- Le format de fichier utilisé sera-t-il toujours lisible par un logiciel ?
En effet, une part importante de la problématique de l’archivage pérenne c’est-à-dire sur le long terme (supérieur à 10 ans) repose sur les formats de fichiers et leur capacité à être interprétés dans le futur ainsi que sur les supports utilisés. Pour cela il convient de privilégier des formats ouverts, non-propriétaires, d’un usage très répandu au sein d’une communauté de recherche. Quelques exemples de formats déconseillés et à privilégier sont publiés dans le tableau ci-dessous.
Tableau : Exemples de formats de fichiers
Source : Guide de traçabilité du cnrs 2018 p.18
Comment faire du tri dans mes données ?
Seules les données brutes et fichiers finaux peuvent être gardés.
Le nommage pertinent des fichiers et leur annotation par des métadonnées sont essentiels pour être en mesure de faire du tri.
Comment transmettre un fichier lourd ?
Je peux utiliser File Sender Renater (100 Go max)
Je peux lier une pièce jointe automatiquement sur ma messagerie thunderbird (via UNCloud) – procédure
Dans quel entrepôt puis-je déposer mes données ?
Quel Cloud pour stocker mes données privées me conseillez-vous ?
-à destination des employés CNRS : mypeopledoc (présentation)
-pcloud