Comprendre la typologie et le stockage des données

En étant membre d'une structure appartenant à la SFR Bonamy, vous bénéficiez de ces solutions proposées par vos tutelles :

Où stocker mes données ?

 
Typologie des données Chaudes
(utilisées plusieurs fois par semaine)
Tièdes
(utilisées plusieurs fois par mois)
Froides
(utilisées occasionnellement)
Bureautique / administrative / Articles
(doc, xls, ppt, pdf,...)

Cronos (snps - NU)
UNCloud (dsi - NU)
Cloud (Inserm)
Labstorage (SIEN) --> projet en cours (site)

Pas de solutions d'archivage
locale

>Archives départementales
Données Scientifiques
(Fichiers issus d'appareil de mesure et de leur analyse)


- Ne nécessitant pas de calcul HPC (High Performance Computing)

Cronos (snps - NU)
UNCloud (dsi - NU)
Cloud (Inserm)
Labstorage (SIEN) --> projet en cours (site)

-Nécessitant du calcul HPC

GLiCID (NU)
\ Cas particulier des données d’imagerie \

Déposées sur un entrepôt adapté et/ou publiées
>Accès page dédiée

Données Privées
(Photos de vacances, musiques, ...)
Domicile ou cloud privé
 

Pensez à faire du tri régulièrement dans vos données et entre chacune de ces typologies de données !

 






Quelques explications des outils mis à votre disposition par vos tutelles :

Glossaire

Le CNRS répertorie une liste de définitions autour de l’écosystème de la science ouverte et des infrastructures numériques :
Par ex : ARCHIVAGE / DATA CENTRE / ENTREPOT DE DONNEES / MESOCENTRE / STOCKAGE, ...

Données ne nécessitant pas de calculs HPC

Cronos

Service accessible à l’échelle du Pôle santé et administré/géré par le SNPS (service numérique.......)
Destiné au stockage des données bureautiques/administratives et personnelles liées à l'activité professionnelle.
Mise à disposition gratuite.
Accès aux données sans délai via un lecteur réseau.

Toute structure/service et chaque utilisateur dispose d'un espace dédié. Dans le cadre d’un projet, un nouveau répertoire de stockage peut être créé avec les droits de partage nécessaires créés.

UNCloud

Accès
Compte personnel avec un quota (100 Go)
Utilisable pour travailler de manière collaborative sur des fichiers (suite only office, et gestion de projet et de tâche Deck)
Le service UNCLOUD a pour vocation de simplifier et favoriser la manipulation et l'échange de fichiers au sein de l'université tout en offrant un niveau de sécurisation adéquat.
Accès modes d’emploi : 
> UNCloud,
> Deck,
> UNCloud pour les pièces jointes de Thunderbird,
> UNCloud pour les mobiles,
> UNCloud pour synchroniser ses fichiers avec sa station de travail,

Cloud de l'Inserm

L'Inserm met à disposition des équipes des environnements sécurisés de traitement et de stockage des données.
Solution payante
Liens d'accès vers les informations

LabStorage

projet en cours de déploiement (ci-dessous)

Données nécessitant des calculs HPC

GLiCID

Le Groupement Ligérien pour le Calcul Intensif Distribué (GLiCID) est une structure régionale inter-établissements, portée par les 3 universités (Nantes, Angers et Le Mans) et l'Ecole centrale de Nantes. Elle a pour mission de mettre à disposition de l'ensemble de ses personnels des moyens informatiques avancés et mutualisés pour le calcul intensif et l'exploitation des données de la recherche ayant un lien avec le calcul. GLiCID fait partie du projet régional de Pays de la Loire Datacenter et Calcul Scientifique (DaCaS), géré par le Service Inter-Établissements Numérique en Pays de la Loire (SIEN).

Accès au site
Destiné au stockage de la donnée associée à du calcul scientifique pendant la durée d’un projet de recherche.
Proposé pour les données générées par les plateformes nécessitant des moyens de calcul associés (par GenoA, MicroPICell, Cytocell) et à tous les utilisateurs ayant demandé un compte.
Accessible en ligne de commande et via le déploiement de services (JupyerHub, déploiement de machines virtuelles).
Mise à disposition gratuite dans la limite de 3 To. (payante au-delà).

Cas particulier des données d'imagerie

L’infrastructure informatique pour l’imagerie a été conçue pour répondre a différents besoins :

  • besoin d’accès en visualisation à des images de formats et dimensions très variables
  • besoin d’accès aux ressources en stockage et calcul des mésocentres régionaux
  • besoin de libérer les machines d’acquisition des données au plus vite
  • besoin de valoriser les données par des annotations adéquates dès le démarrage des projets

Cette infrastructure doit également faire face à des contraintes fortes. Elle doit permettre une facilité d’utilisation pour des utilisateurs non informaticiens, un maintien de plusieurs instances de gestion distribuée nationalement, être disponible aux utilisateurs au niveau national et international, respecter des standards internationaux du domaine dans la description des données et s’accommoder de la prédominance des machines Windows parmi les utilisateurs et les machines d’acquisition.

Le scénario d’utilisation retenu est donc le déploiement de serveurs tampons au plus proche des machines d’acquisitions. L’utilisateur des stations de microscopie dépose ses données après l’acquisition dans un répertoire sur le serveur tampon (Carthage2) au sein de l’IRS-UN après s’être authentifié via un fédérateur d’identité. Ces données sont annotées en respectant un standard d’annotation propre à l’imagerie biologique et poussées automatiquement dans le mésocentre GLICID, ainsi que rentrés automatiquement dans une base de données image offrant des fonctionnalités de visualisation et traitement à distance. L’utilisateur peut gérer de manière autonome le partage de ces données, y compris public. Lors de la publication de son projet, les données peuvent être transmises avec un minimum d’effort sur un entrepôt public européen respectant les principes FAIR. Le projet est en cours déploiement et à l’étape de test. Les utilisateurs de la plateforme sont formés à son utilisation.

Plus d’information (à venir).

Autres projets en cours

  • LabStorage: stockage cloud à la demande pour les données de recherche : ce service permet de stocker des fichiers avec édition collaborative sur OnlyOffice pour des besoins de l’ordre de 500 Go à 20 To.
    Développé par le SIEN (Service Inter-établissements Numérique en Pays de la Loire)
    Information du projet

FAQ sur le site nantais

Comment choisir entre UNCloud et Cronos ?

L'usage de Cronos est un usage interne à NU uniquement. Il permet le stockage de documents en commun.
UNCloud, quant à lui, est un outil d'édition collaborative et de partage de fichiers à des personnes internes ou externes à NU - avec un quota de 100 Go par personne.

Attention aux mêmes fichiers enregistrés sur plusieurs outils. Pensez à supprimer les doublons !

Combien de temps et sous quel format puis-je garder mes fichiers ?

L’association des archivistes français a rédigé un Référentiel de gestion des archives de la recherche. (source : Archivistes)

Pour les fichiers non répertoriés, les durées sont à définir en fonction des besoins, en se posant par exemple les questions suivantes:

- Le contenu est-il valorisé ou toujours valorisable ?
- Le fichier et son contenu seront-ils toujours compréhensibles ?
- Le support physique utilisé va-t-il résister dans le temps ?
- Le format de fichier utilisé sera-t-il toujours lisible par un logiciel ?

En effet, une part importante de la problématique de l’archivage pérenne c’est-à-dire sur le long terme (supérieur à 10 ans) repose sur les formats de fichiers et leur capacité à être interprétés dans le futur ainsi que sur les supports utilisés. Pour cela il convient de privilégier des formats ouverts, non-propriétaires, d’un usage très répandu au sein d’une communauté de recherche. Quelques exemples de formats déconseillés et à privilégier sont publiés dans le tableau ci-dessous.

Tableau : Exemples de formats de fichiers
Source : Guide de traçabilité du cnrs 2018 p.18

Comment faire du tri dans mes données ?

Après chaque étape de travail sur un projet, pensez à ranger vos documents et supprimer les fichiers doublons et intermédiaires de travail.
Seules les données brutes et fichiers finaux peuvent être gardés.
Le nommage pertinent des fichiers et leur annotation par des métadonnées sont essentiels pour être en mesure de faire du tri.

Comment transmettre un fichier lourd ?

Je peux le déposer sur UNCloud puis le partager en interne à une personne de NU ou transmettre le lien de partage à une personne externe.
Je peux utiliser File Sender Renater (100 Go max)

Je peux lier une pièce jointe automatiquement sur ma messagerie thunderbird (via UNCloud) – procédure

Dans quel entrepôt puis-je déposer mes données ?

Quel Cloud pour stocker mes données privées me conseillez-vous ?

Voici quelques solutions, non exhaustives, où vous pouvez stocker vos données privées

-à destination des employés CNRS : mypeopledoc (présentation)
-pcloud

Mis à jour le 06 mai 2024.
https://sfrsante.univ-nantes.fr/fr/recherche-responsable/comprendre-la-typologie-et-le-stockage-des-donnees