Appel à l’impartialité des producteurs de données

Par Yann Bernardinelli, pour le NCCR-Synapsy

Le FNS adopte une politique d’ouverture des données scientifiques avec des conséquences majeures pour la recherche. Les premières étapes de mise en œuvre pour les pôles de recherche nationaux débutent en 2019.

Les chercheurs savent depuis longtemps que la science progresse grâce au partage des informations. C’est pourquoi les sciences sont « ouvertes » depuis l’apparition de la première revue académique au 17e. Trois siècles plus tard, l’ouverture des sciences est passée dans une autre dimension : celle de l’Open data. C’est non seulement les publications, mais également les données brutes qui doivent désormais être accessibles en format numérique et en ligne. Cette révolution rendue possible grâce à la transition numérique et à l’avènement d’internet est depuis peu exigée par les systèmes de financement de la recherche académique. Ils considèrent que les données doivent être pérennes et ouvertes à l’ensemble de la société puisque majoritairement subventionnées par des fonds publics. La mise en place de cette nouvelle approche du partage pose des défis techniques et éthiques, spécialement pour la gestion des données cliniques.

Parer à la crise de reproductibilité

L’idée de l’Open data est récente. Elle est survenue en réponse à une série d’étude montrant que 50 à 90 % des recherches précliniques publiées étaient non reproductibles et que 20 à 80 % des données disparaissent après 20 ans. « Comme les raisons de cette stérilité ont majoritairement été attribuées à des faits évitables, les journaux et les fondations de soutien ont tenté de prendre des mesures pour que les milliards investis dans la recherche ne partent plus en fumée », indique Cécile Lebrand, responsable de la gestion des données à la Faculté de biologie et médecine de l’UNIL/CHUV. Parmi les causes identifiées, une mauvaise documentation, des protocoles tenus secrets, des détails expérimentaux pas assez étoffés et le non-accès aux données brutes ont été pointés du doigt.

Dès 2013, États-Unis, Royaume-Uni et Pays-Bas ont exigé que les données scientifiques soient partagées. Après l’appel à l’action pour l’Open science d’Amsterdam en mai 2016, l’Europe a suivi en exigeant 100 % d’ouverture des données pour son programme Horizon 2020 et le FNS lui a emboité le pas. Les conséquences de cette politique se répercutent directement sur les pôles de recherche nationaux qui doivent fournir un plan de gestion des données pour juin 2019 déjà.

Open vs FAIR data

Le FNS s’attend désormais à ce que les données générées par les projets financés soient accessibles au public dans des bases de données numériques non commerciales, à condition qu’il n’y ait aucune contre-indication juridique, éthique, de droit d’auteur ou autre. De plus, le FNS exige que le partage des données primaires non publiées suive les principes du FAIR data. Il s’agit d’une approche mesurée de l’Open data, particulièrement compatible avec les données cliniques puisqu’elle permet une accessibilité restreinte ou soumise à autorisation en cas de données sensibles comme celles devant garder l’anonymat des sujets d’étude.

Le FAIR data recouvre les manières de construire, de stocker, de présenter ou de publier des données afin qu’elles soient trouvables, accessibles, interopérables et réutilisables. Le mot « fair » évoque également l’honnêteté du chercheur dans les démarches de partage. Les données doivent être récupérables en utilisant un protocole standard de communication, ouvert, libre, et d’usage universel. En outre, les données doivent être enrichies à l’aide de métadonnées appropriées et doivent être mises à disposition via des licences claires et visibles.

Conséquences pour Synapsy

À ce stade précoce du processus, il ne sera pas possible pour les chercheurs de Synapsy de rendre l’ensemble des données brutes accessibles au large public, mais bien d’approfondir un plan de gestion de celles-ci à but de partage interne et éventuellement externe. La procédure exigée par le FNS pour les laboratoires fondamentaux ou précliniques indique que chaque laboratoire peut décrire de manière autonome ce qu’il fait en matière de gestion des données brutes et doit nommer un responsable.

Concernant les données cliniques, des obstacles additionnels se présentent. La première étape consiste à déterminer si ces données sont conformes aux règles du FNS en matière d’éthique. « S’il y a de bonnes raisons, par exemple l’impossibilité de rendre les données génétiques anonymes, ou lorsque le partage des données n’a pas été soumis à l’accord du patient, il y a des restriction au partage des données brutes. Par contre, il faut toujours pouvoir justifier les raisons de ces restrictions », précise Cécile Lebrand. Synapsy doit donc en premier lieu définir quelles données cliniques sont compatibles au partage puis définir à qui et comment leur donner accès.

Sylvain Lengacher, agent du transfert de technologie pour Synapsy, supervisera l’ensemble du processus d’état des lieux visant à rédiger le plan de gestion. Ce dernier pourra bien évidemment être évolutif pour s’adapter aux besoins des chercheurs.

Choisir les bons serveurs, formats et plateformes

Synapsy dispose de plusieurs modèles animaux et des cohortes cliniques. Des mécanismes communs existent entre les pathologies et entre les modèles animaux. Il sera donc important de partager les données à travers les différents laboratoires, qu’ils soient cliniques ou fondamentaux. « Néanmoins, il est important de commencer la stratégie de partage des données avec un point nodal, nous avons choisi l’imagerie IRM et l’EEG », précise le directeur de Synapsy, Alexandre Dayer. 

Patric Hagmann, médecin adjoint au Service de radiodiagnostic et radiologie interventionnelle du CHUV et chercheur Synapsy, a été chargé de mener la réflexion sur la mise en place d’un système de gestion des données IRM et EEG pour Synapsy. Il apporte ainsi sa grande expertise en la matière pour la neuroimagerie. « L’idée serait de déposer les données cliniques sur un serveur en adoptant un format commun entre les 5 groupes de recherche clinique Synapsy, puis de gérer le partage avec une plateforme numérique dédiée », indique-t-il.

Selon la loi, les données cliniques doivent impérativement être stockées en Suisse. Des espaces protégés, les serveurs « UniDufour » de l’UNIGE et « Vitality » du CHUV, sont à disposition des groupes de recherche. Concernant le format des données primaires, aucun consensus sur la façon d’organiser et de partager de telles données n’existe. En témoignent les données issues de la neuroimagerie et de l’EEG : il n’est pas rare de voir les expérimentateurs d’un même laboratoire utiliser des formats différents. D’après Patric Hagmann, un format simple et facile à adopter, le BIDS (Brain Imaging Data Structure), se prêterait particulièrement bien à la situation puisqu’il est compatible avec l’imagerie, l’EEG et les données comportementales. Il faudra néanmoins définir comment y intégrer les autres types de données cliniques.

Une plateforme de gestion des données et de leurs métadonnées devra ensuite être mise en place. Malheureusement, même si la technologie existe, aucune plateforme répondant aux exigences du FAIR data n’est disponible à ce jour. « Dans le domaine biomédical, les plateformes d’échange existent depuis plus de 20 ans, mais elles ne permettent pas la lecture, la traçabilité, la protection et l’anonymat des données », précise Cécile Lebrand. Les Américains investissent massivement, mais n’ont encore rien de concret. Le développement d’une plateforme numérique de gestion sera probablement nécessaire pour Synapsy.

Le coût du partage

Au-delà des défis technologiques, éthiques et sécuritaires, la nouvelle dimension d’ouverture prise par les sciences a des conséquences directes pour les chercheurs. Premièrement, le stockage à un coût : environ 400 CHF par Terabite (TB), soit 40 000 CHF pour les 100TB nécessaires à Synapsy. « À cela il faut ajouter le temps de travail administratif consacré à ces tâches, il est conséquent. Les coûts du partage ne sont actuellement pas remboursés en totalité par les fondations », précise Cécile Lebrand.

 Un futur pérennisé

Le grand partage des données aura indéniablement des conséquences positives pour les pôles de recherches nationaux et Synapsy. « Grâce au travail effectué aujourd’hui, personne ne partira avec les données dans quatre ans et les douze années de recherche du consortium seront transmises aux futures générations de chercheurs », se réjouit Alexandre Dayer.

L’échange systématique des données cliniques issues des différentes cohortes du consortium favorisera le diagnostic transversal en psychiatrie. En d’autres termes, comme les différentes maladies psychiatriques sont très hétérogènes, les mécanismes et biomarqueurs globaux seront plus facilement identifiables. « Le data management unira les cohortes et favorisera les approches dimensionnelles plutôt que catégorielles. Ces dernières sont issues de consensus d’experts et ne constituent pas une approche scientifique », précise Alexandre Dayer. Le propos du grand partage n’est donc pas de satisfaire les exigences du FNS, mais bien de stimuler la recherche en psychiatrie.

 

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

%d blogueurs aiment cette page :
search previous next tag category expand menu location phone mail time cart zoom edit close