Projet Lumen : plateformes de données scientifiques
Le projet Linked User-driven Multidisciplinary Exploration Network (LUMEN) est un projet pluridisciplinaire de développement de plateformes de publications et de données scientifiques croisant différentes disciplines, à destination des chercheuses et chercheurs.
Lancé officiellement en janvier 2025, il est porté par la Direction des Données Ouvertes de la recherche (DDOR) avec la participation de membres de CNRS Insu, CNRS Sciences humaines & sociales, de l’Institut des Sciences Biologiques et de l’Insmi auprès de l’European Open Science Cloud (EOSC). Découvrez les prémices et détails de ce projet avec Suzanne Dumouchel, responsable de la coopération internationale à la DDOR et membre du conseil de direction de l’association EOSC, Violaine Louvet, déléguée scientifique en charge des données et du calcul scientifique à l’Insmi, Evelyne Miot, directrice de Mathdoc, et Sandrine Layrisse, déléguée scientifique en charge de l’outil numérique à l’Insmi et directrice du réseau Mathrice.
L’European Open Science Cloud (EOSC) a pour ambition de fédérer les infrastructures de diffusion de la production scientifique au niveau européen. L’objectif est de trouver facilement toute la production scientifique disponible. Selon Violaine Louvet, « certaines disciplines sont déjà très représentées car déjà très structurées et présentes au niveau européen (physique des énergies, sciences de l’univers…). D’autres le sont moins, dont les mathématiques, car les besoins ne sont pas les mêmes. Cela faisait un moment que nous essayions d’être présents, mais nous n’étions pas suffisamment visibles pour porter un projet nous-même : LUMEN est l’occasion de rejoindre un projet situé sur des bases solides et de nous intégrer à cette initiative européenne ».
Le centre Mersenne
Le centre Mersenne est une infrastructure d’édition scientifique en libre accès diamant développée par Mathdoc, unité d’appui et de recherche du CNRS et de l’Université Grenoble Alpes. Le centre Mersenne fournit l’ensemble des outils et services d’édition qui permettent aux équipes éditoriales de gérer, produire et diffuser leur publication. Les revues, livres, actes ou séminaires sont issus de toutes disciplines scientifiques, avec une majorité de mathématiques, composés en LaTeX et diffusés en accès libre.
Courant de la science ouverte
Inscrit dans le courant de la science ouverte, le projet LUMEN est un projet pluridisciplinaire porté par le CNRS auprès de l’EOSC. L’objectif est de développer des plateformes croisant différentes disciplines scientifiques. Suzanne Dumouchel raconte : « grâce aux groupes de travail sur EOSC, nous avons créé des synergies entre plusieurs disciplines au CNRS et mieux appris à nous connaitre en échangeant sur nos pratiques et nos besoins. Et c’est comme cela qu’est venue l’idée de travailler ensemble sur un projet européen, et que j’ai pris la coordination de la préparation du projet ».
Sandrine Layrisse, Violaine Louvet et Evelyne Miot ont ensuite rejoint l’aventure en participant à l’appel à projet Innovative and customizable services for EOSC Exchanges en octobre 2023. « La DDOR souhaitait coordonner un projet autour des plateformes de “découverte” de données », explique Evelyne Miot, directrice de Mathdoc. « Principalement autour de GoTriple, mais incluant d’autres communautés scientifiques : les mathématiques, la dynamique moléculaire, et système terre, soit près d’une vingtaine d’autres partenaires européens. Nous avons d’ailleurs adjoint un partenaire européen naturel : zbMATH OPEN, la plus grande base de données bibliographiques en libre accès pour les maths ». Les travaux de coordination, les discussions autour des objectifs du projet et la rédaction de ce dernier ont commencé en décembre et se sont poursuivis jusqu’en mars avec des réunions très régulières.
Le projet TRIPLE
Le projet TRIPLE, ayant initié une plateforme de découverte au sens large, piloté également par le CNRS et qui s’est achevé en mars 2023, est à l’initiative de LUMEN. Il a permis de développer le service GoTriple de découverte européen des données en sciences humaines et sociales, service proposé en 11 langues aujourd’hui : https://project.gotriple.eu/ et https://gotriple.eu/.
Des plateformes de données scientifiques pour toute chercheuse et chercheur
L’interdisciplinarité est un aspect central pour le projet LUMEN et, selon Suzanne Dumouchel, « pour toute l’innovation du projet par rapport à ce qui se fait ailleurs. On a identifié des besoins similaires en termes de services mais avec des ressources variées qui dépendent vraiment des disciplines. À partir de deux plateformes déjà existantes : GoTriple pour les sciences humaines et sociales et le centre Mersenne pour les mathématiques, il a été décidé de renforcer les développements de ces plateformes et d’en créer deux nouvelles pour la dynamique moléculaire et pour le système Terre ».
« Avec une approche pluridisciplinaire des données scientifiques », ajoute Violaine Louvet, « nous souhaiterions ajouter des fonctionnalités avancées, en particulier ce qui concerne les outils de l’intelligence artificielle. Cela permettrait d’avoir une sorte de connexion entre les différents résultats scientifiques et d’autres articles, profils de personnes ou logiciels pour faciliter la possibilité de découvrir des données et permettre aux chercheuses et chercheurs d’aller plus loin dans leur travail. L’idée n’est pas vraiment de dupliquer la donnée, mais plutôt d’orienter les gens vers là où elle est ».
Un projet s’inspirant d’outils avancées de recherche de données scientifiques
Le projet LUMEN bénéficie de ce qui a déjà été fait dans les outils avancés de recherche de données scientifiques. « Ce que l’on apporte », note Violaine Louvet, « c’est tout ce qui est fait dans le cadre du centre Mersenne ». « Plus précisément », renchérit Evelyne Miot, « le premier objectif est d’intégrer l’outil PLMLatex de Mathrice, qui propose une rédaction collaborative d’articles au format LaTeX, dans la chaîne éditoriale du centre Mersenne. Ceci permettra notamment aux autrices et auteurs des revues du centre Mersenne de soumettre leurs articles et d’échanger directement avec les maquettistes LaTeX du centre Mersenne via l’interface.
“[…] Améliorer les liens entre les publications du centre Mersenne et les codes ou logiciels qui leurs sont associés est le second objectif, en fournissant le lien vers les entrées de ces codes et logiciels dans des catalogues tel que celui développé dans le cadre de LUMEN, ou dans la base de description de logiciels swMATH de zbMATH OPEN, et déposés dans des entrepôts de confiance tels que SoftwareHeritage. De la sorte, nous améliorerons l’interopérabilité entre les publications et les codes qui commence à devenir un sujet important pour la communauté mathématique ».
Suzanne Dumouchel complète : « On est parties du principe qu’il valait mieux plusieurs plateformes dédiées à leur communauté scientifique mais susceptibles de dialoguer, plutôt qu’une seule plateforme qui ferait fourre-tout et qui réduirait la complexité des données de chaque discipline. On reste dans le domaine de la recherche où la qualité des données est primordiale ».
Des défis enthousiasmants et rassembleurs
Pour Violaine Louvet, le projet est enthousiasmant : « Le lien avec les logiciels, également très demandé du côté sciences humaines et sociales et pertinent à l’échelle européenne est très intéressant.“. Il y a beaucoup de travail autour de la construction des graphes de découverte, des liens entre les différents produits, des aspects sémantiques, des problématiques liées aux métadonnées, et de l’intégration des notebooks dans cette vision ».
« Trouver des besoins et des objectifs communs avec les autres disciplines du projet, qui gardent vraiment du sens pour notre communauté (indépendamment de leur origine géographique) a été la partie la plus difficile du projet et a donné lieu à de nombreuses réunions en groupes et sous-groupes », confie Evelyne Miot. Le grand nombre de partenaires, disciplines et usages différents ont parfois compliqué les échanges, dont l’enjeu était d’« identifier les points communs mais sans gommer les différences », ajoute Suzanne Dumouchel.
Quelles suites au projet ?
Lancé officiellement en janvier 2025, l’équipe du projet prévoit des actions et ateliers spécifiques aux mathématiciennes et mathématiciens. L’objectif est d’aider la communauté à prendre connaissance de l’outil et se l’approprier d’ici la fin du projet. « Nous participerons aux groupes de travail interdisciplinaires du projet », anticipe Evelyne Miot. « Dès que l’outil sera disponible au centre Mersenne nous en informerons les revues et le déploierons pour celles qui le souhaitent, et nous présenterons l’outil dans les évènements liés au centre Mersenne et à Mathrice ».
Violaine Louvet conclut : « Au bout de 36 mois, on aura un prototype opérationnel. J’espère après qu’on ira beaucoup plus loin que ça. Il y aura des choses abouties, et d’autres qui seront dans une étape intermédiaire à l’issue de ces 36 mois ».