Le numérique bouleverse en profondeur la manière de faire de la science. Ce que John Taylor, alors Directeur général de l’Office of Science and Technology britannique désignait en 1999 du terme de e-science.
L’expression a fait florès. Partout, sauf, symptomatiquement, en France. C’est qu’au-delà de la non-reprise du terme lui-même, en soi anecdotique, il y a surtout l’absence d’une stratégie nationale coordonnée en ce domaine : ces dernières années, les énergies ont été mobilisées ailleurs.
On voudrait penser, avec des initiatives telle celle proposée récemment à tous les acteurs par le CNRS que les choses sont en train de changer. En tout cas, on l’espère. Trois axes de travail et de progrès, intimement liés, me semblent devoir être rapidement pris en considération. Ils sont au sens plein du terme stratégiques (le mot est souvent galvaudé, alors je précise) en ce sens que ne pas s’y affronter ni déterminer d’orientations claires, c’est condamner à terme (et peut-être même à court terme) la recherche française.
Il y a tout d’abord la question de l’évaluation et du pilotage de la recherche. Un enjeu majeur, très fortement corrélé à la problématique des publications. Dans ce dernier domaine, le débat fait rage depuis plusieurs années entre partisans du tout open access, et ceux qui n’y croient guère, ou à moitié. Je ne reviens pas ici sur ce que j’ai déjà écrit précédemment : avec l’apparition de produits comme SciVal ou Incites, le risque est désormais tout proche que les outils de pilotage des stratégies scientifiques et des politiques publiques de recherche dépendent entièrement du secteur de l’édition privée, et non des financeurs. Il n’y a donc plus à tergiverser. Car la question n’est plus de savoir s’il serait ne serait-ce que possible de se passer d’éditeurs commerciaux pour publier de la science. La question est : l’État, principal financeur de la recherche, et l’ensemble de ses opérateurs dans ce domaine, veulent-ils conserver leur capacité d’analyse quant à leur stratégie scientifique ? Si oui, il faut bâtir un écosystème d’évaluation le plus fiable possible, et cela implique que la production scientifique soit librement accessible, donc en open access. Ou alors il faudra s’en remettre pour la recherche à une sorte de système d’agences de notation privées ―Elsevier et Thomson Reuters sont sur les rangs ― dont on espère qu’il est inutile de rappeler ici les petits inconvénients, illustrés dans d’autres domaines. Il est donc plus que temps qu’à l’instar des initiatives prises par l’État dans plusieurs grandes nations scientifiques et non des moindres (États-Unis, Allemagne, par exemple), dès lors que la recherche est financée sur fonds publics, un dépôt obligatoire1 en open access des publications soit instauré, avec des clauses d’embargo les plus limitées possibles. Et qu’une réflexion soit engagée, au niveau national, sur les outils d’évaluation et de pilotage de la science dans le contexte technologique actuel.
L’autre grande évolution, c’est ce qu’on appelle désormais la data driven science. Les données sont en effet partout aujourd’hui, et dans des quantités inouïes. L’instrumentation scientifique en produit des masses phénoménales (par exemple en astronomie, en aéronautique, ou en physique des hautes énergies et des particules), qui constituent une grande part de ce qu’on appelle les données brutes de la recherche. Dans le domaine des sciences humaines, les humanités numériques (digital humanities) renouvellent l’approche des textes et des corpus. La science recourt aussi de plus en plus, dans certains secteurs comme les études relatives à la biodiversité, aux données issues du crowdsourcing, via la mise en place de véritables plans de collecte par le grand public. Le text and data mining (TDM) quant à lui, dont on débat beaucoup ces dernières semaines, en offrant la possibilité de fouiller, de manière croisée, d’énormes quantités de données, souvent issues de plusieurs bases hétérogènes, ouvre des possibilités inédites à la plupart des disciplines, de la génomique à la sociologie, en passant par la littérature ou la linguistique, dans une économie de moyens inimaginable jusqu’alors : la recherche médicale ou pharmaceutique sont par exemple très friandes de l’analyse de comptes rendus d’expériences ratées (« les résultats négatifs de la science ») afin d’éviter d’engager des moyens dans des voies sans issues.
Enfin, toutes ces évolutions ont pour fond la construction d’un Web de données, dit aussi Web sémantique, qui en étendant sa logique réticulaire jusqu’à la liaison entre elles des plus petites unités d’information disponibles, les données, et en recourant pour ce faire à un formalisme de niveau supérieur, porte la promesse de pouvoir les relier entre elles, quel que soit leur contexte de production, et sans nécessité d’un format-pivot ni appauvrissement de l’information.
Certes, beaucoup d’initiatives ont vu et voient le jour en France sur cette question centrale des données, de leur traitement, et du linked open data. Mais il est indubitablement nécessaire aujourd’hui, et de les soutenir, et de les fédérer.
Et puis enfin il y a le cadre juridique du droit de l’information et de la propriété intellectuelle, qui ne prend pas assez en compte en France les intérêts et les besoins de l’ESR (ceux de la Culture ne sont pas moins légitimes, mais ils ne peuvent être les seuls qui vaillent) : l’exception enseignement et recherche de la loi DADVSI (droit d’auteur et droits voisins dans la société de l’information) par exemple, étique et inutilement restrictive, n’offre pas le cadre approprié au développement d’une science (et d’une pédagogie) intégrant le numérique. Autre exemple : plusieurs acteurs de l’ESR comme l’ADBU et Couperin sont récemment intervenus devant le CSPLA pour convaincre de la nécessité que la loi vienne reconnaître l’innocuité de la pratique du TDM pour les éditeurs de contenus, et le formidable potentiel qu’elle recèle pour la recherche, l’innovation, et la compétitivité nationale. Ces questions juridiques sont cruciales. Et liées à l’enjeu autour des données, on le voit avec l’exemple du TDM. Tout comme l’indépendance du système d’évaluation et de pilotage de la recherche dépend de la maîtrise de données de qualité qu’on ne peut faire correctement parler que si elles sont correctement construites (et que l’on sait comment). Pas de pilotage scientifique efficace par exemple sans référentiels de qualité (celui des publications, celui des auteurs, celui des laboratoires, etc.).
On le voit à travers ces exemples : les professionnels de la documentation et de l’information sont au cœur des enjeux stratégiques de la science d’aujourd’hui. Non qu’ils veuillent piloter la recherche. Le conseil et l’expertise partielle qui est la leur leur suffisent. Aux décideurs de décider. Mais de manière éclairée. Et vite.
Disons-le : on a engagé beaucoup de réformes de structure dans l’ESR ces dernières années, qui ont mobilisé l’essentiel des énergies, à tous les niveaux. Pendant cette période de recomposition, probablement encore inachevée, la révolution numérique n’a pas marqué le pas. Il est temps de cesser de considérer les questions qu’elle soulève d’un point de vue purement technique, ou sous le seul angle des outils, pour les réintégrer à la réflexion stratégique, et embrasser plus largement le tableau.
Les données sont le coeur de métier des professionnels de la documentation : il sont prêts à contribuer.
1Modulo, bien entendu les impératifs de la valorisation.
Pingback: Vers un droit de l’open science ? | Archives ouvertes