Evolution de l’importance relative des différentes disciplines d’appartenance sur theses.fr : un regard méthodologique

Ces derniers temps, je vous ai partagé quelques embryons de résultats issus d’analyses que j’ai réalisées avec les étudiants du Bachelor Data Science. Beaucoup d’analyses contrastent les disciplines entre elles, ce qui constitue une évidence tant ces comparaisons sont intéressantes. Il y a un hic néanmoins : techniquement, la discipline d’appartenance n’est pas rédigée de manière standardisée sur theses.fr, et j’ai réalisé un certain nombre de prétraitements et d’inférences qui affaiblissent naturellement la robustesse des résultats. Je vous partage ici les difficultés méthodologiques auxquelles nous avons été confrontées, notamment parce qu’il y a clairement une réflexion méthodologique à mener pour améliorer la situation. Au passage, en bonus : une évolution de l’importance relative des différentes disciplines dans les thèses soutenues depuis plus de trente ans (avec un impact visible des crises financières)

ProQuest, le site américain qui archive un nombre incroyable de thèses et Master, c’est lucratif et ils ne font pas de cadeau car l’accès est payant, mais ils ont un système de labellisation de la discipline qui tient la route, que je mets ci-dessous. La France est le héraut de la gratuité, mais il y a un souci sur la discipline d’appartenance.

Alors que dans la base theses.fr, la discipline d’appartenance est rédigée par l’auteur – il existe dès lors potentiellement des dizaines de milliers de labels différents, c’est un système de tags multiples qui est utilisé dans l’archive TEL. Dans le cas de TEL, le label est choisi au sein d’une liste déroulante. Plusieurs labels peuvent être fournis pour un manuscrit donné. Dans le cas de theses.fr, les personnes saisissant les métadonnées du manuscrit ont toute latitude quant au choix du domaine d’appartenance. Elles peuvent par exemple choisir une discipline définie de manière relativement inclusive:  sur les 447644 thèses étudiées, on trouve ainsi 10353 thèses avec le label « Chimie ». Pour mémoire, la chimie est subdivisée en France en plusieurs sections universitaires (les sections 31, 32 et 33). A l’inverse un domaine d’appartenance peut être spécifié de manière détaillée par certains auteurs, ce qui conduit à l’apparition de labels n’apparaissent par exemple qu’une fois dans le jeu de données : « Asie orientale et sciences humaines », « Bases fondamentales de l’oncogenèse », « Anthropologie psychanalytique et pratiques cliniques du corps ». Par ailleurs, comme ces domaines d’appartenance sont entrés à la main et non à partir d’une liste déroulante, des erreurs typographiques éparses se glissent dans les disciplines d’appartenance (exemple : « driot privé » en lieu et place de « droit privé »), qui peuvent dès lors nécessiter des traitements supplémentaires avant une analyse à grande échelle.

Dans l’archive de manuscrits TEL, par contraste avec les labels de theses.fr, le nombre de labels préexistant est limité par l’existence de listes déroulantes parmi lesquelles il faut choisir au moment du dépôt d’un document. Deux particularités sont à prendre en compte pour comprendre la limite de l’organisation proposée dans le site. En premier lieu, il existe une hiérarchie dans l’arborescence de tags, le tag Education étant une sous-catégorie de Sciences Humaines et Sociales (SHS). Nous détaillons dans le Tableau 9 la division des tags, ou labels, dans TEL à la base de l’arborescence, au nombre de treize. Nous les nommons ici disciplines de niveau 1 par commodité, les disciplines de niveau 2 correspondant à l’échelon inférieur.

Pour illustrer davantage le mode de fonctionnement de l’arborescence, nous rapportons dans le Tableau 10 un exemple de disciplines de niveau 1 et de niveau 2 les sous-catégories correspondantes, sachant qu’il existe parfois un niveau 3, qui serait par exemple un sous-domaine de la chimie des matériaux. Comme le montre ce tableau, les sous-catégories n’ont pas été pensées de manière équilibrée – la chémo-informatique rassemble 26 doctorats là où la catégorie « Catalyse » en rassemble 222. Par ailleurs, ces choix ne semblent pas correspondre à des découpages académiques classiques – il n’a pas été possible de déterminer l’origine de l’arborescence retenue. On notera par ailleurs qu’il est possible de choisir plusieurs labels au moment du dépôt du document, et que ces labels ne sont pas nécessairement du même niveau. Il est par exemple possible au moment du dépôt de choisir un label de niveau 1 comme la chimie, et un label de niveau 2 comme le tag Education, sous-catégorie de SHS.

Une lecture attentive des paragraphes qui précèdent montre que celui (ou celle) qui souhaite contraster selon les disciplines un indicateur aussi simple que la proportion de thèses accessibles sur Internet parmi les thèses soutenues se heurte à un défi méthodologique de taille. Pour les thèses dont le manuscrit est en ligne, nous disposons d’indications sommaires sur la discipline d’appartenance ; la taxonomie mobilisée pour catégoriser ces documents est critiquable, mais le nombre de labels différents est suffisamment réduit pour envisager un recodage manuel le cas échéant. A l’inverse, pour les thèses dont le manuscrit n’a pas été mis en ligne, la seule information relative à la discipline dont nous disposons est rédigée de manière individualisée, de sorte qu’un trop grand nombre de labels différents – plusieurs dizaines de milliers – a été produit pour permettre un recodage manuel. Or pour calculer des pourcentages pour chaque champ académique, il est nécessaire de faire le décompte des deux types de thèse, celles qui sont mises en ligne, et les autres.

Une telle ambition nécessite dès lors une standardisation du label « discipline » pour tous les manuscrits, ce qui implique notamment de recoder de manière automatisée les labels rédigés à la main, via des techniques d’apprentissage machine (machine learning en anglais). Peut-être un jour vous raconterai-je comment avec une collègue et un étudiant un peu motivé (merci à Nicolas Laudier), nous avons appliqué des techniques de deep learning (un CNN pour les initiés) pour inférer la discipline à partir de la discipline écrite à la main. Mais un autre jour, car c’est long. Et en bout de course cela donne des choses comme ce qui suit (c’est un peu flou sorry, on est en train de tout refaire proprement avec un étudiant). On y voit l’importance relative des différentes recherches doctorales dans les thèses soutenues. Je vois parfois des chiffres passer sur le nombre de thèses soutenues dans telle ou telle discipline au cours d’une année donnée. Mais comment les gens ont-ils obtenus ces chiffres sans suivre une démarche analogue à la mienne, y a-t-il des bases qui m’auraient échappé ? Mystère. En tout cas vous voyez les petites chutes du nombre de thèses sur ce graphes, chutes qui font suite aux deux crises financières, celle de la fin des années 1990 et celle de 2008, avec un décalage dans le temps correspondant à la durée d’une thèse.

Pour conclure, aujourd’hui, je me contente donc d’une recommandation : au moment du dépôt, la (ou les) discipline(s) de rattachement doivent être choisies au sein d’une liste, et non rédigée à la main, pour éviter d’avoir à effectuer un laborieux travail de classification via des techniques d’apprentissage machine. S’agissant de la liste au sein de laquelle choisir, il convient de produire un travail standardisé – les labels de TEL semblent quelque peu chaotique – et comprenant au moins autant de possibilités que de sections universitaires, un peu sur le modèle de ProQuest. Voilà une discussion qu’il serait bon d’avoir avec les collègues de l’ABES, en première ligne sur la mise en place et la maintenance de la base, mais qui je pense concerne tout l’enseignement supérieur. Vous êtes content.es de voir de temps à autres des petites analyses comme celles que l’on a faites, non ? On pourrait en faire des tas, et pas seulement sur theses.fr, pour mieux comprendre le fonctionnement du sup. Mais pour ça, plus les bases sont propres, plus notre travail d’analyste est facile, et plus l’on peut vous proposer des figures souvent ….

Leave a Comment

Filed under Non classé

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *