L’interdisciplinarité dans la recherche, tout le monde en parle, ça fait bien dans les discours, mais en termes d’impact sur la carrière ou de difficulté de publication, c’est une tout autre histoire. Mais passons, ce n’est pas l’objet de ce billet. Aujourd’hui, comme il est fréquent depuis quelques semaines, je vous propose un billet portant sur certaines des analyses que nous avons menées avec mes étudiants en « Data Science » sur les métadonnées de theses.fr.
La question de l’interdisciplinarité dans les thèses peut être abordée tantôt du point de vue de l’analyse du contenu des manuscrits, tantôt de celui des métadonnées, avec des limites évidentes dans les deux cas si l’on se cantonne à une approche quantitative. L’attribution d’un score d’interdisciplinarité sans une connaissance précise du travail réalisé est hautement discutable. Aussi, une approche fondée sur de l’analyse textuelle portant sur le vocabulaire mobilisé est franchement discutable si l’on se penche sur un document en particulier. En revanche, si l’on s’intéresse à des tendances, et que l’on raisonne à l’échelle de dizaines de milliers de manuscrits, il est certain que l’on peut dégager des tendances intéressantes. Pour débuter dans les logiques d’attribution de labels, des articles comme statistical topic models for multi-label document classification sont tout à fait appropriés.
Certains auteurs ont appliqué la démarche pour chercher à établir des scores d’interdisciplinarité pour des textes académiques. Je pense à un article passionnant :Mesuring interdisciplinarity using text de Eliza Evans. Malheureusement, cette doctorante de Stanford a passé l’arme à gauche avant de pouvoir terminer sa thèse. Avec un étudiant, nous avions essayé de nous inspirer de sa méthodologie pour les résumés et les corps de texte des manuscrits, pour faire du « topic modeling » (identification des sujets traités sur la base du seul vocabulaire mobilisé), mais sans grand succès. Au passage, ce que nous faisons relève ici parfaitement de ce que l’on nomme les humanités numériques (après tout je suis à l’Institut des Humanités Numériques, à Cergy). En caricaturant, nous appliquons des techniques relevant de l’informatique à des problématiques « SHS », avec un fort penchant pour les analyses de texte. De l’interdisciplinarité comme on l’encourage si souvent. Refermons la parenthèse.
N’ayant pas rencontré un grand succès avec l’analyse de texte, très chronophage et gourmande en CPU et aux résultats peu probants, je m’étais rabattu par dépit sur les « tags » associés aux manuscrits de thèse. Par exemple, si vous avez le tag « biologie » suivi du tag « mathématiques », vous pouvez supposer que la thèse est interdisciplinaire. L’inverse n’est malheureusement pas vrai; il est probable que même pour des thèses interdisciplinaires, les individus qui entrent les métadonnées soient nombreux à se contenter d’un seul label. Mais il y a a priori suffisamment d’individus qui se donnent la peine de le faire pour que l’on voit des relations émerger. On peut utiliser des approches de types « réseaux sociaux » ou, comme ici, l’association-rule mining (aussi connu sous le nom de market basket analysis). Le graphe parallèle (ci-dessus) ou la heatmap (ci-dessous) représentent les visualisations classiques. Pour le graphe ci-dessous, plus la co-occurence de labels est fréquente, plus l’on se dirige vers le rose clair. Plutôt que de tester toutes les combinaisons possibles de sections universitaires, nous nous sommes limités aux grands groupes de sections, tels que précisés dans le document fourni à la toute fin de ce billet. Sans surprise, on voit apparaître deux groupes, avec les sciences dures qui se regroupent d’un côté, et les sciences humaines (I, II, III, IV, XII) de l’autre. La pharmacie est connectée surtout à la biologie et à la chimie. Oh quelle surprise, était-il besoin de faire tout le travail que l’on a fait pour en arriver là. Seule petite surprise : l’émergence d’un lien statistiquement visible (graphe ci-dessous) entre droit et pharmacie.
Voilà un petit bilan sur l’interdisciplinarité que j’aurais sans doute pu publier plutôt dans un billet de type « carnet de recherche » sur Hypothèses, mais bon, je me suis dit qu’il pouvait être intéressant de vous montrer comment, même en SHS, on peut être fan d’analyses quantitatives.
Pour conclure, un collègue travaillant sur la base theses.fr a laissé un commentaire il y a une quinzaine de jours sur un billet portant sur les présentes analyses, mais le système de commentaires sur WordPress le rend virtuellement invisible. Comme il s’est donné la peine de l’écrire, je me permets d’en reproduire ici le contenu car il est utile :
« Je souhaite apporter quelques précisions concernant l’organisation du circuit des thèses de doctorat en France.
Concernant TEL. TEL et theses.fr sont deux entités distinctes. Theses.fr offre la possibilité aux doctorants qui le souhaitent d’envoyer leur thèse sur TEL, pour autant TEL n’a pas le rôle d’archive pour theses.fr. L’archivage pérenne des thèses est réalisé par le CINES. La diffusion des thèses en libre accès peut être réalisée selon plusieurs modalités, qui ne sont pas exclusives les unes les autres :
• En passant par TEL,
• En passant par la plateforme de diffusion établissements
• Directement par theses.fr
Concernant les dates de soutenance au premier janvier. Il s’agit d’un héritage du Sudoc, qui utilise le format UNIMARC pour cataloguer les thèses. Ce format, qui est une norme internationale, est utilisé pour produire des données bibliographique dans le Sudoc. Pour les documents universitaires il n’autorise que le signalement de l’année de soutenance. Or, pour les thèses produites au format papier, ce qui correspond à la période 1984-2006 (et en partie 2006-2016), theses.fr récupère ses informations depuis le Sudoc. Pour permettre une recherche par date dans notre catalogue, qui s’appuie sur un format de date normalisé, nous ajoutons le jour et le mois à l’année de soutenance du Sudoc.
Nous mettons à disposition depuis janvier 2022 les données de theses.fr sur data.gouv.fr https://www.data.gouv.fr/fr/datasets/theses-soutenues-en-france-depuis-1985 . Le jeu de données est accompagné d’une documentation, qui détaille l’organisation du circuit. »
PS : La liste des sections et des groupes correspondants est disponible à cette adresse, l’image floue donnée ci-après n’est là qu’à titre indicatif. Elle vous sera nécessaire pour interpréter les chiffres romains fournis dans les figures.