La France dispose d’un répertoire recensant en théorie l’intégralité des thèses de doctorat soutenues depuis le milieu des années 1980, ou en cours : le site theses.fr. Celui-ci comportait en 2023 des données relatives à près d’un demi-million de doctorats, tandis que son archive TEL héberge quant à elle plus de 100.000 manuscrits. Les métadonnées associées – accessibilité en ligne, langue d’écriture, discipline, directeur de thèse, etc. – offrent de nombreuses opportunités pour les chercheurs désireux de mieux comprendre les conditions d’encadrement, d’écriture et de soutenance des thèses.
Dans les mois qui viennent, je vais faire le point sur diverses analyses menées dans le cadre de travaux de recherche menées en collaboration entre 2019 et 2023 avec trois générations d’étudiants de diverses formations en analyse de données de CY Tech, école d’ingénieurs constituant une composante de CY Cergy Paris Université. Les figures que je présenterai visent à donner à voir de manière panoramique la richesse des opportunités offertes par l’analyse des jeux de données disponibles sur theses.fr. Je m’intéresse entre autres à la question de la fiabilité des métadonnées recensées (erreurs dans la langue d’écriture attribuée, etc.). Nous avons en outre développé avec mes étudiants des techniques pour enrichir les informations disponibles (spécification de la discipline d’appartenance, du genre des individus) ou pour recoder certaines variables (noms des institutions, etc.). Une série de visualisations seront présentées et décrites au fil des mois (du moins celles que je ne pense pas publier). Il y a quelques billets, j’ai dit que je ne présenterais pas les figures pour ne pas gêner d’éventuelles publications, mais j’ai changé d’avis.
L’existence du site theses.fr est bien connue de la communauté scientifique française, de sorte qu’un certain nombre de chercheurs s’attelèrent à produire des analyses sur le jeu de données correspondant dès le début des années 2010. On pourra se référer notamment à ce site. Celui-ci m’a d’ailleurs été signalé par un collègue lecteur du blog, et je l’en remercie. Des travaux sérieux ont été menés sur ce type de base, je pense aux recherches de sociologues ayant exploité une base un peu ancienne (qui était alors disponible sur CD-ROM et qui remontait aux années 1970), pour mener des travaux sur l’enseignement supérieur, et notamment sur le localisme dans le recrutement des enseignants-chercheurs (Olivier Godechot, chercheur de renom, pour ceux qui veulent aller plus loin). A ma connaissance, ont dominé les analyses courtes diffusées dans la littérature grise, sous la forme de billets de blog par exemple, et je m’inscris ici un peu dans cette tradition.
Dans le billet d’aujourd’hui, je vous présente une analyse relative au mois de soutenance de thèse. Premier constat : il faut attendre 2017 pour avoir des données vraiment fiables. En effet, ne connaissant que l’année de soutenance, la date du premier janvier était attribuée par défaut lorsqu’elle n’avait pas été renseignée de manière précise (or, bien évidemment, personne ne soutient un premier de l’an). C’est le cas de l’intégralité des thèses jusqu’à 2006, puis la situation s’est améliorée au fil des ans, jusqu’à 2017, où l’on peut considérer les données comme fiables, autant que je sache. Je vous mets ci-dessous une figure qui montre la chute, en pourcentage, du nombre de thèses « soutenues un premier janvier », si l’on se fie à la base de données sans le moindre recul.
Pour avoir le mois effectif de soutenance, il suffit donc de filtrer (retirer, donc) ces soutenances du premier janvier. C’est ce que nous avons fait, agrégeant les données sur la période s’étalant de 2006 (pauvre en données) à 2018 (très riche en données). Ce faisant, nous pouvons capturer une variabilité inter-annuelle (d’où les écarts-type, relativement réduits, que l’on peut voir ci-après). Nous obtenons alors la figure ci-dessous, qui montre que le gros des soutenances a lieu en fin d’année civile, avec un pic en décembre (un lien avec les campagnes de qualification ?). Mon rôle s’arrête là, à vous de décider de ce que vous faites de cette information (certains diront, un factoïde).
2 Responses to Les doctorants attendent décembre pour soutenir : une analyse de theses.fr