Le site theses.fr recense les métadonnées de thèses réalisées en France pour plus d’un demi-million de jeunes docteur.es ayant soutenu entre 1985 et nos jours ; il prend le relais de la base SUDOC, qui a été analysée dans le cadre de travaux de sociologie (allez voir : Cibois, 2008; Godechot & Louvet, 2010; Louvet, 2008). Il fournit des hyperliens pour les manuscrits qui ont été mis en ligne dans l’archive TEL. En 2020, au moment de la réalisation des analyses rapportées dans le présent document, plus de 100 000 documents PDF avaient été recensés sur TEL, toutes disciplines confondues. Le téléchargement et la conversion en documents .txt exploitables par des algorithmes a été réalisé pour un peu plus de 30.000 documents. Une partie du corpus potentiel a été mise de côté car nous nous sommes concentrés sur les textes en français et parce qu’en cas d’erreurs de lecture trop fréquentes, direction la poubelle. Aujourd’hui, je vous parle un peu des techniques mobilisées, pour déboucher sur un résultat qui va résonner comme une évidence pour beaucoup d’entre vous : en termes de nombre de pages pour une thèse, les différences entre disciplines académiques sont impressionnantes : le droit est en pole position, et les disciplines de type informatique / mathématiques sont les plus « légères » (littéralement, si vous l’imprimez).
Des thèses plus ou moins longues selon les disciplines académiques
Filed under Non classé
Les trajectoires académiques vues par theses.fr : quelles discriminations dans l’enseignement supérieur ?
Aujourd’hui, je ne vais pas réellement parler de discrimination dans l’enseignement supérieur comme annoncé dans le titre, car cela relèverait de la surinterprétation; il y a plein d’autres paramètres en jeu (choix personnels, autocensure). J’ai fait ça pour avoir un titre un peu punchy, je ne vais pas vous mentir. Néanmoins, les données mobilisées révèlent sans doute des phénomènes de cet acabit. Alors quand je dis enseignement supérieur, vu qu’avec mes étudiants nous avons travaillé sur theses.fr, je pense uniquement à la transition entre la position de jeune docteur.e (au moment de la soutenance), et celle de directeur/trice de thèse, car ce sont les deux positions que l’on voit apparaître dans la base. Nous avons porté l’attention et sur les inégalités de genre, et sur l’origine des prénoms (européen, etc.)
Filed under Non classé
Pratiques bibliographiques et cultures disciplinaires : apports de l’analyse des manuscrits de thèse
A partir des manuscrits, il est possible d’extraire des métriques comme le nombre de figures réalisées ou le nombre de références mobilisées dans la section bibliographie, et contraster ces métriques d’une discipline à l’autre. On peut ainsi à la nature des références citées : livres, chapitres d’ouvrages, articles dans des revues. Une librairie permet en effet d’inférer quant à la nature de la publication réalisée, et donc de comparer les pratiques de citation d’une discipline à l’autre. Une autre permet de déterminer si la citation en question est en anglais ou en français. On va ainsi pouvoir observer des différences culturelles entre disciplines. Tout le monde sait que les sciences humaines et sociales, et autres, citent davantage en français, et que les sciences dites « dures » citent surtout des références en anglais. Je vais enfoncer des portes ouvertes. Mais avoir quelques chiffres à la clé pour étayer ces impressions / intuitions, ça fait toujours plaisir. D’où le billet d’aujourd’hui.
Filed under Non classé
Nombre de doctorant.es par encadrant.e : suivre l’évolution de la situation grâce à theses.fr
Ces derniers temps, nous avons abordé beaucoup de sujets relatifs au fonctionnement de l’enseignement supérieur via l’exploitation de la base theses.fr. Aujourd’hui, nous allons parler du taux de direction, c’est-à-dire le nombre de doctorant.es sous la supervision d’un.e encadrant.e à un instant donné. Il y a plusieurs façons de procéder, soit avec une fenêtre mobile qui commence au moment de la prise du premier doctorant, soit par périodes (1996-2000, 2001-2005, etc.). Cette dernière approche permet d’avoir une vision plus « historique » de la chose, et c’est celle que nous allons présenter aujourd’hui.
Filed under Non classé
Choix de la langue du manuscrit du thèse: une apparente progression de l’anglais mais des contrastes frappants entre disciplines
Aujourd’hui, j’aimerais vous parler de la question de la langue d’écriture du manuscrit de thèse. La métadonnée est présente dans theses.fr, ce qui permet des comparaisons entre disciplines, si tant est que l’on puisse se fier au label « langue ». Dans le billet, quelques résultats non consolidés mais qui permettent déjà de se faire une idée des trajectoires en cours.
Filed under Non classé
Interdisciplinarité des thèses : quelques résultats issus de l’analyse de theses.fr
L’interdisciplinarité dans la recherche, tout le monde en parle, ça fait bien dans les discours, mais en termes d’impact sur la carrière ou de difficulté de publication, c’est une tout autre histoire. Mais passons, ce n’est pas l’objet de ce billet. Aujourd’hui, comme il est fréquent depuis quelques semaines, je vous propose un billet portant sur certaines des analyses que nous avons menées avec mes étudiants en « Data Science » sur les métadonnées de theses.fr.
Filed under Non classé
Mobilités académiques, de la thèse à la fin de carrière : les apports putatifs de la base theses.fr
Comme vous l’avez peut-être constaté, je me suis mis à partager sur le blog certains des résultats obtenus avec mes étudiants du Bachelor Data Science, lors de l’analyse du jeu de données theses.fr. Aujourd’hui, j’aimerais vous parler de mobilité académique (et son pendant logique d’endogamie), après la thèse, mais aussi tout au long de la carrière. Pour mémoire, à travers la base, on ne voit l’étape d’après la thèse qu’au travers de la présentation du premier doctorant (ou de la première doctorante). Et encore, pour pouvoir attribuer un établissement, il faut éviter la cosupervision, qui complexifie singulièrement la chose (sans la rendre impossible pour autant). Bref, tout ceci serait nettement plus rigoureux/précis avec les bases de la DGRH (ressources humaines), mais on fait avec ce qu’on a. On a fait un peu de nettoyage (réécrit les noms des universités et autres), une petite jointure avec une table fournissant les coordonnées des institutions, et cela donne les cartes qui suivent (plus grand chose à voir avec les MOOC et le numérique, je sais, mais on a le droit à un petit craquage de temps à autre).
Filed under Non classé
Recrutement des Maîtres de Conférences : une visualisation des réseaux en jeu dans les jurys
La qualification et le recrutement des enseignants-chercheurs français ont relevé jusqu’à présent du périmètre du Conseil National des Universités (CNU) et des établissements d’enseignement supérieur, respectivement. Sur le plan technique, des applications comme Galaxie, ou Antarès, passages obligés pour les candidats, impliquent une forme de centralisation de ces différentes procédures, ce qui permet la collecte de multiples données sur les candidats. Leur analyse met en évidence certaines dynamiques à l’œuvre dans l’enseignement supérieur. Continue reading
Filed under Non classé
Quizz : de l’instruction par les pairs à la réingénierie
Dans ce billet, j’aimerais parler des exercices autocorrectifs (comme les QCM), et de l’intérêt qu’il peut y avoir à capitaliser sur les réponses des apprenants selon une logique de pédagogie active.
Filed under Non classé
Doctorat et styles d’écriture académique : une analyse de TEL / theses.fr
Je vous ai parlé d’analyse de métadonnées de theses.fr, planchons maintenant sur les manuscrits, disponibles par dizaines de milliers via l’archive TEL. Elles ont été téléchargées, converties d’un format pdf au format texte pour réaliser des analyses variées. Nous ne nous attardons pas ici sur des questions méthodologiques (gestion des erreurs au moment de la conversion du pdf en texte, etc.), pour proposer d’exploiter un échantillon de ces manuscrits (plusieurs milliers), et contraster entre disciplines la propension à utiliser des connecteurs logiques (donc, par conséquent, etc.), ainsi que le « je » ou le « nous », figures à l’appui.
Filed under Non classé