A partir des manuscrits, il est possible d’extraire des métriques comme le nombre de figures réalisées ou le nombre de références mobilisées dans la section bibliographie, et contraster ces métriques d’une discipline à l’autre. On peut ainsi à la nature des références citées : livres, chapitres d’ouvrages, articles dans des revues. Une librairie permet en effet d’inférer quant à la nature de la publication réalisée, et donc de comparer les pratiques de citation d’une discipline à l’autre. Une autre permet de déterminer si la citation en question est en anglais ou en français. On va ainsi pouvoir observer des différences culturelles entre disciplines. Tout le monde sait que les sciences humaines et sociales, et autres, citent davantage en français, et que les sciences dites « dures » citent surtout des références en anglais. Je vais enfoncer des portes ouvertes. Mais avoir quelques chiffres à la clé pour étayer ces impressions / intuitions, ça fait toujours plaisir. D’où le billet d’aujourd’hui.
« Le téléchargement massif des manuscrits depuis TEL qui recense l’ensemble des manuscrits ainsi que leur identifiant. Les documents de plus de 45 Mo représentant XX% des thèses sont écartés afin d’éviter un téléchargement plus long que 45 secondes. On télécharge ainsi l’ensemble des documents au format pdf. Puis, pour pouvoir exploiter les informations que contiennent les manuscrits, il est nécessaire de transformer les fichiers PDF en format texte, bien plus légers et exploitables. Les images des documents permettraient entre autres de quantifier dans quelle mesure le choix de leur type (graphique, carte, portrait) est lié au domaine. Cependant, nous avons décidé de ne pas les garder pour deux raisons principales. La première concerne le stockage des images qui demande beaucoup d’espace mémoire à cause du grand nombre de documents. La seconde concerne le prétraitement lié à ces mêmes images. En effet, nous avons certes les images mais pas les légendes associées, il aurait donc fallu chercher à l’intérieur du texte les titres de figure correspondant ce qui est coûteux en temps de programmation comme en temps de calcul. C’est pourquoi nous avons laissé l’étude des images de côté dans cette étude. Il existe deux techniques principales pour convertir des pdf en txt : la première consiste à convertir l’ensemble des documents en format image pour pouvoir appliquer un modèle d’ Optical Character Recognition (OCR), la seconde travaille sur l’encodage du fichier pour en faire ressortir le texte. »
On remarque de façon claire que les domaines V représentant les mathématiques et l’informatique et VIII représentant les différents domaines de la physique sortent du lot en provoquant une proportion d’erreurs beaucoup plus importante que les autres domaines. La fréquence de pages de formules et de démonstrations amène des erreurs de lecture. En effet, la librairie pdfplumber ne permet que partiellement la traduction des formules mathématiques en format texte. Cependant, le corpus de textes dans le domaine V étant composé de 18382 manuscrits il nous reste assez de documents pour avec un ensemble représentatif du domaine. Finalement, ces opérations ont permis de récupérer XXXX thèses des 100 046 initiales.
Bon, vous voyez un peu la démarche dans laquelle on s’est inscrits avec mes étudiants. Un peu de travail de nettoyage, c’est certain, mais cela paie. Et maintenant, classifions les références par langue. Evidemment, on cite en français dans les groupes I à IV (ainsi que la douze, qui regroupe les sections « nouvelles » comme les sciences de l’éducation – la 70, l’info-com, etc.). Les sciences dites « dures » citent surtout des références en anglais. Ce n’est pas une surprise. Et voilà comment à partir d’analyses relativement simples on peut mettre en graphiques des cultures disciplinaires au sein de l’enseignement supérieur (différences culturelles que tout un chacun connait, soit dit en passant, je n’ai pas inventé la poudre ici).
Au passage, vous rendez-vous compte de ce que peut vous apporter le recrutement de stagiaires en Data Science pour faire toutes sortes d’analyses ? Ils sont « agnostiques » en ce sens qu’ils peuvent traiter des bases de données sur tous types de sujets. Il faut les mobiliser davantage qu’on ne le fait aujourd’hui pour avoir à peu de frais des analystes certes débutants, mais qui bien encadrés produisent potentiellement beaucoup. Et puis comme les entreprises généralement n’en veulent pas au niveau licence/M1 car les stages sont trop courts et qu’ils manquent d’expérience, ils ont toute leur place à l’université à condition de savoir un peu coder.
PS : On constate par ailleurs que les articles de conférences sont surreprésentés dans les thèses en informatique, tandis que pour les thèses en sciences humaines et sociales, ce phénomène est visible surtout pour les ouvrages et chapitres d’ouvrage. Je ferai un billet là-dessus un jour.
PPS : La liste des sections et des groupes correspondants est disponible à cette adresse, l’image floue donnée ci-après n’est là qu’à titre indicatif. Elle vous sera nécessaire pour interpréter les chiffres romains fournis dans les figures.