Des thèses plus ou moins longues selon les disciplines académiques

Le site theses.fr recense les métadonnées de thèses réalisées en France pour plus d’un demi-million de jeunes docteur.es ayant soutenu entre 1985 et nos jours ; il prend le relais de la base SUDOC, qui a été analysée dans le cadre de travaux de sociologie (allez voir : Cibois, 2008; Godechot & Louvet, 2010; Louvet, 2008). Il fournit des hyperliens pour les manuscrits qui ont été mis en ligne dans l’archive TEL. En 2020, au moment de la réalisation des analyses rapportées dans le présent document, plus de 100 000 documents PDF avaient été recensés sur TEL, toutes disciplines confondues. Le téléchargement et la conversion en documents .txt exploitables par des algorithmes a été réalisé pour un peu plus de 30.000 documents. Une partie du corpus potentiel a été mise de côté car nous nous sommes concentrés sur les textes en français et parce qu’en cas d’erreurs de lecture trop fréquentes, direction la poubelle. Aujourd’hui, je vous parle un peu des techniques mobilisées, pour déboucher sur un résultat qui va résonner comme une évidence pour beaucoup d’entre vous : en termes de nombre de pages pour une thèse, les différences entre disciplines académiques sont impressionnantes : le droit est en pole position, et les disciplines de type informatique / mathématiques sont les plus « légères » (littéralement, si vous l’imprimez).

Il a été possible de constituer une base de données d’identifiants de documents en scrapant le site TEL dans son intégralité. Pour obtenir l’URL correspondante, l’identifiant est concaténé avec l’URL du site. Par exemple, halshs-00005903v1 devient https://tel.archives-ouvertes.fr/halshs-00005903v1/document; l’intégralité des adresses ainsi créées est stockée dans une base qu’il suffit de mobiliser pour télécharger, avec Python, de manière séquentielle, l’ensemble des manuscrits correspondants. Pour pouvoir exploiter les informations que contiennent les manuscrits, il a été nécessaire de transformer les fichiers PDF en format texte, bien plus légers et exploitables. Certes, cela conduit à sacrifier un certain nombre d’informations, et notamment celles liées aux graphiques. La raison pour laquelle nous avons opté pour un stockage au format texte tient notamment à la question de l’importante quantité d’espace mémoire, plusieurs téraoctets, qu’occupent les documents au format PDF.

Il existe deux techniques principales pour convertir des PDF en TXT : la première consiste à convertir l’ensemble des documents en format image pour pouvoir appliquer un modèle d’ Optical Character Recognition (OCR), la seconde repose sur l’encodage du fichier, et vise à en faire ressortir le texte. La librairie tesseract développée initialement par Hewlett Packard puis reprise par Google utilise un OCR qui donne des résultats largement exploitables sur tout type de PDF, y compris ceux qui sont issus d’un scannage. Cependant, sur les documents à l’origine de notre corpus, elle s’est avérée particulièrement chronophage, et cette solution a été en définitive écartée. La librairie PDFBox est un produit Apache utilisé pour la constitution du corpus ACL ; elle fonctionne aussi sur la base de l’OCR. Il existe une version sous Python mais elle n’est pas à jour et ne permet pas d’obtenir des résultats probants.

La librairie pdfplumber basée sur pdfminer[1] fonctionne sur la base de la structure du PDF. L’analyse de la construction du fichier PDF permet de faire ressortir plusieurs éléments comme le texte ou les tableaux. Du fait de la rapidité du traitement, c’est l’option que nous avons retenue, même si elle s’avère peu efficace pour les thèses scannées dans la mesure où elle considère chacune des pages comme une seule image et n’en extrait donc aucun texte. Du fait de cette lacune, nous avons laissé de côté les manuscrits datant des années 1980 et 1990, souvent écrits à la machine, au moins jusqu’au début des années 1990. Cette période représentait 9% des documents disponibles sur TEL au moment de l’extraction. Ce sacrifice d’une partie du corpus potentiel a permis de s’affranchir du travail d’identification et de traitement des documents tapées à la machine. A partir des années 2000, la proportion de thèses tapées à la machine est a priori négligeable. Grâce à la technicité de mes étudiants, un PDF de plusieurs dizaines de Mo est converti en moins d’une minute, ce qui a rendu le traitement des dizaines de milliers de manuscrits de TEL réalisable en quatre semaines. Et l’on peut tout de suite voir le nombre de pages associés. Ni une ni deux, je compare le nombre de pages moyen, d’une discipline à l’autre. Je ne pense pas qu’il y ait matière à épiloguer longtemps, du coup je le sors des figures « publiables » pour vous la donner en avant première, avec le mode d’emploi pour décrypter les différentes sections, bien évidemment. No comment, on retrouve bien les stéréotypes du monde académiques.

PS : qu’est-ce que c’est agréable de travailler avec des open data, et non plus avec des enquêtes (le reviewer qui demande toujours si la validité de l’instrument a bien été démontrée), ou sur des learning analytics (où l’on se fait massacrer sur la gestion des dimensions éthiques du travail réalisé si on n’est pas passé devant dix-huit comités d’éthique). Bref, tout ceci est un petit écart à mes thématiques de recherche habituelles, mais c’est tellement agréable. Je vais en revanche devoir m’associer à des collègues chercheurs pour publier, car je suis loin de ma zone de confort. A bon entendeur, salut.

PPS : La liste des sections et des groupes correspondants est disponible à cette adresse, l’image floue donnée ci-après n’est là qu’à titre indicatif. Elle vous sera nécessaire pour interpréter les chiffres romains fournis dans les figures.

[1] https://pypi.org/project/pdfminer/

[2] https://docs.python.org/3/library/multiprocessing.html

Leave a Comment

Filed under Non classé

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *