Les différences dans la manière d’aborder la rédaction d’un manuscrit de thèse ont fait l’objet d’un certain nombre de travaux de recherche, fondés tantôt sur des méthodes qualitatives, tantôt sur des méthodes quantitatives. Je ne vais pas lister ici des travaux, mais vous pouvez feuilleter des revues comme le Journal of English for Academic Purposes. Comprendre les différences entre disciplines permettrait notamment de mieux identifier les points sur lesquels prioriser la formation doctorale et l’encadrement des thèses. Une telle démarche, par la personnalisation qu’elle implique, permettrait de contribuer à améliorer les conditions de déroulement des thèses en permettant aux doctorant.es de mieux comprendre les contraintes d’écriture de leurs disciplines.
S’agissant de l’appréhension des différences entre manuscrits de thèse, nous pouvons distinguer au moins deux étapes. La première consiste à détecter des régularités empiriques à des échelles aussi vastes que possible, notamment entre disciplines (mais je recommanderais aussi d’analyser les évolutions dans le temps). C’est un peu ce que j’ai commencé à faire dans le billet du mois dernier, qui s’intitulait « styles d’écriture dans les thèses ». La seconde consiste à identifier les mécanismes à l’origine de différences entre disciplines. Selon l’aspect du manuscrit étudié – utilisation des figures, nombre de pages, différences dans l’utilisation de la bibliographie – différents travaux d’ambition variable ont été réalisés dans cette optique, mais je vous épargne aujourd’hui les trouvailles de mes étudiants.
Ils ont travaillé sur des dizaines de milliers manuscrits issus de l’archive de manuscrits de thèses Thèse En Ligne (TEL). Que d’obstacles néanmoins ont-ils rencontré. En premier lieu, il fallait être capable de convertir un fichier PDF en fichier texte, puis décomposer le manuscrit ainsi extrait en ses différentes composantes – table des matières, bibliographie, annexes, etc. Cette étape est nécessaire pour effectuer un certain nombre de décomptes, dont le nombre de pages comprenant effectivement du contenu scientifique rédigé. Par exemple, on peut vouloir écarter du décompte de la taille d’une thèse les pages d’annexes et de bibliographie. Ensuite l’automatisation du processus constitue une condition sine qua none de toute étude à grande échelle. Elle implique de mettre en place un certain nombre de tests, dont la fonction est de s’assurer que les programmes mis en place pour traiter à grande échelle les corpus ne débouchent pas sur des résultats aberrants. Je travaille actuellement à la rédaction d’un rapport qui reprend la démarche d’étudiants de CY Tech que j’avais eus en stage et qui ont passé quelques mois sur la question.
La mise en place de cette archive ouverte au public ouvre la voie à des recherches ambitieuses sur le contenu des manuscrits. La présence de métadonnées riches et diversifiées – date de soutenance, discipline d’appartenance, etc. – permet notamment de contraster les pratiques d’écriture d’une discipline à l’autre, et, à terme, autorisera notamment l’analyse des évolutions temporelles de ces pratiques, pour répondre à ce type de question : Comment la taille d’un manuscrit, le nombre de références mobilisées, et le nombre de figures créées évoluent-elles d’une discipline à l’autre ? Il y a des publications écrites dans cet esprit, comme Master’s and Doctoral Thesis Citations : Analysis and Trends of a Longitudinal Study (Kushkowski, Parsons & Wiese, 2003), pour ne citer que celui-ci.
Beaucoup de travail en perspective en tout cas. J’apprécie particulièrement de travailler sur le doctorat, car cela n’a pas été une période facile pour moi (vous allez me dire, ce n’est une période facile pour personne), et je trouve qu’il y a un caractère thérapeutique à se pencher sur des bases de données qui permettent de mieux appréhender comment se déroule cette phase particulièrement éprouvante de la vie académique.
PS : je vous ai habitué à toujours fournir une figure dans mes articles sur theses.fr et j’ai aujourd’hui manqué à mon devoir. Pour les addicts à la data viz, voici une petite analyse issue de theses.fr à laquelle je ne voulais pas dédier un billet complet. Du coup cela tombe comme un cheveu sur la soupe mais tant pis : l’évolution de la date de mise en ligne des thèses sur le site theses.fr (par les documentalistes donc, a priori). Complètement décorrélé des dates de soutenance, dont le pic est en décembre. Je voulais aussi faire une analyse du délai soutenance – mise en ligne et contraster la situation selon les établissements, mais le côté « classement » ne plairait pas à tout le monde.