Je vous ai parlé d’analyse de métadonnées de theses.fr, planchons maintenant sur les manuscrits, disponibles par dizaines de milliers via l’archive TEL. Elles ont été téléchargées, converties d’un format pdf au format texte pour réaliser des analyses variées. Nous ne nous attardons pas ici sur des questions méthodologiques (gestion des erreurs au moment de la conversion du pdf en texte, etc.), pour proposer d’exploiter un échantillon de ces manuscrits (plusieurs milliers), et contraster entre disciplines la propension à utiliser des connecteurs logiques (donc, par conséquent, etc.), ainsi que le « je » ou le « nous », figures à l’appui.
Pourquoi ne pas réaliser une analyse stylométrique de ces corpus scientifiques volumineux ? L’objectif pourrait être d’analyser l’influence d’un ensemble de facteurs sur les styles d’écriture scientifique d’étudiants et de chercheurs français. Une série d’indicateurs peuvent être utilisés pour décrire le style d’écriture d’un auteur ou d’une autrice: richesse du vocabulaire, emploi de connecteurs logiques et de marqueurs de discours relevant de l’argumentation, emploi de données chiffrées, de figures, etc. L’existence de divergences dans les manières de rédiger des productions scientifiques d’une discipline à l’autre constitue par exemple une évidence pour toute personne travaillant dans le milieu scientifique.
Voici quelques résultats issus des recherches d’étudiants que j’ai eu en stage. Premièrement, la proportion relative du « je » et du « nous » dans les thèses en français, qui permet de révéler des cultures disciplinaires dans les pratiques d’écriture. J’aurais tendance à dire qu’il est plus intéressant de « zoomer » pour voir des phénomènes intéressants, pour contraster des « sous-disciplines ». Il me semble par exemple qu’il y a des grandes différences au sein même des sciences humaines et sociales. Dans la figure qui suit, ce n’est pas tant le ratio je/nous qui est calculé, mais la surreprésentation (vers le jaune clair) ou la sous-représentation (vers le rouge foncé) de ces pronoms d’une discipline à l’autre. J’ai des doutes quant aux résultats obtenus pour le droit, où les manuscrits étaient plus rares. En revanche, je ne suis pas surpris de voir le « je » virtuellement absent de groupes comme le VII, qui représente, si l’on s’en fie à la liste des sections fournies en fin de billet, les sections universitaires relatives à la chimie. C’est dans les groupes I à IV que le ‘je’ est le plus utilisé (plus de jaune que de rouge). Les sections des sciences dites « dures » y rechignent. Les résultats sont en revanche plus durs à interpréter pour le « nous ». Vous pouvez le cas échéant laisser vos interprétations dans les commentaires.
Deuxièmement, les connecteurs logiques permettent également de contraster la situation entre disciplines académiques, qui ne mobilisent pas de la même manière les « marqueurs » des discours démonstratifs. Nous avons repris les connecteurs logiques tels que listés classiquement (ils sont disponibles ici), et avons poursuivi la démarche menée avec les pronoms je/nous. Sans grande surprise, c’est dans le droit et les sciences politiques qu’ils sont les plus représentés, et en pharmacie, informatique et mathématiques (?) qu’ils sont le moins représentés (est-ce parce que les mathématiques préfèrent utiliser des symboles dans leurs démonstrations, passant sous les radars de l’analyse textuelle ?).
Ces corpus offrent l’opportunité de développer des recherches ambitieuses, qui, si elles sont menées à terme, présentent un potentiel élevé de « découvertes ». En allant nettement plus loin que ce que nous avons fait ici (richesse et nature du vocabulaire utilisé, tournures de phrases, etc.), nous pourrions répondre aux questions suivantes : Comment les styles d’écriture se distinguent-ils entre disciplines scientifiques, et notamment entre disciplines voisines ? Comment ont-ils varié au fil des années ? On pourra par exemple chercher dans un premier temps à caractériser les différences entre des sciences humaines comme l’ethnologie et la sociologie, pour ensuite réaliser des analyses plus fines, et distinguer des courants au sein d’une discipline donnée.
On pourrait même chercher à établir un lien entre style d’écriture et collaborations de recherche. Il est possible de mettre au jour des réseaux de recherche à l’échelle de plusieurs centaines de milliers de personnes, et de mettre en œuvre des analyses de réseaux sociaux sur la base d’événements (participation un même jury de thèse, etc.) ou de textes (articles scientifiques, rapports) rassemblant plusieurs chercheurs. Ces analyses permettent en définitive de représenter des groupes de recherche plus ou moins homogènes. Toutes choses égales par ailleurs – avec en particulier la discipline d’appartenance, dans quelle mesure l’existence de liens au sein d’une communauté de recherche donnée peut-elle être corrélée à une homogénéité des styles au sein de ces groupes ? On pourra en particulier chercher à estimer l’influence des directeurs de thèse. Dans quelle mesure la réalisation d’une thèse avec un même directeur conduit-elle à faire se rapprocher les styles d’écriture au sein des recherches doctorales ? Une idée qui m’était venue, mais que je n’ai jamais pu concrétiser car assez complexe : contraster les styles d’encadrants (avec leurs HDR, pourquoi pas ?), et d’encadrés (les doctorant.e.s), pour identifier s’il existe des filiations. Sur la base des archives de DUMAS, on pourra poser également la question de l’influence des encadrants de mémoire de Master. Comment cette influence varie-t-elle selon les encadrants, leurs caractéristiques, et notamment leur discipline d’appartenance ?
Enfin, il existe plusieurs milliers individus pour lesquels nous disposons de monographies écrites de manière individuelle à différents stades de leur carrière scientifique (Mémoire et thèse, ou thèse et HDR par exemple). On pourrait ainsi mettre en place une analyse diachronique pour tenter de répondre à la question suivante : dans quelle mesure les styles d’écriture évoluent au fil du temps pour un individu donné ? Comment expliquer les différences de trajectoires dans les styles ?
Bref, que de travaux en perspective, que je ne mènerai sans doute jamais car je suis trop pris par d’autres sujets de recherche. Dommage.
PS : La liste des sections et des groupes correspondants est disponible à cette adresse, l’image floue donnée ci-après n’est là qu’à titre indicatif. Elle vous sera nécessaire pour interpréter les chiffres romains fournis dans les figures.