Choix de la langue du manuscrit du thèse: une apparente progression de l’anglais mais des contrastes frappants entre disciplines

Aujourd’hui, j’aimerais vous parler de la question de la langue d’écriture du manuscrit de thèse. La métadonnée est présente dans theses.fr, ce qui permet des comparaisons entre disciplines, si tant est que l’on puisse se fier au label « langue ». Dans le billet, quelques résultats non consolidés mais qui permettent déjà de se faire une idée des trajectoires en cours.

La question du choix de la langue d’écriture des manuscrits de thèse s’inscrit dans le contexte plus global de l’internationalisation de la recherche, le refus de l’anglais comme langue d’écriture pesant lourdement sur le nombre de citations d’un manuscrit. La portée de ces choix pour les doctorant.es en termes d’identité professionnelle ainsi que les difficultés consubstantielles à l’écriture de documents longs dans une langue qui n’est pas la sienne ont fait l’objet d’un certain nombre de recherches. Ces travaux restent néanmoins avant tout qualitatifs et s’intéressent davantage aux mécanismes sous-tendant ces choix qu’à démontrer empiriquement des évolutions à grande échelle. A ma connaissance, il manque dans la littérature des travaux basés sur une approche plus quantitative de ces questions. Les métadonnées relatives à la langue d’écriture du manuscrit permettent de combler cette lacune à condition que la langue annoncée dans les métadonnées corresponde effectivement à la langue du manuscrit. Toutes disciplines confondues, cela donne la figure ci-dessous.

 

Les langues d’écriture déclarées dans les métadonnées sont généralement le français, l’anglais et le bilinguisme anglais-français. Néanmoins, l’italien l’allemand et d’autres langues minoritaires sont rapportées pour les disciplines littéraires. Nous les avons rassemblées dans une catégorie « Autre Langue ».

Or la détection automatique de la langue d’écriture de manuscrits via des algorithmes dédiés a permis de mettre en doute la fiabilité de ces informations et souligne l’importance de mettre en place de méthodologies pour mesurer l’importance des erreurs. Je cite un extrait du rapport d’un de mes anciens étudiants en stage, Pierre Virgaux : « Pour contrôler la langue, nous avons appliqué une technique simple et particulièrement efficace dans le cas où les langues ne partagent pas les même stopwords ce qui est le cas pour le français et l’anglais. Nous avons récupéré les intersections entre l’ensemble des stopwords d’un fichier et les stopwords des différentes langues. Nous avons attribué la langue du fichier en regarder celle qui offrait l’intersection la plus grande. On regarde ensuite l’ensemble des fichiers et si 80% d’entre eux appartiennent à une langue la thèse est dite écrite dans cette langue. Si une page ne comporte pas de stopwords elle n’est pas prise en compte dans le calcul du pourcentage final. Enfin, on compare alors ces résultats avec ceux indiqués dans les metadonnées. »

Ce stratagème nous a permis de constater un certain nombre d’erreurs sur un échantillon de quelques milliers de manuscrits, et que nous rapportons dans le tableau suivant. Nous y faisons la distinction entre la langue telle que fournie dans les métadonnées (R), et la langue telle qu’elle est prédite par la technique mise en place par Pierre. On voit un écart conséquent.

Du coup, même si les graphes qui suivent sont intéressants pour observer des tendances globales, il faut les prendre avec des pincettes. Quelques figures intéressantes : un premier groupe de disciplines, plutôt sciences dures (Sciences de la Terre, Mathématiques, etc. – c’est un horrible mélange français / anglais désolé) où les thèses en anglais (vert) ou bilingues (bleu) sont devenues légion?

Et de l’autre côté, les sciences humaines, où seule l’économie-gestion fait vraiment un pas vers l’anglais. J’ai sorti les sciences de l’éduc des SHS classiques car c’est ma section et je vais des focales là-dessus en ce moment. En termes d’interprétation, j’ai envie de dire ‘my guess is as good as yours’, même si j’ai mes idées sur la question.

Pour conclure, je pense qu’il faudrait pour interpréter ces graphes étudier plus finement le lien qui unit stratégie de publication d’articles après le doctorat et choix de la langue d’écriture du manuscrit de thèse. Pour les jeunes docteur.e.s qui envisagent de poursuivre une carrière dans le milieu académique, la publication d’articles dans les revues les plus prestigieuses possible constitue un élément déterminant de leur trajectoire professionnelle. Or les revues scientifiques peuvent être sensibles au fait que les résultats présentés soient déjà publiés dans un manuscrit accessible à tous. Mais si les résultats sont présentés dans une autre langue, on peut supposer que les réticences des revues pourraient être moindres, du fait d’une limitation de la redondance entre les différents écrits. Si le ou la jeune docteur.e vise à travers ses articles des revues en anglais, alors le fait d’écrire une thèse dans une autre langue pourrait se révéler une stratégie visant à trouver un compromis entre une logique de publication d’articles issus de la thèse et la mise à disposition du manuscrit en ligne. Mais à ce stade, tout ceci n’est qu’intuition, qu’il faudrait confirmer par une revue bibliographique digne de ce nom.

Il est délicat de comprendre l’influence respective de différents paramètres – difficultés avec l’anglais, stratégie de publication préétablie, etc. – dans le choix des doctorant.es sans un travail d’enquête qui les inclurait, sur le modèle de ce qui a par exemple été fait quant à leur perception vis-à-vis de la diffusion en ligne de leur travail.  Or mener une telle enquête auprès des doctorant.es pour mieux démêler les déterminants de leur choix, permettrait de mieux comprendre les évolutions constatées en France au cours des dernières décennies, et de pouvoir prédire, dans une certaine mesure, la place que l’anglais est susceptible de prendre dans les recherches doctorales issues de différentes disciplines.

PS : J’ai fourni quelques figures que nous avons produites avec mes étudiant.es, mais elles sont floues, je sais. On est en train de tout refaire avec un étudiant d’une part, et cela va déboucher à moyen terme sur une publication d’autre part, du coup je réserve les belles figures à jour aux revues spécialisées, pour ne pas avoir de soucis. Désolé à nouveau

PPS : La liste des sections et des groupes correspondants est disponible à cette adresse, l’image floue donnée ci-après n’est là qu’à titre indicatif. Elle vous sera nécessaire pour interpréter les chiffres romains fournis dans la figure.

 

Leave a Comment

Filed under Non classé

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *