Evaluation automatique de copies: de e-rater à chatGPT

Dans ce billet, nous allons parler évaluation automatique de copies, un domaine relativement ancien, malgré les apparences, et remis à l’ordre du jour par les MOOC puis ChatGPT. En préparant un jour une émission à France Info sur la question (disponible à cette adresse), j’ai déterré un article du New York Times de la fin des années 90 : « Essay-grading software offers professors a break ». Même dans le débat public, la problématique a déjà plus de 20 ans. Aux racines de ces technologies, on trouve le traitement automatique  du langage naturel, le TALN, ou en anglais, le natural language processing (NLP). Je vous propose quelques approfondissements …

Comment est ce que cela se passe concrètement? L’IA, en substance, copie le style d’un évaluateur humain. Un corpus d’entraînement sert de base : on va faire annoter des centaines de copies avec un humain. Ou l’algorithme lit de nombreux textes pour se faire une bonne idée de ce qui constitue un bon travail, bien structuré. Une fois l’algorithme entrainé, on peut le faire passer à l’échelle. Au regard de l’investissement requis en termes d’entraînement, ce n’est pas tous les jours que l’on met en place ce type de technique. Mais une fois entraîné, l’algorithme peut « corriger » des milliers de copies en quelques minutes. Incroyable non ? Les MOOC ont redonné une seconde jeunesse à l’évaluation automatique de copies. Pourquoi? Parce que dans un tel cours en ligne, il n’y a qu’un instructeur pour des centaines, voire parfois des milliers de personnes. Evidemment, un instructeur ne va pas s’intéresser à la copie de chaque personne prise individuellement, dans la mesure où l’inscription est gratuite. C’est la raison pour laquelle il y a eu des expérimentations dans le champ des MOOC.

Dans l’industrie, j’ai relevé deux principaux acteurs : PEG Rating et ETS, la fameuse entreprise d’évaluation (avec le e-rater, qui en fait a acheté des brevets dans les années 80-90,  il me semble). Ces technologies s’appliquent aussi bien à des questions courtes – dix lignes à écrire – qu’à un essai long de dix pages.

Le problème qu’on a de manière récurrente avec ces approches, ce sont les critères d’évaluation. Qu’est ce qu’on regarde, au juste, dans une copie ? Ce que l’on peut automatiser de manière assez simple, c’est la correction de la grammaire, le respect des règles d’orthographe ou des règles de ponctuation. Là, vous allez me dire, rien de nouveau sous le soleil. Dès que vous utilisez un traitement de texte type Word, vous allez voir vos petits manquements soulignés. Cela ne choque personne qu’on puisse techniquement, à partir des fautes d’orthographe automatiquement détectées, faire un retour sur une copie. Mais ça, c’est un retour assez superficiel. On peut aller plus loin avec le TALN : regarder la qualité de la structuration de la copie, les transitions entre les phrases, la transition entre idées, la richesse du vocabulaire, la diversité des structures de phrases. On peut même évaluer jusqu’à des éléments comme l’adéquation du contenu avec des consignes, voire regarder la qualité des arguments mobilisés (dans certaines limites tout de même).

Pour les limites, lisez Yung et Dole (2002), article qui est déjà ancien mais toujours pertinent quand l’on s’intéresse aux critiques contre ce type d’approche : on s’appuie souvent sur des critères trop superficiels pour évaluer en profondeur. On risque de devenir insensible à la subtilité du contenu, des réponses, à la créativité. Deuxième élément, la vulnérabilité au « détournement ». A partir du moment où des individus ont compris comment fonctionnait  l’algorithme de notation, ils peuvent le « hacker », et adapter leur façon d’écrire pour accroître leur note, parfois au détriment  du contenu et de la qualité de l’argumentation.

Pour conclure, il y a énormément de progrès dans le TALN avec le deep learning.  Cela bouge à une vitesse extrêmement rapide et du coup, il faut suivre ce qui est en train de se passer en évaluation automatique de copies et deep learning. Vous en voulez un aperçu ? Mettez une réponse longue ou un petit essai de 500 mots dans les prompts de chatGPT, et demandez les problèmes avec le texte fourni. Vous serez surpris (si vous ne connaissez pas chatGPT, il est temps de vous y mettre – certains voient dans son ouverture au grand public en novembre dernier un événement historique comparable au lancement de Google). Au passage, avec un ordinateur assez puissant, l’on peut d’ores et déjà entraîner GPT ou tout autre LLM (Large Language Model) à réaliser précisément des tâches de correction de copies avec davantage d’efficacité que le chatGPT que tout un chacun utilise en ce moment (mais ce n’est pas à la portée de tout à chacun de faire ce travail). L’on va observer des percées dans les années à venir, c’est certain. Je pense aussi que les concepteurs des examens passés par des milliers de personnes vont finir par accorder beaucoup d’importance à ces technologies. La France sera-t-elle à la traîne sur ces sujets ? L’avenir nous le dira.

Leave a Comment

Filed under Non classé

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *