Aujourd’hui, j’aimerais parler un peu d’évaluation formative et d’évaluation diagnostique – sachant que l’évaluation diagnostique est souvent considérée comme une sous-catégorie de l’évaluation formative. Ma focale ici va se situer sur les exercices autocorrectifs du numérique (QCM, quiz, etc).
Pour mémoire, l’évaluation formative est généralement mobilisée au cours d’une séquence pédagogique, là où la diagnostique intervient plutôt en début de séquence. Il s’agit dans le cas de la formative de se servir de l’évaluation comme d’un vecteur d’apprentissage. Ainsi, une interrogation non notée visant à entraîner les apprenants, pour les forcer à réviser un cours, relève de ce type d’approche. Une séquence d’exercices auto correctifs ayant une fonction d’entraînement – comme on en trouve dans l’application d’apprentissage de langues Duolingo – rentre aussi dans cette configuration. On se situe aux antipodes de la logique de la note-sanction: il s’agit davantage d’inclure l’évaluation dans une logique de progression d’apprentissage.
Scientifiquement parlant, ce qui se cache derrière, c’est l’effet test (Roediger est une référence du domaine si vous voulez approfondir). A force de se tester, on favorise la mémorisation de l’information, selon une approche behavioriste qui a débouché notamment sur la répétition espacée. C’est une technologie typiquement numérique, correspondant à une logique d’évaluation formative, et visant à ancrer des automatismes dans la mémoire à long terme.
Toujours dans les technologies digitales, vous avez les arbres de prérequis qui lient les différentes unités d’enseignement (associées à des exercices). L’avantage du numérique consiste à se placer dans la logique dite du « Mastery learning ». On ne peut passer à une étape donnée qu’une fois maîtrisé les prérequis de la précédente. Au risque d’enfoncer une porte ouverte, en organisant intelligemment des QCM, en les classant en thématiques, l’on peut constituer des parcours plus ou moins personnalisés, qui permettent de focaliser un apprenant sur un élément donné, jusqu’à ce qu’il ait acquis le niveau pour passer au suivant. Pour un humain, cela peut être une tâche insurmontable que de personnaliser des séquences d’exercices auto correctifs pour des dizaines, voire des centaines d’apprenants. Là encore, avantage au numérique. Par contraste, l’évaluation diagnostique c’est quelque chose que l’on fait traditionnellement au début d’un programme, au début d’un cours, pour identifier le niveau de l’apprenant, et faire des groupes de niveaux par exemple. Quelque part, c’est une question de temporalité qui déplace qui distingue l’évaluation diagnostique de la formative.
Quelques perspectives : première innovation, penser les QCM non plus comme une évaluation automatique du niveau, mais aussi dans une optique d’aide au diagnostic humain. En d’autres termes, l’on ne va pas dire « l’apprenant à tel ou tel niveau ». On va donner les QCM, puis un tableau de bord aux formateurs, et c’est l’humain qui détient le diagnostic final. Dès lors, il faut penser des tableaux de bord pour pouvoir faciliter ce diagnostic. On peut ainsi se diriger vers une évaluation semi-automatique des lacunes. Imaginons que l’on sache pour un domaine donné quelles sont les erreurs-type, que l’on ait fait une banque d’erreurs, un catalogue d’erreurs-type en quelque sorte. L’on peut aller plus loin sur l’évaluation de l’apprenant que simplement dire il a telle ou telle note. L’on peut dire, il y a tel ou tel type d’erreur qui apparaît de manière récurrente. L’on sort alors d’une logique de l’erreur comme écart à la référence, écart à l’expertise, pour la percevoir comme un fait, le symptôme d’un obstacle qui n’a pas été franchi. Pour identifier des erreurs-types, l’on va créer dans les QCM des distracteurs de type ‘pièges’, qui visent à identifier des problèmes, de sorte à orienter l’apprenant vers des distracteurs qui vont révéler sa mauvaise conception. Il y a beaucoup de travail qui a été fait dans ce champ en intelligence artificielle. C’est assez peu industrialisé, ou scolarisé, comme technologie, mais c’est une approche assez intéressante.
Autre progrès de l’IA, c’est tout ce qui est génération automatique d’exercices auto correctifs. Avec un peu de technicité, l’on peut produire des centaines, voire des milliers ou des dizaines de milliers d’exercices à faible coût. Une fois que l’on a identifié des bonnes stratégies de conception. Cela relève plutôt de de la recherche et développement à ce stage, mais à surveiller, puisque c’est sûrement l’avenir en termes de conception et d’utilisation des exercices auto correctifs, entre autres pour l’évaluation formative et diagnostique.