Les tests adaptatifs ont fleuri un peu partout. L’idée est que les questions proposées aux apprenants / aux candidats sont choisis, au fil de l’eau en fonction de leurs réponses, et non en fonction d’une séquence prédéterminée. J’en ai parlé abondamment dans les billets de novembre. Beaucoup de grands tests de positionnement (GMAT, etc.) souvent demandés pour s’inscrire à un Master, par exemple, fonctionnent selon ce principe.
Dans un test adaptatif – computerized adaptive testing en anglais – l’apprenant navigue au sein d’une banque d’exercices, exercices dont le niveau de difficulté s’adapte aux réponses de l’apprenant. Dans ses versions les plus simples, il peut s’agir d’un système à embranchement analogue à celui que nous avons présenté dans le billet sur l’enseignement programmé, mais avec une focale sur la réponse à des items, autre terme utilisé pour désigner les exercices dans ce contexte.
Dans un LMS comme celui de Datacamp, plateforme qui propose un catalogue de cours Data Science et que j’ai beaucoup utilisée pour remplacer mes cours magistraux (cf. mes billets de 2020), ce principe est mis en œuvre : des sessions d’exercices adaptatives sont ainsi proposées aux utilisateurs, sur des créneaux courts, pour évaluer leur niveau et pour qu’ils puissent se positionner par rapport aux autres utilisateurs. A la fin, on propose généralement des recommandations de cours à suivre en fonction des réponses de l’apprenant.
Dans une approche du test adaptatif fondée sur des embranchements (et relevant de l’enseignement programmé), il n’y a pas besoin de conserver d’information sur le niveau de l’apprenant. En d’autres termes, il n’y a pas de profil apprenant. Néanmoins, depuis environ deux décennies, une autre approche des tests adaptatifs issue de la psychométrie prend le pas dans de nombreux LMS : la théorie de la réponse aux items (TRI).
La startup Knewton, qui fut un temps le fleuron américain de l’IA éducative, reposait apparemment sur ce principe. La plateforme française PIX (certification de compétences numériques) est fondée sur la TRI également. Le niveau de l’apprenant est calculé en temps réel sur la base d’items calibrés, dont la difficulté estimée est recalculée de manière régulière, sur la base des réponses des apprenants. Néanmoins, appliquer la TRI soulève un certain nombre d’obstacles. Vu que l’on commence à l’aveugle sur la difficulté des exercices, il est complexe de positionner l’apprenant, tout du moins dans les étapes initiales du développement d’un test.
Pour contourner le fait qu’au début l’on dispose peu d’informations sur les items, problème connu sous la désignation du démarrage à froid, on commence parfois par une première estimation à la main du niveau de difficulté des exercices, pour ensuite progressivement affiner ces estimations par des méthodes statistiques (la calibration). Dans un cas comme dans l’autre, il suffit pour le formateur / l’enseignant de classifier les exercices qu’il fournit selon leur niveau de difficulté pour pouvoir mettre en place ce type de pédagogie. Ainsi, les exercices de PIX ont été dans un premier temps rangés selon un niveau de difficulté compris entre 1 et 10 avant que la calibration ne soit effectuée avec des spécialistes de la TRI (psychométriciens, statisticiens, ou autres). Après de multiples passages d’apprenants, le niveau de l’exercice sera quelque chose comme 4.56, une statistique calculée, et non plus 4 ou 5, un choix fait par un être humain. On pourra mesurer la capacité de l’apprenant sur une échelle similaire, et apparier apprenants et exercices en fonction de ces valeurs chiffrés (de sorte à obtenir environ 60% de succès, choix généralement fait dans l’industrie qui relève d’un compromis entre la frustration de l’apprenant, et la nécessité de collecter le plus d’informations possibles sur son niveau).
Dans la mesure où les tests adaptatifs sont amenés à se généraliser dans les années qui viennent (concours de médecine, etc.), il est bon de rester attentif à ce sujet passionnant auquel je consacrerai peut être un ou deux autres billets en 2022.