Théorie de la réponse aux items et IA en éducation : quelques rappels

J’ai parlé l’année dernière de quelques principes de base de la théorie de la réponse aux items, en restant un peu superficiel. J’aimerais approfondir la question. Pourquoi est ce qu’on fait de la théorie de la réponse aux items ? Pour mettre en place une forme d’apprentissage adaptatif : l’on veut une séquence d’exercices qui s’adapte automatiquement au niveau de l’apprenant. Entrons dans les détails…

Qu’est ce que c’est qu’on désigne par item dans la théorie de la réponse aux items (TRI, ou IRT en anglais) ? C’est typiquement un QCM (Questionnaire à choix multiples, ou à choix unique).  Ce sont des items dont la séquence peut être adaptée via la théorie. Si l’on a une réponse juste à une question, l’on va sur une question plus difficile. Et si l’on donne une réponse fausse à une première question, l’on va sur des questions plus faciles. Pas de grosse difficulté conceptuelle à ce stade. Ainsi, l’on évalue de manière dynamique le niveau de l’apprenant, mais cela suppose de bien connaître le niveau de difficulté de l’exercice pour faire un bon matching.

Le niveau de difficulté des exercices peut être estimé en première approche par un humain expert qui connait son sujet. L’intérêt de la théorie consiste à faire évoluer cette évaluation : quand l’on a assez de données sur un exercice donné, eh bien, l’on peut essayer d’utiliser ces informations pour réévaluer le niveau de difficulté de l’exercice, indépendamment de ce qu’a dit l’expert en première instance.

La TRI monte dans l’industrie de la edtech. Vous la verrez dans Duolingo notamment. On la mobilise dans des plateformes comme Concerto (Cambridge avait mis ça en place dans les années 2010).  La plateforme PIX, qui est assez connue en France pour la certification numérique, a aussi la possibilité de mettre en place de la TRI, et son code open source est utilisé dans le projet de FLE écri+. Lalilo, Kalilo, pour l’apprentissage de la lecture, et j’en passe. Cela prend racine dans l’industrie en ce moment, alors que cela a débuté avec des travaux de psychométrie dès les années 1950, avec le modèle de Rasch.

Au-delà du niveau de difficulté, l’on peut caractériser un exercice par un paramètre de discrimination.  Est-ce que l’item permet de bien distinguer les bons apprenants, des moins bons? Enfin des paramètres comme le guess (deviner) ou le slip (glisser). Souvent, l’on peut avoir la réponse juste sans avoir la connaissance associée.  Par exemple, si je vous pose une question de cette forme là,  est ce que Harare est la capitale du Zimbabwe?  Même en cliquant au hasard, on a 50 de chances d’y arriver.  D’où un paramètre de guess élevé.

Le slip, c’est l’inverse : on a la connaissance, mais on va quand même se tromper.  Typiquement, un exercice mobilisant des équations avec applications numériques. Vous avez de bonnes chances de faire une erreur d’inattention  à un moment dans votre calcul de dix lignes  et du coup de donner une mauvaise réponse. Toute cette caractérisation des exercices peut être faite aussi en partie automatiquement. Notez néanmoins que plus on va vers de la complexité, plus on va vouloir estimer des paramètres de pseudo-chance comme le slip  ou le guess, plus on va avoir des difficultés d’estimation des paramètres.  Il faut avoir les moyens de ses ambitions. Dans la pratique, c’est souvent des choses qu’on ne fait pas.  On souvent, on s’arrête aux paramètres de discrimination,  mais il faut savoir que ces paramètres de pseudo -chance existent.

Tout ceci se calcule sur la base des données de réponses, environ une fois par an, typiquement. Pourquoi? Parce que, en fin de compte, ce niveau de difficulté, ces paramètres, c’est l’étalon qui nous permet de situer les apprenants les uns par rapport aux autres. Ainsi, si les repères que l’on utilise pour évaluer les apprenants entre eux bougent en permanence, on a un problème.

Pour conclure, comment utilise-t-on ces équations de sorte à rendre l’expérience d’apprentissage plus intéressante?  Ce qu’on fait souvent, c’est un des classiques, c’est de choisir les exercices pour que la probabilité estimée de succès soit de 60 % environ. Pourquoi 60 %? C’est un compromis entre le fait qu’on veut avoir le maximum d’informations sur l’apprenant, et le fait de ne pas le décourager. Si l’on se situe à 50 % de réussite, on peut avoir une bonne estimation du niveau de l’apprenant en moins de questions, toutes choses égales par ailleurs.

Pourquoi est ce qu’on met 60 % et non 50% alors ?  Parce que l’on s’est rendu compte qu’il fallait  quand même que les gens réussissent plus souvent qu’ils ne ratent, si l’on veut qu’ils restent engagés dans la tâche. Donc 60 %, c’est un compromis entre l’intérêt sur le plan mathématique (du temps d’estimation du niveau de l’apprenant), qu’on a a diminué le nombre de questions pour connaître le niveau de quelqu’un, et le fait de maintenir la personne engagée en la mettant pas trop souvent en difficulté. Aussi simple que ça. Et c’est cela qui détermine quel exercice, ou quel groupe d’exercices, vous sera proposé par l’algorithme.

Notez pour conclure un paradoxe. Quelque part, on a besoin de connaître le niveau des apprenants pour pouvoir estimer si les exercices sont durs ou non. Et on a besoin du niveau des exercices pour estimer si les apprenants sont forts ou non.  Donc on a une sorte de double inconnues qui fait que il faut un certain temps  pour que la machine se mette en place et pour qu’on soit capable d’estimer les paramètres. Je vous renvoie aux algorithmes d’expectation-maximization pour mieux comprendre comment on se sort de cette situation.

Il y a un deuxième problème aussi, c’est que la mesure de difficulté des exercices est relative aux capacités des apprenants.  C’est à dire que si vous calibrez vos exercices avec des majors de promos des classes préparatoires, et bien évidemment vous allez avoir une vision biaisée de la difficulté de ces derniers. Comme quoi, l’IRT, un des fondements de « l’IA » en éducation (ou du moins sur le plan d’exerciseurs), cela a beau être simple, cela demande un peu de technicité.

Leave a Comment

Filed under Non classé

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *