L’un des principaux intérêts que peut présenter la mise à disposition de traces d’activités (learning analytics en anglais) réside dans la capacité à prédire le comportement d’apprenants. On pourra par exemple utiliser les notes passées d’un étudiant pour prédire les résultats à un examen. Le machine learning, « apprentissage machine » en français, peut ainsi être utilisé pour prédire les résultats d’une épreuve sur la base d’une multitude de données, et pas simplement les notes : les learning analytics, à travers des indicateurs comme la fréquence de connexion à un ENT, peuvent aussi être mobilisés à cette fin, mais pas seulement …
Par exemple, imaginons que l’on ait les notes d’un certain nombre d’étudiants. Vous avez le nombre de connexions de ces étudiants grâce aux traces, vous savez à quelle fréquence ils sont connectés à une plateforme d’enseignement. Vous allez pouvoir lier les deux par un identifiant commun, et essayer de faire un certain nombre de prédictions. On peut même aller plus loin, et non seulement prendre une note moyenne, mais des séquences de notes et donner à « manger » ce type d’informations à des modèles pour faire des prédictions d’une performance croissante. On peut aller jusqu’à prédire, en fonction du pourcentage de vidéos d’un cours qui a été visionné, la note moyenne d’un apprenant pour un examen à venir.
Avec suffisamment de données, on peut entraîner des modèles, extrapoler ce type d’éléments dans des cas ou sur de nouveaux apprenants. Par exemple, on a une classe sur laquelle on arrive à avoir ces statistiques, le modèle va se nourrir de cette information et dire : untel a visionné 88% des ressources d’un cours, la note probable qu’il va avoir à l’examen, ça va être 17, avec une marge d’erreur, évidemment. Le lien entre performance académique et utilisation des ressources est un grand classique de l’analyse de traces. En général, il faut des données sur plusieurs centaines, voire sur plusieurs milliers d’étudiants. Et on pourra avoir comme variable d’entrée pour entraîner un modèle, le pourcentage de vidéos visionnées ou le nombre de connexions hebdomadaires à une plateforme, etc. Ce qui est intéressant, c’est qu’on peut aller dans les deux sens. On peut aller prédire des notes ou des performances à des examens à partir de comportements et de traces laissées ou, à l’inverse, en fonction des notes qu’on a de l’apprenant, prédire son comportement sur la plateforme.
Avec la popularisation du Machine Learning, ce type d’analyse prédictive est devenu récurrente dans les travaux de recherche. Par exemple, le Dropout, l’abandon à un cours, est souvent prédit à partir de différentes techniques de machine learning. Ce n’est pas cantonné au seul champ des MOOC puisque dans l’e-learning, il y avait déjà ce type de recherche dans les années 2000. À partir du moment où on a les données, on peut faire ce que l’on veut..
Il y a tout de même un certain nombre de limitations à ce type d’analyse. Sur le plan technique, à quel point les modèles qu’on mobilise sont robustes, c’est-à-dire à quel point, si l’on entraîne un modèle dans un contexte A, la formation dans une université en 2020, on sera capable d’extrapoler à un contexte B, qui peut être un autre établissement, ou une autre promotion du même établissement. Il n’est pas toujours simple de transférer une méthode. Sur le plan éthique, il peut y avoir aussi la question des prophéties autoréalisatrices. Il y a quelques années, j’avais entendu parler d’universités françaises qui, en médecine, utilisaient des modèles prédictifs pour déterminer quelles étaient les chances de succès à un concours de médecine. Imaginons qu’à partir de là, les universités décident qui se présente ou non, notamment pour soigner leurs statistiques de réussite. Et là, on peut avoir des prophéties autoréalisatrices, où, avant même d’avoir passé l’examen, on peut être empêché de le passer, pour ne pas risquer d’abîmer les statistiques d’un établissement. Si vous connaissez le film Minority Report, c’est un peu l’équivalent, mais dans l’enseignement supérieur.