Savez-vous que lorsque vous suivez un MOOC depuis votre ordinateur, la quasi-totalité de ce que vous faites est enregistré ? Les ressources que vous consultez, les vidéos que vous visionnez, les quizz auxquels vous répondez, les messages que vous postez ? Bien sûr, l’objectif n’est pas d’obtenir des données sur votre vie privée ; l’objectif est de fournir aux enseignants, aux chercheurs ou aux décideurs des informations sur lesquelles baser leurs décisions par la suite. Je vous propose d’aborder rapidement la question des données à travers l’une des nouvelles vidéos du MOOCAZ.
Tout d’abord, ces données peuvent servir à piloter le MOOC. On peut les représenter sous la forme d’indicateurs, dans des tableaux de bord. Cependant, ces données sont en général analysées finement après le cours, pour comprendre ce qui a marché et qui n’a pas marché, et pour pouvoir ensuite faire évoluer le MOOC en fonction. L’un des principaux avantages des MOOC, c’est qu’ils fournissent des quantités de données très importantes, ce qui permet d’avoir facilement des résultats statistiquement significatifs, et de détecter des phénomènes que l’on ne pourrait peut-être pas voir avec de petits groupes d’étudiants.Ces données sont en général appelées ‘traces’, logs, ou encore learning analytics en anglais. Chaque action est rangée dans une catégorie, par exemple regarder une vidéo, répondre à quiz, consulter une ressource ou poster un message dans un forum. A chaque fois, on enregistre l’identifiant unique du participant, et une date et un horaire exact, on parle de timestamp.
Un MOOC avec beaucoup d’inscrits peut générer à lui seul des centaines de milliers, voir des millions de données de clics, données qui sont ensuite stockées dans le cloud, ou dans des serveurs dédiés. Mais a-t-on réellement besoin de données aussi complexes pour comprendre la dynamique d’un MOOC? Si c’est simplement pour connaître le nombre de personnes qui ont terminé le cours, il n’y a bien sûr pas besoin d’aller aussi loin. Mais dès que vous vous voulez répondre à des questions un peu plus poussées, il faudra passer par là. Voici quelques applications possibles de ces données.
Tout d’abord, la question de la catégorisation des participants. Contrairement à d’autres dispositifs de formation, nombreux sont ceux qui s’inscrivent dans les MOOC sans intention de terminer la formation. Beaucoup se contentent de regarder les vidéos, de consulter les ressources, et ne participent pas aux activités ou aux quizz. Au contraire, certains répondent parfois aux quizz sans même regarder les vidéos.
Une partie ne vient que pour des parties bien définies du cours, tandis que d’autres vont suivre de manière assidue l’ensemble de la formation. Si l’on veut mieux comprendre les dynamiques à l’œuvre dans les MOOC, il faut enquêter sur les différentes manières d’utiliser le dispositif. Il est possible de se baser sur les learning analytics pour classifier les participants selon leur façon de se comporter sur la plate-forme, on parle également de clustering. Toute la difficulté réside dans le fait de trouver les bons critères de classement, et les algorithmes de classification qui correspondent à ce que vous voulez faire : k-means, classification ascendante hiérarchique, etc. Cela vous permettra d’aller plus loin qu’une analyse simpliste du type échec/abandon, un peu rudimentaire pour décrire le fonctionnement d’un MOOC.
Une autre application possible, c’est la description de la dynamique temporelle du cours. Comment l’activité des participants a-t-elle fluctué au fil du temps ? Combien de vidéos ont été consultées au fil du temps, ou les interactions entre participants sur les forums ? Y a-t-il une certaine cyclicité de l’activité, ou au contraire des pics à l’approche d’une deadline, ou même des périodes de décrochage, par exemple à l’approche de vacances. Il n’est pas toujours facile d’interpréter ces fluctuations, car elles sont liées à de nombreux facteurs, la qualité des ressources, la scénarisation de la formation, la motivation des participants.
Pour aller plus loin que cette approche globale, on peut s’attacher à décrire de manière plus fine les trajectoires des participants ou de groupes de participants au sein du cours, ou à caractériser l’utilisation de telle ou telle ressource. Est-ce que certaines vidéos ont été plus regardées que d’autres, est-ce que la page d’aide que vous avez passé des heures à concevoir a été consultée ? C’est une information qui peut être intéressante si par exemple vous hésitez à supprimer ou à modifier des parties du cours d’une édition sur l’autre.
Mais ce travail d’analyse n’est pas aussi simple qu’il n’y paraît. Il est très rare que vous ayez toutes les données clef en main. Il arrive très souvent qu’elles soient dispersées, et qu’il y ait un certain nombre de données manquantes pour X ou Y raisons. Il y a donc souvent un travail de mise en forme et de nettoyage qui peut nécessiter plus de temps que l’analyse de données elle-même.
Par exemple, si vous obtenez des données dispersées et que vous voulez les relier entre elles, il vous faudra des identifiants communs. C’est un problème courant lorsque vous utilisez des outils externes, par exemple des questionnaires postés sur une plate-forme qui n’a rien à voir avec le LMS sur lequel vous avez organisé le cours. Par ailleurs, il y a de nombreuses contraintes légales. En France, vous ne pouvez pas stocker ou utiliser ces données sans avoir fait au préalable une déclaration ou une demande d’avis auprès de la CNIL. Vous ne pouvez pas les partager sans les avoir anonymisé au préalable.
Anonymiser, c’est faire en sorte que l’on ne puisse identifier personnes dans les bases de données, et parfois, cela peut être plus complexe que simplement supprimer les noms, car on peut facilement retrouver l’identité des gens par recoupement. En particulier dans les messages postés dans les forums par exemple, où un certain nombre de personnes laissent des informations qui permettent de les identifier assez facilement, mails, adresses, noms de famille.
Il vous faudra donc faire un certain travail de mise en forme, de nettoyage et d’anonymisation, avant de pouvoir les partager avec des partenaires comme des chercheurs. Vous pouvez même les mettre à disposition et adopter une démarche dite d’open data. Tous ceux qui le souhaitent pourront avoir accès à vos données, faire leurs propres analyses et éventuellement contribuer à faire des retours instructifs sur les processus à l’œuvre. Si vous fournissez des données de qualité et bien documentées, et que vous réussissez à rassembler une communauté compétente et motivée, vous pourrez accélérer considérablement l’analyse des données et peut-être détecter des phénomènes à côté desquels vous seriez sans doute passés.
Mais même en ouvrant vos données à des chercheurs ou à une communauté d’internautes, vous ne pourrez faire totalement l’économie de ce travail d’analyse ; et si vous ne voulez pas dépendre uniquement d’autrui, il vous faudra commencer à creuser vous-même dans les données que vous avez à votre disposition. Ce n’est pas toujours simple, mais il n’est pas non plus nécessaire d’être d’avoir une thèse en statistique. A condition d’adopter une méthodologie rigoureuse et d’avoir quelques bases en statistique, on peut facilement obtenir des analyses intéressantes, qui sont essentielles si l’on souhaite faire évoluer le MOOC dans la bonne direction.
PS : les gens du MIT planchent sur un format de bases de données de MOOC, MOOCdb, qui marche pour les données Open edX et Coursera. L’idée, c’est qu’après on mutualise la création d’algorithmes d’analyse et de visualisation des données, qui tourneraient tous sur MOOCdb, plutôt que chaque équipe de recherche développe ses formats et ses codes d’analyse de manière artisanale. Voici la vitrine officielle du projet.