Pour la première fois dans l’histoire de la recherche en éducation, les MOOC nous offrent la possibilité d’expérimenter à large échelle. L’enthousiasme qu’ils ont généré a déclenché un renouveau de l’intérêt pour les sciences de l’éducation à l’échelle mondiale, et les centres de recherche sur l’apprentissage en ligne poussent comme des champignons aux Etats-Unis et en Chine. Il était temps de redorer le blason de cette discipline, bien trop souvent reléguée au rang de science de seconde zone. Dans ce billet, nous revenons sur les données que nous récoltons, les Big Data, et sur l’usage que nous en faisons en tant que chercheurs, en nous basant notamment sur l’un des premiers articles de recherche publiés sur le sujet.
Tout au long des cours, la quasi-totalité des interactions qui ont lieu sur la plate-forme hébergeant le MOOC ou sur les réseaux sociaux sont enregistrées: chaque clic, chaque message posté, chaque ressource consultée (forum, vidéo, page), le tout est archivé, avec l’heure exacte de l’interaction et l’identifiant de la personne concernée. Ces données constituent la base de tout travail de recherche sur ce que l’on appelle les traces (learning analytics pour les anglo-saxons); mon doctorat ne fait pas exception. Bien sûr, nous n’en faisons pas n’importe quoi; une déclaration est faite à la CNIL, tout est anonymisé avant d’être éventuellement partagé avec d’autres chercheurs. Ces données nous permettent de comprendre de manière relativement précise ce qui se déroule pendant le cours, d’une part pour l’améliorer, mais aussi pour diffuser les connaissances au sein de la communauté de concepteurs de MOOC. Bien sûr, nos analyses ne se cantonnent qu’à ce que nous pouvons observer. Une grande partie des interactions se déroulent hors de la plate-forme ou des réseaux sociaux, en particulier lors de la phase de projets par équipe. Enfin, de nombreuses informations ne peuvent être obtenues que de manière déclarative; c’est la raison pour laquelle nous postons régulièrement des questionnaires afin d’obtenir des données démographiques (cf. le billet Qui étaient les participants du MOOC Gestion de Projet ?), ou toute autre information utile (motivations pour suivre le cours, interactions hors de la plate-forme, etc).
Que faisons-nous de ces données ? La première application est l’analyse des usages. Comment les participants utilisent-ils les ressources qui sont mises à leur disposition (vidéos, forums, tutoriels, etc) à l’échelle du MOOC ? Quels sont les ressources les plus utilisées au moment des devoirs: les forums, les vidéos de cours ? A quelle fréquence, avec quelle dynamique ? Je vous recommande vivement la lecture de l’article Studying Learning in the Worldwide Classroom, Research into edX’s first MOOC, une analyse approfondie de l’un des premiers MOOC d’edX, le Circuits and Electronics 6.002X du MIT. 290 millions de clics ont été enregistrés en cette première session du cours, qui a accueilli plus de 150.000 personnes à travers le monde. Les premiers résultats portent sur des analyses temporelles des usages. La figure suivante décrit l’évolution au cours du temps du nombre des étudiants (ayant obtenu le certificat final) connectés à la plates-formes (figure ci-dessous). On constate une forte cyclicité de l’utilisation des ressources, avec un pic le week-end; rien de très surprenant compte tenu du fait que la majorité des participants prennent sur leur temps libre pour étudier. L’analyse de l’activité globale permet ainsi de se faire une idée en temps réel de ce qui se passe durant le MOOC (décrochages, etc), ouvrant la voie à des ajustements éventuels.
Cependant, cette approche reste assez rudimentaire. Pour approfondir la question, il peut être utile d’avoir une estimation du temps consacré à chaque ressource. C’est l’objet du graphe ci-dessous, qui décrit le temps moyen par participant consacré aux différents types de ressource: les devoirs, les forums de discussion, les vidéos de cours, le livre (un livre électronique portant sur le cours était disponible via la plate-forme), le wiki, les tutoriels, etc. Bien sûr, ce ne sont que des estimations, car il est très probable qu’une partie des devoirs soient effectuées hors du cadre de la plate-forme. Cependant, ce type de figure donne un certain nombre d’indications pour préparer des sessions ultérieures. Par exemple pour alléger les semaines où les participants passent trop de temps sur les cours magistraux, afin qu’ils se concentrent davantage sur les devoirs.
Ces informations nous permettent d’avoir un aperçu global de ce qui se passe pendant le MOOC, mais nous restons encore à un niveau relativement superficiel. Si l’on souhaite aller plus loin pédagogiquement parlant, il faut creuser du côté des facteurs de succès. Quels sont les paramètres qui influencent le plus la réussite au cours (par réussite on entend le fait d’aller au bout du MOOC et d’obtenir le certificat) ? Même s’il n’est pas véritablement contrôlable (cf. le billet MOOC: ce que les taux d’abandon signifient), rappelons qu’obtenir un taux de certification élevé fait partie des obsessions de tout organisateur de xMOOC qui se respecte. Le premier réflexe est de chercher à faire le lien entre les données démographiques recueillies via des questionnaires et la réussite au cours. On notera au passage que les américains ne sont pas passés par les questionnaires pour déterminer l’origine géographique mais par l’adresse IP (figure ci-dessous). Cette méthode est par certains aspects plus précise, mais pas toujours fiable; par exemple les participants qui se connectent depuis la Chine ont souvent des IP américaines pour contourner les mécanismes de contrôle du Net mis en place par l’Etat, d’où le « trou » dans la carte observé en Chine.
De manière intéressante (et assez cohérente avec ce que nous avons observé dans le MOOC Gestion de projet), il n’y a pas eu de corrélation significative (ou très peu significative) entre la réussite et des paramètres comme le genre, l’âge, le niveau d’étude ou l’origine géographique. L’interaction avec d’autres participants hors du cours est le facteur qui semble avoir eu le plus d’impact sur la réussite. Ainsi, 75% des participants ont déclaré ne pas avoir interagi en dehors de la plate-forme, 17% ont travaillé avec d’autres personnes qui suivaient également le cours, et 2.5% bénéficiait du soutien d’une personne disposant d’une certaine expertise du domaine (enseignant ou autre). Je dis semble car seule une fraction des participants ayant répondu au questionnaire, il existe toujours un biais de détection. Ce résultat souligne néanmoins l’importance des interactions en face-à-face, que ce soit sur un campus ou dans quelque lieu de rencontre. En dépit de tout ce que l’on peut dire sur les MOOC, ceux-ci n’ont pas vocation à faire disparaître les universités, ni le contact humain, comme nous l’avions souligné dans le billet les MOOC déshumanisent-ils l’enseignement ?.
Cette analyse reste cependant assez limitée; le fait que l’interaction est un facteur d’engagement n’est pas une découverte. C’est pour cette raison que nous cherchons à aller plus loin, et à analyser les différentes stratégies d’apprentissage mises en place par les uns et les autres. L’idée est d’identifier des profils d’apprenants à partir des comportements enregistrés par la plate-forme. Cette démarche a plusieurs intérêts. Le premier est la mise au point des modèles prédictifs permettant de détecter de manière aussi fiable que possible les participants sur le point de décrocher, pour éventuellement intervenir de manière appropriée. La mise en place de profils ouvre également la voie à une démarche de personnalisation. L’équipe pédagogique peut décider de recommander telle ou telle activité aux participants selon leurs profils: un message d’encouragement, un module complémentaire, un contact avec un participant présentant un profil similaire. A terme, l’idée est de mettre en place des stratégies d’enseignement basées sur des analyses scientifiques. C’est ce que les anglo-saxons appellent l’Evidence-Based Education, l’éducation basée sur la démarche scientifique (sur le modèle de l’Evidence-Based Medicine). Pour le moment, cette démarche en est à ses balbutiements, les auteurs de l’article eux-mêmes l’admettent, d’où l’intérêt de notre travail de recherche.
Dans le monde de l’éducation, il y a historiquement un fossé entre les chercheurs et ceux qui sont censés bénéficier des avancées de la recherche, c’est-à-dire les enseignants. Rares sont ceux qui se basent sur les revues de recherche en éducation pour concevoir leurs cours. D’où l’intérêt d’impliquer les chercheurs dès la conception des cours, et pas seulement a posteriori. D’où l’intérêt des données que nous récoltons. Contrairement à ce qui peut se faire au sein de Coursera ou edX, nous ne les utiliserons pas à des fins commerciales ou hors du cadre de nos travaux de recherche. Si malgré cela vous ne souhaitez pas que les données que vous générez soient utilisées à des fins de recherche, mieux vaut ne pas participer aux MOOC, car nous ne pouvons pas faire le tri une fois le cours commencé. Le principal problème en France est que nous sommes bien trop peu nombreux à travailler sur la question, et les rares chercheurs qui s’y intéressent sont en ce moment complètement submergés par le tsunami MOOC. Alors qu’aux Etats-Unis ou en Chine, les recrutements de chercheurs se comptent en dizaines voire centaines. Cependant, je garde espoir, je suis certain que la recherche française sur le sujet va se développer, et j’en profite pour signaler à tout étudiant qui voudrait faire sa thèse dans le domaine (ou simplement un stage de recherche) qu’il est le bienvenu … ce n’est pas le travail qui manque.
Pingback: MOOC: Quelles données récoltons-n...
Pingback: MOOC : Quelles données récoltons-...
Pingback: MOOC: Quelles données récoltons-n...
Pingback: MOOC: quelles données récoltons-n...
Pingback: MOOC: Quelles données récoltons-n...
Pingback: MOOC: de la conception aux enjeux sociétaux, une réflexion à construire collectivement | La révolution MOOC
Pingback: MOOC: quelles données récoltons-n...