Créer son MOOC de langues, 100.000 exercices à la fois …

Continuons à illustrer les problématiques de la DIY Education à travers notre cas d’étude issu du domaine de l’apprentissage des langues (il faut avoir lu les billets précédents pour comprendre celui-ci). On a vu l’autre fois comment on pouvait créer à peu de frais des ressources éducatives libres de qualité pour l’apprentissage des langues. En ce qui nous concerne, des corpus de phrases parallèles, traduites en de multiples langues, et avec les audios correspondants (sous forme de voix synthétiques, ou humaines si on a de la chance). Reste à générer des exercices, qu’il faut ensuite catégoriser selon leur niveau de difficulté, et selon la thématique à laquelle ils correspondent. Sachant qu’on a potentiellement plusieurs centaines de milliers d’exercices par langue, il va falloir trouver une solution. Voici celle que nous proposons …. Pas parfaite, mais élégante …

Plus de 100.000 exercices à faire. Pas moyen de les faire manuellement, c’est mort. Du coup, je propose d’appliquer la technique dite « du poinçonneur des Lilas ». On prend les phrases, et on crée des trous de dedans. Des petits trous, des petits trous, toujours des petits trous. Comment ça va ?/ How do you do ?  … ça devient …. Comment ça va ? / How do … do ? Pour avoir bon à l’exercice, il faut répondre « you ». Et tu fais ça sur 80.000 phrases * quatre trous par phrase = plus de 300.000 exos. Du texte à trou à l’ancienne, simple mais efficace. On peut aussi faire du QCM en créant des distracteurs morphologiques (variations sur l’orthographe, faciles à faire), ou sémantiques (variations sur le sens, plus complexes). Vive la méthode structuro-globale et la grammaire-traduction !

Bon, ok, des exercices on peut en générer plein comme ça, c’est pas là le problème. Comment on estime leur difficulté, comment on les catégorise ? Mon but c’est d’avoir un tag pour chaque exercice du genre, là tu illustres un nom commun au féminin pluriel, là tu illustres un verbe à la troisième personne de l’imparfait. C’est super important si l’on veut présenter des exercices adaptés aux besoins de l’apprenant. Pour la difficulté, on peut se dire qu’elle peut être estimée en fonction des résultats des utilisateurs, mais cela impose une phase d’amorçage qui peut être longue, où les gens testent les exos encore et encore. Voire très très longue vu le nombre d’exos potentiels. Et hors de question de laisser les premiers utilisateurs essuyer les plâtres pendant des siècles en leur soumettant des exercices complètement inadaptés à leur niveau.

Il faut une estimation initiale de la difficulté des exercices, même imparfaite. Ce qu’on propose, c’est de se baser sur la fréquence d’apparition des mots. Plus un mot est fréquent, plus on considère qu’il est facile à trouver et plus l’exercice associé est « facile ». C’est une estimation imparfaite et très centrée sur le vocabulaire, mais si vous avez une autre idée je suis preneur. Pour estimer les fréquences c’est simple. On commence par une étape de lemmatisation (par exemple transformer les féminins pluriel dans la forme masculin singulier, qui est la norme), et on estime les fréquences des mots ainsi créés via le corpus Open Subtitles (les sous-titres de milliers de films et séries, en open source, compilés). Cela permet d’avoir une fréquence d’utilisation de mots cohérente avec une utilisation de tous les jours (élégant n’est-ce pas, le fait de se baser sur des sous-titres ?).

Et pour la catégorisation, et bien on pensait se servir d’algorithmes appelés POS-taggers (Part-Of-Speech taggers), qui permettent d’associer à chaque mot de la phrase une étiquette (nom, verbe, féminin vs. masculin). Ces algorithmes sont développés depuis des décennies par les chercheurs du domaine du Traitement Automatique des Langues (TAL), et présentent des taux d’erreur tout à fait acceptables. Et voilà, grâce à deux types d’algorithmes issus des TAL (heureusement que j’ai des amis dans le domaine), on estime la difficulté et le type d’exercices qu’on a créés ainsi de manière automatique.

Vous comprenez maintenant pourquoi ce genre de projet est compliqué à mettre en place ? Il faut des traducteurs pour créer des phrases, des gens qui touchent en apprentissage humain et en traitement automatique des langues pour créer les exercices, et des gens spécialisés dans l’apprentissage adaptatif pour créer la technologie qui fait tourner ces exercices. A ma connaissance, aucune boîte n’a fait tout ça … Mais avec un peu de motivation, des amis compétents, et de la patience, tout est possible. Une illustration supplémentaire du nécessaire décloisonnement disciplinaire.

Au cours des derniers billets, nous nous sommes centrés sur un cas d’étude en particulier, mais les principes que nous avons illustrés peuvent s’appliquer à de nombreuses autres disciplines que les langues. Ce qu’il faut retenir, c’est qu’il est primordial d’identifier les ressources éducatives libres existantes avant de chercher à développer soi-même de nouvelles ressources, tout simplement pour éviter de réinventer la roue. Ensuite, il faut développer des usages de ces ressources en créant activités et exercices. Et créer de nouvelles ressources si et seulement si les solutions précédentes ont échoué. C’est la loi du moindre effort. Mais pourquoi s’intéresser au crowdsourcing en particulier ? Qu’est-ce que cela change sur le plan pédagogique qu’un grand nombre de contributeurs soient impliqués ?

Après tout, il existe un très grand nombre des ressources éducatives libres de qualité et qui n’ont pas été réalisées selon ce principe. Le principal intérêt de cette approche, c’est qu’elle permet de mettre au point de manière relativement coordonnée des quantités de ressources considérables et d’avoir potentiellement un impact global, tout en gagnant en visibilité. Jamais Wikipedia n’aurait eu un tel impact si ce n’avait été pour l’implication de millions de contributeurs à travers le monde.

Mais pour que les projets de formation basés sur le crowdsourcing se concrétisent (et pas simplement d’information comme Wikipedia), il est important qu’enseignants et formateurs se les approprient. Qu’ils en développent les usages, que cela soit à l’échelle d’une classe ou à celle du web. Faute d’usages, les contributeurs finissent par s’essouffler et les communautés périclitent. Les badges, médailles et autres récompenses qui sont parfois décernées aux plus actifs ne suffisent pas toujours à maintenir un niveau de motivation élevée. La réutilisation par les autodidactes, mais aussi et surtout par des enseignants ou des formateurs reste sans doute l’un des mécanismes incitatifs les plus efficaces.

En mutualisant à l’échelle planétaire les efforts de création de ressources, le crowdsourcing permet d’avoir un impact considérable; mais les efforts mis en oeuvre n’ont de sens que si les usages de ces ressources se développent. Nous avons évoqué depuis quelques billets le cas de l’apprentissage adaptatif des langues avec Tatoeba, mais ce n’est qu’un exemple parmi de nombreux autres. Charge aux enseignants et aux formateurs de développer des usages innovants des ressources issues du crowdsourcing, chacun dans son domaine, et de participer ainsi à l’émergence d’un écosystème dynamique, innovant et ouvert.

Be Sociable, Share!

6 Comments

Filed under Non classé

6 Responses to Créer son MOOC de langues, 100.000 exercices à la fois …

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *