Créer son MOOC de langues, 100.000 exercices à la fois …

Continuons à illustrer les problématiques de la DIY Education à travers notre cas d’étude issu du domaine de l’apprentissage des langues (il faut avoir lu les billets précédents pour comprendre celui-ci). On a vu l’autre fois comment on pouvait créer à peu de frais des ressources éducatives libres de qualité pour l’apprentissage des langues. En ce qui nous concerne, des corpus de phrases parallèles, traduites en de multiples langues, et avec les audios correspondants (sous forme de voix synthétiques, ou humaines si on a de la chance). Reste à générer des exercices, qu’il faut ensuite catégoriser selon leur niveau de difficulté, et selon la thématique à laquelle ils correspondent. Sachant qu’on a potentiellement plusieurs centaines de milliers d’exercices par langue, il va falloir trouver une solution. Voici celle que nous proposons …. Pas parfaite, mais élégante …

Plus de 100.000 exercices à faire. Pas moyen de les faire manuellement, c’est mort. Du coup, je propose d’appliquer la technique dite « du poinçonneur des Lilas ». On prend les phrases, et on crée des trous de dedans. Des petits trous, des petits trous, toujours des petits trous. Comment ça va ?/ How do you do ?  … ça devient …. Comment ça va ? / How do … do ? Pour avoir bon à l’exercice, il faut répondre « you ». Et tu fais ça sur 80.000 phrases * quatre trous par phrase = plus de 300.000 exos. Du texte à trou à l’ancienne, simple mais efficace. On peut aussi faire du QCM en créant des distracteurs morphologiques (variations sur l’orthographe, faciles à faire), ou sémantiques (variations sur le sens, plus complexes). Vive la méthode structuro-globale et la grammaire-traduction !

Bon, ok, des exercices on peut en générer plein comme ça, c’est pas là le problème. Comment on estime leur difficulté, comment on les catégorise ? Mon but c’est d’avoir un tag pour chaque exercice du genre, là tu illustres un nom commun au féminin pluriel, là tu illustres un verbe à la troisième personne de l’imparfait. C’est super important si l’on veut présenter des exercices adaptés aux besoins de l’apprenant. Pour la difficulté, on peut se dire qu’elle peut être estimée en fonction des résultats des utilisateurs, mais cela impose une phase d’amorçage qui peut être longue, où les gens testent les exos encore et encore. Voire très très longue vu le nombre d’exos potentiels. Et hors de question de laisser les premiers utilisateurs essuyer les plâtres pendant des siècles en leur soumettant des exercices complètement inadaptés à leur niveau.

Il faut une estimation initiale de la difficulté des exercices, même imparfaite. Ce qu’on propose, c’est de se baser sur la fréquence d’apparition des mots. Plus un mot est fréquent, plus on considère qu’il est facile à trouver et plus l’exercice associé est « facile ». C’est une estimation imparfaite et très centrée sur le vocabulaire, mais si vous avez une autre idée je suis preneur. Pour estimer les fréquences c’est simple. On commence par une étape de lemmatisation (par exemple transformer les féminins pluriel dans la forme masculin singulier, qui est la norme), et on estime les fréquences des mots ainsi créés via le corpus Open Subtitles (les sous-titres de milliers de films et séries, en open source, compilés). Cela permet d’avoir une fréquence d’utilisation de mots cohérente avec une utilisation de tous les jours (élégant n’est-ce pas, le fait de se baser sur des sous-titres ?).

Et pour la catégorisation, et bien on pensait se servir d’algorithmes appelés POS-taggers (Part-Of-Speech taggers), qui permettent d’associer à chaque mot de la phrase une étiquette (nom, verbe, féminin vs. masculin). Ces algorithmes sont développés depuis des décennies par les chercheurs du domaine du Traitement Automatique des Langues (TAL), et présentent des taux d’erreur tout à fait acceptables. Et voilà, grâce à deux types d’algorithmes issus des TAL (heureusement que j’ai des amis dans le domaine), on estime la difficulté et le type d’exercices qu’on a créés ainsi de manière automatique.

Vous comprenez maintenant pourquoi ce genre de projet est compliqué à mettre en place ? Il faut des traducteurs pour créer des phrases, des gens qui touchent en apprentissage humain et en traitement automatique des langues pour créer les exercices, et des gens spécialisés dans l’apprentissage adaptatif pour créer la technologie qui fait tourner ces exercices. A ma connaissance, aucune boîte n’a fait tout ça … Mais avec un peu de motivation, des amis compétents, et de la patience, tout est possible. Une illustration supplémentaire du nécessaire décloisonnement disciplinaire.

Au cours des derniers billets, nous nous sommes centrés sur un cas d’étude en particulier, mais les principes que nous avons illustrés peuvent s’appliquer à de nombreuses autres disciplines que les langues. Ce qu’il faut retenir, c’est qu’il est primordial d’identifier les ressources éducatives libres existantes avant de chercher à développer soi-même de nouvelles ressources, tout simplement pour éviter de réinventer la roue. Ensuite, il faut développer des usages de ces ressources en créant activités et exercices. Et créer de nouvelles ressources si et seulement si les solutions précédentes ont échoué. C’est la loi du moindre effort. Mais pourquoi s’intéresser au crowdsourcing en particulier ? Qu’est-ce que cela change sur le plan pédagogique qu’un grand nombre de contributeurs soient impliqués ?

Après tout, il existe un très grand nombre des ressources éducatives libres de qualité et qui n’ont pas été réalisées selon ce principe. Le principal intérêt de cette approche, c’est qu’elle permet de mettre au point de manière relativement coordonnée des quantités de ressources considérables et d’avoir potentiellement un impact global, tout en gagnant en visibilité. Jamais Wikipedia n’aurait eu un tel impact si ce n’avait été pour l’implication de millions de contributeurs à travers le monde.

Mais pour que les projets de formation basés sur le crowdsourcing se concrétisent (et pas simplement d’information comme Wikipedia), il est important qu’enseignants et formateurs se les approprient. Qu’ils en développent les usages, que cela soit à l’échelle d’une classe ou à celle du web. Faute d’usages, les contributeurs finissent par s’essouffler et les communautés périclitent. Les badges, médailles et autres récompenses qui sont parfois décernées aux plus actifs ne suffisent pas toujours à maintenir un niveau de motivation élevée. La réutilisation par les autodidactes, mais aussi et surtout par des enseignants ou des formateurs reste sans doute l’un des mécanismes incitatifs les plus efficaces.

En mutualisant à l’échelle planétaire les efforts de création de ressources, le crowdsourcing permet d’avoir un impact considérable; mais les efforts mis en oeuvre n’ont de sens que si les usages de ces ressources se développent. Nous avons évoqué depuis quelques billets le cas de l’apprentissage adaptatif des langues avec Tatoeba, mais ce n’est qu’un exemple parmi de nombreux autres. Charge aux enseignants et aux formateurs de développer des usages innovants des ressources issues du crowdsourcing, chacun dans son domaine, et de participer ainsi à l’émergence d’un écosystème dynamique, innovant et ouvert.

Be Sociable, Share!

6 Comments

Filed under Non classé

6 Responses to Créer son MOOC de langues, 100.000 exercices à la fois …

  1. Bonjour Matthieu,

    Quelques liens que j’ai aussi indiqué sur FB :
    – MOOC « Enseigner et former avec le numérique en langues » https://www.france-universite-numerique-mooc.fr/courses/ENSCachan/20006/Trimestre_4_2014/about
    – Des exercices de FLE générés automatiquement : http://www.kuleuven.be/alfalex/index.php?id=null&ng=0
    – Un site collaboratif que j’utilise pour apprendre l’italien : https://fr.duolingo.com/

    Le sujet que tu lances dans ce billet est complexe et passionnant. Je suis traductrice, doctorante en sciences du langage et j’ai fait un master en didactique des langues et TICE. Je voudrais créer un MOOC pour l’enseignement de l’espagnol à l’aide des TICE et de certaines techniques d’apprentissage assez méconnues (shhht ! c’est top secret, au moins jusqu’à ce que je trouve une façon de matérialiser mon MOOC, haha !).

    Il existe déjà plusieurs ressources contenant des exercices comme ceux que tu souhaites créer, et aussi des recherches assez exhaustives sur ce qu’on appelle le « lexique fondamental ». Demande à Wikipédia (français fondamental) : http://fr.wikipedia.org/wiki/Fran%C3%A7ais_fondamental

    L’idéal serait de « mutualiser » ces ressources, comme tu l’as bien dit. Après, il faudrait se demander si tout cela est vraiment pertinent dans le cadre d’un MOOC qui ne dure que quelques semaines, ou s’il faudrait plutôt créer une plateforme collaborative comme Duolingo. The limit is the sky! Mais parfois, the limit is… ce qu’on peut prévoir dans un projet de MOOC réaliste/réalisable.

    Last but not least, je suis en recherche active d’emploi (j’adore les euphémismes en français !), donc si jamais ton équipe a besoin d’une traductrice, spécialiste en sciences du langage (lexicologie, lexicographie, terminologie), formatrice en langues (diplômée en didactique des langues à l’aide des TICE), n’hésite pas à me contacter 😉 Ah oui, j’ai aussi complété la première édition du MOOC « Monter un MOOC de A à Z », et j’attends toujours ma carte postale… 😀

    • matthieu-cisel

      Merci beaucoup pour ces inputs Karen, j’avais entendu parler de ces recherches sur le français fondamental, mais je n’avais pas poussé assez loin semble-t-il. Je pense que c’est une approche intéressante en premier lieu pour des débutants complets. Je m’intéresse pas mal aussi aux différentes stratégies d’acquisition du vocabulaire, entre planifiée/prédéterminée et opportuniste, comme avec Fleex ou LingQ … Je ne mentirai pas, à terme j’aimerais concurrencer Duolingo et Busuu, mais il faudrait que j’ai a minima quelques heures par jour à y consacrer. Car même quand on a quelques astuces en tête, il faut le temps de les appliquer. L’idée pour le moment est d’être sûr d’être dans la bonne voie (et c’est pour ça que des feedbacks comme les tiens sont précieux), avant de se lancer tête baissée dans quelques années … C’est une démarche d’Open Innovation. Pour le moment, il n’y a donc pas d’équipe, juste moi qui me creuse la tête le soir 🙂 Mais si un jour je me lance pour de vrai … je n’hésiterai pas à te contacter. Envoie moi ton adresse par mail et je t’envoie la carte postale 🙂

  2. matthieu-cisel

    Autre point qui me semble intéressant … j’ai parlé hier avec le créateur de Fleex après la French Touch de l’éducation (allez voir, l’idée est d’apprendre l’anglais en regardant des séries, et en utilisant les sous titres comme base de vocabulaire nouveau)… Nous avons des façons de penser très similaires. Pareil, ils utilisent des POS Taggers, Wordreference pour la définition des mots, et Wordnet pour la construction de distracteurs sémantiques, et Imagenet pour les images associées (pour ceux qui voudraient mettre des illustrations sur chacun des mots) … Quand on finit – à force de se creuser la tête – par appliquer les mêmes astuces que les startups, c’est qu’on est dans la bonne voie

  3. Encore 2 références qui pourraient t’intéresser :
    – BabelNet (dictionnaire encyclopédique multilingue+semantic network) : http://babelnet.org/
    – Linguee (dictionnaire et corpus parallèle aligné multilingues) : http://www.linguee.fr/

    J’ai testé Fleex et j’aime bien l’idée d’apprendre une langue en regardant des vidéos sous-titrés, surtout pour les personnes qui aiment apprendre de façon « intuitive ». Pour ma part, je préfère plutôt apprendre des règles de grammaire et de prononciation de base et après j’intègre le vocabulaire (voilà pourquoi les méthodes dites « intuitives » comme celles d’Assimil n’ont jamais été ma tasse de thé).

    Je viens de tester LingQ. Ça a l’air assez complet comme plateforme (11 langues !) et j’aime bien l’option d’importation d’exercices (même si les exercices proposés par des bénévoles ne sont pas toujours intéressants…). J’avoue que j’ai eu une sorte de « infoxication » (surcharge informationnelle) à cause de toutes les possibilités que la plateforme propose : dictionnaire, bibliothèque, traduction, etc. Mais j’imagine qu’on s’y habitue au fur et à mesure qu’on apprend à s’en servir correctement.

    • matthieu-cisel

      Merci pour ces sources Karen. Je connaissais Linguee mais pas Babelnet … Sur les réseaux sémantiques, je pensais me baser sur des Wordnets, qu’en penses tu ?

  4. Encore un lien, si jamais tu veux explorer d’autres ressources (principalement pour le français) : http://www.cnrtl.fr/
    « Le portail lexical est un projet mené par le laboratoire ATILF dont l’objectif est de valoriser des ressources linguistiques issues de différents projets de recherche au sein d’un portail unique. »

    Amuse-toi bien ! 😉

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *