DIY Education : avantages et limites du crowdsourcing …

Au cours du dernier billet, nous avons commencé à évoquer la possibilité d’utiliser le crowdsourcing pour créer à peu de frais des ressources éducatives libres de qualité, en nous concentrant sur un cas d’étude issu de l’apprentissage des langues. Je voudrais revenir aujourd’hui sur les avantages et les limites de cette approche dans le DIY Education à travers quelques exemples concrets. On peut se bricoler un véritable programme d’apprentissage en combinant différents outils et ressources glanés sur le Net, et j’aimerais vous expliquer un peu cette démarche de bricolage de la connaissance ….

Rappelez-vous : la logique du projet, c’est de s’exercer sur des milliers de phrases d’exemple pour apprendre du vocabulaire et de la grammaire, et pour atteindre un niveau conversationnel (B2/C1) dans quelque langue étrangère que ce soit. Il nous faut créer des dizaines de milliers de phrases pour atteindre un niveau avancé. Bien sûr, ces phrases doivent être traduites dans toutes langues du projet si l’on veut concevoir les exercices que nous avons décrits. Sans compter qu’il va vous falloir également les versions audio associées pour développer les exercices de compréhension orale.

Le problème, c’est que si l’on peut créer des phrases intelligentes en se creusant un peu la tête, on ne peut pas simplement les traduire avec Google Traduction. La qualité des traductions issues de la traduction automatique est largement insuffisante pour ce type de projets. Pire que ne pas apprendre, c’est mémoriser des erreurs. Du coup, il est pour le moment nécessaire de se baser sur des phrases d’exemple traduites par des humains. Regardons ce qui existe déjà avant de nous lancer tête baissée.

En faisant quelques recherches, on tombe sur le site Tatoeba ou Opus Corpus. Tatoeba, ce sont des dizaines de milliers de membres, des centaines de langues et un corpus de plusieurs millions de phrases traduites. Vous pouvez y trouver des langues comme l’espéranto (et pas qu’un peu), le Cherokee ou le sanskrit. Le tout est en licence libre CC-BY-SA, c’est à dire qu’il est possible de réutiliser les phrases gratuitement à condition d’en citer l’auteur. Cela correspond ainsi parfaitement à la définition des ressources éducatives libres.

Quand vous entrez une phrases au hasard comme “How do you do ?”, vous avez des traductions dans des dizaines et des dizaines de langues, voir parfois, plusieurs traductions alternatives par langue. Par ailleurs, comme tout processus de crowdsourcing digne de ce nom, des mécanismes de contrôle qualité ont été mis en place.

Tout utilisateur peut mettre en doute la qualité d’une traduction et la signaler par un système de tag, les phrases seront alors perfectionnées au fur et à mesure par des contributeurs bénévoles. Cela permet au système de s’améliorer de manière continue. Alors, peut-on se baser exclusivement sur ce système de crowdsourcing pour mettre au point les ressources pédagogiques ? Cela pose tout de même un certain nombre de problèmes. Tout d’abord, cela impose de se cantonner aux ressources pédagogiques disponibles dans le site. Rien ne dit que l’ensemble des phrases, du vocabulaire ou des points de grammaire que vous voulez illustrer se trouvent dans le corpus.

 Les traducteurs travaillent de manière bénévole et il n’y a que très peu de mécanismes incitatifs. Du coup, le nombre et la qualité des traductions disponibles dépend avant tout de la composition de la communauté. Sans surprise, l’anglais est la langue dominante, mais la seconde langue, c’est l’espéranto, qui pourtant ne rassemble qu’un nombre très limité de locuteurs – une illustration parfaite qui démontre qu’une petite communauté peut avoir un influence considérable dans ce type de projet à condition de s’en donner les moyens. En revanche, si on s’intéresse à des langues comme le hindi ou le tibétain, eh bien, on ne va pas loin. 57 phrases en tout et pour tout, et encore, même pas traduites. Quand bien même le site contiendrait toutes les ressources nécessaires, encore faut-il sélectionner les plus pertinentes du point de vue de l’apprentissage, ce qui n’est qu’en partie automatisable.

Même si elles sont imparfaites, les ressources de Tatoeba représentent une mine d’or. Sans compter tous les corpus parallèles de phrases en Open source d’Opus Corpus (bien plus grands que Tatoeba, mais encore plus désorganisés). Bien sûr toutes ces ressources ne se suffisent pas à elles seules; il est nécessaire de faire des ajustements, de les compléter, en particulier pour les langues rares, ou s’il demeure des points de grammaire ou de vocabulaire qui ne sont illustrés nulle part. Mais en tirant partie intelligemment de ce qui existe déjà, on peut gagner un temps considérable.

Quid maintenant des fichiers audio pour la compréhension orale? En faisant une petite recherche, on se rend rapidement compte que seule une faible minorité des phrases traduites sont sonorisées. Sur les 200.000 phrases disponibles en français que compte le site en 2014, moins de 2000 ont des versions audio associées.

Peut-on trouver un site basé sur le crowdsourcing et qui propose un service équivalent à Tatoeba mais pour les sonorisations ? Et bien, en quelques recherches, on peut trouver des guides de prononciation comme Forvo (qualité hétérogène, grande quantité) ou Shtooka (bonne qualité audio, plus petite quantité), qui comportent plusieurs millions de phrases et de mots prononcés par des locuteurs natifs. De la même manière que pour Tatoeba, vous pouvez proposer les phrases qui vous intéressent dans Forvo, mais au lieu d’être traduites, elles seront prononcées gratuitement par des locuteurs natifs (avec le matériel du bord).

Mais comme pour Tatoeba, il vous faudra attendre que des personnes de bonne volonté et compétent s’occupent de vos phrases, ce qui peut prendre du temps. Par ailleurs, vous allez avoir des différences de qualité importante selon le matériel d’enregistrement utilisé par les contributeurs.

Enfin, un des principaux problèmes des guides de prononciation, c’est que sur le plan de la traduction, il n’y a que très peu de lien entre les différentes langues. Bien sûr, c’est un matériau très riche qui ne demande qu’à être exploité, mais si vous voulez obtenir rapidement des prononciations qui correspondent précisément à vos attentes, il faudra ou faire appel à des locuteurs natifs, ou trouver une autre solution, comme par exemple, la voix synthétique de Google Traduction.

En effet, certains outils Google permettent de prononcer n’importe quelle phrase de manière synthétique, et c’est un jeu d’enfant que de récupérer les fichiers audio au format mp3. Non seulement c’est simple techniquement parlant, mais aussi sur la plan de la propriété intellectuelle. En effet, ce projet de Google est lui-même en partie basé sur des projets en open source ou avec des contenus en licence libre. Il est donc possible d’utiliser pour un certain nombre de langues les fichiers ainsi créés. Bien sûr, une voix synthétique n’est pas une voix humaine, mais pour un certain nombre d’usages pédagogiques, cela ne pose pas particulièrement problème. Par ailleurs, la question de la qualité de l’enregistrement ne se pose pas.

Voilà tout. En mêlant un peu de crowdsourcing, les voix synthétiques open source acessibles via Google Translate, et un peu d’organisation, on peut se créer peu à peu un petit système éducatif en open source. On n’est pas encore arrivés au bout de nos difficultés, mais au moins on a quelques pistes pour commencer. Avis à ceux qui souhaiteraient se lancer corps et âme dans le DIY Education. C’est le moment ou jamais ! Il y a vraiment des beaux coups à jouer !

PS : ceci est une bouteille à la mer. Comme d’habitude, si vous avez des idées ou des suggestions, partagez-les …

Leave a Comment

Filed under Non classé

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *