MOOC : comment concevoir une évaluation par les pairs ?

Evaluation par les pairs1000 copies à corriger en moins d’une semaine. C’est une charge de travail fréquente quand on organise un MOOC. Comment évaluer des milliers de participants sans embaucher une armée d’examinateurs ? Passer uniquement par des quizz ou autres évaluations automatiques ? Certes on peut faire beaucoup de choses avec, mais vient un moment où la machine a ses limites. Les organisateurs de MOOC ont donc dû trouver une astuce : l’évaluation par les pairs. Retour sur l’un des procédés d’évaluation au cœur de l’essor des MOOC.

Le principe de l’évaluation par les pairs est simple. A chaque fois qu’un participant soumet une production, le système lui envoie plusieurs productions d’autres participants à évaluer. Les façons de procéder diffèrent selon les cours, et de nombreux paramètres peuvent varier ; en voici une liste non exhaustive sur laquelle nous allons discuter tout au long de ce billet.

  • le nombre de copies à corriger
  • le temps dédié à l’évaluation
  • les mécanismes incitatifs
  • le procédé de notation et d’évaluation
  • Le guidage dans l’évaluation
  • L’anonymat des évaluateurs
  • La méthode de calcul de la note finale

Le nombre de productions à corriger varie en général entre deux et cinq. Plus de copies à corriger signifie plus de notes par copie et donc une évaluation plus précise de chaque production. En revanche, plus de copies, c’est aussi plus de travail pour des participants qui prennent en général déjà sur leur temps libre pour suivre le cours. Certains passent plus d’une demi-heure par copie. Cinq copies à corriger, c’est parfois plus de deux heures de travail, ce qui est beaucoup compte tenu du fait que nombreux sont ceux qui n’ont que  quelques heures par semaine à consacrer au cours. Le risque est de voir les participants bâcler le travail, en particulier pour les dernières copies, ce qui limite l’intérêt de l’exercice.

La question de la période d’évaluation est sensiblement la même. Elle s’étend en général de quelques jours à un peu plus d’une semaine. Laisser peu de temps pour corriger les copies, c’est prendre le risque de voir ces évaluations bâclées. Laisser trop de temps, c’est encourager la procrastination,  et éventuellement courir le risque de voir l’évaluation des productions empiéter sur le suivi du reste du cours.

Par ailleurs, il faut souligner que l’évaluation des productions d’autres participants n’est pas du goût de tout le monde. Manque de temps et sentiment d’absence de légitimité sont les raisons avancées de manière récurrente. Pour cette raison, les équipes pédagogiques mettent souvent en place des mécanismes incitatifs pour pousser les participants à s’investir dans l’évaluation. Dans certains cours ceux qui ne souhaitent pas y prendre part se voient retirer des points sur la note finale au devoir ; à l’inverse ceux qui y participent peuvent recevoir des bonus (badges, etc). Bref, le bâton et la carotte.

Le procédé de notation recouvre un certain nombre de concepts : consignes données aux participants, barème, grilles de notation, etc. La mise au point du barème est une étape délicate, car le nombre et le choix des critères vont être déterminants dans le déroulement de l’évaluation. Les critères proposés peuvent être assez subjectifs (originalité de la production, etc) et laisser une grande marge de liberté aux apprenants ou au contraire être relativement directifs. Selon l’objectif pédagogique et la démarche de l’enseignant, le barème et les consignes de notation peuvent être rendues visibles en amont de la soumission du devoir. Cette décision dépend avant tout de l’objectif pédagogique et de la philosophie de l’enseignant en charge du cours. Nous aborderons probablement cette question dans les billets à venir.

Les barèmes et les grilles de notation constitue sont fondamentales pour réaliser une évaluation par les pairs de qualité. Cependant, ce sont par bien des aspects des outils assez rudimentaires, car les participants n’étant pas des examinateurs professionnels, peuvent avoir du mal à choisir une note pour un critère donné si on ne les y forme pas. C’est pour cette raison que certaines équipes décident d’aller plus loin et de réaliser de véritables guides d’assistance à l’évaluation pour chaque devoir. Ces guides vont de simple corrigés-type à des séquences où l’enseignant explique sa méthode de notation, en passant par de véritables mini-formations où l’évaluateur compare sa notation à celle de l’enseignant. Nous y reviendrons probablement sous peu.

L’anonymat du correcteur est un élément important car il impacte de manière considérable la sévérité de la notation et la nature des commentaires laissés par les évaluateurs. Au cours du MOOC Designing New Learning Environments de Stanford de l’automne 2012, je me souviens avoir laissés quelques commentaires peu amènes sur des productions que j’avais jugées hors sujet, ne sachant pas que mon nom était affiché. Par la suite je n’ai pas manqué de recevoir quelques mails me demandant davantage d’explications sur la sévérité de mes commentaires. J’aurais probablement été davantage nuancé si j’avais su que mon nom était ainsi visible. Dans le cas du MOOC Gestion de Projet, nous avons eu l’occasion d’assister et de véritables prises de bec à propos de commentaires laissés sur des copies. Ce phénomène reste marginal, mais c’est un des points d’attention importants lors de la scénarisation de l’évaluation.

Enfin, malgré toutes les précautions que l’on pourra prendre pour rendre l’évaluation sérieuse et précise, il est inévitable que les styles de notation diffèrent selon les individus, et que certains notent plus durement que les autres. Nous avions déjà constaté ce phénomène au sein du MOOC Gestion de Projet ; pour davantage de précision, je vous renvoie à l’article que j’ai écrit sur la question avec Rémi Bachelet. Ce qui nous amène à la question de la méthode de calcul de la note finale.

En général, les équipes pédagogiques se contentent d’effectuer une simple moyenne des différentes notes données par les participants. Oui mais comment faire si certains notent de manière anormalement sévère ou à l’inverse beaucoup moins sévèrement que la moyenne ? La méthode « manuelle » consiste à repasser avec une armée de bénévoles derrière chaque copie pour s’assurer de la cohérence des différentes notes et éventuellement éliminer les outliers. C’est la méthodologie suivie dans le cadre du MOOC Gestion de Projet, les notes données par les participants servaient alors davantage d’indicateur, la note finale étant délivré par un examinateur bénévole et formé par Rémi.

Je n’aime pas beaucoup cette méthode car elle consomme beaucoup de temps (impossible de passer à l’échelle si le nombre de copies est trop important) et elle diminue la valeur des évaluations par les pairs en les reléguant au rang d’indicateur. Dans un article paru récemment à la conférence Educational Data Mining, les auteurs du papier ont suivi une méthodologie intéressante basée sur une méthode statistique, qui permet d’estimer et de corriger le biais de notation des évaluateurs en leur faisant noter une copie dont la note est connue.  Nous reviendrons en détail sur ce papier passionnant dans un billet à venir.

L’évaluation par les pairs constitue l’une des principales innovations associées aux MOOC. Pour la première fois dans l’histoire, elle peut être expérimentée à grande échelle ; jusqu’à présent, les quelques études sur le sujet portaient sur des effectifs réduits et dans des contextes très spécifiques. Pour justifier de l’intérêt de l’utilisation de l’évaluation par les pairs au sein de la plate-forme Coursera, Daphne Koller, la fondatrice, avait dû remonter jusqu’à 2006 (Saddler et al.) pour trouver une publication qui confortait sa démarche. Désormais la recherche sur la question est l’objet d’une attention croissante, et l’évaluation par les pairs devrait évoluer rapidement. Son intérêt n’est pas uniquement de décharger l’équipe pédagogique de son travail, loin de là ; l’exercice possède avant tout une valeur pédagogique. Oui bien sûr c’est un problème quand les notes sont inscrites dans le cursus universitaire, et que l’avenir de l’étudiant en dépend. Cependant, n’oublions pas que parfois, l’apprentissage est une fin en soi et que nombreux sont ceux qui ne suivent pas des études juste pour le plaisir de recevoir des notes, aussi légitimes soient-elles …

Illustration: Frédéric Duriez

9 Comments

Filed under Non classé

9 Responses to MOOC : comment concevoir une évaluation par les pairs ?

  1. Pingback: MOOC : comment concevoir une évaluation ...

  2. Pingback: MOOC : comment concevoir une évaluation ...

  3. Pingback: MOOC : comment concevoir une évaluation ...

  4. Pingback: MOOC : comment concevoir une évaluation ...

  5. remi bachelet

    merci Matthieu !

    trois remarques rapides :
    1/ pour le processus de préparation à la correction par les pairs, edX en a un : ils appellent cela le calibrage. Mais avant de le tester sur le MOOC GdP, il faudrait déjà que l’on puisse rendre des travaux plus riches que du texte sur edX, puisqu’on utilise des rendus pdf (et annoté, en plus)

    2/ les prises de becs ont notables été très rares dans le MOOC GdP : une sur 2000 travaux rendus. Il n’empeche que c’est le point majeur à traiter pour le certificat avancé (pour le basique, c’est les badges et pour le « par équipe » c’est …. aussi l’éval par les pairs)

    3/ L’évaluation par les pairs est capitale et très complexe : je pense que c’est le principal enjeu des MOOCs : on a des questions culturelles, algorithmiques, logicielles, des méthodes de pilotage à inventer …. c’est aussi là qu’on va progresser le plus dans les années à venir

  6. Pingback: MOOC : comment concevoir une évaluation par les pairs ? | dproy

  7. Pingback: La veille formation de la semaine du 19 au 23 août - IFORPRO - Institut des Formations Professionnelles

  8. Pingback: MOOC: de la conception aux enjeux sociétaux, une réflexion à construire collectivement | La révolution MOOC

  9. Merci pour billet.
    J’ai aussi vécu l’expérience de Stanford, laquelle m’a laissé un goût amer eut égard, justement, à la pauvreté des évaluations reçues par mes pairs ! J’eu en effet préféré davantage de qualitatif ou de constructif que de simples signes (+, -) pointés dans des cases ou de commentaires des plus désoeuvrés (Good job! Great project! …) qui ne permettent en rien d’évoluer et de s’améliorer.
    C’est bien là, selon moi, le talon d’Achille des MOOCs. En effet, des milliers de participants d’horizons divers, fusse même sous le couvert d’une grille leur transmise, ne peuvent rentrer qu’une évaluation massivement dénuée d’intérêt. En effet, rien déjà que par le niveau d’études, l’expérience, l’origine géographique… les participants diffèrent fortement. Comment, dès lors, imaginer recevoir de nos pairs une évaluation digne de ce nom, ou, à tout le moins suffisamment élaborée que pour pouvoir en retirer quelque chose. De mon expérience, c’est rare, bien trop rare, et c’est ce qui me fait dire avec le temps qu’il est très utopiste que de penser pouvoir certifier un MOOC avec ce seul mode évaluatif…

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>