On parle beaucoup des données personnelles et d’atteinte à la vie privée ces temps-ci. Autant je trouve que c’est un sujet d’importance et je m’acharne à sensibiliser mes élèves et mes étudiants sur la question, autant j’entends toutes sortes de bêtises qui me hérissent le poil car elles décrédibilisent la cause de la lutte pour la protection des données personnelles. Je ne veux pas me lancer aujourd’hui dans une diatribe généraliste sur la question, mais ne parler, comme d’habitude, que des MOOC. La participation à un MOOC s’accompagne nécessairement d’une récolte de données sur les actions que vous réalisez. Seule une cessation de la participation à la formation permet une cessation de la collecte de ces données. Comment est-ce que cela marche en pratique ? Quelles implications ? Quelques mots sur la question …
Si vous participez à un MOOC, les actions que vous réaliserez au sein de la formation (visionnage de videos, réalisation d’activités évaluées, notes obtenues, utilisation des forums de discussion etc.) seront enregistrées pour être peut-être analysées par des chercheurs (en informatique ou en sciences de l’éducation par exemple).
1/ Les données obtenues sont traitées avec la plus entière confidentialité
2/ Votre identité est masquée par un numéro aléatoire.
3/Aucun renseignement susceptible de révéler votre identité ne peut être dévoilé.
Tout participant qui s’inscrit à un MOOC consent généralement à l’inscription à ce que ses données, une fois anonymisées, puissent être utilisées à des fins de recherche. Si un sujet exprime sa volonté de ne pas être inclus dans des recherches, il doit en référer par courrier recommandé à la plate-forme qui héberge le cours, chaque plate-forme ayant une réglementation spécifique relativement à cette requête. Le chercheur n’ayant en principe aucun accès a des données nominatives, il ne peut accéder lui-même a une requête venant d’un individu donné.
Pour résumer, les données sont récoltées par la plate-forme hébergeant le MOOC, puis anonymisées par ses soins de sorte qu’aucun procédé de déanonymisation ne permette de retrouver l’identité d’un individu. Elles sont ensuite transmises à un responsable scientifique, qui se charge du traitement et de l’archivage de ces données, notamment sur les serveurs du laboratoire.
Le premier risque que présente l’étude est l’atteinte à la vie privée qui résulterait d’un problème d’anonymisation des traces d’activité. Il serait alors possible de déterminer avec précision sur quels intervalles de temps un individu donné s’est consacré à la formation depuis la plate-forme qui l’héberge. En pratique, la déanonymisation, je n’ai jamais vu cela arriver; dès lors qu’on fait preuve d’un minimum de professionnalisme dans le traitement des données, ce n’est pas possible (on pourrait parler de la question des forums de discussion, qui présentent des risques, mais je n’ai pas envie de devenir trop technique ici).
Le deuxième risque réside dans les problèmes d’anonymisation des questionnaires remplis par les participants, qui dévoilerait des informations relatives à leurs variables sociodémographiques, dont notamment le secteur d’activité ou l’emploi occupé. Pour limiter ce risque, les plates-formes qui transmettent les données concernées se voient demander d’anonymiser au préalable toute donnée transmise. Si par accident une telle donnée n’était pas anonymisée, le chercheur se doit de réaliser le processus d’anonymisation lui-même, avant toute manipulation des jeux de données, puis de détruire le fichier contenant les données non anonymisées. A nouveau, je n’ai jamais entendu parler d’une telle situation, car les parties prenantes font leur job correctement en général.
Les avantages attendus de telles recherches sont d’obtenir une meilleure compréhension des différents usages qui sont faits du MOOC par ses utilisateurs. Une meilleure compréhension de ces usages pourra contribuer à améliorer les stratégies employées par les enseignants dans les MOOC, mais aussi, plus généralement, la question de la gestion des plates-formes. S’il y a en effet quelques plates-formes américaines qui auraient soi-disant tenté de monétiser ces données, en fait, c’est surtout l’accès à la base de données des certifiés qu’elles ont essayé de vendre, et non des données de clic. De mémoire, cela a été un échec complet, et ils ont laissé tomber assez vite (Udacity par exemple avait tenté sans grand succès). Mais bon, je ne suis pas à jour sur toutes ces questions, je dois bien l’admettre.
Quoi qu’il en soit, dans les débats actuels, si l’on pouvait ne pas mettre sur le même plan des données de clics au sein d’un MOOC, qui n’ont franchement pas une grande valeur commerciale, et des données médicales ultra-sensibles qu’on peut vendre à des assurances, ce serait chouette. Si l’on met de côté la question de la base de données des certifiés, que peut-il se passer au pire, dans la mesure où les données de MOOC rendues publiques (notamment par edX) sont des données agrégées interdisant tout processus de déanonymisation ?
Allez, un petit malin réussit à s’introduire dans les ordinateurs d’une plate-forme ou vole la base de données de clics d’un chercheur. A priori, on part du principe qu’il tombe sur une base de données anonymisée. S’il est vraiment très malin, il utilise le forum de discussion, dans lequel il y a les pseudos et parfois des informations personnelles données par quelques participants (certains s’introduisent en donnant nom et prénom, parfois profession). Déjà, les utilisateurs qui sont sur les forums, c’est environ 1 à 2% des inscrits. Sur un MOOC de 10.000 personnes, ce qui est déjà gros en France, on parle d’environ 200 personnes.
Sur ces 200 personnes, combien auront des pseudos assez explicites (ou auront divulgué suffisamment d’informations) pour qu’on les reconnaissent assez facilement. Une trentaine, une quarantaine au doigt mouillé ? Et une fois que vous aurez ça, dans le meilleur des cas vous saurez pour une trentaine de personnes (soit moins de 0.5% des inscrits) à quelle vidéo du cours ils se sont arrêtés. Le hack du siècle dites-moi. Je vois déjà les entreprises et les gouvernements du monde entier se précipiter pour acheter des données d’une telle valeur.
Vous voulez un vrai sujet chaud en termes de données personnelles ? Intéressez-vous aux sites de rencontre comme Meetic ou OkCupid, où des dizaines de milliers de personnes affichent publiquement leur appartenance politique, leur orientation sexuelle, etc. (et même quand le pseudo n’est pas explicite, il y a toujours les visages). Je devrais peut-être pas le dire trop fort, mais un petit web scraper qui aspire tout ce type de données, c’est vachement facile à faire. Même moi je pourrais le faire, c’est dire. Qui sait si cela n’a pas déjà été fait … Et après, ce qu’il advient de ces données, mystère ? On ne peut pas partir du principe que le progrès social est continu. Si cela se trouve, on sera un jour dans un régime homophobe, où qui fera la traque aux militants de gauche. Anecdote personnelle, la composante argentine de ma famille a déjà connu cela sous la dictature il n’y a pas si longtemps. Et là, l’accès à une telle base de données aurait des conséquences dévastatrices. Donc voilà, j’enjoins les Don Quichotte de la protection de la protection des données personnelles (dont je fais partie, on s’entend) à se saisir de ce problème, et à ne pas mettre tout sur le même plan (en particulier les données issues des MOOC) ….