Recherche et Big Data : où l’on voit Cro-Magnon venir bousculer les habitudes de Néandertal

Bonjour à tous,

Dans mon post précédent, j’évoquais l’éclatement du modèle standard de l’enseignant-chercheur tout-terrain et l’émergence de spécialistes de toutes sortes. J’examine aujourd’hui une première espèce qui va rapidement peupler notre écosystème et bousculer l’enseignant-chercheur tout-terrain: le chercheur 3.0. Ce chercheur 3.0 va prospérer dans l’ère digitale grâce aux data et aux ressources technologiques de la machine : computing science, intelligence artificielle et analytics. Véritable Cro-Magnon, le chercheur 3.0 risque de rendre la vie dure au chercheur néandertalien d’aujourd’hui.

En schématisant, depuis quarante ans, les enseignants-chercheurs qui étudient les comportements des individus dans les organisations partagent peu ou prou les mêmes habitudes. Ils collectent leurs données empiriques par le biais de questionnaires &/ou d’outils psychométriques. Dans le meilleur des cas, ils les collectent auprès d’acteurs en situation de consommation ou de travail dans leur organisation. Mais il est souvent compliqué d’obtenir leur participation. En conséquence, les échantillons recueillis  représentent le plus souvent quelques centaines, au mieux quelques milliers de répondants. C’est sur la base de ces données que les théories se développent. Le chercheur néandertalien est peu partageur : il ne divulgue pas ses données (c’est son trésor, des fois qu’on lui pique !). Cela ne facilite pas la réplication, et quelques scandales retentissants sur des données ‘fabriquées’  contribuent à instiller le doute sur la qualité générale des données collectées. Cela étant dit, dans son écosystème 2.0, Néandertal a fait le job et la science a progressé.

Mais il est menacé. Ces dernières semaines, une série de lectures et une visite m’ont définitivement convaincu que l’hégémonie de Néandertal touchait à sa fin.

Une série de lectures. En début d’année, Michal Kosinski, chercheur en comportement organisationnel à Stanford, publiait dans la célèbre revue PNAS un article intitulé  Computer-based personality judgments are more accurate than those made by humans. Il en publiait un second en septembre 2015 dans American Psychologist, intitulé : Facebook as a Research Tool for the Social Sciences: Opportunities, Challenges, Ethical Considerations, and Practical Guidelines. Enfin, début octobre, il publiait un super post intitulé : Will Facebook Replace Traditional Research Methods? Social media offers researchers a window into the human experience

A la question « les scientifiques étudiant la condition et les comportements humains remplaceront-ils les enquêtes et les tests psychologiques traditionnels par Facebook ? », il répond que les jugements relatifs à la personnalité basés sur la computation informationnelle des machines sont plus précis que ceux réalisés par l’homme. Dans son article publié dans PNAS, il compare la précision des jugements de personnalité réalisés par l’homme et par la machine sur 86 220 volontaires. Les prédictions faites par la machine sur la base des traces digitales les plus génériques que l’on puisse trouver : les ‘likes’ sur Facebook, sont plus précises que celles faites par les amis / collègues / époux(ses) / parents des participants qui ont rempli un questionnaire de personnalité d’une centaine de questions. C’est notamment le cas des prédictions touchant à la vie des individus comme la consommation de substances, les attitudes politiques ou la santé physique. Assez « flippant », je le concède… Et il va plus loin.

Non seulement la machine est plus précise que l’homme dans l’analyse et la prédiction, mais en plus les données de Facebook sont de meilleure qualité que celles habituellement collectées par Neandertal 2.0.

Pourquoi Facebook offre-t-il une meilleure base empirique ? (1) Il y a plus de données sur Facebook. (2) On y trouve plus de données ‘personnelles’, ‘intimes’, et qui plus est librement diffusées par leurs auteurs. (3) Elles sont plus nuancées, subtiles. (4) Elles sont d’une exceptionnelle qualité. Dans un questionnaire, les répondants peuvent répondre un peu ce qu’ils veulent, quand bien même les chercheurs emploient des stratagèmes sophistiqués pour déceler leurs ruses éventuelles. Sur Facebook, le poids des amis et des réseaux sociaux réduit la fréquence de données non valides ou fausses. (5) Étant donnée la masse de ‘clients’, le chercheur peut traiter de phénomènes minoritaires voire très minoritaires. Il trouvera toujours assez de cas. (6) Dernier avantage non négligeable, les données de Facebook sont gratuites. Évidemment, il faut que Cro-Magnon 3.0 se méfie de ne pas re-modéliser les algorithmes de Facebook… mais Cro-Magnon est digital-native et sait déjouer ce risque. Bon, Cro-Magnon 3.0 doit aussi gérer quelques enjeux de confidentialité des données… mais cela fera l’objet d’un prochain billet.

Et une visite. Tout ceci était convaincant mais restait un peu théorique jusqu’au 05 octobre 2015. Ce jour-là, j’ai eu la chance de visiter le siège social d’IBM à New York et de faire connaissance avec WATSON. Il s’agissait d’essayer de comprendre comment la technologie WATSON (intelligence artificielle * cognitive computing d’une part, analytics d’autre part) pourrait s’appliquer demain à l’enseignement supérieur et à la recherche en management. Dès maintenant, sur la suite BLUEMIX accessible gratuitement, le Watson Personality Insights permet – par exemple – d’inférer les traits centraux de la personnalité connus sous le nom de Big Five. Le mode opératoire est simplissime : il suffit de saisir le nom de la personne. Cette technologie utilise des analytiques linguistiques qu’elle applique sur toutes les traces laissées par quelqu’un sur internet : blogs, forums, tweets, etc. D’après les créateurs du Watson Personality Insights, eux-mêmes des Cro-Magnons 3.0 précurseurs, il suffit de 3500 mots pour avoir des résultats. Et à partir de 6000 mots en langage naturel, l’intervalle de confiance s’améliore et les résultat deviennent très probants. Encore plus « flippant ».

En synthèse.  Ai-je davantage confiance dans les traces librement laissées par les internautes sur de longues durées, dans le cadre d’activités et dans des contextes variés, ou dans des réponses ponctuelles à des questionnaires administrés parfois hors contexte auprès d’étudiants … ? Sur son blog, Michal KOSINSKI concluait son billet ainsi : Compared with old-style laboratory-based research, Facebook provides a powerful approach to studying people. I am quite sure that one day, research based in a digital environment will become more widespread than traditional psychological experiments and studies. Moi aussi, et cela ne va pas trainer.

Quelles leçons les établissements d’enseignement supérieur et de recherche en management, les directeurs de programmes doctoraux, et les néandertaliens 2.0 eux-mêmes doivent-ils tirer de ces évolutions ? A suivre dans un prochain post !

Philippe MONIN

PS : merci à Jean-Philippe Denis, Bruno Dufour, Loic Plé, Sophie Reboud et Emmanuel Zenou pour leurs commentaires passionnés sur mon 1er post. J’en profite pour clarifier ma posture : sauf exceptions, je ne publierai pas les commentaires, mais je répondrai à tous en privé.

Be Sociable, Share!

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *