Vers des citoyens Data-scientists ?

J’animais ce 21 janvier l’atelier « Big Data, avenir de la sécurité » lors du 7ème Forum International sur la cybersécurité. Evénement rassemblant sur les deux jours plus de 5000 personnes.

Je tenais ici à vous faire partager les points essentiels et les principaux messages sur lesquels le débat a été construit et a fait l’objet de nombreuses questions dans l’assemblée.

 

Un constat sans précédent

Plus rien ne nous rendra à la situation d’avant le déluge informationnel que nous connaissons depuis la création d’Internet.

En mai dernier, Robert Branche a écrit un article sur le Big data et émergence de « Real Humans »

Il évoque le livre de Viktor Mayer-Schönberger et Kenneth Cukie, paru en 2013 et consacré à ce sujet, « Big data : A Revolution That Will Transform How We Live, Work, and Think » il met en avant quelques chiffres et quelques réalités sur l’avènement de l’information.

– « En 2007, seulement 7 % des données sont analogiques (documents, livres, photographies imprimées, etc.). Le reste était numérique (…). Aussi récemment qu’en 2000, seulement un quart de l’information archivée dans le monde était numérique. Les autres trois-quarts étaient sur support papier, film, disque vinyle, bande magnétique… (…) En 2013, la quantité d’information stockée dans le monde est estimée autour de 1200 exaoctets, et que moins de 2 % n’est pas numérique ».

– « La quantité d’information archivée croît quatre fois plus vite que l’économie mondiale, pendant que la puissance de traitement informatique croît neuf fois plus vite ».

– « Ceci s’étend maintenant aux données, qui deviennent un actif des entreprises, une contribution économique vitale, et le fondement de nouveaux modèles de business. C’est le pétrole de l’économie de l’information. Bien que les données ne soient que rarement enregistrées dans les bilans, ce n’est probablement qu’une question de temps ».

La « datafication » est aussi évoquée dans cet ouvrage, c’est-à-dire le processus actuel qui tend à tout numériser, non plus seulement les écrits, mais les localisations, les actes individuels, voire l’empreinte de notre corps sur le siège d’une voiture.

Le Data Scientist au secours de l’infobésité

Le Big Data va entrainer de nombreuses transformations comme la possibilité d’analyser des quantités de données croissantes car non seulement nous pouvons stocker sans cesse davantage, mais nous pouvons les traiter massivement.

Il faudra aussi accepter le désordre comme le signale aussi Robert Branche car l’abondance des données rend moins nécessaire l’exactitude : « Quand la donnée était rare, chaque donnée élémentaire était critique, aussi il fallait faire attention pour ne pas créer de biais dans l’analyse. Aujourd’hui nous ne vivons plus dans une situation de manque d’informations. Ayant affaire à des ensembles de données de plus en plus complets, qui captent non plus seulement une petite tranche d’un phénomène à portée de main, mais beaucoup plus, voire tout, nous n’avons plus à nous soucier autant que des données élémentaires biaisent l’analyse globale ».

Autre différence majeure avec le monde des choses matérielles, le fait de se servir des données ne les épuise pas : « La valeur des données ne diminue pas quand on s’en sert. Elles peuvent être traitées encore et encore. L’information est ce que les économistes appellent un bien « sans rivalité » : l’utilisation par une personne n’empêche un autre de s’en servir ». Au contraire, plus on s’en sert, plus de nouvelles idées naissent et de nouvelles valorisations aussi.

A l’occasion de la troisième journée des Tech.days 2014, Microsoft et IDC ont dévoilé les résultats de l’« Observatoire de l’évolution des métiers liée à la transformation numérique » *. L’enquête et les entretiens menés par IDC pour Microsoft ont permis de déterminer que le Data Scientist se présentait comme le profil le plus recherché dans les 24 prochains mois.

Pour Mitchell Sanders la science des données requiert à la fois une bonne connaissance du domaine, une maîtrise des mathématiques et des statistiques, ainsi que des compétences en matière de piratage de code. Selon lui, la connaissance approfondie d’outils tels que R et SAS est impérative. « Sans ces outils, aucune analyse des données n’est possible. » Il insiste également sur l’importance des compétences mathématiques.

Si une analyse de mes données montre que je vais très probablement commettre un acte délictueux, faut-il ou non agir ? C’était le thème central du film Minority Report de Steven Spielberg où l’on arrête quelqu’un, non pas parce qu’il a commis un délit, mais parce qu’il allait le commettre. Ce qui n’était que de la science-fiction n’en sera bientôt plus : nous n’aurons pas besoin comme dans le film de femmes mutantes capables de prévoir le futur, nous aurons des analyses de données qui nous le permettront.

AFFICHE FIC JPP

Le poster affiché lors du Forum International (Flash code pour accéder au texte complet)

Chaque citoyen devra protéger sa vie privée

Comment protéger la vie privée quand tout est progressivement numérisé, quand tout est stocké, et que tout peut être traité ? Peut-on simplement refuser de voir ses données archivées ? Certes, oui, mais quand il deviendra de plus en plus courant de tout voir être archivé, le refuser deviendra suspect… À défaut de refuser, je peux demander à ce que mes données soient anonymes. Mais si elles sont très nombreuses et précises, ce sera facile par des recoupements, de savoir à qui elles appartiennent.

Mais il y a plus : puisqu’il est impossible de savoir à quoi telle information pourra être utilisée dans le futur, comment pourrais-je donner aujourd’hui une autorisation pour des usages à venir inconnus ? Ceci en revient à de fait paralyser toutes les protections de la vie privée : « Comment des entreprises pourraient-elles prévenir au nom d’un objectif qui n’existe pas encore ? Comment des individus pourraient-ils être donner une autorisation pour ce qui est inconnu ? Aussi en absence d’autorisation, toute analyse Big data portant sur des données personnelles pourrait impliquer un retour vers chaque individu, pour lui demander la permission pour chaque réutilisation (…).

À l’ère du Big data, les trois stratégies essentielles longtemps utilisées pour garantir la préservation de la vie privée – notification et autorisation individuelle, possibilité de retrait, et anonymisation – ont perdu beaucoup de leur efficacité ». Le monde du Big data suppose l’invention de nouvelles règles et de nouvelles compétences.

Jean-Paul Pinte.

1 Comment

Filed under Big Data, Data Scientist

One Response to Vers des citoyens Data-scientists ?

  1. La question est bien posée.
    Un contrat s’applique tant que les conditions initiales du contrat sont respectées.
    La réponse tient à l’éthique de ceux qui se serviront des données.
    On devra pouvoir les poursuivre comme on le peut pour toute personne commettant un crime, que ce soit contre un individu, un groupe ou «l’humanité». Autrement, on fait confiance et on suppose que le bien commun sera correctement servi.