Infini de la lecture : de Cassiodore au text and data mining

Mining for Information_FLickr

Mining for information – via Flickr

 

Pour un droit à la lecture computationnelle à l’ère numérique

En Occident, aux alentours de la fin du IIème ou du début du IIIème siècle de notre ère, pour des raisons sur lesquelles débattent encore les historiens du livre, une mutation se fait jour dans le domaine de l’écrit, qui aura des conséquences profondes sur la manière dont va se construire désormais le savoir : le codex, le livre tel que nous le connaissons encore aujourd’hui, va peu à peu se substituer au volumen, le rouleau de papyrus, de lin ou de parchemin, qui jusqu’alors avait constitué pour l’Antiquité, à côté de l’inscription sur ou dans la pierre, le principal support de l’écrit.

Cette mutation en apparence toute matérielle va avoir des conséquences intellectuelles inouïes, car elle modifie en profondeur les gestes de la lecture, et ouvre la voie à de nouvelles pratiques que le rouleau ne permettait pas, en fermant symétriquement d’autres qu’il avait rendues possibles : notamment, parce qu’il ne réclame plus, pour son maniement, deux mains comme le rouleau mais une seule, le codex va permettre la prise de notes en cours de lecture, et même (usage aujourd’hui admis pour les seuls ouvrages que l’on possède), l’annotation au fil du texte (plusieurs strates d’annotateurs pouvant intervenir sur un même exemplaire, Cassiodore entre autres théorisera au VIème siècle la manière d’introduire des notes de lecture dans un texte). Le codex facilite ainsi le passage du rôle de lecteur à celui d’auteur, quand bien même ce n’est qu’à travers l’utilisation, comme support de l’écrit, des blancs du texte (marges, pages blanches, pages de garde, intérieur des reliures, etc.).

En outre, parce qu’il ne nécessite plus, pour naviguer d’un passage du texte à l’autre, de déplier-replier un rouleau, le codex va ouvrir la possibilité de constituer des tables des matières, des index, de confronter bien plus commodément, et quasi simultanément, des passages différents, à l’intérieur d’un même livre ou entre plusieurs ouvrages. Le codex ouvre ainsi la possibilité d’une lecture sélective et discontinue, qui conduira également à ce que se généralisent toute une série de dispositifs destinés à s’orienter rapidement dans le texte : séparation entre les mots, ponctuation, marques de paragraphe, pagination, page de titre.

Ces quelques éléments d’histoire de l’écrit donnent beaucoup à penser. Ils montrent tout d’abord qu’une innovation matérielle peut avoir des conséquences intellectuelles importantes : sans codex, pas de glose scolastique, pas de roue de livres humaniste, pas d’herméneutique, pas de lecture philologique.

On fait souvent la part belle, dans l’histoire de l’écrit en Occident, à l’invention de l’imprimerie : c’est en effet une innovation majeure pour la diffusion du livre, et sa démocratisation progressive. Mais la généralisation du codex a eu sur le travail intellectuel des conséquences autrement considérables, on le voit, que la (re)découverte, par Gutenberg, de l’imprimerie.

Par ailleurs, le détour qui vient d’être effectué par des temps anciens montre également combien certains éléments que nous tenons aujourd’hui pour spécifiques au Web ont des ancêtres fort lointains : la possibilité pour plusieurs lecteurs d’intervenir sur un même texte pour le commenter ou l’annoter ; la possibilité d’un continuum, d’un cycle, entre lecteur et scripteur, voire auteur ; l’existence d’écrits se donnant à voir non par feuilletage de pages distinctes, mais par défilement d’un rouleau continu (vertical dans le cas du Web) — tous ces traits ont été largement commentés par les meilleurs historiens du livre, et notamment par Roger Chartier, titulaire de la chaire « Ecrit et cultures dans l’Europe moderne » au Collège de France.

Mais au-delà, surtout, ce qui apparaît de plus en plus clairement aujourd’hui, c’est que nous sommes probablement, avec l’apparition de cette nouvelle forme de l’écrit (de l’image, du son) qu’est le support numérique, à l’orée d’une transformation des pratiques de lecture aussi « disruptive » et féconde que l’a été l’adoption du codex dans les premiers siècles de notre ère. L’une de ces pratiques, qui a beaucoup fait couler d’encre ces derniers mois, est celle de la fouille de contenus, ou, si l’on préfère, de données : en informatique, il n’y a rien d’autre (les anglo-saxons parlent quant à eux de TDM, text and data mining).

Les données sont en effet aujourd’hui partout, et dans des quantités inouïes. L’instrumentation scientifique en produit des masses phénoménales (par exemple en astronomie, en aéronautique, ou en physique des hautes énergies et des particules), qui constituent une grande part de ce qu’on appelle les données brutes de la recherche. Dans le domaine des sciences humaines, les humanités numériques (digital humanities) renouvellent l’approche des textes et des corpus. La science recourt aussi de plus en plus, dans certains secteurs comme les études relatives à la biodiversité, aux données issues du crowdsourcing, via la mise en place de véritables plans de collecte par le grand public.

Dans ce contexte, le TDM offre la possibilité de fouiller, de manière croisée, d’énormes quantités de données, souvent issues de plusieurs bases hétérogènes, ce qui ouvre des possibilités inédites à la plupart des disciplines, de la génomique à la sociologie, en passant par la littérature ou la linguistique, dans une économie de moyens inimaginable jusqu’alors : la recherche médicale ou pharmaceutique sont, par exemple, très friandes de l’analyse de comptes rendus d’expériences ratées (« les résultats négatifs de la science ») afin d’éviter d’engager des moyens dans des voies sans issues. A l’heure où la compétitivité économique (qui dépend aussi de celle de la recherche) est sur toutes les bouches, une telle innovation n’est pas anodine, on le voit.

Le problème, c’est que les contenus concernés par le TDM sont bien souvent sous droits, et que le TDM exige, pour être pratiqué, de copier l’intégralité des bases de données sur lesquelles on travaille, afin d’y appliquer un algorithme de fouille. C’est vrai, mais le but n’est alors pas de rediffuser cette copie en la livrant par exemple sur le Web : il s’agit en fait d’une copie technique transitoire, proche dans sa logique de l’exception 5.1 admise par la directive européenne 2001/29/CE sur l’harmonisation de certains aspects du droit d’auteur et des droits voisins dans la société de l’information (dite directive copyright).

Par ailleurs, en exploitant ainsi des bases de données considérées comme des investissements commerciaux, le fouilleur de données contrevient aux disposition du droit sui generis des bases de données, droit inspiré non par celui de la propriété intellectuelle, mais par celui de la concurrence : il y aurait parasitisme, au sens défini par la loi.

C’est oublier un peu vite que les bases de données auxquelles accède le chercheur recourant au TDM sont précisément accessibles en vertu d’abonnements annuels dûment souscrits par les institutions scientifiques, et souvent à prix d’or. Et que de surcroît les contenus concernés ont été produits par ces mêmes chercheurs : dans l’analyse de la chaîne de la création de valeur, la balance ne penche pas vraiment du côté qu’on voudrait faire croire.

Mais si un aménagement juridique, sous la forme par exemple d’une exception dûment encadrée au droit de la propriété intellectuelle, est nécessaire, il y a surtout à prendre conscience qu’un contrôle par les producteurs de bases de données des lectures qui pourraient être faites des contenus qu’ils commercialisent est proprement inadmissible. Car le TDM n’est en effet rien d’autre qu’une nouvelle modalité de lecture exploitant les moyens offerts par les technologies d’aujourd’hui : une lecture computationnelle.

Les Britanniques, comme les Japonais, ne s’y sont pas trompés, qui viennent d’adopter dans leur législation une exception en faveur du TDM. Et il n’est pas douteux que la jurisprudence américaine autour du fair use permette tout à fait légalement cette même pratique.

Les chercheurs français seraient-ils dès lors condamnés, dans la férocité de la compétition académique internationale, à se voir refuser d’accéder aux techniques de lecture nouvelles permises par le support numérique ?

Au nom de quoi ? L’on a en effet affaire à une pratique nouvelle qui ne lèse les intérêts de personne, alors que l’empêcher ou la contraindre créerait une distorsion de compétitivité pour notre recherche, et plus largement, pour notre économie. Sans compter qu’on semblerait alors de surcroît légitimer la possibilité pour celui qui commercialise des contenus de décider comment ils doivent être lus…

La voie contractuelle est sans issue : aucun éditeur scientifique n’est en position de négocier pour tous les contenus auquel peut avoir besoin de recourir, de façon homogène, une équipe de recherche dans ses opérations de TDM.

Il est donc urgent et important de légiférer en la matière et de sortir de postures idéologiques qui voudraient qu’à tous coups, liberté du commerce et liberté de penser aillent de pair.

Ce n’est pas toujours le cas.

Soyons pragmatiques.

2 Comments

Filed under Non classé

2 Responses to Infini de la lecture : de Cassiodore au text and data mining

  1. Pingback: Le SNE est Big Brother, et Richard Malka est son prophète : le Syndicat national de l’édition contre le droit de lire à l’ère numérique, contre la fouille de contenu (TDM), contre la Recherche | BibliOpen

  2. Pingback: Le SNE est Big Brother, et Richard Malka est son prophète : le Syndicat national de l’édition contre le droit de lire à l’ère numérique, contre la fouille de contenus (TDM), contre la Recherche | BibliOpen

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>