lundi 29 août 2011

ArXiv, une idée qui n'aurait pas du marcher fête ses 20 ans

cliquez sur l'image (ou commencez par le début des 5 épisodes : début ici)
Il y a 20 ans, Paul Ginsparg lançait ArXiv, une archive internet pour les manuscripts d'articles de physique non encore publiés. Ceci avant le Web, donc avant le mouvement de publication Open Access, avant les moteurs de recherche dans les publications, etc.

A l'occasion de ces 20 ans, il a été invité à écrire un article dans Nature. Il raconte qu'ayant pour la première fois un ordinateur sur son bureau, il a lancé un service email automatisé de stockage et de partage de manuscrits, pour ses collègues en physique des hautes énergies. Sa motivation de départ est intéressante dans le cadre de la révolution d'accès à l'information qu'est internet : il voulait rendre son domaine plus égalitaire, en donnant à tous les collègues le même accès à la même information. Avant cela, les manuscrits étaient passés (par la poste, sur du papier d'arbres morts) entre collègues qui se connaissaient, donc en général toujours les mêmes personnes bien connectées dans de bons instituts.

Hors sujet : dans son autobiographie, Bob Dylan raconte comment dans sa jeunesse il squattait chez les fans de musique folk pour écouter leurs disques, comment il a découvert tel ou tel artiste ou style qu'on ne trouvait pas dans son patelin, etc. A l'époque de iTunes et autres solutions moins légales, je ne pense plus qu'il existe de jeunes artistes frustrés par qu'ils ne peuvent pas accéder à la musique qu'ils aiment. C'est bien de se rappeler ce rôle d'internet, qui rend tout accessible à tous (ceux qui ont un ordi et internet). Paul Ginsparg insiste sur ce coté très démocratiseur (tiens mon correcteur d'orthographe ne connaît pas ce mot - il faut le créer) de l'internet.

Revenons à nos moutons (sans distinction de couleur). Paul Ginsparg pensait héberger quelques centaines de textes pendant quelques mois. Vingt ans plus tard, ils sont bien sûr sur le web, ils reçoivent 75 000 textes / an, et ont 1 million de téléchargements (légaux !) / semaine, par 400 000 utilisateurs. Ils ont des soumissions de tous les domaines de la physique, et pas mal de maths et d'informatique. Il précise qu'il a aussi de la biologie faite par des physiciens. Dans mon expérience, c'est correct, mais j'ai été surpris de voir que certains bioinformaticiens, biologistes non physiciens, soumettent beaucoup de papiers à arXiv. Par exemple, le bioinformaticien probablement le plus cité et qui publie le plus, Eugene Koonin.

ArXiv a été un pionnier dans plein de techniques de publication internet et de partage que nous prenons pour acquises, comme de proposer un résumé de l'article avec des liens vers la version PDF et vers les autres papiers des mêmes auteurs.

Dans ses réflexions à l'occasion des 20 ans, Paul Ginsparg s'étonne que finalement on soit toujours au milieu du gué pour ce qui est de la transformation de la publication scientifique, due au web :
There is no consensus on the best way to implement quality control (top-down or crowd-sourced, or at what stage), how to fund it or how to integrate data and other tools needed for scientific reproducibility.
My hope is that rather than merely using electronic infrastructure as a more efficient means of distribution, the revolution-in-waiting will ultimately lead to a more powerful knowledge structure, fundamentally transforming the ways in which we process and organize scientific data.
Il espère que la révolution électronique ne va pas simplement nous permettre de distribuer le courrier plus  efficacement, mais changer la manière donc on organise la connaissance, dont on traite et on organise les données et le savoir scientifiques. Il revient également plus loin sur le problème du trop plein d'information (voir cette note).

ArXiv n'est pas un journal scientifique, il n'y a pas de jugement expert par les pairs. Mais il y a un filtrage pour ne mettre que des articles pertinents. Ce qui fait qu'ils se retrouvent parfois dans la position, à laquelle ils ne s'attendaient pas, de devoir poser les limites de la science. Plus arXiv est connu et reconnu, plus des pseudoscientifiques et des gens bizarres vont vouloir y déposer leurs idées fumeuses.

Les commentaires de cet article, fait notable et extra-ordinaire pour le journal Nature (très lu, mais normalement zéro commentaires), sont informatifs. J'adore le premier commentaire : Il note que le fondateur d'ArXiv a été évalué comme "un programmeur strictement moyen, sans compétences particulières, facilement remplaçable et trop payé", ce qui l'a amené à quitter Los Alamos pour Cornell, dont le directeur du département de physique aurait dit "ils n'avaient visiblement pas une case à cocher pour 'a complètement transformé la nature et la portée de l'information scientifique en physique et d'autres domaines'".

PS : pour comprendre la BD ci-dessus, quelques liens Wikipedia : Richard Stallman, Lawrence Lessig, Donald Knuth. Et wonderful dread pirate.

Aucun commentaire:

Enregistrer un commentaire