samedi 24 décembre 2011

Joyeuses fêtes

cliquez sur l'image


cliquez sur l'image
cliquez sur l'image

vendredi 23 décembre 2011

Il faut fumer en sautant sans parachute, ou la difficulté d'être objectif

Cliquez sur l'image
Vous avez peut-être entendu parler dans les médias d'un papier scientifique qui se proposait de montrer que de fumer des cigarettes est bon pour les coureurs de fond. Dans le Canadian Medical Association Journal, classé 9ème parmi les journaux médicaux au niveau mondial.

L'auteur fait une revue de la littérature scientifique, et trouve qu'il a été établi que :
  • La consommation de tabac a été associée avec des niveaux élevés d'hémoglobine : de fumer au moins 10 cigarettes par jour est associé à une augmentation de 3,5% d'hémoglobine. Contrairement à un séjour en altitude, l'effet est durable ; et contrairement au dopage, c'est légal. L'effet semble même augmenter avec l'âge, les personnes âgées ayant fumé ayant des taux d'hémoglobine encore d'avantage élevés par rapport à la moyenne. De plus l'effet du tabac semble augmenté par "une thérapie complémentaire d'éthanol", à savoir la consommation d'alcool. (Tous ces résultats viennent d'une même référence sérieuse.)
  • Les fumeurs ont 50% de chances d'attraper une maladie chronique qui résulte en une augmentation du volume pulmonaires. Qui c'est d'autre qui a des gros poumons ? Les sportifs endurants. CQFD.
  • Les coureurs de fond bénéficient d'un poids plus faible. Qu'est-ce qui diminue l'appétit ? Le tabac. Qu'est-ce qui l'augmente ? L'exercice. Faites les maths.
L'auteur termine en discutant que les effets du tabac sont surtout visibles sur le long terme, or il existe des législations contraignantes rendant plus difficile l'accès au tabac pour les enfants dans la plupart des pays développés. Ces obstacles sont moins présent dans les pays pauvres qui justement gagnent souvent les sports d'endurance. Coïncidence ? Une étude sur le tabagisme enfantin chez les sportifs africains reste à faire.


Il s'agit bien entendu d'un exercice parodique, mais avec un fond sérieux. Il s'agit de montrer comment un choix biaisé des sources, et la mise en relation de faits établis mais qui ne sont pertinents, permet de faire dire à la littérature scientifique ce qu'elle ne dit pas. Ce qui peut être très dangereux quand on commence à s'intéresser aux effets des médicaments, à la pollution, à la chasse des espèces rares, etc. Dans ces cas, ça ne sera pas toujours une parodie, et les erreurs seront moins évidentes, surtout pour les lecteurs qui ne demandent qu'à être convaincus.


D'abord un autre exemple : Un article dans le British Medical Journal (à ce propos : cherche exemples d'humour scientifique intelligent d'origine francophone. Hmm. [Benveniste ne compte pas, c'était involontaire]) pose une question tout-à-fait pertinente : où sont les études randomisées double-aveugle sur l'usage du parachute pour prévenir les traumatismes et décès liés aux défis gravitationnels ? En effet on ne devrait jamais prescrire un traitement préventif sans de telles études, en médecine moderne (dite en anglais "evidence-based"). Il existe une évidence anectodique de personnes ayant tombé de haut sans parachute et ayant survécu. En moyenne on voit a posteriori que les personnes ayant sauté avec parachute ont survécu plus souvent et en meilleur état que celles ayant sauté sans parachute. Mais il y a un biais : les personnes qui sautent de haut sans parachute sont souvent en mauvaise santé (au moins psychologique) avant le saut, alors que les personnes qui sautent de haut avec parachute sont souvent en bonne santé. Donc il manque bien une étude sérieuse, randomisée, c'est-à-dire que les personnes sont distribuées au hasard entre les groupes de traitement (ici, avec ou sans parachute). Exercice à faire à la maison pour la prochaine fois : justifier rationnellement pourquoi ne pas faire d'étude randomisée ici, mais en faire pour l'acuponcture, l'homéopathie et le nouveau médicament de Servier.


Plus sérieusement, ces articles attirent l'attention sur des problèmes qui peuvent se poser dans la recherche scientifique (pourquoi scientifique ? dans la recherche en général). Par exemple, un article de International Journal of Obesity discute le bais White hat bias (pour lequel je n'ai pas trouvé de traduction en français - même les hacker White Hat restent en anglais sur le wikipedia francophone). Cela consiste à sélectivement choisir les information, ou les interpréter de manière biaisée, en raison de bonnes intentions. Exemples donnés dans le papier:
  • Deux papiers ont été publiés qui rapportent certains résultats significatifs, et d'autres non significatifs, sur la relation entre obésité et d'autres facteurs (mode de vie etc.). Parmi les articles citant ces études, plus des deux tiers les citent comme soutenant sans réserve ces relations, pourtant mal établies.
  • Les articles financés par l'industrie trouvent des effets moins négatifs de l'alimentation sur l'obésité, que ceux financés par le public. Il semble que cela soit du aux chercheurs publics ne publiant que des résultats très significatifs, alors que ceux financés par l'industrie publient aussi les études peu significatives.
  • De même, pour les études sur les effets de l'allaitement maternel, les études plus significatives sont d'avantage publiées. Dans ce cas, il n'y a apparemment aucun effet industriel, ou autre biais évident.
  • Des rapports supposément basés sur la recherche (par exemple Organisation mondiale de la santé) citent de manière biaisée les parties des articles qui soutiennent leur conclusion globale.

Ce qui est important dans ces exemples, c'est que les biais sont de bonne foi : les personnes veulent améliorer la santé ou l'information du public. Mais manquent de rigueur, là où la rigueur serait apparemment contradictoire avec leurs objectifs. C'est privilégier le court terme (tout-de-suite dire que les aliments gras c'est vil) sur le long terme (la crédibilité de la recherche, et notre meilleure connaissance du monde), à mon avis.

Tout ceci n'est pas sans rappeler les IgNobel : des résultats qui nous font rire, puis nous font réfléchir. Une excellente combinaison somme toute.

vendredi 9 décembre 2011

Moi je fais de la science, pas toi

cliquez sur l'image
Il y a un livre célèbre "The two cultures" sur la relation (ou absence de) entre les humanités et les sciences.

Mais y a aussi des différences de culture importantes au sein meme d'une science, comme la biologie. Une collègue m'a fait observer une fois la différence entre les séminaires (présentations orales de résultats) des biologistes moléculaires et des biologistes évolutifs.

Les biologistes moléculaires commencent par une présentation détaillée des données expérimentales (10 points bonus si vous présentez une nouvelle technique que vous avez mise au point), pour finir sur une éventuelle interprétation. Le message est clair : l'important c'est l'expérience, c'est les données, c'est cela qui prouve que ma présentation est intéressante et fait du sens. Ceci est de la science car il y a des expériences.

Les biologistes évolutifs commencent par une présentation détaillée des principes théoriques, des questions posées dans le domaines (10 points bonus si Darwin avait déjà évoqué le problème), pour ensuite présenter comment les données collectées permettent de répondre à la question. Le message est également clair : l'important c'est le cadre théorique et la question posée, qui guide la mise au point de l'expérience, c'est cela qui prouve que ma présentation est intéressante et fait du sens. Ceci est de la science car on teste des modèles.

Ce qui est aussi intéressant, c'est que dans bien des cas, les personnes concernées ne vont pas en conclure que tiens c'est rigolo on a des façons différentes de présenter, mais vont voir ceci comme une confirmation de ce dont ils se doutaient bien au fond, que les rigolos de l'autre coté du couloir ne sont pas vraiment des scientifiques comme nous.

vendredi 2 décembre 2011

Mieux vaut faire du vélo dans la bonne direction, que courir dans la mauvaise

Cliquez sur l'image
"Before, a leader was someone who could convince people to act in the absence of clear evidence. Today, it's someone who knows what questions to ask."

Extrait d'une interview de Alistair Croll sur O'Reilly Radar.

En contexte, il explique qu'avant on manquait d'information, et qu'il fallait avancer quand même. L'avantage allait à celui qui avançait pertinemment malgré le manque de données. Maintenant on a trop de données, et l'avantage va à celui qui sait les utiliser rapidement et à bon escient.


En bioinformatique, cela s'applique très bien, depuis l'analyse évolutive des données (ce que je fais d'habitude) jusqu'à la génétique médicale.

Par exemple dans le papier récent de Hernandez et al discuté sur le blog de nos étudiants, les auteurs ont utilisé des données déjà générées concernant les génomes de 179 humains, pour montrer que l'évidence de sélection naturelle que l'on pensait y trouver facilement n'y est pas évidente. Donc la sélection n'a pas été très forte, ou a peu affecté de gènes, dans notre évolution. Perso, je parie pour une sélection pas très forte sur beaucoup de gènes, mais on verra les prochaines analyses.

Autre exemple, on a utilisé plein de données publiques diverses pour montrer en 2008 qu'il y a peu de possibilités de changements évolutifs au début du développement embryonnaire vertébré, mais nettement plus à la fin.

lundi 28 novembre 2011

La publication Open Access : juste et efficace ?

cliquez sur l'image
J'y connais rien en économie, mais j'aime bien la publication Open Access. Ce qui veut dire que les auteurs (ou plutôt leur université ou financement de recherche) payent les frais de publication, et ensuite les articles sont disponibles à tous gratuitement. Ca veut dire que ceux dont les impôts ont payé la recherche peuvent la lire s'ils veulent.

Alors j'aime bien une analyse simpliste qui dit que les seuls profits des éditeurs privés pourraient couvrir tous les frais de publication Open Access. Vos impôts et dons leur permettre permettent de dégager plus en profit qu'ils ne devraient faire de chiffre d'affaire, et après ça vous n'avez pas accès aux résultats. Moi je trouve ça dégoutant.

jeudi 24 novembre 2011

UC Davis incident du gaz au poivre, mises à jour


J'ai mis quelques notes à ce propos sur le blog de Tom Roud.

Point important à noter, la présidente de l'université s'est excusée, et a dit que l'université couvrira les dépenses médicales (très important aux Etats-Unis) :
"Katehi directly apologizes and says charges will be dropped and medical expenses will be covered"
(via les tweets via le blog de Eisen).

Au fur et à mesure qu'il Puis s'il y a du nouveau, je mettrais mets à jour ce post.


mardi 22 novembre 2011

Indignés, gaz au poivre et prof bloggueur à Université de Californie Davis

Georges Brassens chante Hécatombe (j'ai pas trouvé de dessin rigolo)

Il y a eu une répression violente de manifestants étudiants à l'Université de Californie, Davis (UC Davis en abrégé) ce vendredi 18 novembre (voir par exemple cyberpresse.ca). Les évènements ont été filmés, et du coup de nombreuses personnes qui seraient a priori plutôt enclines à croire la version de la police et de la direction n'ont pu nier ce qui s'est passé, et réagissent.


Notamment, Jonathan Eisen, professeur à UC Davis, microbiologiste, biologiste évolutif, bioinformaticien, et inventeur du mot phylogénomique, est l'auteur d'un blog qui est suivi par pas mal de monde, dont moi, normalement pour son contenu scientifique. Il tweete aussi beaucoup, et tout ça.


Alors lorsqu'il a découvert ces évènements, ça l'a beaucoup choqué, notamment parce qu'il est plutôt du genre à soutenir la direction de l'université et à avoir plus de compréhension pour la police que pour les manifestants. Eh oui, avoir la preuve de la brutalité sous les yeux, non filtré, ça fait une différence. Du coup il a réagi, sur son blog.


Et comme beaucoup d'autres profs et autres acteurs de la scène universitaires n'ont pas des blogs, eux, il s'est retrouvé dans le rôle inattendu de relais des évènements qui se sont précipités. Il a ainsi posté sur son blog de nombreuses réactions de collègues, allant de la retenue triste et grave aux appels indignés à la démission de la rectrice (= présidente) de UC Davis.

Parmi les posts intéressants, on peut noter :
  • Une lettre de la Faculté des études féminines et de genre (oui bon on est en Californie) qui proteste de ce que la rectrice a prétendu que la violence en question, c'était pour protéger les femmes.
  • Un compte-rendu détaillé de la journée de mardi. Un truc frappant, vu d'Europe centrale : la proportion énorme d'étudiants et profs qui sont d'origine asiatique ou autres non WASP.
Un autre truc frappant c'est à quelle vitesse quelqu'un de bien établi comme Eisen est passé d'un regard plutôt conservateur à la participation à une manif. Je pense que les adminstrateurs d'universités sous-estiment encore l'impact que l'internet a, non seulement parmi les jeunes étudiants, mais parmi les professeurs. Voir aussi les collègues très établis qui lui ont laissé (ou demandé de) mettre leurs lettres sur son blog.


Par ailleurs, le frère de Jonathan Eisen, Michael Eisen, est aussi biologiste évolutif connu, et parle un peu des évènements à UC Berkeley, où il est prof, sur son blog.

Finalement, parce que les scientifiques doivent comprendre, c'est plus fort que nous, il est intéressant de voir que sur le blog des éditions PLoS (Public Library of Science, pionniers de la publication ouverte et de qualité, et co-fondé par les frères Eisen entre autres), il y a un post très intéressant sur le gaz au poivre (page wikipedia francophone minable, voyez plutôt l'anglais), sa composition et ses conséquences. Lire aussi les commentaires sur le blog de PLoS, certains très intéressants ; et le post suivant, sur la façon dont la chaîne ultra conservatrice Fox News en parle comme d'un "aliment". Youtube n'empéchera pas les cons de préférer la propagande.

lundi 21 novembre 2011

Signes que je suis vieux


cliquez sur l'image
  • Je trouve que c'est cool d'avoir un blog.
  • Je n'ai pas de compte Twitter.
  • J'ai une montre au poignet.
  • Je reçois des CVs de gens nés après que je soit entré à la fac.
  • J'ai fait du séquençage d'ADN manuel sur gel d'acrylamide (et les jeunes ne savent pas la chance qu'ils ont de ne plus en faire).
  • Bioinformatics s'est appelé Computer Applications in Biological Sciences (CABIOS), je m'en souviens.
  • J'ai gardé mon numéro de Nature et mon numéro de Science avec le génome humain.
  • J'ai passé une fois une journée à soigneusement ré-arranger mes photocopies d'articles scientifiques.
  • J'ai utilisé Altavista pour faire des recherches web.

vendredi 18 novembre 2011

La fable du joueur, de la protéine et de l'ordinateur

cliquez sur l'image

L'an dernier, un article du groupe Baker (Université de Washington - l'état pas la ville) a fait beaucoup de bruit, en permettant à des joueurs de jeux vidéo en ligne de résoudre des problèmes de modélisation moléculaire. La modélisation en question consiste à prédire la structure tridimensionnelle (voir ci-dessous) d'une protéine à partir de sa séquence en acides aminés (du style MTMTLHTKAS...). C'est un problème computationnellement très difficile, qui est pourtant résolu dans la cellule en quelques secondes des milliers de fois par jour. Et dans beaucoup de cas, la structure 3D de la protéine est plus pertinente à sa fonction que sa séquence.

exemple de structure tri-dimensionnelle du récepteur à l'œstrogène, dont la séquence est donnée en exemple ci-dessus.
zoom qui montre l'œstrogène fixé au récepteur dans la structure

Soit dit en passant, ça n'est pas forcément aussi simple qu'on pourrait l'espérer, la relation structure-fonction des protéines. Il y a quelques années, on a lancé des projets de "génomique structurale", basés sur deux idées qui se sont révélées très naïves : (1) que comme pour le séquençage d'ADN, ça serait possible en dépensant assez d'argent d'automatiser la résolution expérimentale des structures protéiques, et passer à grande échelle ; en fait de dizaines de milliers, on a plutôt résolu des centaines de structures, péniblement. (2) Que la structure d'une protéine de fonction inconnue nous apprendrait sa fonction ; dans la très grande majorité des cas, ça ne nous apprends presque rien malheureusement (bon là je simplifie un peu - ça ne nous apprends pas tout-à-coup la fonction comme on l'espérait, mais ça nous fournit un indice de plus, parfois précieux).

Même quand ça n'est pas très simple, la structure est souvent utile, par exemple pour trouver des similarités entre protéines apparemment très différentes, prévoir des ligands (genre l'œstrogène se fixe au récepteur à l'œstrogène - y en a des plus sioux), ou aider à déterminer des traitements actifs sur ces protéines.

Le laboratoire Baker avait déjà fait parler de lui plusieurs fois. D'abord, c'est leur algorithme Rosetta qui gagnait toujours les concours de prédiction informatique de structure CASP. Ensuite, comme cela demandait toujours plus de puissance de calcul, ils ont lancé Rosetta@home, qui permet de prédire des structures sur les ordinateurs des particuliers. Puis en 2008, ayant observé que l'algorithme automatique avait des limitations qu'ils ne parvenaient pas à dépasser, ils ont lancé leur jeu vidéo en ligne et en réseau, Foldit. Celui-ci à eu un immense succès, faisant d'excellents score à CASP, même si la plupart des joueurs ne sont pas biochimistes tant s'en faut, et ayant récemment permis la résolution d'une structure de protéine virale qui avait résisté à tous les efforts des biochimistes.

Et bien la boucle est bouclée. Ils ont maintenant analysé les stratégies gagnantes des meilleurs joueurs, qu'ils ont recodées dans un nouvel algorithme ! Lequel marche très bien, qu'attendiez-vous d'une telle équipe ?

Alors en fait, comme expliqué aussi dans Wired, c'est un peu plus compliqué et plus rigolo que ça (moi je trouve ça rigolo).

Pendant ce temps, d'autres membres du labo Baker développaient un nouvel algorithme, Fast Relax, qui cherche la bonne structure en permettant à la protéine de se contracter et s'étendre alternativement (inspirereeez, expireeeez...). Or les deux stratégies gagnantes des joueurs (Quake et Blue Fuse) font exactement cela. Ils ont mis Quake et Blue Fuse en concurrence avec Fast Relax. Au bout de 2 min, Quake et Blue Fuse obtiennent un très bon résultat, que Fast Relax n'atteint qu'en 4 min. Mais après, les stratégies des joueurs arrêtent d'ameliorer, alors que l'algorithme conçu de novo par les chercheurs continue et améliore encore.

Donc les humains sont malins, mais les ordinateurs sont plus patients, alors ils gagnent. Mais cela, vous le saviez déjà, non ?

Il y aura une suite : ils ont modifié FoldIt pour permettre plus facilement aux joueurs de faire aussi bien voire mieux que Fast Relax.

Enfin, une dernière note pour signaler une discussion intéressante sur un blog (en anglais) qui met ceci dans le cadre plus large de la "science citoyenne" et du déluge de données, de la biologie à l'astronomie à la géographie. Par exemple pour décrire des galaxies ou décrypter des manuscrits anciens.

ResearchBlogging.orgKhatib, F., Cooper, S., Tyka, M., Xu, K., Makedon, I., Popovic, Z., Baker, D., & FoldIt Players (2011). Algorithm discovery by protein folding game players Proceedings of the National Academy of Sciences DOI: 10.1073/pnas.1115898108

vendredi 11 novembre 2011

Ecureuil à dents de sabre, enfin la vérité !

cliquez sur l'image
L'écureuil ridicule de la trilogie Ice Age a été identifié, mais il ne mangeait probablement pas des glands.

En effet un fossile de mammifère ancien à l'aspect superficiel d'un écureuil avec de très longues canines a été retrouvé, datant de la fin du Crétacé. C'est-à-dire il y a environ 100 millions d'années, avant la disparition des dinosaures. D'ailleurs il ne s'agit ni d'un ancêtre à nous, ni d'un ancêtre des écureuils, mais d'un groupe de mammifères ayant disparu en même temps que les dinosaures. Donc il n'a pas vécu en même temps que les mammouths.

cliquez pour l'article d'origine
Vous n'avez jamais trouvé ça bizarre, l'idée qu'il mange des glands avec des dents pareilles ? Bin les paléontologues aussi, ils pensent que c'était un insectivore. Je serais un insecte, j'aurais peur.

cliquez pour le commentaire dans Nature

vendredi 4 novembre 2011

A qui est ce génome dans la vitrine ?

cliquez sur l'image
Un papier récent rapporte le premier génome d'un aborigène d'Australie. Les résultats sont intéressants, et indiquent que les aborigènes sont partis d'Afrique il y a environ 62'000 à 75'000 années, sont donc bien le groupe humain qui est depuis le plus longtemps hors d'Afrique, et aussi qu'ils se sont mélangés  aux denisoviens en chemin.

Mais ça n'est pas de cela que je veux parler aujourd'hui.

L'ADN a été séquencé à partir d'un échantillon de cheveu préservé dans un musée, collecté sur un aborigène dans les années 1920. L’université de Copenhague, qui coordonne le projet, a considéré qu'il s'agit d'un échantillon archéologique et non biologique, et donc non soumis à autorisation du comité d’éthique. Mais un collègue australien, ayant vent du projet, a signalé aux danois que les aborigènes sont très sensibles à l'exploitation de leur patrimoine génétique, et qu'il fallait faire attention. Les chercheurs danois ont donc identifie la région d’où venait probablement le donateur, et ont demandé et obtenu l'autorisation du comité tribal représentant les aborigènes de la région. Ils ont déclaré que si le comité tribal avait dit non, ils auraient arrêté la publication du génome. Certains australiens trouvent qu'ils ne sont pas allés assez loin, dans la mesure où l'information dans ce génome engage tous les aborigènes. Histoire complète en anglais et probablement d’accès payant, sur le site de Nature.

Ceci a donne lieu à un débat anime sur des blogs de scientifiques :

Razib Khan (Discover magazine) est outragé que les auteurs du papier aient demandé au conseil tribal. Et d'une, il ne voit aucune légitimité au concept de tribu, et considère que seuls les individus existent. Et de deux, il ne pense pas qu'il faille en général demander l'autorisation de qui que ce soit avant de rendre public un génome, sauf de l'individu concerne (s'il est vivant). Dans un cas extrême, il pense que c'est OK pour un individu d'une paire de jumeaux de rendre public son génome sans demander l'autorisation à l'autre jumeau, qui partage exactement le même génome (on suppose que ce sont de vrais jumeaux), à quelques erreurs de copie près.

Il note deux points à ce propos. Un, qu'avec le progrès des technologies, de toutes façons tout ce qui peut être séquencé le sera. Il suffit d'un donneur, un échantillon, ou même un ensemble de blancs avec une partie de leur généalogie aborigène. Deux, qu'avec l’état actuel de notre connaissance du génome, une séquence ne dit somme toute pas grand chose sur un individu. Je trouve ce point très dangereux, parce qu'une fois qu'une séquence est publique, elle le reste, tandis que notre pouvoir prédictif base sur ce génome augmente. Si vous rendez votre génome public aujourd'hui, on ne peut pas dire grand chose sur vous. Mais dans 2 ans ou 5 ans ou 10 ans, on pourra peut-être (probablement) en dire beaucoup plus.

Rasmus Nielsen (célèbre biologiste de l’évolution et co-auteur du papier original) défend l'approche prise en considérant d'une part qu'il y a un biais culturel, Razib ayant un point de vue individualiste typiquement américain (il ne dit pas quel est le point de vue alternatif ; communautaire européen ?). Il pense fortement que dans la mesure où il y a une longue histoire négative des interactions entre scientifiques européens et peuples non européens objets d’étude (vous avez vu, j'ai réussi à éviter d’écrire "indigènes" !), il faut faire particulièrement attention. Et dans la mesure où dans ce cas particulier l’individu ni ses descendants ne pouvaient être identifies, le conseil tribal était la meilleure autorité avec laquelle discuter. Rasmus est d'accord avec Razib sur le fait que la séquence serait éventuellement disponible, mais ne voit pas cela comme une raison de ne pas essayer de faire au mieux aujourd'hui. Je suis totalement d'accord. D'autant que reconstruire la confiance entre scientifiques et non scientifiques me parait un objectif majeur.

Cela laisse ouverte la question : si un aborigène individuel avait donne son ADN et son consentement, le conseil tribal aurait-il été consulté ? L'information obtenue aurait été sensiblement la même. Question proche de celle posée par les chercheurs et militants australiens, qui trouvent qu'une consultation plus large des aborigènes aurait du être menée.

De manière intéressante, Razib reconnait le problème de déshumanisation passée, et fait remarquer que lorsque l'on a découvert que l'ADN des européens montre un mélange passé avec les néandertaliens, cela n'a pas posé de problèmes, car il n'y a pas d'histoire récente de déshumanisation des européens. Mais pour lui c'est un argument pour traiter les aborigènes de la même manière que les européens. En quelque sorte, il a une vision a-historique des individus, ce qui est cohérent quelque part avec sa vision a-communautaire (ça me rappelle une blague suisse : dans l’appellation Suisse alémanique, le "a" est privatif).

Larry Moran sur Sandwalk (prof de biochimie cité dans le billet sur l'oignon) rebondit sur l'exemple des jumeaux, fortement en desaccord. Il pense qu'il faut demander à toute sa famille proche avant de rendre public son génome. Vos frères, soeurs, parents et enfants ont 50% de chances de partager une mutation que vous portez en simple copie (1 chromosome sur 2), et sont surs de porter au moins en simple copie une mutation que vous portez en double copie (les 2 chromosomes, on dit aussi homozygote). Razib a répondu en mettant cela dans un cadre très légaliste : il pense que l'approche de Larry et Rasmus implique de légiférer, et cela, en défenseur acharné des droits individuels, il est contre. Mais il me semble justifié de légiférer dès lors que l'exercice de la liberté des uns empiète sur la liberté des autres. Si je publie mon génome, cela implique effectivement des conséquences potentielles graves pour ma famille proche, et leur avis devrait être pris (certains de mes lecteurs seront rassurés de lire cela). Si je suis trop asocial pour comprendre cela, la communauté, via le législateur, me semble justifiée à intervenir.

La où je suis moins positif, c'est sur le rôle du conseil tribal. Je suis d'accord avec Rasmus et les autres auteurs que dans ce cas-ci c’était une bonne approche. Mais je suis d'accord avec Razib et d'autres qu'il faut se méfier de donner trop de pouvoir à de telles structures. Si un savoyard publie son génome, faut-il demander au conseil général de Savoie ? Qu'en pensent la Haute-Savoie et le Val d'Aoste ? Exemple rigolo, mais s'il s'agit d'un basque les enjeux politiques et culturels deviennent réels. A discuter pour la prochaine fois.

dimanche 30 octobre 2011

Dennis Ritchie Day - parceque pas seulement Steve il est important

Cliquez sur l'image
Tim O'Reilly, sur le blog Radar de sa maison d’édition, lance un appel pour que le 30 octobre soit Dennis Ritchie Day, en souvenir du co-créateur de C et de Unix. Et parce que Steve Jobs a eu droit a une journée officielle en Californie, alors que le New Jersey ne semble pas prêt à organiser une telle reconnaissance pour Dennis Ritchie.

Avant que les sentiments ne deviennent irrationnels dans le genre Ritchie (resp Jobs) était un génie, Jobs (resp Ritchie) une pauvre merde, j'attire votre attention sur le fait que Tim O'Reilly, qui sait de quoi qu'il cause, a également écrit un billet recent en souvenir de Steve Jobs. Lisez ce qu'il a à dire et sur l'un et sur l'autre avant de juger à l'emporte-pièce. (Je parle de l'oeuvre informatique, pas de si les gars étaient sympas.)

Et puis une pensée pour le créateur de Lisp et pionnier de l'intelligence artificielle, John McCarty, mort également très récemment, et dont presque personne ne cause. Ach so.

vendredi 28 octobre 2011

diversité du peer review


Les trompettes de la renommée par jrobinss (ça change des petits mickeys)

Je me suis rendu compte lors d'une discussion sur Futura-Sciences, que la façon dont la publication scientifique fonctionne n'est pas claire pour beaucoup de personnes hors de notre tour d'ivoire. Voici donc un petit tour d'horizon, du point de vue d'un bioinformaticien.

Le modèle le plus classique est celui du journal spécialisé visant une certaine qualité. Les étapes sont alors les suivantes :
  1. Le manuscrit est reçu par un éditeur, qui est un spécialiste du domaine. Celui-ci juge s'il s'agit du type d'articles que son journal publie (domaine adéquat, écrit en anglais scientifique compréhensible). Si non, tcho. Si oui, étape suivante. Selon les journaux, entre 5% et plus de 50% des articles peuvent être rejetés à cette étape. Surtout que nombre d'éditeurs incluent dans leurs critères que le manuscrit promet de résoudre une question suffisamment importante pour leur super-duper-journal.
  2. L'éditeur choisit des experts, auxquels il envoie le manuscrit, sans masquer les auteurs. Les experts renvoient des rapports sur la qualité du manuscrit et son adéquation au journal.
  3. L'éditeur se base sur les rapports de experts pour prendre une décision. En général, le choix est : accepté tel quel (rare), accepté après changements mineurs (les experts n'auront pas besoin de re-juger), changements majeurs demandés (les experts devront rejuger, ça peut encore être accepté ou refusé après cela), ou rejeté.
  4. Les auteurs reçoivent la décision de l'éditeur accompagné des rapports anonymes des experts. Ils peuvent faire appel.
Plein de problèmes, dont le plus évident est l'asymmétrie entre les experts qui connaissent les auteurs (ce qui peut biaiser leur jugement), et les auteurs qui ne connaissent pas les experts (qui peuvent donc être salauds sans risque). Je suis personnellement favorable au double anonymat, mais c'est très rare que ce soit fait. Autre problème, l'éditeur est finalement seul maître à bord (un peu comme un arbitre dans un stade), et s'il est injuste ou incompétent c'est dommage. Heureusement il existe plein de journaux scientifiques spécialisés, donc généralement à ce niveau-là on peut s'en sortir.

Première variante, le journal méga-super-connu, typiquement Nature ou Science. A toutes les étapes, une évaluation de l'importance de la contribution est plus importante que la qualité du travail lui-même. C'est un peu la première page du Monde. C'est bien si c'est correct, mais il faut aussi que ça intéresse beaucoup de monde tout en respectant l'image plus ou moins sérieuse du journal. Le problème, c'est que les critères sont très discutables. De plus, les problèmes classiques sont amplifiés par l'importance qu'une publication dans ces journaux peut avoir pour une carrière, et le niveau de compétition correspondant. Finalement, une grosse différence est que les éditeurs sont des professionnels qui ont généralement une formation scientifique, mais ne travaillent pas comme chercheurs depuis des années. Alors que les éditeurs des journaux de spécialité sont censés être les meilleurs dans leur domaine, ceux-ci sont plutôt des personnes qui changé de métier parce qu'elles n'aimaient pas la carrière de chercheur.

Ces deux variantes existent depuis longtemps, mais avec Internet d'autres apparaissent.

D'abord, ArXiv, dont on a déjà parlé. Pas d'experts, et des éditeurs qui s'assurent juste que c'est plus ou moins scientifique. Le problème, c'est qu'on n'a aucun critère de qualité. Le bon grain et l'ivraie se couchent avec l'agneau et le lion. Ou quelque chose comme ça.

Ensuite, Biology Direct. Les auteurs reçoivent les rapports des experts non anonymes. Ce sont les auteurs qui décident de la suite à donner (changements ou pas, publier ou pas). Si les auteurs décident de publier, c'est fait, accompagné des commentaires (toujours non anonymes) des experts. Une idée qui paraît attirante, mais marche très mal en pratique. Les bons auteurs auront des scrupules à publier leur papier, les mauvais, non. Les chercheurs connus feront des critiques fortes, les chercheurs en début de carrière seront beaucoup plus hésitants.

Un modèle qui a un très fort succès, exemplifié par PLoS One, est de supprimer totalement les critères de pertinence et de significativité de l'avancée scientifique. Tout ce qui est correct et n'est pas totalement redondant avec des résultats précédemment publiés doit être publié. PLoS One est devenu le journal qui publie le plus d'articles scientifique par an, et a notamment une bonne réputation en recherche médicale. Curieusement, de nombreux collègues restent persuadés qu'il n'y a pas d'experts (il y en a, pareil que dans la formule classique), et que c'est un journal poubelle. C'est vrai que beaucoup d'articles de faible intérêt y sont publiés, mais aussi de très bons articles, parfois parce les auteurs voulaient publier vite sans s'embéter à se battre avec les éditeurs de grands journaux, parfois parce qu'il n'existait pas de journal de spécialité correspondant (pour de la recherche interdisciplinaire).

Le modèle le plus récent à ma connaissance est celui de Frontiers, une nouvelle série de journaux sur internet. Les experts et les auteurs dialoguent à travers un système anonyme, jusqu'à trouver un accord sur la publication ou pas de l'article, éventuellement après modifications. Cela rappelle un système qui existe pour certaines conférences d'informatique, mais où ce sont seulement les experts qui doivent discuter entre eux, de manière non anynome ; ça évite au moins l'éditeur seul maître après Dieu (et quand on connaît le rôle de Dieu en science...).

Après ce tour d'horizon des mille et une recettes, qui vous valent à coup sûr les honneurs des gazettes...

vendredi 21 octobre 2011

test de l'oignon

cliquez sur l'image
Intuitivement, on s'attends à ce que les organismes plus complexes aient besoin d'un génome plus complexe pour coder tout ça. Pas du tout, il n'y a aucun rapport évident entre complexité de l'organisme et taille du génome. Cela s'appelle le "paradoxe C". (Parce qu'au temps où on savait peu de choses sur l'ADN, on avait remarqué que tous les individus d'une espèce en avaient autant ; oh une constante dirent les biologistes envieux des physiciens, appellons-la "C" ; ergo C = quantité d'ADN par cellule dans une espèce, et on s'en fout ; pourquoi ? on y vient.)

Solution au paradoxe C : c'est pas tout des gènes, loin de là. Donc les organismes plus complexes ont plus de gènes, peu importante l'ADN pourvu qu'on ait les protéines. Alors et de une, ça ne marche pas non plus. Vers nématode, 1000 cellules à tout casser, 20 000 gènes. Humain, capable d'inventer des bombes atomiques, 20 000 gènes (vous me direz, il a des transcrits alternatifs ; allez lire Sandwalk et laissez-moi tranquille). Argl gosh. Et de deux, ça laisse un autre problème vexant : à quoi sert tout cet ADN qui n'est pas des gènes ?

Alors il y a deux écoles en gros :
  1. Ceux qui disent que ça doit forcément servir à quelque chose, mais on ne sait pas encore à quoi. Ils poussent des cris de victoire chaque fois qu'un article découvre une nouvelle fonction pour 0,1% du génome humain. Curieusement, ils se recrutent dans deux camps : les né0-Darwinistes orthodoxes, pour qui toute l'évolution s'explique forcément par la sélection naturelle, donc tout doit servir à quelque chose. Et les créationistes, pour qui tout a été crée par le Père Noël pour une raison, et donc doit servir à quelque chose. (Pas si curieusement que ça au fond : le Darwinisme est une réponse à la théologie naturelle, les deux répondent à la question de l'adaptation fonctionnelle des organismes, et s'opposent aux approches dites structuralistes, qui répondent à la question de la forme des organismes, y compris ce qui ne sert à rien.) (trop de parenthèses aujourd'hui, vous ne trouvez pas ?) (trop de parenthèse tue la parenthèse.
  2. Et ceux qui disent que non c'est de la merde ("junk" en jargon technique), ça ne sert à rien. Plutôt des neutralistes, à savoir des gens qui pensent que la plus grande partie de l'évolution moléculaire est due au hasard.
Et c'est là que viennent les onions oignons. T. Ryan Gregory, qui étudie les variations de taille des génomes, a proposé le test de l'oignon pour tous ceux qui déclarent avoir trouvé l'explication ultime pourquoi tout cet ADN sert à quelque chose (quelle phrase moche mais j'ai la flemme de chercher mieux). Le test c'est que votre explication doit expliquer deux choses simples : pourquoi l'oignon que l'on mange, Allium cepa, a 17 pg d'ADN alors que nous les humains n'en avons que 3,5 pg. Et pourquoi des espèces d'oignonoïdes qui se ressemblent et vivent heureusement à l'état de nature ont entre 7 et 31,5 pg d'ADN. S'il y a des biologistes moléculaires qui me lisent, tous les détails techniques du défi sur le blog de Gregory.


Vous aurez deviné que je me classe dans les neutralistes bien sûr. Comme tous les gens beaux, drôles et intelligents. Voir aussi cette excellente collection d'essais sur le blog Sandwalk (par un prof de biochimie canadien).

vendredi 14 octobre 2011

Facebook : quand on croit que ça ne peut pas être pire, mais si

cliquez sur l'image
Bon je vais le dire ouvertement : je n'ai pas de compte Facebook, je n'aime pas Facebook, je suis un vieux con, voilà.

Mais y a de quoi (ne pas aimer Facebook, pas de quoi être un vieux con - quoique).

Si vous cliquez sur l'image ci-dessus, vous n'arriverez pas sur un dessin rigolo, mais sur une animation de l'érosion de votre droit à la vie privée sur Facebook entre 2005 et 2010.

Plus récemment, un collectif Europe vs. Facebook a décidé d'obtenir leurs données Facebook, se basant sur le droit irlandais (Facebook Europe est basé en Irlande). D'abord ça n'est pas facile, ensuite les données sont fournies de manière peu commode, mais surtout des informations étaient manquantes. Et comme on l'apprends en lisant Zdnet (trouvé via Slashdot), Facebook considère qu'une partie de vos informations privées, vous concernant directement, que vous leur avait fourni (je suis clair là ?), leur appartiennent et constituent un secret industriel qu'ils ne peuvent donc pas divulguer - y compris à vous.

Nous vivons une époque moderne.

jeudi 13 octobre 2011

printf("Goodbye world.\n");

cliquez sur l'image à vos risques et périls
Dennis Ritchie, inventeur du language C et co-inventeur d'unix, est mort. Il était l'auteur du livre "Kernigan et Ritchie - The C programming language", avec lequel j'ai appris à programmer un vrai langage, et qui a introduit me semble-t-il l'exemple de programmation
printf("hello world\n");


(titre de ce post piqué au premier commentaire sur boingboing)

lundi 10 octobre 2011

Les blogs continuent leur marche en science

cliquez sur l'image
Oui, je sais, on a 5 ans de retard à l'université par rapport à l'usage que font les gamins. Sales gosses.

Bref, je voulais raconter quelques histoires de blogs en science et éducation.

  • Jonathan Eisen, scientifique reconnu dans l'étude des génomes, a invité un collègue qui a publié un papier controversé à en parler sur son blog. D'autres collègues ont commenté. J'ai proposé de transformer cette discussion en symposium dans un congrès scientifique international. Ledit symposium est en préparation, et est donc né d'une discussion sur un blog.
  • Les étudiants de notre école doctorale (les gens qui font des thèses quoi) doivent participer à des discussions d'articles qui leurs donnent des points à valider. On a décidé de remplacer la validation par présentation Powerpoint chiante par une entrée de blog crée pour l'occasion, pour notre discussion de Génomes, écologie, évolution, etc.
  • Joe Thornton, un biologiste évolutif connu pour son travail sur les récepteurs aux hormones stéroïdes, a répondu en détail aux conneries des créationistes qui déforment son travail, sur un blog.
  • Ewan Birney, grand bioinformaticien devant l'éternel, a complété un article dans un journal sérieux (Genome Research) par trois posts de blog [1] [2] [3] sur l'avenir de la compression de données en bioinformatique. Plein de choses intéressantes qu'il ne pouvait pas mettre dans le format article traditionnel.
  • Tom Roud, le Café des sciences, et d'autres, ont lancé une initiative pour faire parler les candidats à l'élection présidentielle française de science. Y a du boulot, le président et le premier ministre se battent pour assister à un match de foot important, et brillent par leur absence pour féliciter un français qui gagne un prix Nobel.
Je ne sais pas si vous avez remarqué, mais c'est beaucoup en anglais. Si j'ai un temps infini à disposition, je commenterais d'avantage sur certains de ces points en français. Sinon, bin faut lire l'anglais. On vous avait bien dit de travailler à l'école.

jeudi 6 octobre 2011

iphone contre nobel

J'avais prévu pour ce post d'apparaître demain matin, mais étant donné l'actualité j'ai décidé de l'avancer. Curieusement, pour le moment, "Steve Jobs" n'est pas une recherche très fréquente sur Google Trends. Peut-être parce que c'est encore la nuit aux Etats-Unis.

cliquez sur l'image
En ce moment c'est la saison des prix Nobel, évènement majeur de la connaissance et la culture humaine, dont on se souviendra pour les siècles à venir.

Et aussi, y a un nouvel iphone qui sort (je mets pas de lien, vous vous débrouillez là hein).

Après avoir vérifié moi-même les nouvelles pour l'iphone (une vingtaine de fois) et pour le Nobel (3-4 fois), je me suis demandé si mon comportement était anormal. Alors, idiot, oui, anormal, malheureusement pas.

Ci-dessous, les statistiques de Google trends : en haut, les recherches par les internautes, dominées par l'iphone (en bleu), alors que l'on voit à peine le Nobel (en rouge). Dessous, la couverture (d'après Google) par les sites internet d'information, ou les deux sont plus équilibrés.


Autant pour la "sagesse des foules".

lundi 3 octobre 2011

infographie


Cliquez sur l'image ci-dessus, qui présente un résumé amusant et pertinent de toutes les infographies que vous verrez par ailleurs.

vendredi 9 septembre 2011

partage de données

cliquez sur l'image
Je n'ai pas eu le temps de poster récemment, alors un petit mot pour dire que le XKCD récent me fait penser aux problèmes que l'on a avec les données de séquençage modernes. Séquencer c'est facile, transférer les données... Le plus simple est souvent d'envoyer un disque dur par courrier express.

mercredi 31 août 2011

visualisation et confusion

cliquez sur l'image

Il y a un petit débat en cours sur le blog Flowing Data, sur la question de savoir s'il est acceptable, voire souhaitable, de rendre une représentation graphique plus confuse que ne l'est nécessaire dans certains cas, pour faire passer le message que la situation porte à confusion.

Le débat a démarré à cause des deux représentations suivantes des relations de brevets et de procès concernant des brevets, entre sociétés informatiques (cliquez dessus pour voir en plus grand sur les sites d'origine) :



Suivant le conseil de Kek, je vais demander : et vous, qu'en pensez-vous ?


lundi 29 août 2011

ArXiv, une idée qui n'aurait pas du marcher fête ses 20 ans

cliquez sur l'image (ou commencez par le début des 5 épisodes : début ici)
Il y a 20 ans, Paul Ginsparg lançait ArXiv, une archive internet pour les manuscripts d'articles de physique non encore publiés. Ceci avant le Web, donc avant le mouvement de publication Open Access, avant les moteurs de recherche dans les publications, etc.

A l'occasion de ces 20 ans, il a été invité à écrire un article dans Nature. Il raconte qu'ayant pour la première fois un ordinateur sur son bureau, il a lancé un service email automatisé de stockage et de partage de manuscrits, pour ses collègues en physique des hautes énergies. Sa motivation de départ est intéressante dans le cadre de la révolution d'accès à l'information qu'est internet : il voulait rendre son domaine plus égalitaire, en donnant à tous les collègues le même accès à la même information. Avant cela, les manuscrits étaient passés (par la poste, sur du papier d'arbres morts) entre collègues qui se connaissaient, donc en général toujours les mêmes personnes bien connectées dans de bons instituts.

Hors sujet : dans son autobiographie, Bob Dylan raconte comment dans sa jeunesse il squattait chez les fans de musique folk pour écouter leurs disques, comment il a découvert tel ou tel artiste ou style qu'on ne trouvait pas dans son patelin, etc. A l'époque de iTunes et autres solutions moins légales, je ne pense plus qu'il existe de jeunes artistes frustrés par qu'ils ne peuvent pas accéder à la musique qu'ils aiment. C'est bien de se rappeler ce rôle d'internet, qui rend tout accessible à tous (ceux qui ont un ordi et internet). Paul Ginsparg insiste sur ce coté très démocratiseur (tiens mon correcteur d'orthographe ne connaît pas ce mot - il faut le créer) de l'internet.

Revenons à nos moutons (sans distinction de couleur). Paul Ginsparg pensait héberger quelques centaines de textes pendant quelques mois. Vingt ans plus tard, ils sont bien sûr sur le web, ils reçoivent 75 000 textes / an, et ont 1 million de téléchargements (légaux !) / semaine, par 400 000 utilisateurs. Ils ont des soumissions de tous les domaines de la physique, et pas mal de maths et d'informatique. Il précise qu'il a aussi de la biologie faite par des physiciens. Dans mon expérience, c'est correct, mais j'ai été surpris de voir que certains bioinformaticiens, biologistes non physiciens, soumettent beaucoup de papiers à arXiv. Par exemple, le bioinformaticien probablement le plus cité et qui publie le plus, Eugene Koonin.

ArXiv a été un pionnier dans plein de techniques de publication internet et de partage que nous prenons pour acquises, comme de proposer un résumé de l'article avec des liens vers la version PDF et vers les autres papiers des mêmes auteurs.

Dans ses réflexions à l'occasion des 20 ans, Paul Ginsparg s'étonne que finalement on soit toujours au milieu du gué pour ce qui est de la transformation de la publication scientifique, due au web :
There is no consensus on the best way to implement quality control (top-down or crowd-sourced, or at what stage), how to fund it or how to integrate data and other tools needed for scientific reproducibility.
My hope is that rather than merely using electronic infrastructure as a more efficient means of distribution, the revolution-in-waiting will ultimately lead to a more powerful knowledge structure, fundamentally transforming the ways in which we process and organize scientific data.
Il espère que la révolution électronique ne va pas simplement nous permettre de distribuer le courrier plus  efficacement, mais changer la manière donc on organise la connaissance, dont on traite et on organise les données et le savoir scientifiques. Il revient également plus loin sur le problème du trop plein d'information (voir cette note).

ArXiv n'est pas un journal scientifique, il n'y a pas de jugement expert par les pairs. Mais il y a un filtrage pour ne mettre que des articles pertinents. Ce qui fait qu'ils se retrouvent parfois dans la position, à laquelle ils ne s'attendaient pas, de devoir poser les limites de la science. Plus arXiv est connu et reconnu, plus des pseudoscientifiques et des gens bizarres vont vouloir y déposer leurs idées fumeuses.

Les commentaires de cet article, fait notable et extra-ordinaire pour le journal Nature (très lu, mais normalement zéro commentaires), sont informatifs. J'adore le premier commentaire : Il note que le fondateur d'ArXiv a été évalué comme "un programmeur strictement moyen, sans compétences particulières, facilement remplaçable et trop payé", ce qui l'a amené à quitter Los Alamos pour Cornell, dont le directeur du département de physique aurait dit "ils n'avaient visiblement pas une case à cocher pour 'a complètement transformé la nature et la portée de l'information scientifique en physique et d'autres domaines'".

PS : pour comprendre la BD ci-dessus, quelques liens Wikipedia : Richard Stallman, Lawrence Lessig, Donald Knuth. Et wonderful dread pirate.

vendredi 26 août 2011

des fois les algorithmes sont utiles

cliquez sur l'image

J'ai parlé récemment de la valeur ajoutée de la curation humaine, qui permet souvent une meilleure qualité que la classification automatique. Alors je me dois de signaler une nouvelle étude, trouvée via techdirt.com,  qui montre que les humains sont très mauvais pour distinguer des critiques authentiques de critiques falsifiées, mais qu'un algorithme peut y arriver très bien.

Les auteurs ont payé plein de gens une petite somme pour écrire une revue très positive d'un hôtel où ils ne sont jamais allés. D'autres personnes sont incapables de distinguer ces revues de revues authentiques. Par contre le programme écrit par les auteurs de l'étude les repère à 90%. Il semble y avoir une façon d'écrire différente (plus centrée sur les personnes pour les fausses revues, sur les lieux pour les vraies revues), qui n'est pas intuitive pour nous, mais est significative.

La conclusion de ceci est double : d'une part, ça montre qu'il vaut la peine d'essayer de trouver des solutions automatiques à des problèmes difficiles, même intuitivement impossibles ; d'autre part, les tricheurs professionnels (payés pour améliorer les revues sur Tripadvisor, Amazon, etc) vont améliorer leurs fausses revues...

PS : gag au second degré concernant la BD. L'auteur, Scott Adams, a été attrapé en train d'écrire sous de fausses identités à sa propre gloire.

PPS : une utilisation intéressante de la curation ici.

lundi 22 août 2011

le reductionisme est vrai, pourtant il y a encore des zoologues (et des philosophes)

cliquez sur l'image
Le réductionisme, c'est l'idée que les systèmes complexes peuvent être entièrement décrits par leurs composants plus simples. Donc in fine on peut décrire l'histoire de l'empire romain par la description de toutes les positions et mouvements de toutes les particules élémentaires y ayant participé. Ceci pose la question (surtout posée par les physiciens) de l'utilité des diverses sciences et disciplines académiques se spécialisant dans l'étude de différents domaines complexes, puisqu'avec le progrès de la connaissance en physique, tout cela se réduira à de la physique.

Sur le blog "Evolving Thoughts" de John Wilkins, philosophe de la biologie au chômage (en Australie, pas au Groenland), il y a une intéressante discussion [lien corrigé] de ce concept et de ses conséquences pour l'étude de la biologie.

Son argument tel que je le comprends est le suivant.

D'une part, on a un cadre philosophique pour comprendre le monde, aussi appelé physicalisme ou matérialisme philosophique, qui fait l'hypothèse que, jusque preuve du contraire, les propriétés de tout objet du monde peuvent être décrits comme résultant de ses composants, de leurs positions, mouvements, et interactions. Le mot "interactions" est important. C'est un cliché de dire qu'une pile de briques n'est pas une maison. Mais la description détaillée des briques, de leurs positions, et de leurs interactions, oui ça peut être une maison (bon d'habitude il faut aussi du mortier, du bois, etc – alors disons des pierres et une cabanne). Le point de vue opposé suppose qu'il existe de réelles propriétés émergentes dans un système complexe, qui ne peuvent en aucun cas être comprises par une compréhension, aussi complète soit-elle, des parties. A part le problème de créer des catégories supplémentaires a priori inutiles, il y a le fait qu'avec le progrès de notre compréhension du monde, cette approche se retrouve régulièrement battue en brèche. L'exemple le plus clair est le vitalisme. Pendant longtemps il y a eu débat entre les biologistes qui pensaient que le vivant était réductible à la physique et à la chimie, et ceux qui pensaient qu'il existait un élan vital caractéristique du vivant. En discutant avec des collègues moins jeunes (hum), j'ai appris que de nombreux biologistes partageaient encore de telles vues dans les années 1950. La biologie moléculaire a sonné le triomphe du réductionnisme en biologie, d'une certaine manière.

Ce qui nous conduit à l'autre aspect du réductionnisme, qui est en tant qu'approche méthodologique. La biologie moléculaire est exemplaire : pour comprendre le vivant, on le découpe en petits morceaux, et on comprend chacun en isolation. Quand ça sera fait, on comprendra le tout.

Sauf que ça ne marche pas.

Ce qui nous conduit à son tour à la suite de l'argument de John Wilkins : le réductionnisme ne marche pas en pratique comme seule façon de faire de la science, parce que nous ne sommes pas capables de connaître et comprendre tous les éléments composant un système complexe. On pourrait peut-être décrire l'élection de Nicolas Sarkozy en termes d'atomes, en principe, mais on ne peut ni obtenir ces données, ni les stocker, ni les traiter pour les comprendre. La façon la plus efficace de comprendre l'élection de Sarko, c'est en traitant les atomes au niveau agrégat à forme humaine, avec motivation et comportements humains. Ensuite il y a les cas, comme les gaz parfaits, où une analyse statistique des composant permet de prédire pas mal du tout le comportement du tout, et les cas où pour des raisons de non linéarité ou autres, nous ne sommes pas capables de faire cela.

Donc les différentes sciences sont différents niveaux qui nous sont nécessaires pour comprendre le monde, à cause de nos limitations mentales. Je ne serais pas surpris qu'une telle limitation soit inévitable à tout organisme ou machine pouvant réfléchir et calculer, vu la taille et la complexité de l'univers.

Une conséquence à mon sens rigolote, c'est que certaines questions de délimitation de domaines perdent de leur importance. Si on peut dire que le vivant n'est pas une propriété essentielle de certains objets, mais un niveau de complexité que nous ne savons pas analyser hors du cadre de la biologie, alors les sempiternelles questions pour savoir ce qui est vivant et ce qui ne l'est pas relèvent de la sodomie de diptères. Les virus, même s'ils dépendent de cellules vivantes pour se reproduire, ne peuvent pas être comprises sans référence à des concepts biologiques tels que parasitisme, compétition, mutation, etc., alors que le feu ou un virus informatique, même s'il peuvent se reproduire d'une certaine manière, peuvent être compris complètement avec des concepts et des outils de chimiste ou d'informaticien.

Curieusement, il semble que certains chercheurs en biologie des systèmes [Wikipedia minable en françaisbien mieux en anglais] soient anti-réductionnistes philosophiques, alors qu'il me semble que la biologie des systèmes, c'est bien décrire les interactions des parties déjà décrites par la biologie moléculaire, donc que c'est bien cohérent avec un réductionnisme non naïf.

(En regardant Wikipedia en anglais, je vois que cette discussion n'a rien d'original - mais j'aime bien faire profiter de mon ignorance. Par contre l'article dans Wikipedia en français est un bel exemple de jargon philosophique incompréhensible.)

vendredi 19 août 2011

plus de fraude scientifique, ou plus de détection ?

cliquez sur l'image


De l'avantage des données ouvertes et disponibles à tous, combiné avec des geeks curieux. Un bioinformaticienNeil Saunders, a écrit un programme qui recherche systématiquement les articles scientifiques rétractés dans PubMed, la base de données bibliographique de la littérature scientifique biologique et médicale (vu via le blog Sandwalk). Cela montre curieusement une augmentation considérable des articles rétractés au cours du temps. D'où la question : d'avantage davantage de rétractions parce qu'il y a d'avantage davantage d'erreurs ou de triche, ou d'avantage davantage de rétractions parce qu'il y a d'avantage davantage de détection ?


Les commentateurs sur le blog Sandwalk tendent à penser que c'est d'avantage davantage de détection. Franchement, je n'en sais rien, mais c'est intéressant à suivre. Dans l'absolu, et parce qu'on revient à la question d'un usage pertinent des données abondantes disponibles.

lundi 15 août 2011

Cherche trouveurs d'aiguilles dans des bottes de foin

Cliquez sur l'image

Remarquons encore une fois la similarité entre la bioinformatique / génomique, et d'autres domaines liés à l'informatique et aux nouvelles technologies, similarité liée au gros tas de données.

J'ai vu plusieurs notes récentes soulignant l'importance du nettoyage des données sur internet. Ce qui m'a donné l'idée d'en parler ici est un article sur le blog O'Reilly (qui a mystérieusement disparu du site, mais je laisse le lien au cas où) concernant le fait que l'abondance de données correspondant en même temps à une pauvreté en données de qualité, fiables et utilisables. Puis j'ai vu (via le Lab des Usage) que Pierre Pisani abordait un sujet similaire sur son blog. Enfin je vois que le problème est re-traité, sous un angle différent, sur le blog O'Reilly, à propos du choix des données à préserver (sur ce billet, allez en bas à la section "When data disappears")

A la base il y a l'observation que lorsque les données disponibles augmentent énormément (vous n'en avez pas marre, vous, d'écrire et lire "exponentiellement" tout le temps ?), il faut trouver un moyen de distinguer l'utile de l'inutile, le bon du mauvais, bref, annoter de la qualité à toutes ces données. Cela peut être automatique, Google est le champion, mais il semble de plus en plus qu'une part expertisée manuellement ait une forte valeur ajoutée.

Et là où j'en viens, c'est que c'est pareil en biologie. On génère des quantités monstrueuses de données, et l'on voit l'importance de vérifier, annoter, organiser ces données, manuellement. L'exemple historique est Swissprot, où chaque information sur chaque protéine est vérifiée par un expert. D'où la création relativement récente de la Société internationale de biocuration, pour mettre en avant, valoriser, et coordonner ces activités. Je remarque d'ailleurs que les sociétés privées qui arrivent à vivre de la bioinformatique ont généralement une activité de curation (même si Pisani n'aime pas ce mot), parce que les clients sont prêts à payer pour une information fiable et de qualité, en ces temps où l'information brute, elle, est gratuite.

A propos de Swissprot, elle est maintenant incluse dans Uniprot, qui contient aussi 99% d'information organisées automatiquement. Il n'y a donc pas forcément opposition entre l'approche automatique à la Google et l'approche curation manuelle, si c'est bien géré.


vendredi 12 août 2011

L'arsenic pour les bactéries : non. Les blogs pour la science : oui

Cliquez sur l'image
Ces derniers mois s'est joué un petit drame comme il arrive parfois en science. Je vous raconte un peu, parce que ça inclut de la biologie, des blogs, la NASA, le prestigieux journal Science, des questions sur la revue par les pairs, le rôle des débats et de l'autocorrection en science, des pirates et des cannibales.

Tout a commencé avec une conférence de presse sponsorisée par la NASA, où des microbiologistes eux aussi sponsorisés par la NASA ont affirmé avoir isolé une bactérie qui peut utiliser l'arsenic à la place du phosphore pour fabriquer de l'ADN.

Pour comprendre l'impact d'une telle découverte, un peu de contexte : l'ADN est la molécule qui porte le matériel génétique, et est indispensable au fonctionnement de toute cellule vivante (jusqu'à preuve du contraire). Elle est formée d'une chaîne de nucléotides A, C, G, T, qui sont liés entre eux par des liaisons phosphate. Ergo, il y a un atome de phosphate qui est lié chimiquement aux deux nucléotides qui se suivent. Sans phosphate, pas d'ADN (ni ARN, mais bref). Or l'arsenic a des propriétés chimiques très semblables au phosphate. C'est justement pour cela qu'il est très toxique : il prend la place du phosphate dans des réactions chimiques indispensables au bon fonctionnement de la cellule (humaine ou bactérienne, on est tous égaux à ce niveau de chimie), mais il n'est pas du phosphate, donc ça ne marche pas comme il faut, et catastrophe. Et je suis resté simple, le phosphate est indispensable à beaucoup de fonctions essentielles de toute cellule vivante (ouais y a pas beaucoup de fonctions dans une cellule morte).

Ce qu'affirmaient les chercheurs sponsorisés par la NASA, c'est qu'une bactérie isolée d'un environnement riche en arsenic pouvait, en laboratoire, se passer de phosphate et le remplacer par de l'arsenic dans son ADN, tout en survivant et en se reproduisant.

Là où les choses ont pris un tour intéressant, et très Web 2.0, c'est que l'article, accepté dans le journal Science (un des deux plus prestigieux qui existent, avec Nature – Nature c'est anglais, Science c'est américain), a été mis en ligne sur le site web du journal immédiatement, même s'il n'allait apparaître dans la version imprimée que plusieurs mois plus tard. Intrigués par le ramdam médiatique et l'importance potentielle de la découverte, un bon nombre de microbiologistes et de biochimistes, et non des moindres, sont allés lire le papier. Et ont souvent été très déçus. D'après la plupart d'entre eux, il manquait des contrôles basiques dans les expériences, les résultats n'étaient pas concluants du tout, et la présentation des résultats à la conférence de presse avait été limite mensongère.

Ca c'est très grave. On peut faire de la science de plein de manières, on peut être sympa ou méchant, on peut être révolutionnaire ou conservateur, on peut aimer les maths ou les bottes en caoutchouc, on peut sauver le monde ou rester dans sa tour d'ivoire, mais parmi les valeurs non négociables il y a l'honnêteté et l'importance des contrôles.

L'honnêteté c'est facile à comprendre : mentir quand le but c'est de trouver la vérité collectivement, c'est clairement à l'encontre de l'objectif. Avant de me dire que ça n'est pas spécifique aux scientifiques, pensez qu'un vendeur qui ment bien et atteint ses objectifs, un militaire qui ment (on appelle cela ruser des fois) et gagne, un politicien qui ment et bref, dans beaucoup de professions la vérité est un plus joli si on peut, mais pas la valeur fondamentale. En science, si.

Pour les contrôles, c'est un peu plus technique. Disons que dans beaucoup de cas, le résultat d'une expérience pourrait être du à une variété de facteurs, et peut être interprété de différentes manières. Ce chien peut aboyer tous les soirs parce qu'il voit passer un camion, parce qu'il a faim, parce qu'il a entendu un autre chien aboyer dans le loin (il oie un chien qui aboie le soir au fond des bois). On pourrait contrôler en lui donnant à manger plus tôt, en lui cachant les camions, en lui bouchant les oreilles, etc. Les bactéries peuvent pousser parce qu'elles utilisent l'arsenic, ou parce qu'il reste du phosphate dans le milieu de culture. Elles peuvent avoir intégré l'arsenic dans leur ADN, ou l'avoir pompé et isolé dans un compartiment poubelle spécial (appelé vacuole).

En l'occurrence, plusieurs autres chercheurs ont suggéré qu'il manquait une expérience clé, à savoir isoler l'ADN des bactéries et vérifier s'il contenait directement de l'arsenic. Oui parce qu'ils n'ont pas fait ça les chercheurs à conférence de presse.

Parmi les critiques, plusieurs avaient des blogs. Plusieurs ont été interviewés par un journaliste qui a un blog très lu, Carl Zimmer. Et donc la blogosphère s'est retrouvée pleine de critiques informelles mais très bien informées du papier, même pas encore officiellement publié. Un excellent résumé en anglais sur le blog de Carl Zimmer ici.

Les auteurs de l'article pas encore publié ont répondu qu'ils ne répondraient qu'à des critiques publiées dans un journal scientifique en bonne et due forme. Ce qui est pas mal de culot pour des gens qui prétendaient juste avant révolutionner la science par conférence de presse.

La controverse ne s'est pas arrêtée là. L'article a été évalué très positivement par certains microbiologistes dans le forum (élitiste) pour scientifiques Faculty of 1000, et d'autres scientifiques ont descendu le papier en flammes au même endroit, y compris en citant les blogs.

Je vais citer une partie d'une évaluation sur Faculty of 1000, paBen Busby et Michael Galperin :


Contrairement aux auteurs et à l'évaluateur [celui qui aimait le papier dans le forum], je pense qu'il est important de noter que cet article ne démontre pas son affirmation principale, selon laquelle la bactérie étudiée, Halomonas sp. GFAJ-1, "peut pousser en utilisant de l'arsenic au lieu de phosphore". Toutefois, malgré ses nombreux problèmes, cet article est important parce qu'il démontre la capacité qu'à une espèce de bactérie à tolérer de très haut niveaux environnementaux d'arsenic de phosphate.

L'article a été officiellement publié dans Science le 3 juin 2011. Fait rarissime, dans le même numéro du magasine, il y avait 8 commentaires techniques critiques publiés à la suite de l'article, ainsi qu'une réponse des auteurs de l'article. Je pense que cela vaut la peine de citer la fin de l'éditorial de ce numéro de Science, consacré bien sûr à cet article :

Les procédures pour les Technical Comments and Responses sont telles que les auteurs de départ ont le dernier mot, et nous reconnaissons que des questions restent sans réponse. Toutefois, la discussion publiée aujourd'hui n'est qu'une étape dans un processus bien plus long. Wolfe-Simon et al. rendent leur lignée bactérienne GFAJ-1 disponibles aux autres [chercheurs] pour tester leurs hypothèses, dans le cadre normal de l'avancement de la science.

En d'autres termes, l'éditeur en chef de Science pense que les critiques ont raison, et l'article est erroné, même s'il le dit diplomatiquement. A la suite de l'éditorial, il y a des liens vers les commentaires et l'article, mais je pense que c'est tout limité d'accès aux institutions ayant des abonnements, à savoir les universités etc. De l'intérêt de la publication Open Access pour le débat scientifique.

OK, j'admet, il n'y avait pas de pirates et de cannibales finalement. Désolé.