lundi 25 juillet 2011

jugez et soyez jugés

cliquez sur l'image

Il est à la mode dans certains cercles d'affirmer que le modèle de publication scientifique basé sur l'évaluation par les pairs (peer review) est en crise, à tel point qu'il faut tout jeter. Exemple récent sur le blog Genomes Unzipped. Voir aussi la longue critique de la pratique de la recherche que j'ai discutée précédemment (ici et ici) (et je comptais continuer, mais je n'ai pas trouvé le temps – en tous cas le Lawrence n'aime pas le peer review tel que pratiqué).

Sans entrer dans les détails, je voudrais juste noter ici à quel point cette pratique fait partie de ce que cela signifie, être un scientifique, faire de la science.

A chaque étape, et notamment lorsque l'on écrit ses résultats, l'on a en tête un examinateur sourcilleux et exigeant, prêt à pointer toutes vos erreurs, toutes vos approximations, à remettre en cause tous vos a priori et vos simplifications.

Je sais que d'autres métiers contiennent une part de jugement, mais je voudrais faire remarquer quelques spécificités, qu'il me semble que l'on perdrait en jetant ce système sans avoir trouvé un remplacement adéquat :
  • Le processus est symétrique. On n'a pas d'une part des artistes, d'autre part des critiques d'art. Chaque mois je juge des articles, je critique leurs méthodes, leur présentation, leur nouveauté ou leur pertinence. Et quand j'ai un nouveau résultat à communiquer, c'est à mon tour d'être passé sur le gril.
  • Pour continuer le contraste avec les artistes, nous autres scientifiques sommes tenus de prendre en compte les critiques. Par défaut, on suppose que la personne qui vous critique a raison, et c'est à vous de modifier vos données, vos arguments, votre analyse ou votre interprétation en conséquence. Parfois l'on peut démontrer que le critique a tort, mais il faut le montrer clairement, et on ne peut que rarement s'en sortir comme ça. Comparez cela à la réaction d'un artiste face à de mauvaises critiques.
  • Les critiques elles-mêmes doivent être argumentées. Ca c'est le point le plus faible, et qu'il serait bien en effet d'améliorer : si un rapporteur (celui qui critique) dit des choses méchantes et injustes, il n'y a aucune conséquence pour lui. Au mieux, l'éditeur (celui qui joue le rôle d'arbitre et prend la décision finale) s'en aperçoit et ignore cette critique. Au pire...
Il me semble que toute réforme qui ne garderait pas cette dimension essentielle d'un jugement attentif et continu de notre travail, et par chacun de nous du travail des autres, serait un appauvrissement de la pratique de la science.

vendredi 22 juillet 2011

Probablement

cliquez sur l'image

Un exemple cliché dans l'enseignement des probabilités concerne la manière dont sont habillés les étudiants dans la salle. Le produit des probabilités que chacun ait mis exactement ces habits-là ce jour-là est très faible, et pourtant cela s'est produit. Ceci illustre le fait que des évènements très peu probables peuvent se produire, et parfois doivent se produire. La probabilité que tous les étudiants soient habillés d'une manière ou d'une autre était proche de 1. Ce qui correspond à la somme de toutes les manières (peu probables chacune) qu'ils soient habillés.

Un autre exemple classique d'évènement peu probable qui doit se produire est le tirage du loto. Chaque combinaison de chiffres est très peu probable, mais il est certain que l'une de ces combinaisons (aussi peu probable que les autres) sera tirée. Pour donner un sens intuitif à cette notion de "peu probable" en l'occurrence, essayez de vous rendre compte que la série tirée la dernière fois avait la même probabilité que de tirer 1, 2, 3, 4, 5, 6, 7, 8, 9 (s'ils tirent neuf boules, je ne suis pas très au fait du loto).

Vous suivez ? Bon.

Parce que ça m'a donné l'idée d'une façon d'illustrer des stats plus élaborées, nommément la vraisemblance et le Bayesien (qui a droit à une majuscule car nommé d'après le révérend Bayes). Je veux dire l'exemple des habits, le loto c'est chiant. Je ne suis pas sur que mon idée soit originale, mais on va faire comme si.

Supposons que vous entriez dans un amphi de fac au hasard, et vous voyez des étudiants tous habillés de manière très formelle (cravates pour les garçons, tailleurs pour les filles). Dans quelle filière êtes-vous arrivé ? Biologie ou finances ? Et si vous entrez et que vous voyez les étudiants habillés avec des châles et des grandes jupes pour les filles, des pulls tricotés et des chemises Mao pour les garçons, et des lunettes rondes de partout ? Littérature ou médecine ?

La combinaison exacte de cravates, costumes, tailleurs, chemisiers, etc, que vous voyez dans l'amphi est très peu probable de toutes façons (voir raisonnement précédent). Mais elle est plus probable dans un amphi de finances que dans un amphi de biologie. Donc quand vous entrez dans cet amphi, vous vous dites que vous êtes probablement en finances (ou en droit admettons). C'est l'idée de base de la vraisemblance en statistiques : on cherche sous quelle hypothèse (étudiants de biologie ou de finances ?) les données sont les plus probables.

Ce qui paraît tarabiscoté, vu qu'on sait que les données sont vraies, et qu'en plus les probabilités sont très faibles. Mais c'est exactement le raisonnement qui conduit à penser que l'amphi plein de costards-cravates n'est probablement pas la biologie ou la littérature.

Donc la vraisemblance de l'hypothèse H (étudiants de biologie) est la probabilité des données (comment qu'ils sont fringués) sous cette hypothèse. Et on retiendra l'hypothèse du maximum de vraisemblance, donc dans le cas costard-cravate, finances. On peut même noter qu'on n'a pas les données pour distinguer deux hypothèses de vraisemblance également élevée, finances ou droit.

C'est très utile en biologie, parce que souvent on a des données très peu probables sous un raisonnement probabilistique classique (par exemple des séquences d'ADN uniques), mais pour lesquelles on peut proposer une hypothèse de maximum de vraisemblance (concernant l'homologie, la structure, etc, ça dépend de la question posée).

(Oui parce qu'on peut poser différentes questions avec les mêmes données. Avec les habits, on pourrait voir la vraisemblance de la saison, d'une situation d'examen / cours / travaux pratiques, etc.)

Ce qui n'est pas intuitif dans cette histoire, c'est qu'on aimerait bien connaître non la probabilité des données, mais celle de l'hypothèse qu'on teste. C'est vrai quoi, on s'en fout de la probabilité ultra-faible de toutes ces paires de chaussettes.

Entre en scène le révérend Bayes.

Il a donné son nom à un théorème qui est pratiquement une évidence. Parfois formaliser les évidences c'est utile, voir aussi l'équilibre de Hardy-Weinberg en génétique.

Reprenons d'abord les étudiants habillés. Maintenant on n'entre plus dans un amphi au hasard, mais dans un amphi qui a écrit sur la porte "Grand amphithéâtre de Lettres". On s'attend a priori avant même d'entrer à trouver des étudiants de lettres. On a donc une probabilité a priori forte pour l'hypothèse "étudiants de lettres", et faible pour les autres hypothèses. Si on entre et que l'on voit plein de châles et de lunettes rondes et de barbiches, on confirme notre a priori. Mais si on entre et que l'on voit un amphi plein de costards-cravates et de tailleurs ? Est-ce que les nouvelles données (la façon dont ils sont habillés) sont suffisants pour modifier notre a priori ? C'est ce que formalise Bayes.

Proba(Etudiants de lettres, sachant Habillés en costards) = Proba(Etudiants de lettres) x Proba(Habillés en costards, sachant Etudiants de lettres) / Proba(Habillés en costards)


Proba(Etudiants de lettres) c'est notre idée a priori que l'amphi de lettres sera plein d'étudiants de lettres ;
Proba(Habillés en costards, sachant Etudiants de lettres) c'est la probabilité  que les étudiants de lettres aient tous mis des costards ;
Proba(Habillés en costards) c'est la probabilité pour les gens en général de mettre des costards, qu'ils soient en lettres ou non.

Donc à la fin c'est à voir qui gagne : la probabilité d'avoir des étudiants en lettres dans l'amphi de lettres est-elle suffisamment forte pour accepter l'idée farfelue qu'ils se soient tous habillés en costard ? Ou la probabilité d'avoir des lettreux en costard est-elle suffisamment faible pour accepter l'idée que l'amphi de lettres a été occupé par les étudiants en finances ?

Deux choses sont très intéressantes dans la formulation de Bayes : D'une part, on obtient le nombre qu'on veut vraiment, qui est la probabilité de l'hypothèse étant donné les données (on dit plutôt "sachant les données"). Et d'autre part, on prend en compte explicitement notre a priori. Or lorsque l'on obtient de nouvelles données, on a toujours un a priori, qui conditionne la confiance que l'on a dans les conditions autant que les données elles-mêmes. Votre réaction au rapport d'un miracle à Lourdes sera très différente selon que vous soyez catholique (a priori = les miracles à Lourdes sont probables) ou athée (a priori = les miracles sont très improbables). C'est pareil en sciences. Si l'analyse d'un gène m'indique que les humains sont proches parents des chimpanzés, cela est cohérent avec mon a priori, et je l'accepte facilement. Si un autre gène m'indique que les humains sont plutôt proches de la bactérie E. coli, j'aurais tendance à bien bien vérifier s'il n'y a pas eu d'erreur expérimentale, puis proposer un scénario de transfert de ce gène uniquement entre E. coli (qui vit dans notre système digestif) et l'ancêtre des humains. Il me faudrait beaucoup plus de données qu'un seul gène pour réviser mon fort a priori concernant les relations de parenté humain - chimpanzé - bactérie.

Ca peut paraître de la triche comme ça, mais c'est en fait une bonne façon de faire. Il faut être un peu conservateur, étant donné que la plupart de nos a priori largement acceptés (ceux avec une forte probabilité) sont acceptés pour de bonnes raisons. Exemple : les premières analyses moléculaires de l'évolution des mammifères séparaient les rongeurs. Dans une logique "vraisemblance", on retient cette hypothèse ; dans une logique Bayesienne, on note qu'on avait 200 ans de paléontologie et morphologie comparée regroupant les rongeurs ensemble, donc on demande une évidence vraiment forte de la part des données moléculaires. Ce qu'elles étaient incapables de fournir au début des années 1990. Par la suite, avec d'avantage de données moléculaires, un signal fort a émergé regroupant les rongeurs à nouveau. Donc prudence. Même si des fois les révolutionnaires ont raison bien sûr. Les mêmes études du début des années 1990 plaçaient les cétacés (baleines et dauphins) comme cousins des hippopotames, en contradiction aussi avec les paléontologues. Avec plus et mieux de données moléculaires, le signal est devenu tellement fort que les paléontologues ont du convenir que c'était la meilleure interprétation des données.

Le problème majeur de l'approche Bayesienne, c'est de donner une valeur précise à la probabilité a priori (appelée aussi "prior"). Il y a deux réponses à cela. L'une que je n'aime pas beaucoup (mais ça se discute) est de donner égale probabilité à toutes les possibilités. Dans ce cas, je ne vois pas l'intérêt de faire du Bayesien. L'autre (que je préfère) est d'utiliser le Bayesien lorsque l'on a une bonne estimation du prior, et d'utiliser la vraisemblance sinon.

En conclusion, j'aime bien le Bayesien, a priori.

vendredi 15 juillet 2011

Data science

cliquez sur l'image
Il y a un domaine émergent qui s'appelle Data Science en anglais. C'est assez nouveau pour ne pas avoir de page dédiée dans Wikipedia. Comme illustré dans le diagramme de Venn lié par l'image ci-dessus, il s'agit d'une aventure interdisciplinaire, à la croisée de la statistique, l'informatique, et au moins un domaine d'application. Ce que je trouve frappant, c'est à quel point cela décrit bien la bioinformatique. Pour des raisons étymologiques, on pense souvent que la bioinformatique est à l'intersection de l'informatique et de la biologie. Mais sans usage pertinent des statistiques, point d'analyse pertinente de gros tas de données.

Il faut d'ailleurs noter que l'étymologie joue des tours quand on change de langue. Le mot "Informatics" est rarement utilisé en anglais, et a un sens spécialisé (c.f. wikipedia). L'on parle plutôt de "Computer science" pour la recherche académique en informatique, et de "Information technology" (I.T.) pour les aspects plus bassement matériels, comme de brancher votre imprimante sur le réseau. Donc Bioinformatics peut être entendu en anglais comme soit un domaine abstrait de manipulation de l'information biologique, soit au contraire comme une application chiante de l'I.T. à la biologie. De nombreux chercheurs anglophones en bioinformatique préfèrent le terme "Computational biology", et l'entendent souvent (mais pas toujours) comme étant plus académique, par rapport à une "Bioinformatics" plus appliquée. Voir aussi l'excellente note de Iddo Friedberg sur les cinq types de bioinformatique.

J'en reviens donc à la Data science. Une chose que j'aime avec ce terme émergent, c'est qu'il recouvre exactement la pratique de la bioinformatique telle que je la comprends. Pas juste l'intersection informatique - biologie, que celle-ci soit comprise comme de la recherche informatique motivée par la biologie, ou de la programmation pour biologistes. Mais une recherche multi-disciplinaire motivée par le souci de faire sens de larges quantités de données. Dans cela, l'usage pertinent de l'informatique et des maths et des statistiques est important. Il faut également noter l'importance de la compétence dans le domaine d'application : le Data science émerge, mais personne ne peut être un bon data scientist plurivalent. Il faut comprendre les données, et cela veut dire comprendre la biologie, ou les réseaux sociaux, ou la finance, etc.

Et cela mène à l'autre point que j'apprécie, c'est que nous ne sommes pas seuls à bricoler dans notre coin. C'est un bricolage commun à plein de gens et plein de problèmes, parce qu'avec de plus en plus de données, de plus en plus de puissance de calcul, le point clé, cela devient l'usage intelligent de toutes ces ressources, pour répondre à des questions pertinentes.

Une autre analyse très intéressante de la Data science est sur le blog O'Reilly: What is data science?

lundi 11 juillet 2011

Intégrité scientifique

cliquez sur l'image

Chaque fois qu'il y a de l'évidence scientifique qui va contre des intérêts puissants, on sort des "experts" qui témoignent qu'il y a débat, et en fait on n'est pas sûr que le tabac tue, les pesticides polluent, la pollution change le climat, etc. D'où l'intérêt de l'analyse suivante :

Do Violent Video Games Harm Children? Comparing the Scientific Amicus Curiae “Experts” in Brown v. Entertainment Merchants Association

Que je n'ai pas lue, mais j'ai lu le commentaire du magazine Wired (ouais bon c'est un blog ici).

La cour suprême américaine a jugé que la Californie avait agi inconstitutionnellement en imposant une limite d'âge sur les jeux vidéo violents. Ils se sont basés sur le "débat", à savoir que certains experts disent que les jeux vidéo violents c'est mauvais pour les enfants, et d'autres disent que ça n'a aucun effet. L'étude sus-mentionnée a trouvé que les "experts" qui sont favorables à l'industrie du jeu vidéo publient beaucoup moins de science que les autres, ne publient presque pas sur les enfants et les jeux vidéo, publient dans de moins bon journaux. Bref, ce ne sont pas des experts mais des gars avec des titres ronflants payés par l'industrie pour créer un débat.

C'est un problème fréquent, mais rarement montré de manière clairement quantitative comme ceci.

A ce propos, je recommande l'excellent livre Merchants of Doubt: How a Handful of Scientists Obscured the Truth on Issues from Tobacco Smoke to Global Warming, de Naomi Oreskes et Erik M. Conway, malheureusement pas (encore ?) traduit.


vendredi 8 juillet 2011

livres sur la biologie évolutive

cliquez sur l'image
Une intéressante interview de Jerry Coyne, biologiste évolutif bien connu et blogueur (même s'il n'aime pas le mot blog), qui détaille ses livres préférés sur la biologie évolutive, pour le grand public :

http://thebrowser.com/interviews/jerry-coyne-on-evolution?page=full

Mes commentaires :

L'origine des espèces de Darwin. J'adore, je l'ai lu en français au lycée puis en anglais plus tard. Si vous voulez voir comment un scientifique doit avancer, prudemment, en se basant sur une interaction intelligente entre les faits et la théorie, en étant lui-même le plus grand critique de ses propres idées, un livre à lire. Je ne le recommanderais tout-de-même pas aux personnes n'ayant pas un intérêt très fort pour le sujet. C'est long, et il parle beaucoup de l'élevage des pigeons.

Une biographie de Darwin. Je ne l'ai pas lue, je n'en ai lu aucune. Je ne suis pas certain de la pertinence pour comprendre la biologie évolutive, mais peut-être que je devrais essayer. Par contre je suis en train de lire Voyage of the Beagle, le premier livre de Darwin. Très intéressant pour voir la synthèse de ses idées, pas encore cristallisées.

L'horloger aveugle de Dawkins. J'ai lu peu de Dawkins, je ne suis pas un grand fan. Il ne voit qu'une force à l'oeuvre en évolution, la sélection naturelle, et ne s'intéresse qu'aux phénomènes clairement adaptatifs qui s'expliquent ainsi. C'est son droit, mais je trouve qu'il donne une vision réductrice, dans laquelle les contraintes développementales, les rythmes paléontologiques, l'évolution de la fonction moléculaire, et autres subtilités, sont perdues. Jerry Coyne est un peu le même genre de biologiste (mais plus subtil à mon avis quand même), alors ça fait sens. Mais il paraît qu'il écrit très bien.

La malmesure de l'homme, de Gould. Un de mes livres de vulgarisation scientifique préférés, même après le récent petit scandale sur des erreurs de mesure de la part de Gould. Pas vraiment un livre d'évolution, mais une excellente introduction à la sociologie de la science, l'histoire de la science, une protection contre les préjugés pseuod-scientifiques, et une excellente explication de techniques statistiques.

Darwin et les grandes énigmes de la vie, de Gould. Je suis bien d'accord avec Jerry Coyne. Avant de devenir une caricature de lui-même vers la fin de sa vie, Gould était un des meilleurs vulgarisateurs scientifiques de tous les temps. Lisez tous ses vieux livres, voilà. Et en plus, il avait une vision pluraliste et complexe de la biologie évolutive qui me plaît d'avantage, mais ça c'est juste moi.


Evolution: What the Fossils Say and Why It Matters, de Donald Prothero. Pas traduit en français d'après Amazon.fr. Je l'ai lu, un excellent livre, mais d'accès moins facile que les précédents. Ce n'est pas que ce soit très technique, mais l'auteur a moins le don pour faire passer le message.


Et puis un de mes livres préférés de vulgarisation, même si un peu daté, n'est pas dans cette liste très anglophone, c'est Le hasard et la nécessité de Jacques Monod.


Bonnes lectures cet été.

vendredi 1 juillet 2011

Une expérience élégante sur l'évolution de la régulation des gènes

Cliquez sur l'image
Il y a certaines questions qu'il peut paraître difficile de résoudre de manière expérimentale directe. Souvent, c'est vrai que c'est difficile. Par exemple savoir quelles forces ont agi dans l'évolution passée des espèces. Mais ça n'est pas pour autant que c'est impossible. Voici une expérience récente que je trouve élégante dans laquelle les chercheurs se sont demandés si la sélection naturelle avait influencé de manière importante l'expression des gènes.

Quand on parle de l'expression d'un gène, on veut dire que le gène est actif dans certaines circonstances, ou à un certain endroit. Par exemple si un gène est exprimé dans le foie, cela veut dire que le produit de ce gène est fabriqué dans le foie (le produit c'est souvent une protéine, mais peu importe pour le moment). Le gène est présent dans toutes les cellules, tout le temps, mais dans beaucoup de cas il n'est pas actif, en d'autres termes pas exprimé.

En fait, l'expression n'est pas un tout-ou-rien. Un gène peut être faiblement exprimé, ce qui conduit à peu  de produit ; ou fortement exprimé, ce qui conduit à beaucoup de produit. Dans de nombreux cas, c'est le changement de niveau d'expression qui est important pour le fonctionnement du gène. Un peu comme un changement de niveau d'adrénaline est plus important que la simple présence de l'adrénaline dans votre sang.

Au niveau de la variation naturelle qui est le carburant de base de l'évolution, on observe qu'il existe de nombreuses différences de niveau d'expression entre gènes orthologues entre espèces, même proches. Alors la question posée est : est-ce que les différences de niveau d'expression observées entre espèces proches sont dues à la sélection naturelle, ou au hasard ?

Le principe de l'expérience élégante de Fraser et al. (et al. ça veut dire "et co-auteurs") est le suivant : la sélection naturelle pousse l'évolution dans une certaine direction, par exemple des poils plus longs pour un animal qui vit dans le froid, alors que l'alternative est que les changements s'accumulent au hasard, sans effet sur la survie et la reproduction, donc sans direction particulière.

Fraser et al. ont comparé l'expression de gènes entre sous-espèces de souris. Ils ont détecté les gènes dont l'expression diffère entre sous-espèces. Ils ont utilisé des croisements (ce sont des sous-espèces, pas des espèces, on peut les croiser) pour vérifier que les variations étaient dues à des mutations différentes. Parce que si des gènes sont contrôlés par la même mutation, ils vont varier dans la même direction, mais ça ne veut rien dire sur la sélection. Il faut une variation cohérente de mutations indépendantes. Ils ont ensuite cherché des gènes qui sont actifs dans la même fonction (par exemple des gènes qui contrôlent la mémoire de la souris), et qui varient dans le même sens. Ils en ont trouvé plusieurs statistiquement significatifs, qui montrent de la sélection notamment sur la mémoire et la longueur des souris.

Tout cela pour dire que si on s'y prend bien, on peut tester rigoureusement des hypothèses sur la sélection naturelle qui a affecté l'expression des gènes dans le passé de la divergence entre sous-espèces. Et plus si affinités.