vendredi 27 mai 2011

Votre ADN est moins cher que mon ordinateur

C'est un lieu commun en génomique et en bioinformatique de noter que le coût du séquençage d'ADN diminue très vite, encore plus vite que le coût du calcul informatique. Mais voici un graphe piqué au National Human Genome Research Institute américain (si ça s'appelle "national" en anglais sans plus de précisions, c'est américain ; les français font pareil en pour les noms en langue française - devinez ce que veulent dire les N dans CNRS, INSERM, INRA, INRIA, etc.), graphe disais-je qui résume la tendance récente de manière frappante, surtout si vous avez l'habitude de lire en échelle log (ça me rappelle que je veux faire un billet de blog pour râler contre l'habitude francophone d'écrire des phrases trop longues) :


La ligne blanche, c'est loi de Moore, qui dit que le coût du calcul informatique décroît de manière exponentielle. Ce qui apparaît comme une droit sur un échelle logarithmique (même si on représente plutôt la croissance du calcul à prix égal, comme dans Wikipedia). Donc tous les ans ça ne diminue pas juste un peu, mais plutôt ça change d'ordre de grandeur. C'est grâce à ça que votre ipad est plus puissant que le supercalculateur de la météo d'il y a 15 ans (c'est vrai !).

La ligne bleu qui se casse la gueule, c'est le coût du séquençage d'ADN. Si une droite c'est une exponentielle, le décrochage que vous voyez là c'est un méga changement d'ordre de grandeur chaque fois que vous rafraîchissez la page web du vendeur de séquenceurs. Séquencer l'ADN ne coûte vraiment plus rien. C'est super cool.

jeudi 26 mai 2011

du jargon

Saturday Morning Breakfast Cereal

On reproche souvent aux scientifiques d'utiliser trop de jargon. On est chacun bien d'accord d'ailleurs que les autres utilisent trop de jargon. Voir par exemple ce billet de blog de Jerry Coyne (et commentaire par Jason Rosenhouse, un mathématicien qui blogue sur la biologie évolutive).

Mais sans défendre le jargon, il faut quand même se rappeler qu'il y a une raison pour laquelle on utilise des termes précis, dont les nuances sont complexes à saisir pour les personnes hors du domaine. Même en biologie. J'y pensais en lisant récemment un excellent article de revue sur la pléiotropie (version officielle de l'article ici ; version gratuite sur le site web d'un des auteurs ici). Là, les auteurs doivent commencer par noter que :

The standard definition of pleiotropy is as intuitive as it is ambiguous. It simply states that a mutation is pleiotropic if it affects more than one trait or character

Voilà c'est sympa d'utiliser des termes à la légère, mais après quand on des résultats contradictoires, ou des données à tester, on est bien embêtés.

Soit dit en passant, Jason Rosenhouse remarque que les articles de biologie sont plus lisibles. A mon avis, c'est parce qu'il lit des articles de biologie évolutive. Parce que le texte moyen d'un article de biologie moléculaire, ça ressemble souvent à ceci :

We then examined the methylation profile of the AVP promoter within the BST using two different methylation sensitive restriction enzymes (MSREs) based on the specific CpG sites bound by these enzymes on the AVP promoter (Fig. 2, gray-shaded bases in each sequence). Using four different primer sets, we were able to target four individual CpG sites on the AVP promoter. We used the HpaII enzyme to bind three distinct CCGG sequences on the AVP promoter.

(méchamment cité de cet article choisi au hasard)

Que les classes qui n'ont jamais été grossières jettent la première pierre.

lundi 23 mai 2011

C'était mieux avant

XKCD students

A intervalles réguliers, je vois des syndicats et associations étudiantes s'opposer à la réforme de Bologne, ou en faire des bilans sinistres. J'avoue que j'ai du mal à comprendre cette attitude.

Rappel pour ceux qui sont partis de la fac il y a longtemps : le processus de Bologne, c'est une uniformisation de l'enseignement supérieur en Europe, autour de deux concepts clés : trois diplômes reconnus dans toute l'Europe, la licence/bachelor, le master, et la thèse ; et un "euro" de l'enseignement supérieur, le crédit ECTS, qui permet la validation d'enseignements dispensés dans un pays par les universités d'un autre pays. Ainsi une licence est définie comme 180 ECTS. Si vous allez dans un autre pays faire un semestre, vous devez récolter 30 ECTS (faites les maths), et au retour c'est reconnu dans votre licence. Et si après votre licence vous voulez faire un master dans un autre pays, pas de problème lié aux différences entre maîtrise française, diploma allemand, etc. Que du bon.

A l'occasion de ce processus, certaines filières ou certaines universités ont simplement repeint leurs anciennes structures aux nouvelles couleurs, tandis que d'autres en ont profité pour faire des réformes de fond. On peut regretter que tous n'aient pas fait un effort plus important, mais il ne me semble pas que ce soit catastrophique. Et bien sûr, si l'on change les choses, il y a en aura qui regrettent l'ancien système. Mais vraiment, regretter la complexité du mouvement des étudiants et des professionnels en Europe (oui, parce qu'avec votre Master qui est reconnu dans toute l'Europe vous pouvez aussi chercher du travail ; expliquez les anciennes nuances entre maîtrise, DEA, DEE, diplôme de grande école, etc, à un employeur hors de France), regrettez cela disais-je, ça me surprend, et même ça me choque.

On peut aussi regretter que la mobilité reste freinée par les moyens financiers des étudiants et les financements disponibles, mais ça, ça n'est pas la faute du processus de Bologne.

Une critique que j'ai lue, mais aussi vécue, qui me semble justifiée, est l'augmentation du nombre d'examens par an, du fait de la modularité des études. On n'a pas encore trouvé un moyen d'échanger facilement les acquis entre universités ou entre filières sans examens validant ces acquis. Je n'ai ceci dit pas vu d'étude réelle de l'impact de cette augmentation : quels étudiants cela défavorise-t-il, et quels étudiants cela avantage-t-il ? En l'état des choses, cela me paraît un prix faible à payer pour la clarification du paysage universitaire européen qui s'est produit.

jeudi 19 mai 2011

Un des problèmes de l'inter-disciplinarité

http://xkcd.com/755/
J'ai vu un séminaire récemment, dans lequel un conférencier issu de la psychologie et de sociologie, ayant aussi travaillé en philosophie, et très intéressé par l'anthropologie, présentait son travail de "psychologie développementale" à une audience de biologistes évolutifs. Je ne vais pas parler de ses résultats, mais de la difficulté de communication entre disciplines.

Beaucoup des questions et des remarques portaient en effet sur la façon dont il présentait ses résultats, la terminologie employée, et le manque de rigueur sous-entendu par cette présentation. Il l'a très bien pris ; vu son parcours, il doit avoir l'habitude. Ce qui m'a aussi frappé c'est que les remarques négatives venaient des professeurs les plus seniors, alors que les questions constructives sont venues d'avantage des étudiants. On peut imaginer plusieurs raisons à cela : un étudiant critique n'ose pas parler, un prof si ; les étudiants ne sont venus que s'ils étaient motivés par le sujet, les profs sont venus pour d'autres raisons ; il y a plus d'étudiants, donc plus d'opportunités de questions intéressantes, mais nous les profs voulons toujours parler même si nous n'avons pas de remarque intéressante ; les étudiants intéressés à ces bêtises et manquant de sens critique ne deviendront pas profs ; etc.

Cette expérience se reproduit souvent lorsqu'il y a une discussion interdisciplinaire, et d'autant plus je pense lorsque l'une des parties (ici, les biologistes) se considère comme issu d'une science plus "dure" que l'autre. On peut voir des problèmes similaires souvent lors des discussions entre biologistes et informaticiens, par exemple. Mais je suis optimiste : il me semble qu'il y a plusieurs exemples de disciplines qui sont nées de discussions interdisciplinaires, comme la biochimie ou la génétique moléculaire pour celles que je connais le mieux. Dans ces cas, une vraie valeur ajoutée pour toutes les parties impliquées a émergé de manière claire, et de nouvelles générations de scientifiques ont appris à travailler ensemble et se respecter (un peu comme les physiciens et les psychologues du dessin ci-dessus). J'ai espoir pour la bioinformatique, où j'ai vu en moins de 20 ans un dialogue de sourds devenir une discipline émergente.

mercredi 18 mai 2011

réponse : NoSQL

Dans les commentaires, Skrol29 demande:
Est-ce que la bio-informatique a recours au bases de données de type NoSQL pour résorber les problématiques de volumétrie ?
Comme je n'arrive pas encore à utiliser les commentaires pour répondre (???), je poste ma réponse ici :

Si tu veux dire, est-ce que la bioinformatique utilise des outils à la mode comme Hadoop, encore assez peu. Il y a des initiatives, comme celle-ci que j'ai trouvé avec une recherche Google simple: http://bowtie-bio.sourceforge.net/crossbow/index.shtml
Une vérification rapide sur ISI Web Of Science montre que c'est encore peu cité, donc probablement peu utilisé.

Si tu veux dire, est-ce qu'on utilise des bases de données non SQL, les grandes et anciennes bases de données de bioinformatique sont des fichiers plat, pas des bases relationnelles. Par exemple GenBank (http://www.ncbi.nlm.nih.gov/genbank/), qui contient toutes les séquences d'ADN publiquement disponibles par des techniques "classiques". J'ai trouvé ici (http://homepage.mac.com/iankorf/mygenbank.html) un effort pour faire un GenBank relationnel, et on remarque qu'il laisse les séquences hors de la bases.

Marie Curie est-elle si seule?

Un récent XKCD qui fait remarquer d'une part qu'il n'y pas que Marie Curie comme scientifique féminin à succès, et qui affirme surtout que pour réussir en science il faut aimer faire de la science.


La question à se poser : est-ce que ça me fait plaisir de venir le matin ? Est-ce que ça m'amuse encore ?

Et je parlerais des femme en science plus sérieusement bientôt. On peut déjà remarquer que les mécanismes de la discrimination sont probablement différents au début du 20ème siècle et aujourd'hui.

mardi 17 mai 2011

Blah Blah Cloud

En commentaire à mon post précédent, je me dois de lier à ce strip de Dilbert:
http://www.dilbert.com/strips/comic/2011-01-07/

Bioinformatique et Web 2.0


Le Lab des usages d'une société de consultants m'a posé quelques questions, et j'ai pensé que ça serait intéressant de partager les réponses ici :
Quels sont les changements majeurs de la bioinformatique de ces 10 dernières années, et plus particulièrement les 5 dernières ?
Le changement majeurs de la bioinformatique est la facilité avec laquelle chaque laboratoire, et non seulement quelques grands centres de génomique, peut générer d'énormes quantités de données. Cela pose des défis en termes de stockage, de gestion de données, d'analyse, de visualisation, et d'interprétation. Cela veut aussi dire que les biologistes expérimentaux se rendent compte qu'ils ont besoin de la bioinformatique.
Quelle est l’utilité bioinformatique du cloud actuellement ? Que peut-on en attendre ?
Actuellement, je dirais que le cloud a peu d'utilité en bioinformatique. Le problème est double : (i) il y a peu d'outils informatiques bien établis, qu'il suffirait d'implémenter dans le cloud ; (ii) beaucoup de projets nécessitent de travailler sur de grandes quantités de données (Tb voire Pb) , qui se prêtent mal au cloud ou au grid.
Quels sont à l’échelle d’un laboratoire de recherche, les impacts (investissement, gain)  de coût de « passer dans le cloud ». Est-ce un passage obligé pour survivre ? Tiendra-t’on la distance avec les pays émergents en terme de développements ou cela va-t’il nous recentrer sur la modélisation « systems biology ».
Cela dépend vraiment du type de projet, mais le modèle qui émerge me semble d'avantage être d'avoir des centres de compétence en calcul bioinformatique, de type cluster plutôt que cloud. Je pense que l'on garde une avance sur les pays émergents dans le design expérimental et l'interprétation biologique des données, qui sont d'avantage clés au final que le calcul lui-même. Mais je pense aussi qu'on a assez de données et de questions à étudier pour tout le monde, et donc plus on est de fous plus on rit !
En quoi cela change le profil des recrutements (doctorants, chercheurs à venir ?
Ca c'est à mon avis la question la plus importante. En dehors du besoin de former des bioinformaticiens en nombre croissant, la bioinformatique doit entrer la boîte à outil de tout biologiste, comme la biologie moléculaire l'a fait. Donc les profils doivent inclure au niveau des étudiants un minimum d'exposition à la bioinfo, de préférence un peu de programmation, de type Perl/Python ou simplement R ; et au niveau des chercheurs et profs une conscience du rôle de la bioinfo, et la capacité si nécessaire d'encadrer des projets à composante bioinfo.
Versez déjà dans le travail collaboratif numérique ? Avez-vous  eu des initiatives en ce sens (réussies ou non) pour changer votre façon de travailler en interne ?  La sensibilité a son retour sur investissement existe-t‘elle dans les laboratoires ou en est-on encore à se dire que ça pourrait être intéressant mais il y a d’autres priorité ?
Mon groupe utilise beaucoup la plateforme wikimedia en interne. D'autres outils "Web 2.0" utilisés incluent Dropbox pour écrire des articles à plusieurs, Google Calendar pour le calendrier du groupe, et Doodle pour organiser des réunions. J'utilise également LinkedIn pour rester en contact avec mes ex-collaborateurs. Et les gros projets de programmation utilisent Subversion, mais ça n'est pas vraiment du Web 2...
A l’heure des réseaux sociaux d’entreprise, de telles initiatives existent-elles dans le monde de la recherche, au sein d’un laboratoire ou de la communauté mondiale ?
Il existe beaucoup d'initiatives (http://www.nettab.org/2010/), le problème est de les faire fonctionner. Les chercheurs manquent de motivations pour contribuer à des réseaux de ce type, au-delà des listes email d'annonces de conférences et de postes.
Quelle part des développements bioinformatiques tombe aux oubliettes faute d’information, départ de doctorants ou de communication interne. Comment est gérée la conduite du changement auprès des utilisateurs biologistes ? Qu’avez-vous mis en place pour contrer cela ou que pourrait-on faire ?
Dans mon groupe les projets sont évalués en fonction de leur potentiel à être maintenu sur le long terme. Certains développements bioinformatiques tombent en effet aux oubliettes, surtout des petits projets très spécifiques. Mais nous maintenons deux gros projets sur le long terme, et nous essayons autant que possible que de nouveaux développements s'inscrivent dans ces gros projets, ce qui facilite leur maintien. Un point clé est d'avoir du personnel stable, en plus des doctorants et postdocs.
Quel serait le travail d’un directeur de laboratoire 2.0 ? Avez-vous mis en place de nouveaux outils web, des facilitations de processus administratifs, soumission de papiers ?
Je ne pense pas qu'on puisse parler de "directeur de laboratoire 2.0". Les outils facilitent le travail, mais la tache du directeur reste essentiellement la même. Il faut garder la porte ouverte, parler avec les gens, et suivre les projets et la technologie.

lundi 16 mai 2011

Commençons en BD

http://biocomicals.blogspot.com/2011/05/thats-what-bioinformaticians-do.html


Alors si je fais un blog je vais parler de quoi ? On va commencer par un dessin qui explique en détail ce que nous autres bioinformaticiens faisons toute la journée.
Et puis on va voir si j'arrive à alimenter ce blog.

Tcho

Paf ! Pas de chance

Bon je démarre un blog, et le lendemain Blogger ne marche pas. D'entrée mes bonnes résolutions de mise à jour sont empéchées. Persévérons.
Hop!

dimanche 15 mai 2011

Pendant ce temps, en Chine

D'après Nature Blogs, non seulement la Chine publie de plus en plus de papiers scientifiques, mais ils en publient de plus en plus dans les plus prestigieux journaux, du style Nature et Science.

J'aurais été curieux de voir aussi l'évolution du nombre de papiers prestigieux avec uniquement des auteurs chinois, et du rapport papiers prestigieux / tous papiers. Est-ce qu'ils publient de mieux en mieux en proportion de leur productivitié globale ? Est-ce qu'ils soumettent de meilleurs papiers, ou est-ce que les journaux les prennent plus au sérieux ? La première étape dans ce type de journaux est que l'éditeur doit décider d'envoyer l'article aux reviewers, plutôt que de dire non d'entrée (la réponse majoritaire).

Blouk Blouk