#Newsletter Prismes
L’IA générative accélère la lecture du grand livre du vivant.
La technologie des grands modèles de langage, à la base de l’IA générative, sont massivement utilisés par les scientifiques pour comprendre le fonctionnement du vivant. Pourtant on en parle peu, alors que les enjeux sont considérables, notamment concernant l’accaparement de la connaissance par des intérêts privés.
Les milliards de dollars ou d’euros pleuvent sur les acteurs de l’IA, et attirent les projecteurs. OpenAI vient d’annoncer un accord de 38 milliards de dollars avec Amazon, après avoir récolté 40 milliards, toujours en 2025 auprès d’un groupe d’investisseurs dont Softbank et Microsoft. Meta a levé 30 milliards de dollars en obligations début novembre, Anthropic 13 milliards en septembre… n’en jetez plus !
Ce déluge d’agent occulte souvent l’utilisation concrète de ces technologies d’IA génératives. Les différentes versions des grands modèles de langage (LLM – Large Langage Model), brique indispensable à toute IA dite générative, sont attendues, anticipées, annoncées, analysées, critiquées, même. Mais l’histoire est toujours la même : une révolution est enclenchée qui promet monts et merveilles et malheur à ceux qui ne prennent pas le train en marche. Pourtant, si les usages personnels sont avérés (résumé, génération de texte ou d’images ou de vidéos…), les analystes peinent à décrire des utilisations concrètes déployées à l’échelle dans les entreprises. On parle de hausse de la productivité, du PIB mondial, d’innovations sans frontière… mais sans jamais vraiment détailler comment cela va se concrétiser.
Et pourtant, ces IA génératives apportent tous les jours des solutions concrètes et permettent de faire progresser à pas de géant le déchiffrement du grand livre du vivant. Les chercheurs en biologie utilisent des LLM particuliers appelés LLM protéiques. Ils présentent les mêmes capacités d’extrapolation, fonctionnent avec les mêmes briques technologiques, mais le corpus documentaire sur lesquels ils ont été entrainés n’est pas du texte, mais des molécules chimiques. L’alphabet utilisé par les LLM protéiques n’est pas composé de lettres mais d’acides aminés. Briques élémentaires du vivant, les acides aminés les plus connus ont pour nom glycine, aspartate ou encore glutamate. Associés en longues chaines, ils forment des protéines, grosses molécules à la fois matériau (muscle, os…) et éléments fondamentaux de la machinerie cellulaire. Les protéines peuvent être des enzymes, ou des anticorps. Par exemple l’hémoglobine est une protéine permettant de fixer et transporter l’oxygène que nous respirons pour l’amener dans les cellules de nos organes et nos muscles. Les protéines sont détruites et produites en permanence par notre organisme, selon le « mode d’emploi » inscrit dans nos gènes. On dénombre 20 000 protéines chez l’être humain. Les acides aminés, au nombre de 20, peuvent être organisés de millions de façons différentes pour créer des « mots » et un « langage » protéique entier. Et parfois les mots sont très compliqués à comprendre. Une protéine peut compter des centaines voire des milliers d’acides aminés, et elle se plie et se déplie d’une façon très spécifique lui permettant d’accomplir sa fonction. Reprenons l’exemple de l’hémoglobine, mal dépliée, elle transporte moins d’oxygène, c’est le symptôme de la terrible maladie nommée drépanocytose. C’est une maladie génétique, un gène donnant une mauvaise instruction pour la génération de l’hémoglobine dans les cellules.
On comprend dès lors, tout l’intérêt des scientifiques pour les LLM protéiques capables d’extrapoler, à partir de séquences d’ADN connues, les protéines qui en découleront. Mais aussi de modéliser en 3D lesdites protéines pour comprendre leur fonctionnalité, voire leur dysfonctionnement. Les perspectives pour la compréhension du vivant et la mise au point de nouveaux médicaments sont considérables. C’est avec ce type d’IA générative qu’on a pu mettre au point le vaccin anti covid, sans oublier une vingtaine d’années de recherche sur l’ARN messager.
Aussi, tous les laboratoires de recherche du monde entier utilisent des LLM Protéiques. Depuis l’avènement des transformers (le T de ChatGPT – Generated Pre-trained Transformer), la brique permettant de bien comprendre la question posée et de générer une réponse plausible, en 2007, tous les chercheurs travaillent avec des LLM protéiques. Soit ils mettent au point leurs propres modèles avec leurs propres bases de données, soit ils utilisent des modèles existants. Alphafold, mis au point par Google, a obtenu le prix Nobel de Chimie en 2024, pour sa capacité à modéliser la structure en 3D prise par les protéines en ne connaissant que la succession d’acides aminés qui les constituent. Depuis 2021, plus de 6 millions de structures ont été prédites et plus de 20 000 articles ont été publiés dans des revues scientifiques.
Étonnamment, tous les grands fournisseurs de LLM proposent des LLM Protéiques, Google, donc, mais aussi OpenAI, Meta ou Anthropic, mais on en parle peu, en dehors des milieux scientifiques. Si Google a beaucoup communiqué sur « son Nobel », a été passé sous silence la frustration des chercheurs ne pouvant pas utiliser la version Alphfold 3 comme ils pouvaient le faire avec Alphafold 2 qui a obtenu le Nobel. Alphafold 2 était en open source, donc le code accessible, ce qui permettait aux chercheurs académiques de le bidouiller, et surtout d’interpréter les résultats de leurs expériences. Car Prédire une structure 3D est une chose, la valider en laboratoire en est une autre. Alphafold 3, permet de prédire non seulement la structure 3D des protéines, mais également leurs interactions avec d’autres molécules. Mais n’étant pas en open source, et avec des accès restreints, les universitaires n’auront pas forcément les moyens d’y avoir recours. Car il s’agit de monétiser ces LLM protéiques, dont les propriétaires vont se tourner vers les entreprises pharmaceutiques, aux poches mieux remplies. En mars 2025 a été annoncé le consortium AI Structural Biology, regroupant tous les big pharma. L’objectif est de créer un outil IA entrainé sur des milliers de structures protéiques 3D, propriété des grands groupes pharmaceutiques. Il ne sera pas accessible aux universitaires. Nonobstant la nécessité de donner plus d’importance aux sujets scientifiques, il serait judicieux que les projecteurs médiatiques se braquent sur ces LLM protéiques, au moins autant que les ChatGPT et consors. Car les biens communs que sont la connaissance du vivant et l’innovation informatique ne peut pas être confisquée par quelques grandes organisations.
Christophe Quester, Directeur conseil
Actualités
Dead internet theory.
Jouons avec les biais cognitifs : du statu quo à la résistance au changement.
Nos désirs et nos récits sont à la fois nos freins et nos leviers d’action.