Future House veut construire un biologiste en IA. Ils recherchent l’inspiration dans un LLM en chimie.
Une mission de 10 ans visant à former un biologiste de l’IA vient d’être lancée. L’équipe de l’organisation américaine à but non lucratif Moonshot Future House souhaite créer un assistant de recherche autonome pour accélérer la vitesse des découvertes scientifiques et aider à relever les principaux défis auxquels l’humanité est confrontée, notamment la résistance aux antibiotiques, la sécurité alimentaire et le changement climatique.
« Le goulot d’étranglement fondamental en biologie aujourd’hui ne réside pas seulement dans les données ou la puissance de calcul, mais aussi dans l’effort humain : aucun scientifique n’a le temps de concevoir des dizaines de milliers d’hypothèses individuelles, ou de lire les milliers d’articles de biologie publiés chaque jour. » a expliqué Sam Rodriques, directeur général du projet Future House.
L’objectif ultime du projet Future House est de produire un scientifique en IA capable d’accomplir de manière autonome des tâches de routine de complexité variable, de la conception d’amorces d’ADN au dépannage de problèmes expérimentaux. Un tel système doit être capable de raisonner scientifiquement : faire des prédictions, concevoir des expériences et analyser les résultats, ce qui dépasse la portée des systèmes d’IA actuels. Cependant, l’équipe multidisciplinaire, comprenant des biologistes, des biochimistes et des chercheurs en IA, prévoit de s’appuyer sur les avancées récentes de l’IA pour la science, notamment le modèle chimique à grand langage (LLM) ChemCrow. Sorti en avril, ce LLM présente déjà de nombreuses caractéristiques d’un futur scientifique en IA et pourrait servir de modèle pour le projet Future House.
ChemCrow fait passer les grands modèles de langage à un niveau supérieur
À ce jour, les performances des LLM en chimie sont notoirement médiocres. Les systèmes LLM sont formés sur d’énormes quantités de texte, ce qui leur permet de prédire la prochaine réponse logique avec une précision croissante à mesure que l’ensemble de formation s’élargit. Mais le manque de capacités de raisonnement et de pensée critique signifie que ces modèles fournissent généralement des réponses absurdes, même aux questions chimiques les plus simples.
« Le problème est qu’il n’y a pas assez de données en chimie », explique Andrew White, l’un des développeurs de ChemCrow et aujourd’hui responsable scientifique chez Future House. « Une grande partie des données sont générées par programme (c’est-à-dire les noms chimiques), donc peu riches, et de nombreux documents sont cachés derrière des murs payants et ne sont donc pas accessibles pour la formation. De nombreuses données chimiques sont également enfermées dans des images de structures qui ne peuvent pas être facilement converties en langage.
Cette question de l’accès aux données de formation n’est pas facile à résoudre, mais White, aux côtés de son collègue développeur Philippe Schwaller, a contourné une partie de ce processus crucial d’acquisition de données en combinant directement le LLM avec une collection d’outils chimiques utiles, notamment LitSearch, Name2SMILES et ReactionPlanner. « Au lieu d’essayer de faire fonctionner le LLM directement sur des produits chimiques, ce que nous avons fait avec ChemCrow, c’est de donner accès à des outils », explique White. «Le LLM agit à un niveau supérieur et orchestre ces outils ensemble pour accomplir des tâches de chimie complexes et ouvertes.»
Les utilisateurs peuvent saisir une question ou une instruction en langage naturel et le système résoudra le problème en utilisant une combinaison des différents outils disponibles pour terminer chaque étape de la tâche globale. Par exemple, dans ses études préliminaires, l’équipe ChemCrow a demandé au système de fabriquer un insectifuge. L’IA a pu effectuer une recherche sur le Web pour déterminer ce qu’est un insectifuge, effectuer une revue de la littérature pour trouver des exemples, convertir les noms de composés en structures SMILES, concevoir une synthèse, puis faire fonctionner le système de laboratoire robotique d’IBM pour produire un échantillon physique de un insectifuge connu.
« L’un des aspects les plus intéressants est que l’outil de pipeline de synthèse est combiné avec IBM RoboRXN, ce qui permet une conversion en une véritable procédure de synthèse », explique Schwaller. « ChemCrow a été l’une des premières connexions au monde physique nous permettant de réaliser une véritable synthèse à partir d’un grand modèle de langage. »
Le système est également capable de répondre aux retours et aux erreurs signalés par le système robotique, en modifiant et en validant de manière itérative sa séquence de travail pour permettre à l’IA de résoudre les problèmes de manière autonome sans intervention humaine.
« Un assistant, pas un remplaçant »
Mais White et Schwaller tiennent à souligner que ChemCrow vise à augmenter le travail déjà effectué par les chimistes plutôt qu’à les remplacer. «Il existe certains problèmes pour lesquels il suffit d’évoluer, de faire davantage d’expériences et de générer de nouveaux composés plus rapidement», explique White. « ChemCrow ne va pas inventer de nouvelles réactions ou de nouveaux catalyseurs, mais intensifier les tâches de routine. J’espère que cela est considéré comme stimulant.
« Grâce à ChemCrow, les outils qui sont généralement difficiles à configurer et qui ne sont peut-être pas accessibles à un chimiste expérimental deviennent beaucoup plus accessibles en utilisant le langage naturel. C’est un assistant, pas un remplaçant », ajoute Schwaller.
Les capacités améliorées de ce LLM ont déjà été bien accueillies par la communauté. « ChemCrow est une bonne idée. Il augmente les performances du LLM en chimie et de nouvelles capacités émergent grâce à l’intégration de 18 outils conçus par des experts », explique André Silva Pimentel, chercheur en IA chimique à l’Université pontificale catholique de Rio de Janeiro au Brésil. « (Cependant), l’efficacité de ChemCrow est également liée à la qualité et à la quantité des outils qu’il utilise. ChemCrow améliore le processus de raisonnement, mais il ne peut pas complètement rectifier un raisonnement erroné.
L’équipe ChemCrow s’attaque déjà à ces limitations, à la fois en augmentant le nombre d’outils disponibles et en étudiant comment le système réagit aux pannes et résout les problèmes inattendus. Mais les solutions à ces limitations ont également des implications plus larges pour l’avenir de l’IA en tant qu’assistante des scientifiques.
« Les grands modèles de langage ne sont vraiment pas optimisés pour la reconnaissance de structures », explique White. «Il existe actuellement un écart entre les travaux sur l’IA en cours dans la Silicon Valley et ce qui est nécessaire pour faire de la science.» Pour aller de l’avant, nous devons donner à ces modèles la capacité de réellement voir et d’examiner directement ces objets (structures chimiques, protéines, génomes) et nous essayons de combler cette lacune à Future House.