GPT-3 formé et réglé pour prédire les propriétés moléculaires
Des chercheurs basés au Royaume-Uni ont affiné GPT-3 prédire les propriétés électroniques et fonctionnelles des molécules organiques.
GPT-3 peut reconnaître Smiles – Simplified Molecular Input Line Entry System – une notation qui représente les structures chimiques sous forme de chaîne de texte, mais renvoie généralement une description large et non experte. Par exemple, GPT-3 décrirait la chaîne Smiles de benzène comme un composé aromatique avec une structure cyclique, mais ne peut pas fournir un aperçu plus approfondi des propriétés moléculaires.
L’équipe, dirigée par Andrew Cooper de l’Université de Liverpool, aux côtés de Linjiang Chen de l’Université de Birmingham, a utilisé un ensemble de données contenant 48 182 molécules organiques extraites de la base de données structurelle de Cambridge (CSD) et des détails sur les voies de synthèse des molécules, leur stabilité à l’état solide. et propriétés électroniques. Ils ont affiné GPT-3 avec les données CSD, puis ont entraîné le modèle pour prédire et classer les valeurs HOMO et LUMO des semi-conducteurs organiques lorsqu’on leur donne une chaîne Smiles, augmentant ainsi considérablement l’utilité des requêtes.
En supprimant les atomes et les groupes fonctionnels de la chaîne Smiles d’entrée, l’équipe a démontré la résilience du modèle GPT-3 affiné face aux données incomplètes. Malgré ces données manquantes, les prédictions des propriétés sont restées précises et ont pu identifier correctement les Smiles prévus. La capacité de GPT-3 à prédire les propriétés d’inconnues a également été démontrée en supprimant toutes les molécules contenant un fragment de tétracène lors de l’entraînement et du réglage fin, puis en restituant avec succès les propriétés de ces espèces manquantes.
Bien que GPT-3 reste gourmand en ressources, cette étude met en évidence le potentiel des grands modèles de langage pour une intégration future avec les flux de travail informatiques, à mesure que les grands modèles de langage deviennent moins chers et plus efficaces.