OpenAI évalue le jugement scientifique des agents avec GeneBench-Pro

Plutôt que la mémorisation de faits ou l'exécution d'un protocole, GeneBench-Pro cherche à mesurer le discernement des agents IA face à des données scientifiques ambiguës. Ce nouveau benchmark open source d'OpenAI évalue la qualité des décisions prises au fil d'une analyse en biologie computationnelle. Chaque problème place le modèle devant un jeu de données réaliste et désordonné, un contexte expérimental succinct et une question reliée à une décision concrète. Le modèle doit explorer les données, choisir une approche pertinente, itérer, puis livrer une réponse, une mauvaise piste menant à l'échec.

L'évaluation réunit 129 problèmes répartis sur dix domaines, de la génétique statistique à la génomique du cancer en passant par la pharmacogénomique. Chaque cas est construit de façon synthétique : l'équipe maîtrise la structure causale complète et simule directement la génération des données, ce qui autorise une correction déterministe contre des cibles connues et écarte les raccourcis involontaires. Une partie des problèmes a été relue par des experts externes, qui estiment qu'un seul d'entre eux demanderait à un spécialiste humain entre vingt et quarante heures de travail.

Côté résultats, OpenAI reconnaît une marge de progression importante : même son modèle le plus performant, dans sa configuration la plus poussée, ne dépasse pas le tiers des problèmes résolus. L'éditeur ouvre dix questions représentatives sur HuggingFace et confiera un sous-ensemble de cinquante questions à Artificial Analysis pour une évaluation tierce indépendante.