IFStruct, le benchmark de Liquid AI pour les sorties structurées

Liquid AI s'attaque à une faiblesse récurrente des modèles de langage avec IFStruct, un benchmark open source qui mesure leur capacité à produire des sorties structurées valides, en JSON ou en YAML. L'évaluation isole un seul critère, le respect du format demandé, sans tenir compte de la qualité du contenu généré. Chaque test impose un schéma précis : champs, types, valeurs autorisées, bornes numériques et nombre d'éléments attendus. Le verdict est binaire, une réponse ne passe que si toutes les contraintes sont respectées, sans champ ajouté.

L'intérêt tient à la variété des formulations. Les exigences apparaissent tantôt comme une requête de chat en langage courant, tantôt sous forme de liste à puces, de schéma JSON brut, d'exemple annoté ou de table ASCII. La moitié des cas est réécrite en prose naturelle pour imiter un usage réel, y compris des demandes qui se ravisent en cours de route. Plusieurs cas forcent volontairement l'échappement de chaînes, un point de rupture fréquent en production.

Liquid AI accompagne la sortie d'un résultat mis en avant : son modèle LFM2.5-350M, entraîné par renforcement sur un jeu d'entraînement dédié, passe de 21,10 % à 44,90 % de réussite. D'après l'éditeur, ce score dépasse celui de modèles plus de dix fois plus volumineux, à l'image de Qwen3.5-4B et de granite-4.0-h-tiny. Le benchmark et le jeu de test sont accessibles sur GitHub et HuggingFace.