Un barème de sévérité pour les jailbreaks d'IA, proposé par Anthropic

De retour à l'échelle mondiale et pour tous les utilisateurs, Fable 5 s'accompagne de deux publications d'Anthropic consacrées à la sécurité. La première détaille les garde-fous cyber du modèle, ces classifieurs qui repèrent et bloquent les usages potentiellement dangereux. L'éditeur y explique ne pas chercher à interdire toute activité de cybersécurité, beaucoup d'usages étant à double tranchant, défensifs autant qu'offensifs. Ses classifieurs trient donc les requêtes en quatre niveaux de risque, de l'usage prohibé à l'usage bénin, avec une marge de sécurité volontairement élargie pour Fable 5, au prix d'un taux de faux positifs plus élevé.

La seconde publication propose, avec des partenaires du programme Glasswing dont Amazon, Microsoft et Google, un cadre pour noter la sévérité des jailbreaks, ces méthodes de contournement des garde-fous. Baptisé Cyber Jailbreak Severity, il classe un contournement sur cinq niveaux, d'« informatif » à « critique », selon plusieurs axes dont le gain de capacité procuré à un attaquant et la facilité de mise en œuvre.

L'objectif affiché est de doter développeurs d'IA et pouvoirs publics d'un langage commun pour parler de ces risques, à défaut de standard existant. Anthropic précise qu'il s'agit d'un brouillon soumis à la discussion, et a ouvert un programme de signalement destiné aux chercheurs en sécurité.