
Anthropic a annoncé le 5 février 2026 que son modèle d’IA Claude Opus 4.6 a identifié et validé plus de 500 vulnérabilités de haute sévérité, jusque-là inconnues, dans des bibliothèques open-source largement utilisées. Cette révélation marque un tournant majeur : les modèles de langage peuvent désormais découvrir des zero-days dans du code bien testé, sans outils ni instructions spécialisées.
Anthropic a détaillé dans un article de son blog Frontier Red Team comment Claude Opus 4.6, publié le même jour, a été testé sur certaines des bases de code les mieux sécurisées au monde — des projets surveillés par des fuzzer depuis des années, cumulant des millions d’heures de temps CPU. Contre toute attente, l’IA a trouvé des vulnérabilités de haute sévérité, certaines restées cachées pendant des décennies. Contrairement aux fuzzer traditionnels qui lancent des entrées aléatoires en masse, Claude lit et raisonne sur le code comme un chercheur humain : il analyse les historiques de commits, identifie des schémas récurrents de bugs, et comprend la logique interne pour déterminer exactement quelle entrée provoquerait une faille. Anthropic a choisi de publier ces découvertes de manière responsable, en collaborant directement avec les mainteneurs open-source pour fournir des correctifs validés par des humains.
– 500+ vulnérabilités zero-day de haute sévérité découvertes et validées
– 3 exemples détaillés de bugs découverts (GhostScript, OpenSC, CGIF)
– 12 sur 12 vulnérabilités OpenSSL zero-day découvertes par l’IA en janvier 2026 (par AISLE, rapporté par LessWrong)
– Des décennies : certaines vulnérabilités étaient cachées depuis des dizaines d’années dans du code bien testé
– 0 outils ou instructions spécialisées nécessaires, l’IA a travaillé « out-of-the-box »
Cette capacité marque un moment charnière dans la cybersécurité. Le même pouvoir qui aide à trouver et corriger des failles peut tout aussi bien être exploité par des attaquants pour découvrir et exploiter des vulnérabilités avant que les défenseurs ne les identifient. Anthropic reconnaît ce risque dual et a introduit de nouvelles sondes de détection spécifiques au domaine cyber, capables d’identifier en temps réel les activations du modèle liées à des usages malveillants. L’entreprise prévoit même d’intervenir en temps réel en bloquant le trafic détecté comme malveillant. Une conséquence majeure : les normes de divulgation standard (fenêtre de 90 jours) pourraient ne plus tenir face à la vitesse et au volume des bugs découverts par les LLM. L’industrie devra repenser ses workflows de divulgation pour suivre le rythme.
Sources
Anthropic Frontier Red Team, Anthropic, Axios, Fortune
Liens : Evaluating and mitigating the growing risk of LLM-discovered 0-days , Claude Opus 4.6 System Card , Anthropic’s Claude Opus 4.6 uncovers 500 zero-day flaws , Anthropic’s newest model excels at finding security vulnerabilities