Claude Mythos : la première AGI ?

Le 7 avril 2026, Anthropic a annoncé Claude Mythos Preview, un modèle de frontier qui pulvérise les benchmarks connus : 93,9 % sur SWE-bench Verified, 94,6 % sur GPQA Diamond, 83,1 % sur CyberGym. Les semaines qui ont suivi, Anthropic a reconnu que ce même modèle avait découvert en autonomie des milliers de vulnérabilités zero-day dans chaque système d'exploitation et chaque navigateur majeur — dont un bug vieux de 27 ans dans OpenBSD. La presse spécialisée a dans la foulée réactivé le mot qui fait cliquer : AGI. Le problème, c'est qu'Anthropic elle-même refuse de l'employer. Pourquoi ? Et qu'est-ce que cette querelle de vocabulaire dit vraiment de l'état de l'IA en 2026 ?

1. Ce qu'Anthropic a réellement annoncé

Commençons par les faits. Claude Mythos Preview, nom de code interne Capybara, est un modèle nouvelle génération placé par Anthropic au-dessus de la famille Opus. Il a été révélé accidentellement le 26 mars 2026 lorsqu'un brouillon d'article de blog a été brièvement exposé par une mauvaise configuration CMS, puis officiellement présenté le 7 avril 2026 dans le cadre d'une initiative baptisée Project Glasswing.

Glasswing est un dispositif de cybersécurité qui réunit Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Microsoft, NVIDIA, Palo Alto Networks et la Linux Foundation. Anthropic y engage 100 millions de dollars de crédits Mythos et 4 millions de dollars de dons directs à des fondations de sécurité open-source.

Deux points clés, qui changent tout le cadrage médiatique : Claude Mythos Preview n'est pas disponible au grand public, ni même aux clients API classiques. Newton Cheng, responsable Frontier Red Team Cyber chez Anthropic, a déclaré explicitement : « Nous ne prévoyons pas de rendre Claude Mythos Preview généralement disponible, en raison de ses capacités en cybersécurité. » Et ce qui a le plus choqué les équipes sécurité des entreprises partenaires n'est pas le benchmark, c'est la découverte autonome de failles critiques non publiques dans chaque système d'exploitation majeur.

2. Les chiffres qui font parler d'AGI

Les benchmarks publiés par Anthropic ne sont pas des améliorations marginales. Ils représentent un changement d'ordre de grandeur par rapport aux meilleurs modèles disponibles en 2024.

Benchmarks Claude Mythos Preview : SWE-bench Verified 93,9 %, GPQA Diamond 94,6 %, CyberGym 83,1 %, comparés aux meilleurs modèles 2024. — Les scores qui font titrer « AGI »

SWE-bench Verified — 93,9 %. SWE-bench est une collection de bugs réels remontés sur GitHub dans des projets Python majeurs (Django, Flask, scikit-learn, pytest). Il faut comprendre le problème, modifier le code, passer les tests. En 2024, les meilleurs modèles plafonnaient autour de 55 %. Mythos se rapproche du score maximal théorique. Cela signifie qu'il résout de façon autonome la grande majorité des tickets que traiteraient des développeurs confirmés d'une équipe open-source.

GPQA Diamond — 94,6 %. C'est le benchmark « niveau doctorat » : biologie, chimie, physique, questions posées par des chercheurs et vérifiées par d'autres chercheurs. Des doctorants dans le domaine scorent autour de 65-75 %. Mythos dépasse le plafond humain de plus de 20 points.

CyberGym — 83,1 %. C'est un benchmark récent d'exploitation de vulnérabilités : repro et exploitation de CVE publiées. C'est sur ce terrain que Mythos inquiète le plus, parce qu'il est le plus difficile à évaluer hors laboratoire — un modèle capable d'exploiter des failles est aussi capable d'en trouver de nouvelles. Ce que Mythos a déjà prouvé en interne.

Pourquoi c'est différent Ce n'est pas la première fois qu'un modèle bat un benchmark. C'est la première fois qu'un modèle enjambe trois benchmarks à la fois, sur trois domaines hétérogènes, en déclenchant simultanément une réaction industrielle coordonnée (Project Glasswing) et un refus de diffusion publique. C'est la combinaison — pas le score isolé — qui fait parler d'AGI.

3. Anthropic elle-même refuse le mot « AGI »

Lire entre les lignes commence ici. Toute la communication officielle d'Anthropic autour de Mythos évite soigneusement le mot AGI. La page Glasswing parle de « capacités de frontier ». Le billet red.anthropic.com parle de « step-change in capabilities ». Dario Amodei, interrogé au Forum économique de Davos en janvier 2026 et dans plusieurs entretiens depuis, refuse frontalement le terme.

« Je n'aime pas le mot AGI. Il est flou, il est chargé, il fait croire qu'on parle d'un seuil binaire. Préférez le terme powerful AI : un système IA multimodal, agentique, capable d'utiliser toutes les interfaces qu'un humain utiliserait. » Dario Amodei — « Machines of Loving Grace », octobre 2024, position réaffirmée à Davos en janvier 2026.

Pourquoi ce refus ? Trois raisons se lisent dans les interventions publiques d'Amodei, et pas une n'est innocente.

Raison 1 — AGI crée une cible réglementaire inutile. Si Anthropic déclare avoir atteint l'AGI, les régulateurs américains, européens et chinois sont fondés à déclencher un régime d'exception. L'AI Act prévoit déjà des obligations renforcées pour les « general-purpose AI models with systemic risk ». Une reconnaissance explicite déclencherait un niveau d'audit et de contrôle qu'Anthropic ne peut pas se permettre opérationnellement.

Raison 2 — AGI invalide la thèse du « race that matters ». Tout le discours stratégique d'Amodei repose sur l'idée que les démocraties doivent arriver les premières à la powerful AI. Dire que c'est déjà fait enlèverait l'argument central de légitimité des levées de fonds, des contrats gouvernementaux et des partenariats sécurité nationale qu'Anthropic négocie.

Raison 3 — AGI nie l'absence d'auto-amélioration récursive. Mythos trouve des bugs, écrit du code, raisonne. Il ne se modifie pas lui-même. Il ne crée pas son propre successeur. Anthropic insiste (discrètement) sur ce point : ces avancées ne constituent pas une preuve de croissance récursive autonome, qui est pour beaucoup de chercheurs le vrai seuil AGI.

4. AGI selon qui ? Trois définitions concurrentes

Le terme AGI est utilisé comme si c'était une notion partagée. En réalité, les trois laboratoires leaders proposent trois définitions différentes, et le modèle d'Anthropic coche des cases dans chaque cadre sans en remplir aucun totalement.

Trois définitions concurrentes de l'AGI : OpenAI (5 niveaux, Reasoners au niveau 2), DeepMind (Levels of AGI, de Emerging à Superhuman), Anthropic (rejet du terme au profit de powerful AI). — Trois laboratoires, trois cadres, aucun seuil commun

Le cadre OpenAI classe les systèmes en cinq niveaux : chatbots, reasoners (niveau doctorat sans outils), agents (actions autonomes), innovateurs (découvrent, inventent), organisations (une entreprise entière automatisée). OpenAI déclarait mi-2024 être « à l'aube du niveau 2 ». Si l'on applique ce cadre à Mythos, le modèle est déjà niveau 2 sans conteste, et pousse sérieusement vers le niveau 3 (actions autonomes en cybersécurité).

Le cadre DeepMind est plus précis : il mesure la performance dans des tâches cognitives par rapport à une population humaine qualifiée. Emerging (niveau d'un non-expert), Competent (50 % des adultes qualifiés), Expert (90 %), Virtuoso (99 %), Superhuman (meilleur que tout humain). Sur GPQA Diamond, Mythos est déjà Superhuman en sciences naturelles. Sur SWE-bench, il est Virtuoso sur les bugs Python open-source. Sur beaucoup d'autres domaines (créativité artistique, raisonnement moral, jugement politique), on est plus près d'Expert ou Competent.

Le cadre Anthropic définit la powerful AI comme multimodale, agentique, capable d'utiliser toutes les interfaces humaines, et capable de dépasser les prix Nobel dans leurs domaines respectifs. Dans ce cadre, Mythos est un pas sérieux mais pas le seuil final. Il excelle sur des benchmarks fermés, pas encore sur l'ensemble du réel.

Conclusion de cette comparaison : affirmer que Mythos est ou n'est pas l'AGI revient à affirmer qu'une température de 38 °C correspond ou non à une fièvre. La réponse dépend entièrement du thérmomètre. Le mot AGI, en 2026, a perdu sa fonction descriptive. Il sert surtout à désigner une frontière que chaque acteur trace où ça l'arrange.

5. « Première AGI » : qui gagne à le dire ?

La question intéressante n'est pas « est-ce que c'est l'AGI ? » mais « qui bénéficie de répondre oui ou non ? ». Le terme est devenu un objet d'économie politique.

Qui gagne à parler d'AGI : médias (trafic), Anthropic (valorisation et pression concurrentielle), concurrents (FUD et course aux benchmarks), politiques et régulateurs (justification de budgets et d'audits). — Le mot AGI, objet d'économie politique

Les médias et créateurs de contenu ont un intérêt direct. Un titre avec « AGI » fait au minimum trois fois le trafic d'un titre avec « nouveau modèle IA performant ». Tout l'écosystème éditorial, du généraliste aux chaines YouTube techniques, est structurellement incité à sur-qualifier. Personne ne se fait sanctionner pour avoir annoncé l'AGI trop tôt.

Anthropic elle-même n'a pas besoin de prononcer le mot pour en bénéficier. La Série G fermée en février 2026 valorise l'entreprise à 380 milliards de dollars. Les offres reçues en avril tournent autour de 800 milliards — Anthropic les a refusées publiquement. Ce niveau de valorisation suppose un narratif de frontière. Dire officiellement « c'est l'AGI » créerait plus de problèmes réglementaires que de valeur boursière additionnelle. Laisser la presse le dire, c'est optimal.

Les concurrents sont pris en sandwich. Si OpenAI, Google DeepMind, Meta ou xAI laissent passer le narratif « Anthropic a atteint l'AGI en premier », ils perdent sur les levées, les recrutements et les contrats gouvernementaux. Ils sont forcés de publier quelque chose, vite. On peut s'attendre à une séquence d'annonces symboliques de la part de Sam Altman, Sundar Pichai et Yann LeCun dans les semaines qui viennent, chacun avec sa propre définition de l'AGI qui coïncide avec son modèle actuel.

Les politiques et les régulateurs utilisent le mot à deux fins opposées. Caméra Washington DC ou Bruxelles : « L'AGI arrive, nous devons réglementer d'urgence. » Caméra Paris ou Berlin : « L'AGI américaine arrive, nous devons financer notre souveraineté. » C'est la même phrase avec deux fonctions politiques opposées. L'ambiguïté du mot est un atout.

6. Ce qui change vraiment avec Mythos

Laissons le mot AGI de côté. Qu'est-ce que Mythos change concrètement pour les entreprises, les développeurs, les dirigeants PME ?

Sur la cybersécurité, c'est déjà joué. La découverte par Mythos de milliers de zero-days en quelques semaines est un changement d'échelle qui rend les pratiques traditionnelles de gestion des vulnérabilités obsolètes. Les partenaires de Project Glasswing travaillent en ce moment sur des patchs qui seront publiés avant que les capacités défensives comme offensives de Mythos soient diffusées. Mais si un successeur est disponible plus largement dans 12 à 18 mois, toute infrastructure non auditée par un modèle de ce calibre sera mesurablement vulnérable. Les DSI qui ne préparent pas dès maintenant un budget de secure code review assisté prennent un retard opérationnel qui se rattrapera mal.

Sur le développement logiciel, la frontière se déplace. Un modèle qui résout 93,9 % des tickets SWE-bench change la définition de ce que fait un développeur. Le métier ne disparaît pas, mais il bascule vers la spécification, l'architecture, la revue, la coordination avec des agents autonomes. Les entreprises qui continuent de staffer comme en 2023 perdront les bénéfices de productivité sans en gagner les risques.

Sur le discours public, attendez-vous à deux trimestres de brégement. Chaque nouveau modèle sera présenté comme « proche de l'AGI » ou « déjà AGI selon tel cadre ». La plupart des annonces seront des variantes commerciales de moindre envergure. Le vrai signal à suivre n'est pas le mot employé, mais la décision de diffuser ou non. Si un modèle est réellement de niveau Mythos, il ne sera pas accessible en API publique. Si vous pouvez l'utiliser dans votre IDE dès le premier jour, c'est qu'il n'y est pas.

7. Notre lecture

Claude Mythos n'est pas l'AGI. Il n'est pas non plus un simple modèle de plus. C'est le premier modèle commercial dont les capacités ont forcé son propre développeur à inventer un dispositif de gouvernance dédié (Project Glasswing) avant de le diffuser. C'est, en termes opérationnels, beaucoup plus intéressant qu'un franchissement de seuil sémantique.

La vraie question pour un dirigeant ou un DSI en 2026 n'est pas « quand aurons-nous l'AGI ? », elle est triple. Un : nos systèmes critiques sont-ils en état de résister à un audit offensif par un modèle de niveau Mythos (probablement pas) ? Deux : nos équipes savent-elles déjà travailler avec des agents IA de ce calibre sur les périmètres où ils sont diffusés (Sonnet, Opus, quelques autres) ? Trois : avons-nous une charte et une gouvernance en place pour encadrer l'usage avant que le modèle de nouvelle génération arrive (voir notre article sur la charte IA d'entreprise) ?

C'est sur ces trois terrains que se joue la partie, pas sur la définition académique d'un mot de quatre lettres. L'AGI est un horizon qui recule à mesure qu'on avance. Ce qui ne recule pas, c'est la courbe de capacité des modèles déployés. Mythos est un point sur cette courbe, pas la fin de celle-ci.

1. Ce qu'Anthropic a réellement annoncé

2. Les chiffres qui font parler d'AGI

3. Anthropic elle-même refuse le mot « AGI »

4. AGI selon qui ? Trois définitions concurrentes

5. « Première AGI » : qui gagne à le dire ?

6. Ce qui change vraiment avec Mythos

7. Notre lecture

Nous avons 30 minutes.Parlons-en.

Nous avons 30 minutes.
Parlons-en.