Le 28 mai 2026, Anthropic a sorti Claude Opus 4.8, 41 jours après Opus 4.7 et au même prix. Sur le papier, une mise à jour incrémentale. En pratique, deux choses comptent vraiment : un modèle nettement meilleur en codage et présenté comme « le plus honnête » d'Anthropic, et surtout une nouveauté côté outil — les workflows dynamiques dans Claude Code, capables d'orchestrer jusqu'à mille sous-agents en parallèle. Décryptage : ce qui change pour ceux qui font, pas seulement pour les benchmarks.

1. Un cran de plus, 41 jours après 4.7, même prix

Opus 4.8 sort à 5 $ en entrée et 25 $ en sortie par million de tokens, soit le tarif d'Opus 4.7 (TechCrunch, MacRumors). Il devient le modèle par défaut dans Claude Code et arrive le jour même sur Amazon Bedrock, Google Vertex AI, Microsoft Foundry et GitHub Copilot (AWS, GitHub). Le rythme est notable : sortir un palier tous les ~40 jours, c'est la cadence d'un acteur qui prépare une introduction en bourse et veut rester en tête sur les classements pendant que la course avec OpenAI s'intensifie (Yahoo Finance). Le contexte est vertigineux : le chiffre d'affaires d'Anthropic serait passé d'environ 1 milliard fin 2024 à un rythme annualisé estimé à 30 milliards de dollars en 2026, porté par l'adoption entreprise de Claude.

Deux nouveautés économiques accompagnent le modèle. D'abord, Anthropic casse le prix du mode rapide (2,5× plus rapide, même intelligence) : 10 $ / 50 $ par million de tokens, contre 30 $ / 150 $ pour Opus 4.7 (VentureBeat). Ensuite, l'adoption suit : Databricks parle d'un « step change » dans le raisonnement agentique de son agent Genie, à un coût par token 61 % inférieur à Opus 4.7, et le modèle est aussi disponible sur Snowflake Cortex.

2. Les benchmarks, sans esbroufe

Opus 4.8 progresse surtout en codage et en raisonnement agentique. À retenir : SWE-Bench Pro 69,2 % (contre 64,3 % pour 4.7 et 58,6 % pour GPT-5.5), SWE-bench Verified 88,6 %, et un bond sur GDPval-AA (1890), loin devant 4.7 (1753) et GPT-5.5 (1769). Il reste deux nuances honnêtes : sur Terminal-Bench 2.1, GPT-5.5 (78,2 %) garde l'avantage sur Opus 4.8 (74,6 %) ; et les écarts, hors codage, se mesurent souvent en quelques points.

Comment lire ces chiffres sans se faire avoir ? Le vrai signal est le codage : +4,9 points sur SWE-Bench Pro en 41 jours, c'est une progression rapide sur un benchmark réputé difficile (issues GitHub réelles, pas de fuites d'entraînement). Le bond le plus parlant est sur GDPval-AA (1890 contre 1753), un test qui mesure la valeur économique de tâches professionnelles réelles : +137 points d'Elo, là où GPT-5.5 plafonne à 1769 et Gemini 3.1 Pro décroche à 1314. À l'inverse, garder Terminal-Bench derrière GPT-5.5 et n'aligner que quelques points d'écart sur le raisonnement pur (Humanity's Last Exam) rappelle que, hors codage et tâches agentiques, on est dans l'amélioration incrémentale, pas la rupture. C'est cohérent avec le verdict des praticiens : « modeste mais tangible ».

Tableau comparatif des benchmarks Opus 4.8 vs Opus 4.7, GPT-5.5 et Gemini 3.1 Pro : SWE-Bench Pro, Terminal-Bench 2.1, Humanity's Last Exam, OSWorld, GDPval-AA, Finance Agent v2.
Opus 4.8 face à 4.7, GPT-5.5 et Gemini 3.1 Pro
Présentation de Claude Opus 4.8 et de ses nouveautés

3. Workflows dynamiques : jusqu'à 1 000 sous-agents

La vraie rupture n'est pas le modèle, c'est l'outil. Les workflows dynamiques (preview de recherche, ouverte le 28 mai sur tout l'écosystème Claude Code) permettent à Claude d'orchestrer des dizaines à des centaines de sous-agents en parallèle — plafond à 1 000 — au sein d'une même session (blog Anthropic). Le principe : Claude planifie dynamiquement, découpe la tâche, fait travailler les agents sous des angles indépendants, les fait se réfuter mutuellement, puis itère jusqu'à convergence. La progression est sauvegardée, donc reprenable.

Deux réglages accompagnent la fonctionnalité : le mode ultracode (/effort ultracode), qui combine raisonnement maximal et orchestration automatique (un seul prompt peut enchaîner plusieurs workflows : comprendre, appliquer, vérifier) ; et l'Auto Mode, qui exécute les actions sans demander de validation à chaque appel, avec un classifieur qui bloque ce qui paraît dangereux et une porte de confirmation qui ne se déclenche qu'une fois par session. Anthropic le recommande explicitement : un workflow qui lance des centaines de sous-agents mais s'arrête à chaque permission n'est pas réellement parallèle.

Pour saisir le saut, il faut le comparer à l'existant. Jusqu'ici, déléguer à des sous-agents dans Claude Code supposait de les définir soi-même, à la main, en amont. Les workflows dynamiques renversent la logique : c'est le modèle qui décide, en cours de route, combien d'agents lancer, sur quels angles, et quand les faire converger. La ressemblance avec une équipe de recherche est assumée — un agent explore une piste, un autre tente de la réfuter, un troisième arbitre — sauf que tout se joue en minutes et en parallèle plutôt qu'en réunions. Anthropic revendique des migrations « à l'échelle d'une base de code », sur des centaines de milliers de lignes, dans une seule session dont la progression est sauvegardée, donc reprenable après interruption.

Démonstration des workflows dynamiques dans Claude Code
Claude Code v2.1.154 — Opus 4.8 et l'orchestration multi-agents
Le vrai changement de paradigme On passe de « l'IA qui code à votre place, tour par tour » à « l'IA qui orchestre une équipe d'agents qui se vérifient entre eux ». Le travail humain glisse vers le haut : décrire le problème, fixer les garde-fous, juger le résultat. Contrepartie à connaître : la consommation de tokens grimpe fortement, et la fonctionnalité demande un plan Max, Team ou Enterprise — à réserver d'abord à des tâches cadrées.

4. Le cas Bun : 750 000 lignes réécrites en 11 jours

L'exemple qui circule pour illustrer la promesse : la réécriture du runtime Bun du langage Zig vers Rust — 750 000 lignes de code, 99,8 % des tests au vert, en 11 jours grâce aux workflows parallèles.

Pourquoi ce cas fait-il du bruit ? Parce que Bun est un runtime JavaScript taillé pour la performance, et le faire passer de Zig à Rust — deux langages système aux modèles mémoire différents — est exactement le genre de chantier qu'une équipe humaine étalerait sur des mois. Le réussir en onze jours avec 99,8 % des tests au vert, c'est moins une prouesse de génération de code qu'une démonstration d'orchestration : des centaines d'agents qui se répartissent les modules, se relisent et convergent vers une version qui passe la suite de tests. C'est précisément ce que les workflows dynamiques sont censés rendre possible.

La limite est dans la note de bas de page, et elle est essentielle. La réussite tient à une suite de tests massive qui sert de filet : c'est elle qui dit à l'essaim d'agents s'il a juste ou faux. Sur une base sans tests, le même workflow produirait du code plausible mais invérifiable. Le risque se déplace alors d'une question qu'on croyait centrale — « sait-il coder ? » — vers une autre, beaucoup plus inconfortable : « sait-on juger ce qu'il a produit ? ». À prendre donc pour ce que c'est — une démonstration de capacité sur un cas favorable, pas une garantie sur n'importe quelle migration. À éprouver sur votre propre code, avec vos propres tests, avant d'en faire une règle.

5. L'honnêteté : 4× moins de défauts laissés passer

Anthropic présente Opus 4.8 comme son modèle le plus honnête (Inc.). Concrètement, selon ses évaluations d'alignement, le modèle est environ quatre fois moins susceptible qu'Opus 4.7 de laisser passer, sans le signaler, un défaut dans le code qu'il a écrit.

Pourquoi mesurer l'« honnêteté » comme un benchmark, au même titre que le codage ? Parce qu'avec des agents qui enchaînent des centaines d'actions sans relecture humaine à chaque pas, le danger n'est plus le modèle qui se trompe — c'est le modèle qui se trompe en silence, ou pire, qui maquille un échec pour « réussir » la tâche qu'on lui a confiée. Anthropic mesure précisément ce type de dérives : passer un test en trichant, taire un défaut connu, sur-affirmer une certitude qu'il n'a pas. VentureBeat évoque d'ailleurs un alignement « proche du niveau Mythos », le modèle frontière le plus contrôlé d'Anthropic (VentureBeat).

Pour un opérateur, la traduction est très concrète. Un agent qui écrit « je ne suis pas sûr de ce point, à vérifier » est un agent qu'on peut laisser tourner plus longtemps sans le surveiller pas à pas. Dans ce contexte, l'honnêteté n'est pas une posture morale, c'est une fonctionnalité de fiabilité — et sans doute la condition même qui rend la délégation massive (les workflows à des centaines d'agents) tenable en production plutôt que cosmétique.

6. La réception : « modeste mais tangible »

Le verdict des praticiens est nuancé et plutôt positif. Simon Willison parle d'une « amélioration modeste mais tangible » (simonwillison.net) ; d'autres estiment qu'Anthropic « aurait pu arrondir à 5 » tant le saut paraît net (Every). Cursor, Devin et Databricks ont confirmé des améliorations mesurées dès le jour du lancement, et les développeurs notent surtout deux corrections attendues : la verbosité des commentaires et l'irrégularité des appels d'outils reprochées à 4.7.

Les retours des plateformes spécialisées sont plus précis. Le CEO de Devin note qu'Opus 4.8 « utilise les outils proprement et suit les instructions avec la régularité dont nos charges d'ingénierie autonomes ont besoin pour tourner sans surveillance ». Cursor (via CursorBench) le voit dépasser tous les modèles Opus précédents à chaque niveau d'effort, avec un appel d'outils plus efficace. Ce sont précisément les deux reproches faits à 4.7 — outillage erratique, verbosité — que 4.8 corrige, et c'est ce qui explique l'accueil « tiède sur le papier, concret à l'usage ».

Cette réception « tiède mais positive » dit quelque chose de l'époque. À raison d'un palier tous les 40 jours, le marché s'est habitué à des sauts incrémentaux : on ne s'extasie plus sur +5 points de benchmark, on regarde si l'outil change le travail réel. Et c'est là que le consensus se forme — ce n'est pas le modèle 4.8 en soi qui marque les esprits, ce sont les workflows dynamiques qu'il débloque. Plusieurs testeurs résument la même chose : le gain de capacité brute est marginal, le gain d'orchestration ne l'est pas.

Reste l'horizon que tout le monde guette. VentureBeat évoque un alignement « proche du niveau Mythos », et le vrai saut de capacité est sans doute devant : Anthropic a confirmé que son modèle frontière le plus puissant, Claude Mythos, arrive « dans quelques semaines ». Autrement dit, Opus 4.8 pourrait être la dernière itération « tranquille » avant un cran nettement plus net.

7. Le vrai calcul économique : moins cher qu'il n'y paraît

Le « même prix qu'Opus 4.7 » cache un repositionnement plus agressif qu'il n'y paraît. À 5 $ / 25 $ par million de tokens, Opus 4.8 est nettement moins cher que GPT-5.5 (environ 10 $ / 40 $) pour des performances comparables ou supérieures en codage et en agentique (Finout). Sur le mode rapide, l'écart se creuse : 10 $ / 50 $ contre 30 $ / 150 $ pour la génération précédente — un mode « 2,5× plus rapide » devenu, dans les faits, 3× moins cher.

L'effet se mesure déjà en production. Databricks rapporte un « step change » dans le raisonnement agentique de son agent Genie pour un coût par token 61 % inférieur à Opus 4.7 — un gain qu'il attribue à une meilleure efficacité multimodale sur les PDF et les schémas. Le modèle ne se contente donc pas d'être meilleur : il rend les mêmes tâches moins chères, ce qui compte autant que le score de benchmark quand on industrialise.

Mais le vrai calcul ne se fait pas au token, il se fait à la tâche réussie. Dans un agent de production, un bug qui passe la revue coûte bien plus que les tokens du run initial : le temps d'un ingénieur pour le débusquer, une re-exécution des tests, un rechargement de contexte, parfois un incident visible côté client. Un agent qui signale ses doutes consomme plus de tokens par run (il génère des sorties prudentes) mais coûte moins par tâche menée à bien. C'est là que les deux nouveautés du modèle se rejoignent — l'honnêteté accrue et le prix cassé du mode rapide — pour faire pencher l'équation du côté de la délégation. Le bon indicateur n'est plus « combien coûte un million de tokens », mais « combien coûte une tâche livrée juste ».

8. Ce que ça change pour vous

Si vous codezOpus 4.8 par défaut dans Claude Code, commentaires moins verbeux, appels d'outils plus fiables. Testez les workflows dynamiques sur une tâche cadrée (audit, migration) avant de généraliser.
Si vous orchestrezLe couple ultracode + Auto Mode rapproche l'agent de l'exécution autonome. La valeur se déplace vers la gouvernance et les garde-fous, pas la frappe au clavier.
Côté budgetMême prix au token qu'Opus 4.7, mais les workflows consomment beaucoup plus. Le mode rapide 2,5× aide sur les tâches simples ; surveillez la facture sur les gros workflows.

Notre lecture, en distinguant les niveaux : fait, Opus 4.8 est un meilleur modèle de codage au même prix, avec un outil d'orchestration inédit. Hypothèse, les workflows dynamiques marquent le vrai tournant — le code n'est plus le goulot, la gouvernance le devient. Question ouverte, la fiabilité et le coût de l'orchestration massive en production restent à éprouver hors démos : nous éviterons de conclure « les développeurs sont remplacés » sur la base d'un cas Bun favorable.

9. FAQ

Qu'apporte Claude Opus 4.8 par rapport à Opus 4.7 ?

Sorti le 28 mai 2026 au même prix (5 / 25 $ par M tokens), il améliore le codage (SWE-Bench Pro 69,2 % contre 64,3 %, SWE-bench Verified 88,6 %), le raisonnement (GDPval-AA 1890 contre 1753) et l'autonomie. Il corrige la verbosité des commentaires et l'irrégularité des appels d'outils de 4.7, ajoute un mode rapide 2,5× moins cher, et introduit les workflows dynamiques dans Claude Code.

Qu'est-ce que les workflows dynamiques ?

Une preview de recherche qui laisse Claude orchestrer des dizaines à des centaines de sous-agents en parallèle (plafond 1 000) dans une même session : il planifie, découpe, fait se réfuter les agents, itère jusqu'à convergence, et reprend après interruption. Le mode ultracode combine raisonnement maximal et orchestration auto ; Anthropic recommande l'Auto Mode pour garder le parallélisme réel.

En quoi Opus 4.8 est-il plus honnête ?

Anthropic le présente comme son modèle le plus honnête : ~4× moins susceptible qu'Opus 4.7 de laisser passer un défaut de code sans le signaler. Un gain de fiabilité clé pour les usages agentiques sans supervision continue.

Où utiliser Opus 4.8 ?

Par défaut dans Claude Code, et via l'API Anthropic, Amazon Bedrock, Google Vertex AI, Microsoft Foundry et GitHub Copilot. Les workflows dynamiques requièrent un plan Max, Team ou Enterprise et consomment nettement plus de tokens.