Ce ne sont pas des agents. Ce sont des harnais qui en orchestrent plusieurs. Gemini CLI, Claude Code et Codex partagent la même architecture — un runtime qui boucle entre raisonnement, outils et sub-agents jusqu'à livrer un résultat — mais leurs philosophies divergent sur l'ouverture, la facturation, la souveraineté et la trajectoire produit. En mai 2026, choisir l'un revient à choisir un écosystème. Décryptage des trois, sans le vernis marketing.
1. Un harnais agentique, c'est quoi exactement
L'industrie a changé de vocabulaire en 2025-2026. On ne parle plus de modèle ni même d'agent isolé, mais de harnais agentique (en anglais « agent harness »). C'est l'architecture qui transforme un modèle de langage en système capable de mener une tâche de bout en bout.
Un harnais agentique embarque neuf briques : interface modèle, registre d'outils, gestionnaire de contexte, module de planification, moteur d'exécution, mémoire persistante, boucle de rétroaction, garde-fous de sécurité, couche d'orchestration. C'est cette dernière couche qui délègue à des sub-agents spécialisés : un sub-agent pour explorer le code, un autre pour valider la sécurité, un troisième pour relire la qualité, etc. (MindStudio, avril 2026).
Anthropic décrit Claude Code comme un « agentic coding system » (anthropic.com). Google décrit Gemini CLI comme un « open-source AI agent » mais documente une boucle ReAct avec sub-agents et skills (github.com/google-gemini/gemini-cli). OpenAI décrit Codex comme un « agentic coding tool » avec plugins, skills, computer use et application surfaces multiples. Trois mots, même réalité technique : un harnais qui orchestre.
Logos officiels : Google, Anthropic, OpenAI. Tous trois fournissent un harnais qui orchestre la même boucle (raisonner, appeler des outils, déléguer à des sub-agents, itérer).
2. Trois paris stratégiques bien distincts
Gemini CLI est le pari open source. Code source publié sous licence Apache 2.0, free tier généreux, modèle Gemini 3 avec un million de tokens de contexte par défaut. Annoncé en juin 2025, version 0.41 en mai 2026 (geminicli.com/docs/changelogs). Pari de Google : devenir le harnais par défaut de millions de développeurs en s'imposant par le prix et la transparence.
Claude Code est le pari intégré. CLI terminal, extensions VS Code et JetBrains, application de bureau refondue, application web, Routines en cloud asynchrone. Sub-agents nativement gérés, hooks de cycle de vie, mémoire structurée par projet. Inclus dans les abonnements Claude Pro (20 $/mois), Max, Team et Enterprise. Pari d'Anthropic : capter la verticale dev avec le harnais le plus complet de l'industrie.
Codex CLI est le pari du dépassement. GPT-5.5 par défaut, GPT-5.5 Pro pour les tâches lourdes, computer use natif (navigation, clics, captures), système de plugins pour empaqueter skills, intégrations applicatives et serveurs MCP. Sortie de GPT-5.5 le 24 avril 2026 (openai.com). Pari d'OpenAI : faire converger code et bureautique dans un même harnais qui sait utiliser un ordinateur.
Tous trois suivent une boucle ReAct (Reason + Act) avec accès shell, lecture/écriture de fichiers, exécution de commandes et sub-agents. La différence est dans le modèle, l'ouverture, la facturation, la surface et la culture éditeur.
3. Gemini CLI — le harnais open source
Gemini CLI est le seul des trois à être publié en open source. Le code est sur GitHub, la licence est Apache 2.0, et la communauté contribue activement aux releases (cadence quasi hebdomadaire d'après le journal des versions). Pour une équipe sensible à la souveraineté logicielle ou à l'auditabilité, c'est un argument lourd.
Modèle et contexte
Le modèle par défaut est Gemini 3, avec une fenêtre de contexte d'un million de tokens. Cette fenêtre est utilisable dans le terminal, ce qui change la nature des tâches possibles : ingestion d'un dépôt entier dans une seule conversation, analyse croisée d'une centaine de fichiers sans découpage, recherche sémantique sans embeddings externes.
Free tier et tarification
Avec un compte Google personnel, Gemini CLI offre un free tier substantiel : 60 requêtes par minute et 1000 requêtes par jour. Pour un développeur individuel sur des projets de taille moyenne, c'est suffisant pour tenir une semaine complète sans payer. Au-delà, on bascule sur l'API Gemini, facturée au token comme tous les concurrents.
Outils et sub-agents
Gemini CLI embarque nativement le grounding par Google Search : le harnais peut consulter le web pendant l'exécution sans clé ni configuration externe. Il dispose également des opérations fichier, des commandes shell et de la récupération de pages web. Le support MCP (Model Context Protocol) est intégré depuis fin 2025, ce qui permet de brancher des serveurs tiers (bases de données, API métier, outils de télémétrie). Les commandes /agents et /skills permettent d'inspecter, recharger et installer des sub-agents et skills tiers.
Nouveautés 2026
La version 0.41 (mai 2026) introduit un mode vocal en temps réel (Real-time Voice Mode) avec backend cloud ou local, des améliorations sur les Skills (commande /skills install, /skills reload), un sub-agent natif de création de pull request (pr-creator) et une commande /agents refresh pour rafraichir les configurations.
Cas d'usage typiques
- Onboarding sur une codebase volumineuse (un million de tokens digere un repo entier)
- Expérimentation sans budget serré grâce au free tier
- Audit de code avec recherche web intégrée
- Intégration dans un pipeline interne — le code source est inspectable et modifiable
- Projets open source, recherche académique, prototypes
Limites
L'open source apporte la transparence mais pas la maturité produit. L'écosystème d'extensions, de hooks et de skills tiers est encore embryonnaire comparé à Claude Code. La qualité de raisonnement de Gemini 3 sur les tâches longues de code reste un cran derrière Sonnet 4.6 et GPT-5.5 sur les benchmarks publics, même si l'écart se résorbe. Pour des codebases complexes en production, plusieurs équipes rapportent une fréquence d'erreurs supérieure aux deux concurrents.
4. Claude Code — le harnais le plus complet
Claude Code est sans doute le harnais le plus mature de la catégorie en mai 2026. La conférence Code w/ Claude SF, tenue début mai, a confirmé la trajectoire : application de bureau refondue, sessions parallèles, Routines (exécution cloud), écosystème de skills user-level, hooks de cycle de vie, mémoire persistante, sub-agents nativement orchestrés.
Modèles
Claude Code tourne sur les modèles Anthropic exclusivement : Sonnet 4.6 par défaut, Opus 4.7 (un million de tokens de contexte) pour les tâches lourdes, Haiku 4.5 pour les boucles économiques et les sub-agents rapides. Pas de support GPT, pas de Gemini, pas de Mistral, pas de modèle local. Cette dépendance est structurelle.
Surfaces
Claude Code couvre plus de surfaces que ses concurrents : CLI terminal, extension VS Code, extension JetBrains, application de bureau Mac et Windows, application web (claude.ai/code) et Routines en cloud asynchrone. Cette redondance est volontaire — les profils tech avancés vivent dans le terminal, les leads passent par le desktop, les profils hybrides combinent les deux.
Tarification intégrée
Particularité lourde de conséquence : Claude Code est inclus dans les abonnements Claude Pro (20 $/mois), Max, Team et Enterprise. Pas de facturation séparée par token pour ces utilisateurs. En mai 2026, Anthropic a doublé les rate limits sur ces plans (cf. changelog public) et supprimé la réduction aux heures de pointe sur Pro et Max. Concrètement, un développeur sérieux peut tourner toute la journée sans atteindre la limite.
Écosystème et sub-agents
Là où Claude Code creuse l'écart : skills user-level partageables, hooks de cycle de vie (PreToolUse, PostToolUse, SessionStart, SessionEnd, Stop), sub-agents spécialisés délégables (architect, security-reviewer, build-error-resolver, e2e-runner...), MCP servers tiers, mémoire structurée par projet. C'est le harnais qui pousse le plus loin l'orchestration multi-agent en interne — au prix d'une courbe d'apprentissage réelle.
Cas d'usage typiques
- Refactoring transverse multi-fichier supervisé (par exemple migration Jest vers Vitest)
- Pull request automatisée avec revue de code via Routines
- Triage nocturne de bugs sur calendrier cron
- Développement encadré par des hooks de qualité (formatter, linter, tests automatiques)
- Sub-agents spécialisés délégués (architect, security-reviewer, build-error-resolver)
Limites
Dépendance totale à Anthropic. Tarification opaque pour les usages intensifs en API (entre 50 et 300 $ par mois selon le modèle et l'intensité). La courbe d'apprentissage de l'écosystème skills/hooks/sub-agents demande plusieurs heures avant d'être productive. L'incident Anthropic du 9 janvier 2026 a rappelé qu'une panne plateforme bloque tout l'outillage en même temps.
5. Codex — le harnais qui pilote l'ordinateur
Codex a connu deux refontes majeures depuis sa naissance en 2021. La dernière version, portée par GPT-5.5, change le centre de gravité du produit : il ne s'agit plus seulement d'écrire du code, mais d'utiliser un ordinateur. C'est la différence philosophique principale avec Gemini CLI et Claude Code.
Modèles
Codex tourne sur GPT-5.5 par défaut, avec accès à GPT-5.5 Pro pour les tâches complexes et un retour possible à GPT-5.4 ou GPT-5.3-Codex via la commande /model. La commande /model permet aussi d'ajuster le niveau de raisonnement — un curseur explicite que ni Gemini CLI ni Claude Code n'exposent aussi clairement.
Computer use et navigateur intégré
L'application Codex peut désormais piloter un navigateur intégré. Le harnais voit ce qui s'affiche, clique, tape, navigue, reproduit un bug visuel et vérifie un correctif local. Concrètement, vous pouvez demander « reproduis le bug du formulaire de connexion » et Codex ouvre votre serveur de développement, simule la séquence, identifie le problème visuel. Cette capacité n'a pas d'équivalent direct chez les deux concurrents (openai.com/index/introducing-gpt-5-2-codex).
Plugins, skills et MCP
Codex a introduit en 2026 un système de plugins : des bundles installés qui empaquettent des skills, des intégrations applicatives et des configurations MCP. Disponibles dans l'application, le CLI et les extensions IDE. C'est la réponse d'OpenAI à l'écosystème skills/hooks/sub-agents de Claude Code.
Surfaces
Application desktop, CLI terminal, extensions IDE, application iOS et Android pour le suivi des tâches longues lancées en cloud. La parité surface avec Claude Code est presque atteinte, à l'exception des Routines qui restent une spécificité Anthropic.
Cas d'usage typiques
- Débogage visuel d'application web avec navigateur intégré
- Génération de documents complexes (slides, feuilles de calcul) couplée à du code
- Modes de raisonnement ajustables pour les arbitrages coût / qualité
- Workflows hybrides traversant plusieurs applications via plugins
- Développement assisté sur stack Microsoft / Azure DevOps via intégrations natives
Limites
Pas d'open source. Tarification liée aux abonnements ChatGPT Plus, Pro, Business, Enterprise ou à l'API OpenAI. Le free tier est limité et plus restrictif que celui de Gemini CLI. La maturité de l'écosystème plugins est récente et reste à prouver dans le temps. Le navigateur intégré est puissant mais démultiplie les vecteurs de fuite de données à surveiller en entreprise.
6. Comparatif synthétique
| Critère | Gemini CLI | Claude Code | Codex |
|---|---|---|---|
| Éditeur | Anthropic | OpenAI | |
| Modèle par défaut | Gemini 3 (1M tokens) | Sonnet 4.6 (200k) / Opus 4.7 (1M) | GPT-5.5 / GPT-5.5 Pro |
| Open source | Oui (Apache 2.0) | Non | Non |
| Free tier | 1000 req/jour, 60 req/min | Inclus dans Pro (20 $/mois) | Limité via ChatGPT |
| Surfaces | CLI, extensions IDE | CLI, IDE, desktop, web, Routines cloud | CLI, IDE, desktop, mobile |
| Modèles concurrents | Gemini uniquement | Anthropic uniquement | OpenAI uniquement |
| Sub-agents natifs | Oui (commande /agents) | Oui (le plus mature, agents user-level) | Oui (via plugins) |
| MCP support | Oui | Oui (le plus mature) | Oui (via plugins) |
| Spécificité | Free tier généreux + grounding Google Search | Routines cloud, écosystème skills/hooks/sub-agents | Computer use, navigateur intégré |
| Cible | Développeurs individuels, projets open source | Équipes tech, supervision fine | Développeurs hybrides, workflows visuels |
| Force | Transparence, contexte massif, prix | Maturité produit, écosystème, sub-agents | Polyvalence, computer use |
| Limite | Maturité produit, raisonnement code | Dépendance Anthropic, courbe d'apprentissage | Pas d'open source, free tier limité |
Gemini CLI mise sur le free tier comme produit d'appel. Claude Code intègre le harnais dans un abonnement Claude. Codex module la facturation par les abonnements ChatGPT et l'API OpenAI.
7. Cross-harness : faire dialoguer plusieurs harnais
Une tendance forte de 2026 : utiliser plusieurs harnais en même temps via des sub-agents croisés. Plusieurs projets open source (sub-agents-skills, fleet-harness, awesome-cli-coding-agents) montrent qu'on peut faire écrire du backend par Claude Code, des tests par Codex et de la documentation par Gemini CLI dans un même workflow. Chaque harnais reste l'orchestrateur de ses sub-agents, mais une couche d'orchestration supérieure les fait coopérer.
Cette approche n'est pas marginale : Anthropic, OpenAI et Google laissent volontairement leur harnais ouvert à l'invocation depuis l'extérieur via des protocoles communs (MCP, API HTTP, sub-process). Pour une équipe avancée, la question n'est plus « quel harnais choisir ? » mais « comment les faire travailler ensemble ? » (awesome-cli-coding-agents).
8. Là où les harnais se chevauchent (et où le choix devient politique)
Sur les tâches courantes — corriger un bug, ajouter un endpoint, refactorer un module — les trois harnais produisent des résultats comparables. Les benchmarks publics (SWE-bench, HumanEval, MBPP) les classent dans une fourchette de quelques points. Pour 80 % des tâches d'un développeur expert, le choix ne se joue pas sur la qualité de génération brute.
Le choix se joue sur trois axes que les communications marketing évitent.
L'engagement écosystème. Adopter un harnais, c'est s'engager dans la verticale d'un éditeur. Claude Code vous attache à Anthropic pour vos critères, vos skills, vos hooks, vos sub-agents, votre mémoire structurée. Codex vous attache à OpenAI pour vos plugins, vos workflows applicatifs. Gemini CLI vous attache moins parce que le code est ouvert, mais le modèle reste propriétaire et facturé.
La gouvernance des données. Les trois harnais lisent vos fichiers, exécutent des commandes shell, peuvent accéder à vos secrets. Les politiques de rétention, les clés API, les zones de stockage diffèrent. Pour une équipe sous contrainte RGPD ou SecNumCloud, la réponse n'est pas la même selon le harnais.
La trajectoire produit. Anthropic a publié en avril 2026 ses Routines, ce qui déplace Claude Code vers les workflows automatisés. OpenAI a investi le computer use, ce qui déplace Codex vers le pilotage applicatif. Google a investi l'open source et le multimodal vocal, ce qui déplace Gemini CLI vers une utilisation grand public. Choisir un harnais en mai 2026 revient à parier sur l'une de ces trois trajectoires.
9. Limites communes que personne ne dit
Hallucinations sur le code legacy. Les trois harnais excellent sur les bases de code modernes et bien structurées. Sur du code légacy peu documenté, sur des frameworks anciens ou des langages de niche, le taux d'hallucination reste supérieur à 10 %. Aucun éditeur ne communique de chiffre précis publiquement.
Dépendance à la connectivité. Aucun des trois ne tourne en local. Une coupure réseau, une panne de l'éditeur, un changement de conditions d'usage, et l'outil disparait. L'incident Anthropic du 9 janvier 2026 et les coupures récurrentes de l'API OpenAI rappellent que le risque opérationnel est réel.
Coût réel flou. Les annonces de tarification masquent une variabilité importante. Un projet qui ouvre cinquante fichiers par session coûte dix fois plus qu'un projet qui en ouvre cinq. Sans observabilité des tokens consommés, le budget mensuel d'une équipe est impénétrable.
Sécurité des supply chains. Les trois harnais peuvent installer des paquets, modifier des configs CI/CD, écrire dans des secrets. Sans contrôles amont (sandbox, hooks, revues humaines), un prompt mal conçu peut introduire une faille. Les guides officiels mentionnent le sujet, peu d'équipes le traitent vraiment.
10. Conclusion : quel harnais pour quel besoin
La réponse tient en trois scénarios.
Vous développez seul, vos projets sont variés, votre budget est serré, vous voulez de la transparence : Gemini CLI. Le free tier généreux, l'open source et la fenêtre d'un million de tokens couvrent la grande majorité des besoins individuels. La maturité produit progresse vite.
Vous êtes en équipe, vous tenez à la supervision fine, vous voulez intégrer le harnais à vos workflows internes (CI/CD, revues nocturnes, qualité automatique) avec des sub-agents spécialisés : Claude Code. C'est le harnais le plus mature pour les usages tech avancés en mai 2026, et la richesse de l'écosystème skills / hooks / sub-agents / Routines justifie l'engagement.
Vous travaillez sur des produits avec UI complexe, vous avez besoin du computer use et du navigateur intégré, vous êtes déjà investi dans l'écosystème OpenAI : Codex. La capacité à piloter un navigateur, à gérer des workflows hybrides via plugins, à basculer entre niveaux de raisonnement justifie le choix.
Perspective d'évolution : la frontière entre les trois va se brouiller. Gemini CLI gagne en maturité produit. Claude Code intègre des capacités computer use expérimentales. Codex muscle son écosystème plugins. À horizon 12 mois, le choix se jouera moins sur les fonctionnalités que sur la culture éditeur, la souveraineté et la facturation. Trois philosophies, trois paris. Aucun n'a encore gagné.