Le 21 avril 2026, sans keynote, sans livestream, sans aucun teaser, OpenAI a publié GPT Image 2 (nom commercial : ChatGPT Images 2.0). Dans les 48 heures qui ont suivi, le modèle a pris la première place d'Image Arena avec 1 512 points Elo, soit +242 sur Nano Banana 2, le modèle image de Google. Arena a précisé que c'était « le plus large écart jamais enregistré entre le premier et le deuxième » du classement. Cette bascule ne sort pas de nulle part : elle est le résultat d'une réorganisation interne déclenchée par Sam Altman cinq mois plus tôt, après que Google a pris l'avantage fin 2025. Voici ce qui s'est passé, et ce que cela change pour les équipes qui produisent des visuels tous les jours.
1. Comment Google a pris la tête en premier
Pour comprendre la riposte du 21 avril, il faut revenir à novembre 2025. Google DeepMind sort Nano Banana, un modèle image intégré à Gemini, qui devient viral sur X et TikTok en quelques jours. Son point fort : un filigrane de certification (SynthID) qui permet de vérifier l'origine IA, et un rendu de type « studio » qui surpasse DALL·E 3 sur les portraits et les scènes complexes. Selon la communication officielle de Google, SynthID a été utilisé plus de 20 millions de fois depuis le lancement.
Le 26 février 2026, Google enfonce le clou avec Nano Banana 2, nom technique Gemini 3.1 Flash Image. Le modèle devient le générateur d'image par défaut de l'écosystème entier : Gemini app, Google Search AI Mode, Google Lens, Google Ads, AI Studio, Vertex AI, plateforme cinéma Flow. Il gère la résolution jusqu'à 4K, maintient la cohérence de cinq personnages et de quatorze objets dans un même workflow, intègre la recherche web en temps réel pour « rendre précisément » des sujets spécifiques. Déploiement : 141 pays, huit langues supplémentaires.
À ce moment-là, la bataille n'est pas équilibrée. OpenAI dispose de DALL·E 3 et de GPT-Image-1.5, modèles compétents mais clairement dépassés sur le leaderboard et dans la perception publique. Plusieurs journalistes tech notent que « le centre de gravité de l'image IA a glissé vers Mountain View ».
2. Le « code red » de Sam Altman
C'est la partie qu'on apprend après coup. Selon Implicator.ai, qui recoupe plusieurs sources internes, Sam Altman envoie un mémo interne « code red » juste après Thanksgiving 2025, en réaction au momentum Nano Banana. Le mémo remet l'image au sommet de la liste des priorités. Deux décisions opérationnelles en découlent.
Décision 1 : tuer l'application Sora video. L'app grand public de génération vidéo, lancée en fanfare mi-2025, est retirée du catalogue produit. Les ressources (humaines, GPU, budget) sont réallouées à l'image. Officiellement, OpenAI parle de « consolidation ». En réalité, c'est un choix stratégique catégorique : la vidéo peut attendre, pas l'image.
Décision 2 : repositionner l'image comme « langue, pas décoration ». Cette formulation, reprise dans la communication interne puis dans les briefings presse du 21 avril, traduit un changement d'architecture. L'image cesse d'être un outil standalone avec sa propre interface. Elle devient une couche du stack de raisonnement du modèle généraliste. On ne génère plus une image, on « parle en image » au modèle, qui raisonne avant de produire.
Sources : Google Blog · TechCrunch 26 fév 2026 · Implicator.ai · MindwiredAI.
3. Ce que montre la vidéo officielle
OpenAI n'a pas organisé de keynote, mais l'entreprise a publié une vidéo de présentation sur sa chaîne YouTube le jour du lancement. Elle condense en cinq minutes les cas d'usage que l'équipe produit veut pousser en priorité : infographies multilingues, slides, cartes, manga d'une page depuis une seule image, série de visuels cohérents pour campagnes marketing.
Vidéo officielle OpenAI · 21 avril 2026
La vidéo ne montre volontairement aucun benchmark. Le choix de communication est clair : on ne vend pas un score, on vend une capacité à transformer le flux de travail d'une équipe qui produit du visuel au quotidien. C'est une réponse directe à Google, dont la communication Nano Banana 2 insistait sur l'intégration écosystème plus que sur la performance brute.
4. Les chiffres Image Arena : +242, un écart historique
Sur le plan quantitatif, le signal est d'une netteté rare. Image Arena, maintenu par LM Arena, est le leaderboard de référence pour les modèles d'image. Il combine des votes humains en aveugle (méthode Elo) sur trois catégories : text-to-image, single-image edit, multi-image edit.
Sources : OfficeChai · Artificial Analysis · Implicator.ai.
Le détail par sous-catégorie est plus révélateur que le score global. Par rapport à GPT-Image-1.5 High Fidelity, le modèle précédent d'OpenAI, les progressions sont les suivantes : +316 points sur le rendu de texte, +296 sur les portraits, +296 sur cartoon/anime/fantasy, entre +247 et +277 sur le photoréalisme, le cinématique, le 3D et le product/branding, +197 sur l'art. Le texte rendu dans l'image est le gain le plus spectaculaire, et ce n'est pas un hasard : c'est le pire point faible historique des modèles génératifs, et celui qui débloque le plus d'usages professionnels (slides, infographies, emballages, UI).
GPT Image 2 prend aussi la tête sur les deux catégories d'édition : 1 513 sur Single-Image Edit (+125 sur Nano Banana Pro), 1 464 sur Multi-Image Edit (+90 sur Nano Banana 2). C'est une domination trans-catégorielle, pas un coup d'éclat isolé sur un seul test.
5. Tests directs : où GPT Image 2 gagne, où il perd
Un classement Elo agrége des votes sans les expliquer. Pour comprendre ce qui se passe réellement, les tests comparatifs directs sont plus instructifs. Bind AI a publié un protocole de cinq scénarios appliqués aux deux modèles. Les résultats ne sont pas unilatéraux.
Source : Bind AI — The results are in, avril 2026. Notation sur 10 par l'équipe de test.
Là où GPT Image 2 gagne : rendu de texte multilingue (~99 % de précision en latin, CJK, hindi, bengali), précision de mise en page (grille 3×3 respectée là où Nano Banana 2 fusionne les items), reconstitution d'interfaces utilisateur (réplication propre de l'UI macOS), vitesse de génération sur le protocole Bind AI (environ 3 secondes contre 10 à 15 pour Nano Banana 2 Pro).
Là où Nano Banana 2 Pro reste devant : portrait réaliste (le « rendu studio » est jugé plus fidèle), éclairage cinématique (cf. les test sur les ambiances de film), conformité entreprise via le filigrane SynthID obligatoire — un atout pour les grands groupes qui doivent tracer l'origine IA de chaque asset publié.
Note de prudence : les mesures de vitesse sont contradictoires selon les sources. Le test Bind AI mesure environ 3 secondes en mode Instant, mais ImagesPlatform rapporte des temps de 30 à 60 secondes en mode Thinking sur ChatGPT Plus. Le mode utilisé change tout, et OpenAI n'a pas publié de bénchmark de latence officiel à la date du 23 avril 2026.
6. Le tableau de bord : ce que chaque modèle fait mieux
| Critère | GPT Image 2 | Nano Banana 2 |
|---|---|---|
| Sortie publique | 21 avril 2026 | 26 février 2026 |
| Image Arena (text-to-image) | 1 512 | 1 271 |
| Résolution max | 2K | 4K |
| Objets cohérents par scène | 100+ | 14 |
| Personnages cohérents | 8 images depuis 1 prompt | 5 dans un workflow |
| Rendu texte multilingue | ~99 % latin, CJK, hindi, bengali | Texte lisible, scripts non détaillés |
| Mode raisonnement | Thinking (Plus/Pro/Business) | Intégré dans Flash Image |
| Recherche web temps réel | Oui | Oui (via Google Search) |
| Filigrane IA obligatoire | Non documenté | SynthID systématique |
| Distribution | ChatGPT, Codex, API (début mai) | Gemini, Search, Lens, Ads, Flow, Vertex |
| Pays couverts à date | ChatGPT-wide | 141 pays, 8 langues supplémentaires |
| Prix API (estimé) | Input 8 $/M, output 30 $/M tokens · ~0,21 $ par image HQ | Non publié publiquement à la même maille |
Lu ainsi, la carte se lit en une seconde : OpenAI gagne sur la performance brute et la densité créative (texte, objets, édition), Google garde l'avantage sur la distribution, la résolution et la traçabilité entreprise (SynthID, Search, Lens, Ads). Un dirigeant qui choisit un modèle pour sa direction marketing en 2026 doit donc regarder ce qui compte réellement dans son pipeline, pas le leaderboard pris isolément.
7. Les limites que la presse ne dit pas
GPT Image 2 n'est pas sans défauts. Les tests techniques publiés dans la semaine suivant le lancement documentent plusieurs failles, qu'il faut connaître avant de déplacer un workflow de production vers ce modèle.
Logos de marque. La reproduction de logos spécifiques reste peu fiable. Les caractères et proportions dérivent légèrement. Pour un usage print ou publicitaire précis, il faut encore compositer les logos originaux dans Figma ou Photoshop après génération.
Diagrammes techniques. Les schémas d'ingénierie (architecture réseau, circuit, diagramme de flux) restent sujets à des inversions de flux, des labels erronés et des nœuds manquants. La vérification humaine reste indispensable. Le modèle est meilleur que la génération précédente, mais pas au point de déléguer entièrement la production d'un schéma technique critique.
Longs paragraphes dans l'image. Au-delà d'une vingtaine de mots, les caractères commencent à se déformer, même en anglais. La recommandation technique d'OpenAI et des évaluateurs indépendants est d'utiliser des overlays CSS ou InDesign pour les blocs de texte longs, et de réserver GPT Image 2 aux titres courts et aux labels.
Granularité créative. Contrairement à Midjourney, GPT Image 2 ne permet pas de spécifier une pellicule argentique, une focale d'objectif ou une texture de grain avec la même précision. Le modèle a son propre biais esthétique, et l'en sortir demande un prompt engineering appliqué. Les équipes créatives qui travaillent en direction artistique fine garderont Midjourney dans leur stack.
Génération de personnes identifiables. OpenAI a durci les restrictions sur la génération de personnes publiques réelles. Les usages de satire politique ou de reconstitution historique qui marchaient sur DALL·E 3 sont maintenant refusés. Les éditeurs de presse qui se reposaient sur l'ancien modèle doivent revoir leurs gabarits de couverture.
8. Ce qui se joue à partir de maintenant
Trois échéances structurent les semaines qui viennent.
12 mai 2026 — fin de DALL·E. OpenAI retire DALL·E 2 et DALL·E 3 de son catalogue. Les applications qui utilisent l'API doivent migrer vers gpt-image-2 ou l'alias chatgpt-image-latest. Toute équipe produit qui a câblé DALL·E dans une chaine d'automatisation (génération d'assets e-commerce, création de visuels pour campagnes email, cover YouTube automatisées) doit prévoir un sprint de migration avant cette date.
Début mai 2026 — ouverture API de GPT Image 2. L'accès développeur arrive dans la première semaine de mai selon les annonces OpenAI. La grille tarifaire communiquée par les intégrateurs est d'environ 8 $/M tokens en entrée, 30 $/M en sortie, 2 $/M pour les lectures de cache. Une image haute qualité ressortira autour de 0,21 $. À ce prix, les cas d'usage à grand volume (e-commerce marketplace, apps de retouche consumer, outils no-code intégrant la génération d'image) deviennent viables sans négociation entreprise.
Réponse Google attendue d'ici l'été. Le cycle d'annonces Google I/O tombe fin mai. Il est très probable que DeepMind publie une mise à jour de Nano Banana 2 (Nano Banana Pro 4k optimisé, ou Gemini 3.2) pour répondre spécifiquement sur le rendu de texte multilingue et la densité d'objets, les deux terrains où OpenAI vient de creuser. L'asymétrie — OpenAI leader sur le benchmark, Google sur la distribution — ne durera probablement pas plus de trois à quatre mois.
9. Notre lecture
L'intérêt de cette séquence dépasse la guerre OpenAI-Google. Elle illustre un fait structurel de 2026 : les sauts de capacité ne se jouent plus sur un seul axe. Arena mesure une préférence humaine moyenne. SynthID répond à une exigence réglementaire. Les 141 pays de Google créent un effet de réseau. Les 0,21 $ par image d'OpenAI débrident l'économie des apps. Un dirigeant qui compare deux modèles doit demander à son équipe non pas « lequel génère la plus belle image », mais « lequel fait déplacer notre pipeline ».
Trois questions utiles à poser en interne cette semaine : Un — dans notre flux de production visuelle actuel, combien d'étapes humaines (brief, design, revue, retouche, export multi-format) GPT Image 2 peut-il raccourcir sans perte qualité ? Deux — avons-nous une contrainte réglementaire ou client qui impose un filigrane IA (finance, santé, secteur public), auquel cas Nano Banana 2 reste le choix par défaut ? Trois — notre stack dev utilise-t-elle DALL·E dans un script de production ? Si oui, la migration vers gpt-image-2 doit être planifiée avant le 12 mai.
Ce qui se passe entre OpenAI et Google sur l'image en 2026 ressemble à ce qui s'est passé entre Claude et GPT-4 sur le code en 2024-2025 : une alternance de leads qui force les clients à penser multi-modèles plutôt que modèle unique. Les équipes qui décident de s'enfermer dans un seul écosystème paient le prix de cette rigidité à chaque nouveau lancement. La vraie victoire stratégique n'est pas de choisir entre GPT Image 2 et Nano Banana 2, mais d'avoir une infrastructure qui permette de basculer de l'un à l'autre selon le cas d'usage, sans refactoriser chaque trimestre.