Que vaut GPT-5.5 ? Test détaillé du nouveau modèle d'OpenAI

OpenAI a publié GPT-5.5 le 23 avril 2026, avec disponibilité API le lendemain. C'est le premier modèle fully retrained depuis GPT-4.5. Il arrive dans un mois densément chargé : Nano Banana 2 chez Google, Claude Opus 4.7 chez Anthropic, DeepSeek V4 en open-source le même jour. La question qu'on nous pose déjà chez Otium : est-ce qu'il vaut le prix, et pour quels usages ? Ce test fait la synthèse honnête des benchmarks officiels publiés par OpenAI, des premiers retours reviewers indépendants documentés dans les 48 heures qui ont suivi la sortie, et de la grille de choix concrète entre GPT-5.5, Claude Opus 4.7 et Gemini 3.1 Pro. Nous n'avons pas testé GPT-5.5 nous-mêmes — chaque source est attribuée.

1. Ce qu'est GPT-5.5

Trois caractéristiques techniques distinguent GPT-5.5 de ses prédécesseurs.

Fully retrained base model. C'est le premier modèle de la famille GPT-5.x ré-entraîné de zéro depuis GPT-4.5. Les mises à jour 5.1, 5.2, 5.3 et 5.4 étaient des affinages (fine-tuning, post-training) sur la même base. GPT-5.5 est un nouveau base model, ce qui explique à la fois le saut de performance et le saut de prix.

Contexte 1 million de tokens. Disponible dans l'API dès le 24 avril. L'intérêt pratique : un agent peut garder en mémoire un codebase de taille moyenne, sa suite de tests, la documentation associée et un historique de conversation, le tout dans une seule session sans troncation. C'est la parité technique avec Claude Sonnet 4.6 et Gemini 3.1 Pro sur cette dimension.

Orientation agentic. OpenAI a publiquement repositionné le modèle comme outil pour « faire » plutôt que pour « répondre ». Les exemples officiels portent sur le code agentic via Codex, l'opération d'interfaces logicielles (computer use), l'analyse de documents longs et la recherche scientifique précoce. C'est l'axe sur lequel l'entreprise se différencie de Claude Sonnet 4.6 (conversation) et Gemini 3.1 Pro (multimodal).

La présentation officielle d'OpenAI

Keynote officielle OpenAI · 23 avril 2026

2. Les benchmarks officiels publiés par OpenAI

Benchmarks croisés GPT-5.5 contre Claude Opus 4.7 et Gemini 3.1 Pro. Terminal-Bench 2.0 : 82,7 contre 69,4 et 68,5. SWE-Bench Pro : 58,6 contre 64,3 (Claude devant). SWE-Bench Verified : 88,7 contre 87,6. OSWorld-Verified : 78,7. Humanity's Last Exam sans outils : 41,4 contre 46,9 (Claude devant). — GPT-5.5 gagne sur l'agentique, Claude Opus 4.7 tient le real-world GitHub

Terminal-Bench 2.0 — 82,7 %. C'est le gain le plus marquant. Terminal-Bench teste la capacité d'un modèle à planifier, itérer et coordonner des outils dans un shell Unix, sur des tâches de développement réelles. GPT-5.5 dépasse son prédécesseur GPT-5.4 (75,1 %), Claude Opus 4.7 (69,4 %) et Gemini 3.1 Pro (68,5 %). C'est le benchmark cité par OpenAI comme la signature du modèle.

SWE-Bench Pro — 58,6 %. C'est le point où le modèle est derrière Claude Opus 4.7, qui affiche 64,3 %. SWE-Bench Pro évalue la résolution de vraies issues GitHub multi-fichiers, et c'est le benchmark que la plupart des équipes produit considèrent comme le plus proche de la réalité du développement logiciel industriel. L'avance Claude tient pour le moment sur ce terrain.

SWE-Bench Verified — 88,7 %. GPT-5.5 passe devant Claude (87,6 %) sur cette variante qui vérifie individuellement chaque correctif. L'écart est mineur, mais le signal est là : sur les petits bugs ciblés avec tests, GPT-5.5 a fermé l'écart.

OSWorld-Verified — 78,7 %. C'est le benchmark qui mesure la capacité d'un agent à opérer un vrai ordinateur (souris, clavier, menus, navigation fenêtres) pour accomplir une tâche. 78,7 % est considéré comme un record public à date. C'est le terrain du computer use qu'OpenAI pousse avec Codex et qu'Anthropic propose via son propre Computer Use.

GDPval — 84,9 %. Benchmark propriétaire OpenAI portant sur 44 métiers knowledge work (analystes, consultants, rédacteurs, juristes, ingénieurs). À prendre avec la pincette habituelle d'un benchmark maison, mais le score est élevé et pose la question de la zone d'usage visée par le modèle.

Humanity's Last Exam sans outils — 41,4 %. Claude Opus 4.7 reste devant à 46,9 %. HLE évalue le raisonnement académique sans accès à des outils. Sur la pure connaissance et la déduction, OpenAI n'a pas fermé l'écart.

Sur l'Artificial Analysis Intelligence Index — métique agrégée indépendante — GPT-5.5 atteint 60 points, trois devant Claude Opus 4.7 et Gemini 3.1 Pro (57 chacun). Score en tant que moyenne, à ne pas prendre comme verdict final, mais comme indicateur de tendance.

3. Les retours des premiers testeurs indépendants

Trois reviewers pro ont publié des tests détaillés dans les 48 heures qui ont suivi la sortie. Leurs observations convergent sur certains points et divergent sur d'autres.

Ethan Mollick

Wharton Business School · One Useful Thing

Il a soumis GPT-5.5 Pro à plusieurs défis étendus. Le modèle a fait tourner une simulation de ville portuaire évoluant sur cinq mille ans en 20 minutes au lieu de 33 minutes sur la génération précédente. Il a généré un jeu de rôle tabletop illustré de 101 pages à partir d'un seul prompt. Son verdict : « la frontière en dents de scie continue de tenir ». Excellence démontrée sur certaines tâches, difficultés prévisibles uniquement après coup sur d'autres. Source : One Useful Thing, 23 avril 2026.

Dan Shipper

CEO Every

Il décrit GPT-5.5 comme « le premier modèle de code avec une clarté conceptuelle sérieuse ». Sur un scénario de débogage post-lancement que GPT-5.4 n'avait pas su résoudre, GPT-5.5 a identifié la cause et la correction. Sur le benchmark interne d'Every pour les ingénieurs senior, GPT-5.5 obtient 62/100 contre 33/100 pour Claude Opus 4.7. À relire avec la prudence habituelle sur les benchmarks maison. Source : fil public Every, 23 avril 2026.

Simon Willison

Développeur, auteur de Datasette

Il a testé GPT-5.5 via une backdoor API dans Codex avant la disponibilité publique de l'API. Son test classique du pélican à vélo (un dessin vectoriel généré par code SVG) est une référence pour comparer les modèles sur la compréhension spatiale à travers du code. Il le commente sobrement sans proclamer de révolution. Source : simonwillison.net.

Deux retours industriels ont également été communiqués. NVIDIA, qui utilise GPT-5.5 dans Codex pour ses équipes d'ingénierie, rapporte que des cycles de débogage qui duraient plusieurs jours se closent maintenant en quelques heures, et que des campagnes d'expérimentation qui prenaient des semaines aboutissent parfois en une nuit. OpenAI en interne communique sur des équipes qui ont analysé six mois de demandes de prise de parole pour construire un cadre de priorisation, passé en revue 24 771 formulaires K-1 pour un total de 71 637 pages afin d'accélérer un processus fiscal de deux semaines, et automatisé la génération de rapports hebdomadaires internes économisant 5 à 10 heures par semaine. Communications à prendre pour ce qu'elles sont : internes, sans audit externe.

« GPT-5.5 est le premier modèle de code que j'ai utilisé qui a une clarté conceptuelle sérieuse. » Dan Shipper, CEO Every · 23 avril 2026

4. Ce que le prix signifie vraiment

Le tarif API affiché est de 5 $ en entrée et 30 $ en sortie par million de tokens. C'est × 2 sur le prix de sortie par rapport à GPT-5.4, qui était à 2,50 $ / 15 $. Le plus gros saut de prix de la série GPT-5.x à ce jour. Trois lectures se présentent.

La lecture simple est que GPT-5.5 coûte deux fois plus cher qu'il y a six mois. Les équipes qui consomment à gros volume verront leur facture doubler si elles basculent sans optimisation.

La lecture composée est que GPT-5.5 consomme, selon OpenAI, 72 % de tokens en moins en sortie sur les tâches Codex équivalentes à celles tournées sur GPT-5.4. Si ce chiffre est confirmé par les audits indépendants à venir, le coût par tâche accomplie baisse malgré le doublement du prix unitaire. Pour les workflows agentic Codex spécifiquement, l'arbitrage est favorable à GPT-5.5.

La lecture contextuelle est que le même jour, le 24 avril 2026, le modèle chinois DeepSeek V4-Flash est publié à 0,28 $ par million de tokens en sortie — soit un rapport de un à cent avec GPT-5.5 sur le prix nominal. Une partie du marché SaaS européen va faire le calcul. Pour 80 % des tâches, le rapport qualité-prix n'est pas évident. Voir notre analyse DeepSeek V4 pour le détail.

5. GPT-5.5 contre Claude Opus 4.7 : deux modèles, deux charges

Matrice de positionnement. GPT-5.5 est le bon choix pour long contexte, agentic Codex, computer use, math, cybersécurité, volume de tokens, vitesse. Claude Opus 4.7 reste meilleur pour real-world GitHub, agents tool-heavy, finance, instruction-following, raisonnement académique. — Deux modèles qui ne se battent plus sur le même axe

L'analyse à chaud du marché est que GPT-5.5 et Claude Opus 4.7 ne sont plus en concurrence frontale. Ils se sont spécialisés sur deux profils d'usage distincts.

GPT-5.5 s'impose sur les tâches où un agent doit tenir un long contexte, planifier une séquence d'actions dans un terminal ou un navigateur, travailler sur des documents volumineux, produire du code en mode agentic via Codex, ou opérer une application. C'est l'orientation assumée d'OpenAI depuis trois mois.

Claude Opus 4.7 tient sur la résolution de vraies issues GitHub (SWE-Bench Pro), les agents qui doivent orchestrer plusieurs API spécialisées, les workflows financiers et juridiques qui dépendent d'un instruction-following très consistant, et le raisonnement académique pur sans outils. C'est l'orientation assumée d'Anthropic depuis l'arrivée de Claude 3.

En pratique, pour une PME qui déploie un ou deux agents opérationnels en 2026, le choix n'est pas « le meilleur modèle » — il est « le bon modèle pour le bon workflow », voire une combinaison des deux via un routage intelligent (envoyer Terminal-like à GPT-5.5, envoyer résolution GitHub réelle à Claude Opus 4.7). La bonne discipline opérationnelle en 2026 est le model routing, pas le choix binaire.

6. Les limites à avoir en tête avant un déploiement

Les benchmarks OpenAI sont auto-déclarés à cette date. OpenAI publie ses propres chiffres au lancement. Les plateformes tierces (LM Arena, Artificial Analysis, SimpleBench, SEAL) confirmeront ou nuanceront dans les deux à quatre semaines. Les scores très élevés sur Terminal-Bench et OSWorld sont à revalider avec indépendance.

La « frontière en dents de scie » reste. L'expression d'Ethan Mollick décrit le phénomène où un modèle excelle sur une tâche complexe tout en échouant sur une tâche apparemment plus simple. C'est vrai de tous les modèles frontier de 2026, GPT-5.5 inclus. Tout déploiement en production demande une phase de test sur les prompts réels de l'entreprise, pas une généralisation à partir des benchmarks.

Les communications de gains de productivité interne OpenAI ne sont pas auditables. Les chiffres « 5 à 10 heures économisées par semaine » ou « débogage jours à heures » sont des témoignages internes d'OpenAI et de NVIDIA. Utiles comme indicateur, pas comme engagement.

Le corpus d'entraînement n'est pas transparent. Comme pour les autres modèles propriétaires de frontier (Claude Opus 4.7, Gemini 3.1 Pro), OpenAI ne documente pas publiquement la composition de ses données d'entraînement. Pour un usage sur des contenus protégés par le droit d'auteur ou des contextes compliance forts, l'asymétrie d'information reste importante.

Compliance et AI Act. GPT-5.5 est opéré depuis les États-Unis. Les usages impliquant des données personnelles européennes doivent passer par un DPA OpenAI et, pour les cas sensibles, par le service enterprise avec contrat étendu. Pour les organisations européennes soumises à l'AI Act classification haut risque, l'intégration demande une analyse d'impact.

7. Notre lecture

GPT-5.5 est un saut technique sur l'agentique. Il ne remplace pas Claude Opus 4.7 ni Gemini 3.1 Pro sur les usages où ces modèles ont construit leurs avantages. Il les dépasse sur Terminal-Bench, OSWorld et les tâches computer use qui définissent la prochaine génération d'agents opérationnels.

Deux conclusions pratiques pour une équipe qui déploie l'IA en 2026.

Un. Si votre usage principal est agentic (un agent qui utilise des outils, tient un contexte long, opère une application, traite des fichiers volumineux), GPT-5.5 mérite un test sur votre jeu de prompts réels. Le gain potentiel est significatif. La condition est d'ajuster les prompts pour exploiter le million de tokens de contexte sans alourdir inutilement la facture.

Deux. Si votre usage principal est conversationnel, instruction-following strict, ou résolution de code fix en production, Claude Opus 4.7 reste un choix solide. Ne basculez pas pour le seul argument du benchmark agrégé. Un routage intelligent qui envoie le bon modèle à la bonne tâche donnera le meilleur résultat économique et qualitatif.

Les benchmarks valident, ils ne décident pas. La décision pour votre entreprise passe par un test sur vos propres prompts, votre propre contexte, vos propres résultats à mesurer. GPT-5.5 est une bonne raison de conduire ce test, pas une raison suffisante pour trancher sans.

Pour compléter ce test : notre analyse du modèle open-source chinois DeepSeek V4 sorti le même jour, notre dossier sur Claude Mythos d'Anthropic et la question AGI, et notre revue Claude Design sur le terrain des interfaces.