On parle d'agents IA qui « remplacent » des équipes entières. Un banc d'essai a pris l'idée au sérieux et l'a testée jusqu'au bout : confier les commandes d'une entreprise à des modèles d'IA, pendant 500 jours, et regarder ce qu'il reste en caisse. Le résultat est un rappel salutaire. La plupart des IA coulent l'entreprise, et un simple script de règles, sans la moindre intelligence artificielle, bat presque tous les modèles. Voici ce que CEO-Bench dit vraiment, et la frontière qu'il trace.
1. La règle du jeu
CEO-Bench confie à des modèles d'IA la direction d'une startup logicielle fictive baptisée NovaMind, sur 500 jours simulés (arXiv, ceobench.com). Chaque modèle démarre avec 1 million de dollars et zéro client. Chaque semaine simulée, il agit librement via 34 outils couvrant les prix, la croissance, le produit, la fiabilité, le support, la communication et les ventes. La règle est brutale : si la trésorerie passe sous zéro, c'est la faillite et la fin de la partie. La note finale, c'est le cash restant.
2. Les résultats : une hécatombe
Source : benchmark CEO-Bench (arXiv 2606.18543, ceobench.com).
Quatorze modèles testés. Seuls Claude Fable 5, Claude Opus 4.8 et GPT-5.5 finissent au-dessus du million de départ sur leur meilleure tentative — et seul Claude Fable 5 y parvient sur plus d'une partie. Tous les autres font faillite ou perdent de l'argent. Le détail qui pique : une heuristique à base de règles, écrite à la main et dépourvue d'IA, bat presque tous les modèles évalués.
3. Ce que ça mesure vraiment : tenir un cap
La nuance est essentielle. Un grand modèle peut écrire un excellent plan stratégique en une réponse. Mais diriger, ce n'est pas produire un plan : c'est enchaîner 500 jours de décisions cohérentes, corriger le tir, arbitrer entre court et long terme, et ne pas se saborder en route. Sur cet exercice de constance, l'IA actuelle dérive, sur-réagit, ou s'enferme dans des stratégies que de simples garde-fous codés en dur évitent mieux qu'elle.
4. La frontière entre exécuter et décider
Ce benchmark trace une ligne nette, et utile pour tout dirigeant qui se demande « qu'est-ce que je peux confier à l'IA ». L'IA d'aujourd'hui est remarquable pour exécuter des tâches cadrées : rédiger, coder, analyser, synthétiser, répondre. Elle est encore faible pour décider dans la durée : tenir une trajectoire, assumer des arbitrages, piloter un système vivant avec mémoire des conséquences.
La conséquence pratique est rassurante et exigeante à la fois. Rassurante, parce que la peur du « PDG IA » qui remplace la direction n'a, pour l'instant, aucun fondement mesuré. Exigeante, parce qu'elle rappelle que la valeur de l'IA se capte en la plaçant au bon endroit : sous supervision humaine, sur des décisions bornées, là où elle exécute vite et bien — pas à la barre.
C'est la même leçon que celle de l'étude sur la productivité du code ou du rétropédalage de Ford : l'IA augmente l'humain, elle ne le remplace pas aux commandes.
Questions fréquentes
Qu'est-ce que le benchmark CEO-Bench ?
Un banc d'essai qui confie à des IA la direction d'une startup fictive, NovaMind, pendant 500 jours simulés : 1 million de dollars de départ, 34 outils de décision, faillite si la trésorerie passe sous zéro, note finale égale au cash restant.
Quels modèles ont réussi ?
Sur 14 modèles, seuls Claude Fable 5, Claude Opus 4.8 et GPT-5.5 finissent au-dessus de leur mise sur leur meilleure tentative, et seul Claude Fable 5 sur plusieurs parties. La majorité fait faillite, et un script de règles sans IA bat presque tous les modèles.
Que faut-il en conclure pour son entreprise ?
Que l'IA excelle à exécuter, pas encore à tenir un cap stratégique. C'est un outil d'exécution puissant sous supervision humaine, pas un décideur autonome. Sa bonne place est sur des décisions cadrées, pas à la direction d'une organisation.
Conclusion
CEO-Bench ne dit pas que l'IA est inutile, au contraire : les meilleurs modèles savent parfois gagner. Il dit que diriger relève d'une compétence — la constance dans la durée — que les modèles actuels ne maîtrisent pas, au point qu'une poignée de règles simples fait souvent mieux.
Pour une entreprise, c'est une boussole. La question n'est pas « l'IA peut-elle nous diriger », mais « quelles décisions, précisément cadrées, pouvons-nous lui déléguer en gardant la main sur le cap ». C'est là, et seulement là, que la valeur se trouve aujourd'hui.