Une IA peut-elle diriger une entreprise ? CEO-Bench répond non

Q: Qu'est-ce que le benchmark CEO-Bench ?

CEO-Bench est un banc d'essai qui confie à des modèles d'IA la direction d'une startup logicielle fictive, NovaMind, pendant 500 jours simulés. Chaque modèle démarre avec 1 million de dollars et zéro client, dispose de 34 outils (prix, croissance, produit, support, ventes…), et fait faillite si la trésorerie passe sous zéro. La note finale est le cash restant.

Q: Quels modèles ont réussi ?

Sur 14 modèles testés, seuls Claude Fable 5, Claude Opus 4.8 et GPT-5.5 finissent au-dessus du million de départ sur leur meilleure tentative, et seul Claude Fable 5 y parvient sur plusieurs runs. La majorité fait faillite ou perd de l'argent. Plus frappant encore, un simple script de règles sans aucune IA bat presque tous les modèles.

Q: Que faut-il en conclure pour son entreprise ?

Que l'IA actuelle excelle à exécuter des tâches, mais pas encore à tenir un cap stratégique sur la durée. Elle est un outil d'exécution puissant, pas un décideur autonome. La bonne place de l'IA est sous supervision humaine, sur des décisions cadrées, pas à la barre d'une organisation.

On parle d'agents IA qui « remplacent » des équipes entières. Un banc d'essai a pris l'idée au sérieux et l'a testée jusqu'au bout : confier les commandes d'une entreprise à des modèles d'IA, pendant 500 jours, et regarder ce qu'il reste en caisse. Le résultat est un rappel salutaire. La plupart des IA coulent l'entreprise, et un simple script de règles, sans la moindre intelligence artificielle, bat presque tous les modèles. Voici ce que CEO-Bench dit vraiment, et la frontière qu'il trace.

1. La règle du jeu

CEO-Bench confie à des modèles d'IA la direction d'une startup logicielle fictive baptisée NovaMind, sur 500 jours simulés (arXiv, ceobench.com). Chaque modèle démarre avec 1 million de dollars et zéro client. Chaque semaine simulée, il agit librement via 34 outils couvrant les prix, la croissance, le produit, la fiabilité, le support, la communication et les ventes. La règle est brutale : si la trésorerie passe sous zéro, c'est la faillite et la fin de la partie. La note finale, c'est le cash restant.

2. Les résultats : une hécatombe

Résultats du benchmark CEO-Bench où 14 IA dirigent une startup fictive pendant 500 jours avec un million de dollars de départ et faillite si la trésorerie passe sous zéro. Seuls trois modèles finissent au-dessus du million de départ : Claude Fable 5, seul à réussir plusieurs fois, Claude Opus 4.8 et GPT-5.5 sur leur meilleure tentative. Un simple script de règles sans IA bat presque tous les modèles. Les autres modèles finissent en faillite ou en perte. Le benchmark mesure la steering intelligence, la capacité à tenir un cap dans la durée. — Sur 14 modèles, trois seulement dépassent leur mise — un script sans IA les coiffe presque tous

Quatorze modèles testés. Seuls Claude Fable 5, Claude Opus 4.8 et GPT-5.5 finissent au-dessus du million de départ sur leur meilleure tentative — et seul Claude Fable 5 y parvient sur plus d'une partie. Tous les autres font faillite ou perdent de l'argent. Le détail qui pique : une heuristique à base de règles, écrite à la main et dépourvue d'IA, bat presque tous les modèles évalués.

3. Ce que ça mesure vraiment : tenir un cap

Le point à retenir CEO-Bench ne mesure pas la capacité à répondre à une question, mais la « steering intelligence » : la faculté de tenir un cap cohérent sur des centaines de décisions liées, dans la durée, avec des conséquences cumulatives. C'est précisément là que les modèles, brillants sur une tâche isolée, s'effondrent.

La nuance est essentielle. Un grand modèle peut écrire un excellent plan stratégique en une réponse. Mais diriger, ce n'est pas produire un plan : c'est enchaîner 500 jours de décisions cohérentes, corriger le tir, arbitrer entre court et long terme, et ne pas se saborder en route. Sur cet exercice de constance, l'IA actuelle dérive, sur-réagit, ou s'enferme dans des stratégies que de simples garde-fous codés en dur évitent mieux qu'elle.

4. La frontière entre exécuter et décider

Ce benchmark trace une ligne nette, et utile pour tout dirigeant qui se demande « qu'est-ce que je peux confier à l'IA ». L'IA d'aujourd'hui est remarquable pour exécuter des tâches cadrées : rédiger, coder, analyser, synthétiser, répondre. Elle est encore faible pour décider dans la durée : tenir une trajectoire, assumer des arbitrages, piloter un système vivant avec mémoire des conséquences.

La conséquence pratique est rassurante et exigeante à la fois. Rassurante, parce que la peur du « PDG IA » qui remplace la direction n'a, pour l'instant, aucun fondement mesuré. Exigeante, parce qu'elle rappelle que la valeur de l'IA se capte en la plaçant au bon endroit : sous supervision humaine, sur des décisions bornées, là où elle exécute vite et bien — pas à la barre.

C'est la même leçon que celle de l'étude sur la productivité du code ou du rétropédalage de Ford : l'IA augmente l'humain, elle ne le remplace pas aux commandes.

Questions fréquentes

Qu'est-ce que le benchmark CEO-Bench ?

Un banc d'essai qui confie à des IA la direction d'une startup fictive, NovaMind, pendant 500 jours simulés : 1 million de dollars de départ, 34 outils de décision, faillite si la trésorerie passe sous zéro, note finale égale au cash restant.

Quels modèles ont réussi ?

Sur 14 modèles, seuls Claude Fable 5, Claude Opus 4.8 et GPT-5.5 finissent au-dessus de leur mise sur leur meilleure tentative, et seul Claude Fable 5 sur plusieurs parties. La majorité fait faillite, et un script de règles sans IA bat presque tous les modèles.

Que faut-il en conclure pour son entreprise ?

Que l'IA excelle à exécuter, pas encore à tenir un cap stratégique. C'est un outil d'exécution puissant sous supervision humaine, pas un décideur autonome. Sa bonne place est sur des décisions cadrées, pas à la direction d'une organisation.

Conclusion

CEO-Bench ne dit pas que l'IA est inutile, au contraire : les meilleurs modèles savent parfois gagner. Il dit que diriger relève d'une compétence — la constance dans la durée — que les modèles actuels ne maîtrisent pas, au point qu'une poignée de règles simples fait souvent mieux.

Pour une entreprise, c'est une boussole. La question n'est pas « l'IA peut-elle nous diriger », mais « quelles décisions, précisément cadrées, pouvons-nous lui déléguer en gardant la main sur le cap ». C'est là, et seulement là, que la valeur se trouve aujourd'hui.

1. La règle du jeu

2. Les résultats : une hécatombe

3. Ce que ça mesure vraiment : tenir un cap

4. La frontière entre exécuter et décider

Questions fréquentes

Conclusion

Traçons la frontière chez vous.Parlons-en.

Traçons la frontière chez vous.
Parlons-en.