En 2010, un DAF arbitrait entre embaucher un junior à 35 000 € ou acheter un SaaS à 200 € par mois. En 2026, l'arbitrage a changé de nature : ce n'est plus « humain ou logiciel », c'est « masse salariale ou tokens ». Le coût d'une heure de cadre chargé en France oscille entre 28 et 36 €. Le coût d'une interaction d'agent IA, fact-checking d'un document ou génération d'un devis, se mesure en centimes. Mais le calcul brut ment. Voici le calcul honnête, six cas pratiques chiffrés, le TCO réel d'un agent et les questions à poser avant de signer.

1. La nouvelle équation

Les chiffres officiels sont publics. Côté humain, l'INSEE et les barèmes URSSAF 2026 donnent un encadrement net :

Côté IA, les grilles tarifaires d'avril 2026 communiquées par les fournisseurs (Anthropic, OpenAI, Google, Mistral) donnent un coût par million de tokens. Une interaction d'agent métier consomme typiquement 2 000 à 8 000 tokens (entrée + sortie cumulées), soit :

Sur le coût brut au token, la com¶i­son est arithmétique : une interaction agent coûte entre 100 et 1 000 fois moins qu'une heure d'humain chargé. Le calcul brut donne le vertige et alimente les promesses de remplacement total qu'on entend partout depuis 18 mois.

Sauf que ce calcul brut est faux. Il oublie tout ce qui transforme un appel API à 0,05 $ en service métier opérationnel. Et c'est là que la majorité des projets IA déraillent.

2. Pourquoi le calcul brut ment — le TCO réel

Le coût des tokens représente en moyenne 10 % du coût total d'un agent IA en production sur 12 mois. Les 90 % restants sont structurels et bien moins visibles.

Strate de coûtPart TCO 12 moisNature
Tokens (inférence)≈ 10 %Variable, proportionnel au volume d'interactions
Infrastructure et monitoring≈ 15 %Hébergement, n8n / Make, observabilité, logs, sécurité
Intégration aux systèmes existants≈ 25 %API CRM, ERP, base de données, MCP, formats propriétaires
Supervision humaine≈ 35 %Validation des sorties, reprise des erreurs, correction des hallucinations
Change management et formation≈ 15 %Adoption interne, conduite du changement, mise à jour de la charte IA
TCO 12 mois100 %Toutes les strates cumulées

Estimation Otium consolidée à partir des retours de déploiements 2025-2026 et des cadres TCO publiés par McKinsey, Gartner, BCG. Les ratios varient selon la maturité SI et la culture data.

Conséquence directe : quand un prestataire vous chiffre « 15 $ par mois de tokens », la facture réelle, supervision et intégration comprises, est plus proche de 1 500 $ la première année, soit cent fois plus. Cette première année est lourde. À partir de la deuxième, l'amortissement réduit la part « projet » et la part variable (tokens) prend une place plus importante. C'est à ce moment-là que le ROI positif apparaît réellement.

Cette structure de coût explique pourquoi les études ROI sont réellement positives autour de 171 % en moyenne sur 12 mois selon les compilations 2026 (Onereach.ai, Master of Code, Futurum), avec 74 % des déploiements atteignant un retour positif dès la première année. Mais elles cachent une dispersion énorme : 5 % seulement des entreprises atteignent un ROI franc, les autres se répartissent entre « ROI marginal », « perte sèche » et « impossible à mesurer ».

La différence entre ces cohortes ne tient pas à la qualité technique de la solution. Elle tient à la justesse du cadrage initial. Et le cadrage initial commence par savoir lire un calcul tokens / masse salariale.

3. Six cas pratiques chiffrés

Voici six fonctions où le calcul tokens vs masse salariale a un sens, avec des ordres de grandeur ancrés sur les prix publics avril 2026 et les barèmes salariaux français. Ces chiffres sont des projections de référence, pas des engagements : votre cas réel dépendra de votre stack, de votre volume et de votre exigence qualité.

Cas 01 — Qualification de leads B2B

5 SDR humains vs 1 SDR + agent IA

Solution humaine seule
17 500 €/mois
5 SDR juniors chargés · 1 000 leads qualifiés/mois max
Solution hybride (humain + agent)
3 530 €/mois
1 SDR + agent (≈ 30 $ tokens/mois) + supervision

L'agent qualifie en première intention sur les critères ICP, score les leads (BANT, MEDDIC), envoie les séquences outbound, et réserve aux humains les conversations à fort potentiel. Le volume traité reste de 1 000 leads/mois mais le SDR humain se concentre sur les 200 conversations qui paient.

Ratio coût : ×5 d'économie à volume de leads constant. Le SDR humain gagne en qualité de pipeline.
Cas 02 — Support client niveau 1

1 agent humain vs 1 agent IA + supervision partagée

Solution humaine seule
2 900 €/mois
1 agent support N1 chargé · 800 tickets/mois
Solution agent IA
450 €/mois
Tokens + Zendesk + 25 % temps superviseur partagé

L'agent traite les demandes simples (statut commande, FAQ, modification d'abonnement, escalade contextualisée) et route vers l'humain les cas complexes ou émotionnels. Volume couvert : 70 % des tickets sans intervention, 100 % des cas critiques en escalade qualifiée vers un humain.

Ratio coût : ×6,5 d'économie à volume couvert. Disponibilité 24/7 incluse, contre 35 h/semaine en humain.
Cas 03 — Saisie comptable et rapprochement

0,5 ETP comptable vs OCR + agent IA

Solution humaine seule
2 100 €/mois
0,5 ETP comptable chargé · 300 factures/mois
Solution agent + OCR
280 €/mois
DocuClipper / Pennylane + LLM · supervision mensuelle 4 h

L'OCR couplé au LLM extrait les données des factures fournisseurs (PDF, mail, photo), rapproche automatiquement les paiements bancaires Qonto/Banque, prépare les pièces pour l'expert-comptable. Le comptable valide en mode contrôle, ne saisit plus.

Ratio coût : ×7,5 d'économie. Disponibilité nuit/week-end incluse pour le traitement des factures dès rentrée.
Cas 04 — Production de contenu marketing

1 content manager seul vs 1 content + agent IA

Volume content manager seul
8 articles/mois
3 750 €/mois chargé · ratio 469 €/article
Volume content + agent
40 articles/mois
3 750 € + 200 € tokens · ratio 99 €/article

L'agent génère premières versions, decline les formats (LinkedIn, Instagram, newsletter, blog), produit les visuels avec Midjourney / Imagen, propose les A/B tests. Le content manager pilote la ligne éditoriale, valide chaque pièce, garde la main sur le brand voice.

Ratio coût par article : ×4,7 de baisse. Le volume passe de 8 à 40 articles à coût quasi-constant.
Cas 05 — Devis BTP / services BtoB

4h humaine par devis vs 30 min + agent

Solution humaine seule
7 200 €/mois
200 h humaines · 50 devis · 36 €/h chargé
Solution agent + humain
980 €/mois
25 h humaines + 80 € tokens · même volume

L'agent extrait les besoins du brief client, propose la structure devis avec catalogue intelligent, calcule marges et conditions commerciales, génère le PDF. L'humain ajuste les éléments stratégiques (négociation, échéances, conditions) et signe.

Ratio coût : ×7,3 d'économie. Délai entre demande et envoi qui passe de 3 jours à 30 minutes.
Cas 06 — Standard téléphonique 24/7

2 secrétaires vs 1 agent vocal + 1 humain

Solution humaine seule
4 800 €/mois
2 secrétaires (35 h chacune) · standard 9h-18h
Solution agent vocal
1 250 €/mois
1 secrétaire mi-temps + agent vocal (ElevenLabs/Twilio)

L'agent vocal décroche, qualifie l'appelant (RDV, info, urgence), route vers le bon poste ou prend le RDV directement dans Google Calendar. L'humaine traite les cas complexes et les VIP. Le coût agent vocal est plus élevé que le LLM texte (voix = ~0,10 $/min côté ElevenLabs/Twilio + tokens du LLM derrière).

Ratio coût : ×3,8 d'économie avec couverture 24/7 contre 9h-18h en humain seul.

Ces six cas sont des ordres de grandeur. La règle qu'ils illustrent est plus importante que les chiffres exacts : l'agent IA ne remplace pas l'humain, il multiplie le volume traité par humain. Le bon calcul DAF n'est pas « économie de salaires » (calcul d'erreur classique). Le bon calcul est « coût par unité produite à qualité égale ».

4. Les trois cost-killers européens à connaître

Une fois la décision prise, trois leviers opérationnels divisent la facture mensuelle d'un facteur 5 à 20 sans rien changer à la qualité du service. Ils sont systématiquement absents des devis des prestataires qui ne maîtrisent pas leur sujet.

4.1 — Le prompt caching (jusqu'à -90 %)

Anthropic, OpenAI et Google appliquent tous une réduction massive sur les tokens mis en cache. Chez Anthropic, une lecture cache coûte 10 % du prix input standard. Concrètement, sur un agent qui traite 10 000 demandes/mois avec 5 000 tokens de contexte fixe à chaque requête (instructions système, règles métier, base RAG) :

Économie : 72 % sur la facture input. Le caching paye à partir de la deuxième lecture du même contexte. Sur un workflow industriel, c'est immédiat.

Source : documentation Anthropic.

4.2 — Le batch processing (-50 %)

Le mode batch permet de soumettre des milliers de requêtes en une fois et de recevoir les réponses dans les 24 heures. Tarif : 50 % du prix standard chez les trois principaux fournisseurs. Pertinent pour :

Combiné au cache, le tandem cache + batch peut réduire la facture totale jusqu'à 95 % sur les workflows compatibles. Confirmé par la documentation officielle Anthropic.

4.3 — Mistral Large 3 (souveraineté + prix)

Mistral Large 3 propose 6 $ par million de tokens en sortie, soit 2,5 fois moins cher que Claude Sonnet ou GPT-5.4 sur la sortie. Hébergement EU par défaut, conforme RGPD, options de déploiement souverain via cloud français. Performance comparable sur la majorité des cas d'usage entreprise (code, RAG, classification, résumé).

Pour des workflows à fort volume où la sensibilité données est élevée (RH, santé, finance, juridique), Mistral devient l'arbitrage rationnel à la fois sur le prix et sur la conformité. Les fournisseurs Anthropic et OpenAI restent supérieurs sur les tâches de raisonnement complexe ou multimodal avancé, mais l'écart se resserre vite.

Source : grille tarifaire Mistral AI.

Rappel cost-killers

Cache (-90 %) + Batch (-50 %) + arbitrage Mistral selon usage = facture divisée par 5 à 20. Ces trois leviers sont les premiers à exiger d'un prestataire IA. Leur absence dans un devis est un signal fort de méconnaissance technique.

5. Les cinq erreurs de calcul qui ruinent un projet IA

Erreur 1 — Comparer un POC à une mise en production. Un POC fait sur 100 requêtes manuelles ne dit rien du coût réel d'un déploiement à 10 000 requêtes/mois avec exigences de fiabilité, sécurité, conformité AI Act. Le multiplicateur entre POC et prod est typiquement de 3 à 10. Toujours demander une projection 12 mois en charge nominale.

Erreur 2 — Confondre productivité et substitution. Les études 2026 mesurent une amélioration moyenne de productivité de 30 à 40 % sur les fonctions impactées par l'IA. Mais le gain ne se traduit pas mécaniquement par une réduction d'effectifs. Il se traduit en augmentation du volume traité ou en remontée de gamme. Calculer le ROI sur la base d'une réduction de masse salariale est une erreur méthodologique. Le bon indicateur est le coût par unité produite.

Erreur 3 — Oublier le coût de supervision humaine. Un agent IA en production exige une supervision humaine entre 10 % et 35 % du temps initial selon la criticité du domaine. Cette supervision est un coût récurrent, pas un coût projet. Elle inclut la validation des sorties, la reprise des erreurs, l'enrichissement de la base RAG, la mise à jour des règles métier. Aucun fournisseur sérieux ne promet du 100 % autonome aujourd'hui.

Erreur 4 — Ignorer la conformité AI Act et RGPD. Le Règlement UE 2024/1689 (AI Act) est en application progressive depuis février 2025. Les systèmes à haut risque (RH, scoring, crédit, biométrie) sont soumis aux obligations renforcées depuis le 2 août 2026. Les sanctions atteignent 35 M€ ou 7 % du CA mondial pour les pratiques interdites, 15 M€ ou 3 % pour les manquements aux obligations haut risque. Ignorer ce paramètre dans le TCO est une erreur stratégique. Voir le modèle de charte IA en 7 sections.

Erreur 5 — Sous-estimer la dépendance au fournisseur. Un agent construit sur API propriétaire sans architecture de portabilité (MCP, abstraction multi-modèle) crée un lock-in technique difficile à défaire en cas de bascule. Toujours exiger une architecture où le modèle peut être changé sans réécrire l'intégralité de la solution. C'est une question de souveraineté économique sur la durée.

6. La grille DAF 2026 — huit questions à poser avant de signer

Pour un dirigeant qui n'est pas tech mais doit arbitrer un projet IA, voici les huit questions qui filtrent les prestataires sérieux des autres. Un fournisseur qui répond précisément aux huit a probablement la culture technique pour livrer ce qu'il promet.

Checklist DAF — avant tout devis IA

1. Quel modèle exactement, et pourquoi celui-là sur mon cas d'usage ?

2. Quel coût en tokens par interaction, avec et sans cache ?

3. Quelle architecture (RAG, fine-tuning, hybride) et pourquoi ?

4. Quel est le TCO 12 et 24 mois sur ma volumétrie nominale ?

5. Combien de temps de supervision humaine prévoyez-vous ?

6. Comment gérez-vous la conformité AI Act et RGPD ?

7. Mes intégrations sont-elles MCP-compatibles ou propriétaires ?

8. Si je veux changer de modèle dans 12 mois, combien ça coûte ?

Un prestataire qui n'a pas de réponse claire à la question 4 (TCO 12-24 mois) ne sait pas chiffrer son projet. Un prestataire qui n'a pas de réponse à la question 8 (portabilité) construit du lock-in. Un prestataire qui n'a pas de réponse à la question 6 (conformité) expose votre entreprise à un risque réglementaire qu'il devrait maîtriser à votre place.

7. Foire aux questions

Combien coûte un agent IA comparé à un salarié junior en 2026 ?

Le coût brut au token est 100 à 1 000 fois inférieur à une heure d'humain chargé. Mais le coût réel après TCO complet (intégration, supervision, change management) place le ratio entre 5 et 15 selon les fonctions. Le bon calcul est « coût par unité produite », pas « économie de masse salariale ».

Un agent IA remplace-t-il vraiment un salarié ?

Rarement. Les études 2026 mesurent un gain de productivité de 30 à 40 % sur les fonctions impactées, ce qui se traduit en multiplication du volume traité par humain, pas en remplacement. Un SDR humain assisté traite 5 fois plus de leads, ce qui revient à diviser le coût d'acquisition par 5 sans licencier. Le gain économique est réel, le mécanisme n'est pas la substitution.

Qu'est-ce que le TCO d'un agent IA ?

Total Cost of Ownership. Cinq strates : tokens (10 %), infrastructure (15 %), intégration (25 %), supervision humaine (35 %), change management (15 %). Un prestataire qui chiffre uniquement les tokens vous communique 10 % de la facture. Toujours exiger une projection TCO 12 et 24 mois.

Quels sont les cost-killers d'une facture IA en 2026 ?

Trois leviers cumulables : prompt caching (-90 % sur tokens répétitifs), batch processing (-50 % sur traitements asynchrones), Mistral Large 3 (souverain EU, output 2,5 fois moins cher que Claude Sonnet ou GPT-5.4). Combinés, ils peuvent diviser la facture par 10 à 20 selon les workflows.

Quelle est la première erreur d'un DAF face à l'IA ?

Comparer un POC à une mise en production. Le multiplicateur de coût entre POC et production est typiquement de 3 à 10. Toujours demander une projection 12 mois en charge nominale.

Le AI Act change-t-il le calcul économique IA en 2026 ?

Oui. Les obligations renforcées sur les systèmes haut risque (RH, scoring, crédit, biométrie) sont en application depuis le 2 août 2026, avec des sanctions jusqu'à 7 % du CA mondial. Pour ces usages, le coût de mise en conformité s'ajoute au TCO et doit être chiffré dès le devis. Voir le modèle de charte IA en 7 sections et le lexique IA pour dirigeants.

Conclusion

Le DAF qui ne sait pas calculer en tokens en 2027 sera comme celui qui ne savait pas lire un EBITDA en 2010 : techniquement opérationnel, économiquement aveugle. La maîtrise du calcul tokens vs masse salariale n'est pas une compétence optionnelle. C'est l'unité de mesure du nouveau monde IA.

Les six cas chiffrés ci-dessus illustrent un principe général : l'agent IA ne remplace pas l'humain, il multiplie son volume utile par 4 à 8. Le ratio économique réel après TCO se situe entre 5 et 15, jamais 1 000. Les cost-killers européens (cache, batch, Mistral) divisent encore par 5 à 20 quand ils sont mobilisés correctement.

Trois conditions transforment ce calcul théorique en gain réel : cadrage initial honnête, supervision humaine budgétée, architecture portable. La majorité des projets IA qui échouent ratent une de ces trois conditions, pas la technologie.

Pour aller plus loin, voir le lexique IA en 15 termes pour dirigeants et le modèle de charte IA en 7 sections.