Sur 100 pilotes d'agents IA lancés en entreprise depuis 2024, 88 ne sont jamais passés en production. Le chiffre vient d'études recoupées par Anaconda, Forrester, le MIT Sloan CIO Panel et a16z, et il est validé par les prédictions Gartner d'avril 2026. En face, les survivants ne sont pas dispersés : ils reproduisent six archétypes stables, avec stack technique cadrée, coûts unitaires connus et ROI mesurable. Le reste, en mai 2026, reste de la démo ou du POC vendu pour de la production.

1. Ce que signifie marcher en production

Le mot « production » est utilisé à tort. Dans la communication marketing, un agent IA passe en « production » dès qu'il est branché sur un canal réel (un email entrant, une conversation client, une facture reçue). Dans la réalité opérationnelle, un agent en production satisfait trois conditions cumulatives.

Première condition : il tourne sans supervision constante. Un humain ne valide pas chaque action. Il intervient sur les cas d'escalade pré-définis. Sinon ce n'est pas un agent, c'est un copilote.

Deuxième condition : il produit une valeur mesurable. Temps gagné, tickets résolus, factures traitées, leads qualifiés, RDV pris. Un chiffre apparait dans un tableau de bord. Sans métrique, on est en POC déguisé.

Troisième condition : il résiste aux cas limites. Données manquantes, format inattendu, escalade utilisateur, panne modèle. L'agent route, repasse en mode humain, log l'erreur. Il ne casse pas le processus métier.

Les chiffres récents convergent. Selon S&P Global Market Intelligence et McKinsey (mars 2026), 31 % des entreprises ont au moins un agent IA en production, avec 47 % chez les banques et assurances, 18 % en santé, 14 % dans le secteur public. Gartner prédit que 40 % des projets agentic IA lancés en 2025-2026 seront annulés d'ici fin 2027 pour cause de coûts échappant au contrôle ou de valeur métier indémontrée (Gartner, juin 2025). RAND Corporation chiffre à 80,3 % le taux d'échec global des projets IA à délivrer leur valeur business promise.

Les six archétypes ci-dessous sont ceux qui se retrouvent dans les 12 % qui survivent. Ils ne sont pas exotiques. Ils sont répétés parce qu'ils tiennent.

Schéma des six archétypes d'agents IA en production en 2026 avec leur input, leur output et leur exemple de déploiement public référence.
Les six archétypes — mai 2026

Chaque archétype combine un cas d'usage métier, une stack technique stable et au moins un déploiement public documenté avec ROI chiffré.

2. Archétype 1 — RAG interne sur base de connaissance

Input · question salarié · Output · réponse citée · Stack ref · Notion AI, McKinsey Lilli, Glean

L'agent ingest la documentation interne (Notion, Drive, SharePoint, Slack, Confluence, Jira), construit une représentation vectorisée, et répond aux questions des salariés en citant ses sources. Architecture RAG canonique : recherche sémantique, ranking, génération citée.

Pourquoi ça tient

Le périmètre est borné (les documents internes), le risque d'hallucination est atténué par la citation source, et la métrique de succès est claire (temps de recherche d'information, taux d'adoption en interne). McKinsey rapporte 72 % d'adoption de Lilli sur ses 45 000 salariés en mars 2026, avec un gain de temps documenté de 30 % sur les tâches de recherche et synthèse (McKinsey, mars 2026). Lilli agrège 40 sources et plus de 100 000 documents. Une fintech documentée par TechAhead fait tourner plus de 300 agents custom quotidiens sur Notion comme base de connaissance.

Coût unitaire

Pour Notion AI Business, comptez 20 $ par utilisateur par mois en supplément du plan principal. Pour un déploiement custom (vector DB + Claude / GPT-4o), comptez 0,02 à 0,15 € par requête selon la fenêtre de contexte et la fréquence d'usage. Le poste lourd reste l'indexation initiale (entre 5 000 et 50 000 € selon le volume documentaire) et la maintenance du corpus (màj hebdomadaire, suppression des doublons, certification des contenus).

Pièges en production

Trois pièges récurrents. Premier : la péremption silencieuse. Le RAG cite avec assurance une note interne obsolète, l'utilisateur n'a aucun moyen de savoir. Notion l'a résolu partiellement avec un système de pages « verified » en Business+ (eesel AI). Deuxième : l'effondrement à l'échelle. En dessous de 1 000 documents, Notion AI fonctionne sans difficulté. Au-delà de 50 000, sans gouvernance de contenu, la qualité chute. Troisième : la fuite de données sensibles. Sans cloisonnement par permissions, un agent peut exposer un document RH ou financier à un salarié qui n'y a pas droit.

Quand ça marche, quand ça casse

Marche : entreprise à documentation structurée déjà centralisée, taille moyenne (200-5 000 salariés), périmètre délimité (RH, juridique, support client interne, comptes-rendus de mission). Casse : documentation éclatée entre dix outils, propriétaires de contenu non identifiés, absence de processus de freshness.

3. Archétype 2 — Déflection de support tier-1

Input · ticket / chat client · Output · résolution ou escalade · Stack ref · Intercom Fin, Zendesk AI, Salesforce Agentforce

L'agent reçoit la conversation client (chat, email, formulaire), consulte la base de connaissance produit, répond aux questions courantes, escalade vers un humain quand il détecte une intention complexe, une émotion forte ou un cas hors-périmètre.

Pourquoi ça tient

Le cas d'usage est mature, le ROI est binaire (taux de résolution sans humain), et les plateformes intégrées (Intercom Fin, Zendesk AI, Salesforce Agentforce) absorbent la complexité technique. Intercom Fin annonce 67 % de taux de résolution moyen sur 7 000 clients et plus de 40 millions de conversations traitées cumulées (données Intercom décembre 2025). Lightspeed atteint 65 %, Sharesies 70 % en 12 semaines, Clay environ 50 %, Fundrise plus de 50 % en trois mois (Fin AI, case studies 2026).

Coût unitaire

Intercom Fin facture entre 0,99 $ et 1,50 $ par résolution selon le plan. Pour 10 000 conversations mensuelles avec 67 % de résolution, la facture mensuelle se situe entre 6 600 $ et 10 000 $ (Fin AI Pricing Guide 2026). Pour un déploiement custom via Claude ou GPT-4o orchestré par n8n, le coût descend à environ 0,15-0,35 $ par conversation, mais l'effort d'intégration et de maintenance est multiplié par cinq.

L'avertissement Klarna

Anti-cas à connaître Klarna a annoncé en février 2024 que son chatbot avait remplacé le travail de 700 agents support, avec une économie projetée de 40 millions de dollars par an. En mai 2025, l'entreprise a annoncé le retour aux humains après constat d'une baisse de la satisfaction client et d'une qualité de réponse jugée inférieure sur les cas complexes. Sebastian Siemiatkowski (CEO) parle désormais d'un modèle hybride où l'IA traite les requêtes simples et l'humain prend le relais sur l'empathie et la résolution nuancée (Fortune, mai 2025). Le retour de Klarna n'invalide pas l'archétype, il en cadre les limites : déflection partielle (50-70 %) avec escalade humaine systématique, oui ; remplacement total, non.

Pièges en production

Le piège majeur est de pousser le taux de déflection au-delà de 70-75 %. La satisfaction client commence à chuter, la confiance dans la marque se dégrade, et les cas complexes arrivent à l'humain en condition déjà frustrée. Deuxième piège : la dérive lexicale. Le modèle change le ton officiel sans qu'on le voie. Troisième piège : l'arbitrage coût-qualité. Un modèle moins cher (Haiku 4.5, Gemini Flash) traite trois fois plus de conversations mais commet trois fois plus d'erreurs sur les cas limites.

Quand ça marche, quand ça casse

Marche : SaaS / e-commerce / fintech à volume de tickets supérieur à 5 000 par mois, périmètre de questions récurrentes établi, équipe humaine maintenue pour les escalades. Casse : marques premium où la voix de marque est différenciante, secteurs régulés (santé, assurance vie, conseil financier) où chaque réponse engage une responsabilité juridique.

4. Archétype 3 — Extraction de documents structurés

Input · PDF / image non structuré · Output · JSON / lignes de table · Stack ref · Mistral OCR 3, Pennylane, Klippa Doxis

L'agent reçoit une facture, un contrat, un CV, un bon de commande, un justificatif. Il l'OCRise, identifie les champs structurants (date, montant, numéro de facture, fournisseur, IBAN, articles, totaux), produit un JSON prêt à ingérer dans un ERP ou un outil métier.

Pourquoi ça tient

C'est l'archétype le plus mature de la catégorie. La tâche est bornée (extraire des champs d'un document), la validation est binaire (le champ est correct ou ne l'est pas), et la valeur business est immédiate (gain de temps comptable). Pennylane traite plus de 200 000 factures par jour via son OCR avec un taux de précision de 93 %, en s'appuyant sur la technologie Klippa Doxis (Klippa, case study Pennylane). Mistral OCR 3 sorti en 2026 facture 2 $ pour 1 000 pages, soit 1 $ en mode batch (Mistral AI, 2026), et atteint 100 % d'extraction sur des factures PDF multi-pages dans les tests publics.

Coût unitaire

L'archétype le moins cher du panel. Mistral OCR 3 facture 0,002 $ par page en batch. Pennylane intègre l'OCR dans son abonnement (16-99 €/mois selon le plan PME). Une facture traitée clés en main coûte entre 0,02 et 0,15 € selon la pile, contre 1,50 à 3 € en saisie manuelle. ROI immédiat dès 200 factures mensuelles.

Pièges en production

Trois pièges. Premier : la qualité du scan amont. Un scan biaisé, une photo de smartphone mal cadrée, un PDF protecté par mot de passe, et l'OCR retourne du bruit. Deuxième : la variabilité fournisseur. Sur 500 factures fournisseurs, on a 500 mises en page différentes. Le modèle tient sur 80-90 % sans entraînement spécifique. Troisième : la validation finale humaine. Même à 93 % de précision, les 7 % restants peuvent contenir une erreur de TVA qui coûte cher en régularisation. Pennylane affiche les champs à valider par l'utilisateur.

Le contexte facture électronique 2026

L'archétype reçoit un coup de pouce réglementaire en France : l'obligation de facture électronique déployée sur 2026-2027 force les entreprises à structurer leurs flux entrants et sortants au format Factur-X (PDF + XML). La DGFiP recensait 136 plateformes de dématérialisation agréées au 29 janvier 2026 (Tout pour la gestion, 2026). L'extraction OCR couvre les flux non-structurés résiduels et les flux historiques pendant la transition.

Quand ça marche, quand ça casse

Marche : PME et ETI avec volume mensuel supérieur à 200 factures, contrats récurrents, gestion administrative structurée. Casse : documents manuscrits, justificatifs étrangers avec alphabets non latins sans entraînement spécifique, contrats juridiques complexes où l'extraction de clauses demande un raisonnement métier.

5. Archétype 4 — Lead gen B2B automatisé

Input · signal commercial (job change, levée, hiring) · Output · prospect qualifié + séquence outbound · Stack ref · Clay, Apollo, Lemlist Echo

L'agent détecte un signal (un décideur change de poste, une entreprise lève des fonds, un site web ajoute un keyword cible), enrichit le prospect via plusieurs sources de données, qualifie selon des critères ICP, et déclenche une séquence email ou LinkedIn personnalisée. C'est l'archétype qui a connu la plus forte croissance d'usage entre fin 2025 et début 2026.

Pourquoi ça tient

L'Anthropic Economic Index publié en mars 2026 montre que les workflows business sales et outreach automation (recherche et qualification de leads, mise à jour données CRM, rédaction d'emails, génération de contenu commercial) ont doublé entre novembre 2025 et février 2026 sur l'API Anthropic (Anthropic Economic Index, mars 2026). Clay a atteint 100 millions de dollars d'ARR en novembre 2025, en triplant son chiffre annuel en douze mois, avec plus de 8 000 clients dont OpenAI et HubSpot (Clay, 100M$ ARR). Valorisation employee secondary à 5 milliards de dollars en mars 2026 (TechCrunch, février 2026).

Coût unitaire

Clay facture à la crédit : entre 149 $/mois (plan Starter, 2 000 crédits) et plusieurs milliers de dollars en plan Enterprise. Un prospect enrichi avec waterfall de données (LinkedIn, email découvert, phone, intent data, signaux décisionnels) coûte entre 0,30 et 1,20 $ unitaire selon les sources activeées. La couche IA (Claygent ou Claude/GPT en orchestration) ajoute 0,05 à 0,20 $ par prospect pour la qualification et la personnalisation des messages.

Pièges en production

Premier piège : la fausse personnalisation. Si l'agent génère un « j'ai vu votre post LinkedIn sur X » sur 500 prospects avec un post générique, le décideur sent l'IA en deux secondes. Deuxième : la détérioration sender reputation. Volume supérieur à 200 emails par jour par adresse, bounces à 3 %, et les domaines de l'entreprise sont blacklistés. Troisième : la conformité RGPD. La prospection B2B reste autorisée en France si le contenu est strictement professionnel et lié à la fonction du destinataire (CNIL), mais le scraping de données personnelles via plateformes tierces engage la responsabilité du donneur d'ordre.

Quand ça marche, quand ça casse

Marche : SaaS B2B avec cycle de vente moyen, ticket supérieur à 5 000 € annuel, équipe commerciale qui prend le relais sur la réponse. Casse : ticket sub-500 €, vente self-service, marché saturé où les décideurs reçoivent déjà 30 sollicitations IA par semaine, marchés de niche où les bases de données ne couvrent que 30 % de l'ICP.

6. Archétype 5 — Agent vocal entrant ou sortant

Input · appel téléphonique · Output · conversation, qualification, prise de RDV · Stack ref · Retell AI, Bland AI, ElevenLabs Agents, Vapi

L'agent reçoit ou passe un appel téléphonique réel. Il discute en voix synthétisée, qualifie l'interlocuteur, prend un rendez-vous dans un calendrier, transmet la conversation au CRM, escalade vers un humain au signal. Stack la plus dynamique du panel en 2026.

Pourquoi ça tient

Les plateformes ont gagné en qualité vocale et baissé les latences sous 800 ms (Retell à 620 ms en moyenne en 2026, Bland AI à 800 ms selon les revues indépendantes). Le coût par minute a convergé vers 0,07 à 0,14 $ en facturation transparente. Les use cases matûrs sont la qualification de leads entrants, la prise de RDV, le rappel client, le sondage post-achat, le filtrage de standard. Les voix sont quasi indiscernables d'une voix humaine en français sur les meilleurs modèles ElevenLabs ou Cartesia.

Coût unitaire

Retell AI à 0,07 $/minute pay-as-you-go sans frais de plateforme. Bland AI à 0,09 $/minute en base, jusqu'à 0,14 $/minute avec les add-ons (voix custom, knowledge base, enregistrement). Pour 1 000 minutes mensuelles : Retell à 70-310 $, Bland à 90-140 $, Synthflow autour de 230 $, Air AI à 399 $ ou plus (Retell AI, comparatif tarifaire 2026).

Pièges en production

Premier piège : le réflexe de raccrocher. En France, le taux de raccrochage spontané sur agent vocal IA dépasse 40 % sur appel froid sortant. L'archétype fonctionne mieux en entrant ou sur prospect déjà engagé. Deuxième : la latence visible. Au-delà de 900 ms, l'interlocuteur sent « que ça ne va pas » sans toujours formuler quoi. Troisième : la fragilité sur les cas complexes. Une réclamation émotionnelle, un client multilingue qui mélange deux langues, un interlocuteur qui interrompt : l'agent s'embrouille. Le mode hybride avec escalade humaine reste indispensable.

Cadre légal France

Trois règles essentielles. La révélation de la nature IA au début de l'appel devient une pratique attendue (et exigée par l'AI Act à partir de 2026 pour les interactions critiques). Le consentement à l'enregistrement conformement à la directive ePrivacy. La liste rouge / Bloctel reste applicable et son ignorance expose à sanctions DGCCRF.

Quand ça marche, quand ça casse

Marche : qualification de leads entrants, prise de RDV, sondage NPS, rappel de comptes impayés avec script bien cadré, support tier-0 sur questions récurrentes. Casse : vente complexe, conseil personnalisé (juridique, médical, financier), marché saturé aux cold calls IA.

7. Archétype 6 — Veille et monitoring quotidien

Input · flux web, presse, réseaux, réglementaire · Output · digest cadré quotidien ou hebdomadaire · Stack ref · Perplexity Spaces, Claude Skills, n8n + scraping

L'agent scrute en continu des sources définies (sites concurrents, presse sectorielle, fils réglementaires, signaux sociaux, brevets), filtre selon des critères, résume, envoie un digest cadré en Slack, mail ou dashboard. Particularité : c'est l'archétype le plus simple à mettre en route, et celui où n8n est le plus systématique.

Pourquoi ça tient

Perplexity Enterprise Pro a transformé Spaces en hubs de connaissance partagés en 2026 : 500 fichiers maximum par Space, contrôles d'accès org-only, audit logs étendus. NVIDIA, Databricks, Dell, Bridgewater Associates, Latham & Watkins l'utilisent pour la veille concurrentielle et la recherche sectorielle (RedHub, Perplexity Spaces enterprise). Pour les équipes qui veulent du custom, n8n combiné à Claude (Skills) ou OpenAI scrape une liste de sources définies, résume avec un prompt spécifique, envoie le digest chaque matin à 7h.

Coût unitaire

Perplexity Enterprise Pro à 40 $ par utilisateur par mois. Custom : Claude Pro à 20 $/mois + n8n self-host (quasi gratuit) + serveur scraping (10-50 $/mois). Le coût marginal d'une source ajoutée est nul, ce qui rend l'archétype linéairement scalable.

Pièges en production

Premier piège : le digest non lu. Si le digest fait deux pages, personne ne le lit. Cadrage par scoring de pertinence et coupure brutale au top 5. Deuxième : la cible mouvante. Les concurrents changent de site, les flux RSS disparaissent, les pages se ferment derrière paywall. Maintenance hebdomadaire indispensable. Troisième : la conformité scraping. CGU des sites, robots.txt, juridiction RGPD à réviser tous les six mois.

Quand ça marche, quand ça casse

Marche : COMEX d'ETI qui veut un brief quotidien sectoriel, équipes commerciales qui suivent les signaux d'achat, juristes qui surveillent une jurisprudence ou un texte réglementaire, agences qui briefent leurs clients. Casse : marchés à faible bruit signal (l'agent résume du vide), entreprises qui n'ont pas de personne dédiée à agir sur le digest.

8. L'orchestrateur sous le capot : pourquoi n8n revient dans quatre archétypes sur six

Une lecture des six archétypes ci-dessus fait apparaître un acteur transverse : n8n. C'est l'orchestrateur qui relie le modèle aux outils métier (CRM, mail, téléphonie, scraping, base de données). En 2026, n8n revendique plus de 200 000 utilisateurs actifs, 3 000 clients enterprise, plus de 70 000 stars sur GitHub, et a levé 180 millions de dollars en Series C en octobre 2025 pour une valorisation de 2,5 milliards (Trigi Digital, n8n enterprise 2026).

Sur les six archétypes, n8n est présent dans quatre. Dans le support tier-1, il route les tickets entre Claude ou GPT, la base de connaissance, l'escalade humaine, le CRM. Dans le lead gen B2B, il enrichit les prospects (Pappers, Apollo, scraping web), déclenche la séquence outbound dans Lemlist ou Smartlead. Dans l'agent vocal, il prend la suite après l'appel (création du RDV Calendly, update CRM, notification Slack, mail récap). Dans la veille, il est l'épine dorsale (cron + scrape + Claude résume + digest envoyé).

Dans le RAG interne et l'extraction de documents, n8n est optionnel. Notion AI et McKinsey Lilli ont leur propre couche d'orchestration intégrée. Pennylane et Mistral OCR fonctionnent en SaaS clés en main ou en API directe sans nécessité d'orchestrateur tiers.

Les alternatives existent : Make (SaaS no-code, plus simple mais plus cher à l'échelle), Zapier (mature mais limité sur les usages IA avancés et très cher en volume), code natif Python/TypeScript (flexibilité maximum, dette de maintenance réelle), Temporal et Inngest (spécialisés sur les workflows async à long terme). En France, n8n est l'orchestrateur dominant des intégrateurs IA depuis 2025, porté par l'open source, le self-host possible et l'intégration MCP native.

Claude Code peut-il remplacer n8n ? Question légitime en mai 2026. Claude Code intègre désormais des Routines en cloud asynchrone, des skills user-level, des hooks de cycle de vie et un support MCP mature. Sur le périmètre workflows de développeur (CI/CD, monitoring repo, déploiements, génération de code, revue PR), Claude Code rend effectivement n8n inutile pour un développeur seul.

Sur le périmètre des six archétypes business / ops décrits ici, n8n reste supérieur pour quatre raisons concrètes. Public et surface : un ops, un commercial ou un marketeur édite un workflow n8n visuellement ; il ne modifie pas un skill Claude Code en TypeScript. Trigger-driven multi-source : n8n écoute en permanence webhooks entrants Stripe, Calendly, Intercom, Salesforce, Twilio, cron, polling. Les Routines Claude Code font du cron mais pas le webhook H24 natif qui pilote 80 % du support, du lead gen et du post-call vocal. Coût marginal des nœuds non-IA : dans un workflow type (ticket entrant → enrichir CRM → router selon tag → appeler Claude si pertinent → escalader humain sinon → notifier Slack → logger DB), un seul nœud sur six est de l'IA. Dans Claude Code, chaque run consomme une conversation complète. À 5 000 tickets par mois, l'addition explose. Lock-in modèle : Claude Code = Anthropic uniquement. n8n route vers Claude pour la rédaction, Haiku pour la qualification, Mistral OCR pour les documents, ElevenLabs pour le vocal selon le step.

Scénario de rupture à surveiller : si Anthropic publie un orchestrateur visuel multi-trigger multi-modèle au-dessus de Claude Code, n8n est en danger sur le segment dev en 12 à 18 mois. Pas avant.
Schéma de la présence de n8n dans les six archétypes d'agents IA en production. Présent dans quatre cas sur six : support, lead gen, vocal, veille. Optionnel pour RAG interne et extraction documents.
n8n revient dans quatre archétypes sur six — mai 2026

L'orchestrateur n'est pas un archétype. C'est la couche qui relie le modèle aux outils métier. Sources : n8n 200 k users actifs, 3 k clients enterprise, $180M Series C oct 2025.

9. Anti-archétypes : ce qui meurt encore en POC en 2026

Les six archétypes survivent. Trois autres familles, malgré leur visibilité médiatique, ne passent pas la barre de la production fiable en 2026.

Anti-archétype 1 — agent codeur autonome de bout en bout Devin (Cognition Labs), Codex en mode autonome long, agents OpenAI « Operator coding » en mode unattended : les benchmarks publics restent à moins de 50 % de tâches résolues sans intervention humaine. Les outils performants en 2026 (Claude Code, Cursor, Gemini CLI) restent en mode copilote supervisé, pas agent autonome. Voir l'analyse complète de Gemini CLI, Claude Code, Codex.
Anti-archétype 2 — agent commercial full-cycle Promet de prospecter, qualifier, négocier, conclure et facturer sans humain. Casse systématiquement à l'étape closing : objection complexe, ajustement contractuel, condition de paiement négociée. La partie qualification (archétype 4) tient. Le reste reste humain.
Anti-archétype 3 — agent « décide-pour-vous » sur enjeu sensible Diagnostic médical autonome, conseil juridique sans avocat, recommandation d'investissement automatisé. Outre les sanctions réglementaires (AI Act classe haut risque), les premiers procs aux US (2025-2026) ont montré que la responsabilité remonte au donneur d'ordre. L'assurance professionnelle de la plupart de ces secteurs exclut explicitement la décision automatisée.

10. Grille de décision par taille d'entreprise

Pour une TPE ou PME (10-100 salariés) qui démarre : extraction documents (archétype 3) en premier — ROI immédiat, time-to-prod de 4 à 8 semaines, risque opérationnel faible. Veille (archétype 6) en second — coût marginal nul, valeur perceptible à la semaine.

Pour une ETI (100-2 000 salariés) avec volume client : déflection support tier-1 (archétype 2) — ROI clair sur le coût support, à cadrer en mode hybride dès le départ. RAG interne (archétype 1) en parallèle si la documentation est déjà centralisée.

Pour une scale-up SaaS B2B avec équipe sales : lead gen B2B (archétype 4) — alignement parfait sur l'usage Anthropic Economic Index 2026 (workflows sales doublés en quatre mois). Agent vocal (archétype 5) en complément sur la qualification entrante.

Pour un grand groupe (5 000+ salariés) : RAG interne (archétype 1) comme socle, suivi par déflection support (2) sur les volumes B2C, extraction documents (3) sur les flux administratifs. Lead gen (4), vocal (5) et veille (6) en projets pilotes métier.

Grille de décision : quel archétype d'agent IA déployer d'abord selon la taille d'entreprise (TPE/PME, ETI, scale-up, grand groupe). Visualise la priorité et la séquence.
Grille de décision par taille d'entreprise — mai 2026

L'ordre de déploiement compte autant que le choix de l'archétype. Commencer par l'archétype avec le time-to-ROI le plus court permet de construire la confiance interne avant d'engager les archétypes à cycle plus long.

11. Coût total : ce que la facture API ne dit pas

Le coût API affiché par les éditeurs ne représente qu'environ 10 % du coût réel d'un agent en production. Cinq strates s'accumulent.

Tokens (10 %). Coût d'inférence du modèle. Variable selon le volume, le modèle et l'usage du cache. Anthropic propose un cache à 10 % du prix sur les contenus stables (-90 %), OpenAI a un batch à -50 %.

Infrastructure (15 %). Vector DB, orchestrateur (n8n self-host ou cloud), serveurs scraping, stockage, monitoring. Souvent sous-estimé en POC, visible à partir de quelques milliers de requêtes.

Intégration (25 %). Connecteurs vers le système d'information existant (CRM, ERP, helpdesk, téléphonie). C'est là que les projets dérapent : adapter une logique métier à l'agent, pas l'inverse.

Supervision (35 %). Le poste le plus lourd. Logs, observabilité, dashboards, reviewers humains sur l'échantillon, amélioration continue. Un agent en prod sans supervision dérive en six semaines.

Change management (15 %). Formation des équipes humaines à vivre avec l'agent, ajustement des rôles, communication interne, processus de gestion des désaccords. La couche la plus invisible et la plus décisive sur l'adoption.

Règle d'arbitrage 2026 Un archétype rentable doit présenter un ROI mesuré au bout de douze semaines de production réelle (pas de pilote). Si la métrique business n'est pas claire à trois mois, l'archétype sera annulé dans les douze suivants. C'est l'observation de Gartner sur les 40 % de projets agentic qui ne survivront pas à 2027.

12. Conclusion : six archétypes, une discipline

Les six archétypes décrits ne sont pas exhaustifs. Mais ils représentent l'écrasante majorité des déploiements d'agents IA en production en 2026. RAG interne, déflection support, extraction de documents, lead gen B2B, agent vocal, veille quotidienne. Le reste est en POC, en démo ou en marketing.

La différence entre les 12 % qui passent en prod et les 88 % qui meurent ne se joue pas sur le modèle. Elle se joue sur trois choix : un cas d'usage cadré, une métrique business claire, une supervision humaine assumée. Les archétypes ne sont qu'un raccourci vers ces trois choix.

L'orchestrateur n'est pas un archétype, mais il est le ciment de quatre sur six. n8n s'impose en 2026 comme la référence dans l'écosystème IA francophone, avec les alternatives Make et code natif selon les contraintes.

Les anti-archétypes — agent codeur autonome, agent commercial full-cycle, agent décisionnel sur enjeu sensible — resteront en POC en 2026. Les vendre comme production-ready est un risque opérationnel et juridique. Klarna l'a appris en 2024-2025. L'industrie a noté.

Reste à choisir le premier archétype. C'est rarement le plus impressionnant qui rapporte le plus vite. C'est le plus borné.