Vous avez signé un devis IA cette année ? Vous en signerez probablement plusieurs en 2026. Le problème : la moitié des termes que votre prestataire emploie ne veulent strictement rien dire pour vous, mais déterminent ce que vous payez, ce que vous obtenez, et le risque que vous prenez. Token, RAG, fine-tuning, MCP, AI Act, hallucination… ces mots ne sont pas du jargon technique optionnel. Ils sont les unités de mesure du nouveau monde IA. Voici les 15 termes que tout dirigeant non-tech doit maîtriser pour cesser de signer dans le brouillard.
1. Pourquoi un lexique IA est devenu un outil de pouvoir
En 2010, un dirigeant non-technique pouvait diriger sans savoir lire une requête SQL ou un schéma serveur. L'informatique était un métier délégable. En 2026, l'IA n'est plus délégable : elle entre directement dans la chaîne de valeur, modifie la masse salariale, expose l'entreprise au RGPD et à l'AI Act, et génère des coûts variables qui peuvent doubler chaque trimestre.
Refuser le vocabulaire technique n'est plus une option. C'est ce qui sert à arbitrer un devis à 50 000 €, à rejeter un projet de fine-tuning inutile, ou à comprendre pourquoi un agent IA « perd » les informations échangées il y a deux heures. Les 15 termes ci-dessous couvrent l'économie de l'IA, son architecture, sa pratique en entreprise, et les enjeux stratégiques 2026. Aucun n'est gratuit. Tous reviennent dans toute conversation sérieuse avec un prestataire.
2. L'économie de l'IA — comprendre la facture
Token
Un token est l'unité de base que les modèles IA manipulent. Approximativement : 1 token ≈ 4 caractères en français, soit environ 0,75 mot. Une page A4 standard représente 500 à 600 tokens. Tout est facturé au token, en deux directions : tokens d'entrée (ce que vous envoyez) et tokens de sortie (ce que le modèle génère). Les tokens de sortie coûtent de 3 à 5 fois plus cher que les tokens d'entrée.
Prix avril 2026, par million de tokens (input / output) :
| Modèle | Input | Output |
|---|---|---|
| Claude Opus 4.7 (Anthropic) | 5 $ | 25 $ |
| Claude Sonnet 4.6 | 3 $ | 15 $ |
| Claude Haiku 4.5 | 1 $ | 5 $ |
| GPT-5.5 (OpenAI) | 5 $ | 30 $ |
| GPT-5.4 | 2,50 $ | 15 $ |
| Gemini 2.5 Pro (Google) | 1,25 $ | 10 $ |
| Mistral Large 3 (souverain EU) | 2 $ | 6 $ |
Sources : Anthropic, OpenAI, Google AI, Mistral AI.
Inférence
L'inférence est l'opération réalisée par le modèle pour produire une réponse à une requête. Différence cruciale avec un SaaS classique : chaque inférence consomme des tokens et génère un coût variable. Si votre agent traite 100 demandes par jour, vous payez 100 fois. S'il en traite 10 000, vous payez 10 000 fois.
Cache (prompt caching)
Le cache permet de stocker la partie répétée d'une requête (instructions système, base documentaire) pour ne pas la facturer plein tarif à chaque appel. Chez Anthropic, OpenAI et Google, une lecture cache coûte 10 % du prix input standard, soit 90 % d'économie sur la portion mise en cache. C'est le levier le plus sous-utilisé par les prestataires français.
Pour un agent qui traite 10 000 demandes/mois avec 5 000 tokens de contexte fixe à chaque fois : sans cache, 50 millions de tokens facturés plein tarif. Avec cache (lecture à 0,30 $/M chez Claude Sonnet), seulement 5 millions au prix plein, le reste à 0,30 $/M. Économie : jusqu'à 90 %.
Batch (traitement asynchrone)
Le mode batch permet de soumettre des milliers de requêtes en une fois et de recevoir les réponses dans les 24 heures. Tarif : 50 % du prix standard chez Anthropic, OpenAI et Google. Pertinent pour l'analyse documentaire massive, la classification de tickets, la génération mensuelle de newsletters, l'enrichissement de bases prospects.
Combiné au cache, le tandem cache + batch peut réduire la facture jusqu'à 95 % sur les workflows compatibles. Cumulatif et confirmé par la documentation Anthropic.
3. L'architecture — comprendre ce qu'on installe
Modèle / LLM
Un modèle de langage (LLM, Large Language Model) est le cœur d'un système IA génératif. En 2026, le marché est dominé par cinq familles principales : Claude (Anthropic), GPT (OpenAI), Gemini (Google), Mistral (FR), Llama (Meta). Chacun a ses forces, ses limites, ses prix, ses politiques de données. Ils ne sont pas interchangeables.
Context window
La context window est la quantité maximale de tokens qu'un modèle peut traiter en une seule requête, instructions et réponse comprises. C'est ce qui détermine si votre agent peut analyser un contrat de 80 pages d'un coup, ou s'il faut le découper. En 2026 : Claude Sonnet 4.6 atteint 1 million de tokens (environ 1 500 pages), GPT-5 200 000 à 400 000 selon la version, Gemini 2.5 Pro 2 millions.
Au-delà de la window, le modèle n'a plus d'accès direct aux informations. C'est pour cela qu'un agent « oublie » ce qui s'est dit en début de session après plusieurs heures.
Multimodalité
Un modèle multimodal peut recevoir et générer plusieurs types de contenu en même temps. Claude 4.7, GPT-5 et Gemini 2.5 traitent texte + image nativement. Les versions spécialisées ajoutent voix (ElevenLabs, OpenAI Realtime), vidéo (Veo, Runway, Kling). En 2026, l'agent vocal de standard téléphonique ou l'analyse de documents scannés sont devenus accessibles aux PME.
Hallucination
Une hallucination, c'est lorsqu'un modèle produit une réponse plausible mais factuellement fausse, sans signaler son incertitude. Selon le Stanford AI Index 2026, le taux d'hallucination moyen sur les grands modèles est passé de 38 % en 2021 à 8,2 % en 2026. Les meilleurs systèmes atteignent 0,7 % sur des tâches simples comme le résumé. Mais les domaines à enjeu (juridique, médical) restent critiques : 69 à 88 % d'hallucinations sur des requêtes juridiques pointues.
4. La pratique entreprise — comprendre ce qu'on déploie
RAG (Retrieval Augmented Generation)
Le RAG est l'architecture la plus fréquente en entreprise en 2026. Principe : on indexe vos documents (PDF, Word, Notion, base de données) dans une base vectorielle, puis chaque question déclenche une recherche dans cette base avant de transmettre les passages pertinents au modèle. Résultat : une réponse ancrée sur vos sources, citable, mise à jour en quelques minutes après indexation d'un nouveau document.
Selon les benchmarks 2026, le RAG couvre 80 % des cas d'usage entreprise. Il est plus rapide à déployer, moins cher à maintenir, et beaucoup plus traçable qu'un fine-tuning.
Fine-tuning
Le fine-tuning consiste à ré-entraîner un modèle sur un jeu de données spécifique pour qu'il apprenne un style, un vocabulaire, ou un comportement particulier. Ce n'est pas l'ajout de connaissances (c'est le RAG qui fait ça), c'est la modification du comportement. Utile pour l'extraction structurée à fort volume, le respect d'un format propriétaire, ou une stylisation marquée.
Coût de l'opération : typiquement 1 000 à 50 000 € selon la taille du modèle et la quantité de données. Maintenance non triviale : chaque changement métier impose un nouveau cycle d'entraînement.
Agent IA
Un agent IA n'est pas un chatbot enrichi. Il agit. Il appelle des outils externes (calendrier, CRM, base de données, navigateur, téléphone), exécute des chaînes d'actions, prend des décisions intermédiaires. Selon Gartner, 40 % des applications entreprise auront intégré des agents task-specific d'ici fin 2026. Les premières études ROI citées par les acteurs IA montrent un retour moyen autour de 171 % en première année sur les déploiements bien ciblés.
MCP (Model Context Protocol)
MCP est un standard ouvert, lancé par Anthropic en novembre 2024 et cédé à la Linux Foundation en décembre 2025. Il permet à un agent IA de se connecter à n'importe quelle source de données (Notion, Slack, GitHub, Google Drive…) ou n'importe quel outil métier de manière uniforme. Plus besoin de coder une intégration sur-mesure pour chaque combinaison.
En mars 2026, Anthropic recensait plus de 10 000 serveurs MCP publics et 97 millions de téléchargements de SDK par mois. C'est devenu le protocole de fait pour les agents en production.
Prompt et prompt engineering
Le prompt est l'instruction donnée à un modèle. Un bon prompt cadre le rôle, la tâche, le format attendu, les contraintes. Le prompt engineering est la discipline qui consiste à optimiser ces instructions pour obtenir des réponses fiables et reproductibles. Ce n'est pas un métier d'avenir au sens d'un poste à temps plein dans toutes les entreprises : c'est une compétence transverse que les bons prestataires maîtrisent.
5. La stratégie 2026 — arbitrer en COMEX
Open-weight vs closed
Un modèle closed (GPT-5, Claude, Gemini) est accessible uniquement via l'API du fournisseur. Un modèle open-weight (Mistral, Llama 4, DeepSeek V4) peut être téléchargé et hébergé en propre, sur votre infra ou un cloud souverain. Implications : souveraineté des données, indépendance vs un fournisseur unique, possibilité de fine-tuner librement.
Mistral Large 3 à 2 $/M input et 6 $/M output reste le modèle flagship le moins cher du marché sur la sortie : 2,5 fois moins cher que GPT-5.4 ou Claude Sonnet, avec hébergement EU par défaut.
AI Act
Le Règlement UE 2024/1689, dit AI Act, classe les usages IA par niveau de risque et impose des obligations graduées. Les pratiques interdites (notation sociale, manipulation subliminale) sont applicables depuis le 2 février 2025. Les systèmes à haut risque (RH, scoring, crédit, biométrie) sont soumis aux obligations renforcées depuis le 2 août 2026.
Sanctions selon le niveau de manquement :
- Pratiques interdites : jusqu'à 35 M€ ou 7 % du CA mondial
- Manquements aux obligations systèmes haut risque : 15 M€ ou 3 % du CA
- Information inexacte aux autorités : 7,5 M€ ou 1 % du CA
Ces sanctions cumulent avec celles du RGPD. Pour une PME de 5 M€ de CA, le maximum théorique dépasse 350 000 € sur la catégorie la plus sévère.
Source : Commission européenne.
Leaderboard / Bench
Les classements (LMArena, MMLU, ARC-AGI, HHEM pour les hallucinations) comparent les performances des modèles sur des tâches standardisées. Utiles pour repérer les changements rapides, mais limités : un modèle n°1 sur LMArena peut être médiocre sur votre cas d'usage. Le bench le plus pertinent reste celui que vous construisez sur vos propres données.
6. Cinq questions à poser à tout prestataire IA avant de signer
Une fois ce vocabulaire en main, voici les cinq questions qui séparent un prestataire qui sait ce qu'il fait d'un autre qui se contente de revendre une couche au-dessus de l'API d'OpenAI.
1. Quel modèle exactement, et pourquoi celui-là ? Réponse attendue : comparaison sur votre cas d'usage, pas généralités.
2. Quelle architecture : RAG, fine-tuning, hybride ? Réponse attendue : justification, pas dogme. Le RAG doit être le défaut.
3. Quel coût par interaction et avec/sans cache ? Réponse attendue : chiffré, pas forfaitaire opaque.
4. Comment gérez-vous les hallucinations et la conformité AI Act/RGPD ? Réponse attendue : process documentable, pas « on fait attention ».
5. Mes intégrations sont-elles MCP-compatibles ou propriétaires ? Réponse attendue : MCP par défaut sur les nouveaux déploiements.
Un prestataire qui ne sait pas répondre clairement à ces cinq questions vous vendra un système opaque, cher à maintenir, et difficile à défaire. Un prestataire qui répond précisément a probablement la culture technique pour livrer ce qu'il promet.
7. Foire aux questions
Quel est le terme IA le plus important pour un dirigeant en 2026 ?
Le token. Sans maîtrise du token, impossible de comprendre une facture IA, d'arbitrer entre deux fournisseurs ou de challenger un devis. C'est l'unité de mesure du nouveau monde.
Faut-il préférer un modèle européen pour la souveraineté ?
Pas systématiquement. Mistral propose un hébergement EU natif et des prix compétitifs. Pour les usages à forte sensibilité données (RH, santé, finance), c'est un argument sérieux. Pour des tâches généralistes, le rapport qualité/prix peut pencher vers Anthropic ou Google selon le cas. Évaluer modèle par modèle, pas par dogme.
Le AI Act concerne-t-il les TPE et les indépendants ?
Oui, dès qu'un système IA classifié haut risque est utilisé. Les obligations sont graduées mais le pourcentage du CA s'applique sans plancher. Une TPE à 200 000 € de CA risque jusqu'à 14 000 € de sanction théorique sur la catégorie haut risque, et 35 000 € sur les pratiques interdites.
Combien coûte un agent IA en moyenne pour une PME ?
L'unité comptable est devenue l'inférence, pas l'abonnement. Pour un agent qui traite 1 000 à 5 000 demandes par mois, le coût en tokens reste typiquement entre 30 et 300 € par mois. Le coût total (TCO) avec intégration, supervision et formation est plutôt entre 1 000 et 5 000 €/mois selon la complexité.
Quelle différence entre LLM et agent ?
Le LLM est le modèle, le moteur. L'agent est le système complet qui utilise un (ou plusieurs) LLM, des outils externes, une mémoire, des règles métier. Un LLM seul ne peut pas mettre à jour un CRM : un agent oui.
Conclusion
Refuser le vocabulaire IA en 2026 revient à refuser de lire un bilan en 2010. Vous pouvez diriger sans, mais vous serez constamment dépendant des autres pour comprendre ce qui se passe dans votre entreprise. Les 15 termes ci-dessus ne sont pas un examen technique. Ce sont les unités de pouvoir d'achat, de risque, et d'arbitrage.
Le dirigeant qui maîtrise ce lexique signe des devis pertinents, refuse les architectures inadaptées, et négocie en connaissance. Celui qui le refuse paie deux fois : une fois en sur-coût sur les abonnements, une fois en risque opérationnel et réglementaire.
Pour creuser le calcul économique de l'IA appliqué à votre masse salariale, voir Tokens vs masse salariale : le nouveau calcul des DAF. Pour cadrer l'usage en interne, voir le modèle de charte IA en 7 sections.