Quelle est la différence entre RAG et fine-tuning ?

Le RAG (Retrieval Augmented Generation) ajoute vos documents au contexte d'un modèle existant à chaque requête. Le fine-tuning modifie le modèle lui-même en l'entraînant sur vos données. En 2026, le RAG couvre 80 % des besoins entreprise, coûte beaucoup moins cher, et permet de mettre à jour les connaissances en quelques minutes. Le fine-tuning ne se justifie que pour des tâches très spécialisées ou à fort volume répétitif.

Qu'est-ce qu'un agent IA et en quoi diffère-t-il d'un chatbot ?

Un chatbot répond. Un agent agit. L'agent IA peut appeler des outils externes (calendrier, CRM, base de données, navigateur) pour exécuter des tâches : prendre un rendez-vous, envoyer un email, mettre à jour une fiche client, préparer un devis. C'est un changement de nature, pas de degré.

Le AI Act est-il applicable en 2026 ?

Oui. Le Règlement UE 2024/1689 est entré en application progressive depuis février 2025 (pratiques interdites) et le 2 août 2026 pour les systèmes à haut risque. Les sanctions atteignent 35 millions d'euros ou 7 % du chiffre d'affaires mondial pour les pratiques interdites, 15 millions ou 3 % pour les manquements aux autres obligations.

Qu'est-ce que MCP (Model Context Protocol) ?

MCP est un standard ouvert qui permet à un agent IA de se connecter à des outils et des données de manière uniforme. Lancé par Anthropic en novembre 2024, cédé à la Linux Foundation en décembre 2025, MCP est devenu en mars 2026 le protocole de fait : plus de 10 000 serveurs MCP publics et 97 millions de téléchargements de SDK par mois. C'est l'équivalent d'un USB-C pour les agents.

Lexique IA pour dirigeants : 15 termes que votre prestataire suppose que vous comprenez

Q: Quel est le terme IA le plus important pour un dirigeant en 2026 ?

Le token. C'est l'unité de facturation de tout modèle IA. Comprendre le token, c'est comprendre la facture, donc le ROI. Tant que vous ne savez pas combien coûtent 1 million de tokens chez Anthropic, OpenAI, Google et Mistral, vous êtes incapable de challenger un devis IA.

Vous avez signé un devis IA cette année ? Vous en signerez probablement plusieurs en 2026. Le problème : la moitié des termes que votre prestataire emploie ne veulent strictement rien dire pour vous, mais déterminent ce que vous payez, ce que vous obtenez, et le risque que vous prenez. Token, RAG, fine-tuning, MCP, AI Act, hallucination… ces mots ne sont pas du jargon technique optionnel. Ils sont les unités de mesure du nouveau monde IA. Voici les 15 termes que tout dirigeant non-tech doit maîtriser pour cesser de signer dans le brouillard.

1. Pourquoi un lexique IA est devenu un outil de pouvoir

En 2010, un dirigeant non-technique pouvait diriger sans savoir lire une requête SQL ou un schéma serveur. L'informatique était un métier délégable. En 2026, l'IA n'est plus délégable : elle entre directement dans la chaîne de valeur, modifie la masse salariale, expose l'entreprise au RGPD et à l'AI Act, et génère des coûts variables qui peuvent doubler chaque trimestre.

Refuser le vocabulaire technique n'est plus une option. C'est ce qui sert à arbitrer un devis à 50 000 €, à rejeter un projet de fine-tuning inutile, ou à comprendre pourquoi un agent IA « perd » les informations échangées il y a deux heures. Les 15 termes ci-dessous couvrent l'économie de l'IA, son architecture, sa pratique en entreprise, et les enjeux stratégiques 2026. Aucun n'est gratuit. Tous reviennent dans toute conversation sérieuse avec un prestataire.

2. L'économie de l'IA — comprendre la facture

01 — Économie

Token

aka unité de facturation

Un token est l'unité de base que les modèles IA manipulent. Approximativement : 1 token ≈ 4 caractères en français, soit environ 0,75 mot. Une page A4 standard représente 500 à 600 tokens. Tout est facturé au token, en deux directions : tokens d'entrée (ce que vous envoyez) et tokens de sortie (ce que le modèle génère). Les tokens de sortie coûtent de 3 à 5 fois plus cher que les tokens d'entrée.

Prix avril 2026, par million de tokens (input / output) :

Modèle	Input	Output
Claude Opus 4.7 (Anthropic)	5 $	25 $
Claude Sonnet 4.6	3 $	15 $
Claude Haiku 4.5	1 $	5 $
GPT-5.5 (OpenAI)	5 $	30 $
GPT-5.4	2,50 $	15 $
Gemini 2.5 Pro (Google)	1,25 $	10 $
Mistral Large 3 (souverain EU)	2 $	6 $

Sources : Anthropic, OpenAI, Google AI, Mistral AI.

Le piègeUn prestataire qui chiffre votre projet en « abonnement mensuel » sans préciser le volume de tokens vous facture une marge inconnue. Exigez le coût par interaction, pas le forfait.

02 — Économie

Inférence

aka chaque appel coûte

L'inférence est l'opération réalisée par le modèle pour produire une réponse à une requête. Différence cruciale avec un SaaS classique : chaque inférence consomme des tokens et génère un coût variable. Si votre agent traite 100 demandes par jour, vous payez 100 fois. S'il en traite 10 000, vous payez 10 000 fois.

Le piègeLe coût unitaire paraît dérisoire (quelques centimes). À l'échelle, la facture peut surprendre. Demandez une projection d'inférences mensuelles avant tout déploiement.

03 — Économie

Cache (prompt caching)

aka le levier qui divise votre facture par 10

Le cache permet de stocker la partie répétée d'une requête (instructions système, base documentaire) pour ne pas la facturer plein tarif à chaque appel. Chez Anthropic, OpenAI et Google, une lecture cache coûte 10 % du prix input standard, soit 90 % d'économie sur la portion mise en cache. C'est le levier le plus sous-utilisé par les prestataires français.

Pour un agent qui traite 10 000 demandes/mois avec 5 000 tokens de contexte fixe à chaque fois : sans cache, 50 millions de tokens facturés plein tarif. Avec cache (lecture à 0,30 $/M chez Claude Sonnet), seulement 5 millions au prix plein, le reste à 0,30 $/M. Économie : jusqu'à 90 %.

Le piègeSi votre prestataire ne mentionne pas le caching dans son architecture, soit il ne le maîtrise pas, soit il préfère vous facturer plein tarif.

04 — Économie

Batch (traitement asynchrone)

aka 50 % de remise quand on n'est pas pressé

Le mode batch permet de soumettre des milliers de requêtes en une fois et de recevoir les réponses dans les 24 heures. Tarif : 50 % du prix standard chez Anthropic, OpenAI et Google. Pertinent pour l'analyse documentaire massive, la classification de tickets, la génération mensuelle de newsletters, l'enrichissement de bases prospects.

Combiné au cache, le tandem cache + batch peut réduire la facture jusqu'à 95 % sur les workflows compatibles. Cumulatif et confirmé par la documentation Anthropic.

Le piègeLes agents temps réel (chatbot, téléphonie) ne supportent pas le batch. Bien identifier les flux compatibles avant de promettre une économie.

3. L'architecture — comprendre ce qu'on installe

05 — Architecture

Modèle / LLM

aka le moteur

Un modèle de langage (LLM, Large Language Model) est le cœur d'un système IA génératif. En 2026, le marché est dominé par cinq familles principales : Claude (Anthropic), GPT (OpenAI), Gemini (Google), Mistral (FR), Llama (Meta). Chacun a ses forces, ses limites, ses prix, ses politiques de données. Ils ne sont pas interchangeables.

Le piègeParler de « l'IA » comme d'un produit unique est une erreur de cadrage. Vous achetez un modèle spécifique. Demandez lequel et pourquoi.

06 — Architecture

Context window

aka la mémoire de travail

La context window est la quantité maximale de tokens qu'un modèle peut traiter en une seule requête, instructions et réponse comprises. C'est ce qui détermine si votre agent peut analyser un contrat de 80 pages d'un coup, ou s'il faut le découper. En 2026 : Claude Sonnet 4.6 atteint 1 million de tokens (environ 1 500 pages), GPT-5 200 000 à 400 000 selon la version, Gemini 2.5 Pro 2 millions.

Au-delà de la window, le modèle n'a plus d'accès direct aux informations. C'est pour cela qu'un agent « oublie » ce qui s'est dit en début de session après plusieurs heures.

Le piègeUn projet qui dépasse régulièrement la window nécessite une architecture complète (RAG, résumés intermédiaires), pas juste « envoyer plus de texte au modèle ».

07 — Architecture

Multimodalité

aka texte + image + voix + vidéo dans le même modèle

Un modèle multimodal peut recevoir et générer plusieurs types de contenu en même temps. Claude 4.7, GPT-5 et Gemini 2.5 traitent texte + image nativement. Les versions spécialisées ajoutent voix (ElevenLabs, OpenAI Realtime), vidéo (Veo, Runway, Kling). En 2026, l'agent vocal de standard téléphonique ou l'analyse de documents scannés sont devenus accessibles aux PME.

Le piègeUn prestataire qui empile 4 outils séparés (texte / image / voix / vidéo) chez 4 fournisseurs différents augmente la complexité et le coût. Préférer une architecture consolidée quand c'est possible.

08 — Architecture

Hallucination

aka quand l'IA invente avec aplomb

Une hallucination, c'est lorsqu'un modèle produit une réponse plausible mais factuellement fausse, sans signaler son incertitude. Selon le Stanford AI Index 2026, le taux d'hallucination moyen sur les grands modèles est passé de 38 % en 2021 à 8,2 % en 2026. Les meilleurs systèmes atteignent 0,7 % sur des tâches simples comme le résumé. Mais les domaines à enjeu (juridique, médical) restent critiques : 69 à 88 % d'hallucinations sur des requêtes juridiques pointues.

Le piègeAucun fournisseur ne garantit zéro hallucination. Toute application à enjeu juridique ou financier exige une boucle de validation humaine. Prévoir le coût de cette supervision dans le budget.

4. La pratique entreprise — comprendre ce qu'on déploie

09 — Pratique

RAG (Retrieval Augmented Generation)

aka l'IA qui interroge VOS documents

Le RAG est l'architecture la plus fréquente en entreprise en 2026. Principe : on indexe vos documents (PDF, Word, Notion, base de données) dans une base vectorielle, puis chaque question déclenche une recherche dans cette base avant de transmettre les passages pertinents au modèle. Résultat : une réponse ancrée sur vos sources, citable, mise à jour en quelques minutes après indexation d'un nouveau document.

Selon les benchmarks 2026, le RAG couvre 80 % des cas d'usage entreprise. Il est plus rapide à déployer, moins cher à maintenir, et beaucoup plus traçable qu'un fine-tuning.

Le piègeSi un prestataire vous propose un fine-tuning quand vos besoins sont en réalité couverts par un RAG, le coût peut être multiplié par 10 sans gain de qualité.

10 — Pratique

Fine-tuning

aka modifier le modèle lui-même

Le fine-tuning consiste à ré-entraîner un modèle sur un jeu de données spécifique pour qu'il apprenne un style, un vocabulaire, ou un comportement particulier. Ce n'est pas l'ajout de connaissances (c'est le RAG qui fait ça), c'est la modification du comportement. Utile pour l'extraction structurée à fort volume, le respect d'un format propriétaire, ou une stylisation marquée.

Coût de l'opération : typiquement 1 000 à 50 000 € selon la taille du modèle et la quantité de données. Maintenance non triviale : chaque changement métier impose un nouveau cycle d'entraînement.

Le piègeLe fine-tuning est souvent vendu comme « l'IA personnalisée » alors qu'un RAG bien fait fait l'affaire dans 80 % des cas. Demandez toujours pourquoi le RAG ne suffit pas.

11 — Pratique

Agent IA

aka pas un chatbot, un exécutant

Un agent IA n'est pas un chatbot enrichi. Il agit. Il appelle des outils externes (calendrier, CRM, base de données, navigateur, téléphone), exécute des chaînes d'actions, prend des décisions intermédiaires. Selon Gartner, 40 % des applications entreprise auront intégré des agents task-specific d'ici fin 2026. Les premières études ROI citées par les acteurs IA montrent un retour moyen autour de 171 % en première année sur les déploiements bien ciblés.

Le piègeLe mot « agent » est utilisé à tort par beaucoup de prestataires pour vendre un simple chatbot avec quelques boutons. Critère strict : l'agent doit pouvoir appeler des outils réels et modifier l'état de vos systèmes.

12 — Pratique

MCP (Model Context Protocol)

aka l'USB-C des agents

MCP est un standard ouvert, lancé par Anthropic en novembre 2024 et cédé à la Linux Foundation en décembre 2025. Il permet à un agent IA de se connecter à n'importe quelle source de données (Notion, Slack, GitHub, Google Drive…) ou n'importe quel outil métier de manière uniforme. Plus besoin de coder une intégration sur-mesure pour chaque combinaison.

En mars 2026, Anthropic recensait plus de 10 000 serveurs MCP publics et 97 millions de téléchargements de SDK par mois. C'est devenu le protocole de fait pour les agents en production.

Le piègeUn prestataire qui propose des intégrations propriétaires sans support MCP crée un lock-in qui coûte cher à défaire plus tard.

13 — Pratique

Prompt et prompt engineering

aka l'art de bien demander

Le prompt est l'instruction donnée à un modèle. Un bon prompt cadre le rôle, la tâche, le format attendu, les contraintes. Le prompt engineering est la discipline qui consiste à optimiser ces instructions pour obtenir des réponses fiables et reproductibles. Ce n'est pas un métier d'avenir au sens d'un poste à temps plein dans toutes les entreprises : c'est une compétence transverse que les bons prestataires maîtrisent.

Le piègeMéfier des prestataires qui présentent leurs prompts comme leur « sauce secrète » non documentable. Vous payez pour une boîte noire qui peut casser silencieusement à la prochaine mise à jour du modèle.

5. La stratégie 2026 — arbitrer en COMEX

14 — Stratégie

Open-weight vs closed

aka qui contrôle votre stack

Un modèle closed (GPT-5, Claude, Gemini) est accessible uniquement via l'API du fournisseur. Un modèle open-weight (Mistral, Llama 4, DeepSeek V4) peut être téléchargé et hébergé en propre, sur votre infra ou un cloud souverain. Implications : souveraineté des données, indépendance vs un fournisseur unique, possibilité de fine-tuner librement.

Mistral Large 3 à 2 $/M input et 6 $/M output reste le modèle flagship le moins cher du marché sur la sortie : 2,5 fois moins cher que GPT-5.4 ou Claude Sonnet, avec hébergement EU par défaut.

Le piègeLe moins cher au token brut n'est pas toujours le moins cher au TCO. La performance sur votre cas d'usage compte plus que le prix unitaire.

15 — Stratégie

AI Act

aka le RGPD de l'IA

Le Règlement UE 2024/1689, dit AI Act, classe les usages IA par niveau de risque et impose des obligations graduées. Les pratiques interdites (notation sociale, manipulation subliminale) sont applicables depuis le 2 février 2025. Les systèmes à haut risque (RH, scoring, crédit, biométrie) sont soumis aux obligations renforcées depuis le 2 août 2026.

Sanctions selon le niveau de manquement :

Pratiques interdites : jusqu'à 35 M€ ou 7 % du CA mondial
Manquements aux obligations systèmes haut risque : 15 M€ ou 3 % du CA
Information inexacte aux autorités : 7,5 M€ ou 1 % du CA

Ces sanctions cumulent avec celles du RGPD. Pour une PME de 5 M€ de CA, le maximum théorique dépasse 350 000 € sur la catégorie la plus sévère.

Source : Commission européenne.

Le piègeBeaucoup de PME ignorent que l'AI Act s'applique même sans hébergement EU si l'IA traite des résidents UE. La conformité n'est pas optionnelle.

Bonus — Stratégie

Leaderboard / Bench

aka comment lire un classement IA

Les classements (LMArena, MMLU, ARC-AGI, HHEM pour les hallucinations) comparent les performances des modèles sur des tâches standardisées. Utiles pour repérer les changements rapides, mais limités : un modèle n°1 sur LMArena peut être médiocre sur votre cas d'usage. Le bench le plus pertinent reste celui que vous construisez sur vos propres données.

Le piègeChoisir un modèle sur la base d'un classement public sans test interne. Toujours faire un POC sur vos données réelles avant de signer.

6. Cinq questions à poser à tout prestataire IA avant de signer

Une fois ce vocabulaire en main, voici les cinq questions qui séparent un prestataire qui sait ce qu'il fait d'un autre qui se contente de revendre une couche au-dessus de l'API d'OpenAI.

Checklist achat IA

1. Quel modèle exactement, et pourquoi celui-là ? Réponse attendue : comparaison sur votre cas d'usage, pas généralités.

2. Quelle architecture : RAG, fine-tuning, hybride ? Réponse attendue : justification, pas dogme. Le RAG doit être le défaut.

3. Quel coût par interaction et avec/sans cache ? Réponse attendue : chiffré, pas forfaitaire opaque.

4. Comment gérez-vous les hallucinations et la conformité AI Act/RGPD ? Réponse attendue : process documentable, pas « on fait attention ».

5. Mes intégrations sont-elles MCP-compatibles ou propriétaires ? Réponse attendue : MCP par défaut sur les nouveaux déploiements.

Un prestataire qui ne sait pas répondre clairement à ces cinq questions vous vendra un système opaque, cher à maintenir, et difficile à défaire. Un prestataire qui répond précisément a probablement la culture technique pour livrer ce qu'il promet.

7. Foire aux questions

Quel est le terme IA le plus important pour un dirigeant en 2026 ?

Le token. Sans maîtrise du token, impossible de comprendre une facture IA, d'arbitrer entre deux fournisseurs ou de challenger un devis. C'est l'unité de mesure du nouveau monde.

Faut-il préférer un modèle européen pour la souveraineté ?

Pas systématiquement. Mistral propose un hébergement EU natif et des prix compétitifs. Pour les usages à forte sensibilité données (RH, santé, finance), c'est un argument sérieux. Pour des tâches généralistes, le rapport qualité/prix peut pencher vers Anthropic ou Google selon le cas. Évaluer modèle par modèle, pas par dogme.

Le AI Act concerne-t-il les TPE et les indépendants ?

Oui, dès qu'un système IA classifié haut risque est utilisé. Les obligations sont graduées mais le pourcentage du CA s'applique sans plancher. Une TPE à 200 000 € de CA risque jusqu'à 14 000 € de sanction théorique sur la catégorie haut risque, et 35 000 € sur les pratiques interdites.

Combien coûte un agent IA en moyenne pour une PME ?

L'unité comptable est devenue l'inférence, pas l'abonnement. Pour un agent qui traite 1 000 à 5 000 demandes par mois, le coût en tokens reste typiquement entre 30 et 300 € par mois. Le coût total (TCO) avec intégration, supervision et formation est plutôt entre 1 000 et 5 000 €/mois selon la complexité.

Quelle différence entre LLM et agent ?

Le LLM est le modèle, le moteur. L'agent est le système complet qui utilise un (ou plusieurs) LLM, des outils externes, une mémoire, des règles métier. Un LLM seul ne peut pas mettre à jour un CRM : un agent oui.

Conclusion

Refuser le vocabulaire IA en 2026 revient à refuser de lire un bilan en 2010. Vous pouvez diriger sans, mais vous serez constamment dépendant des autres pour comprendre ce qui se passe dans votre entreprise. Les 15 termes ci-dessus ne sont pas un examen technique. Ce sont les unités de pouvoir d'achat, de risque, et d'arbitrage.

Le dirigeant qui maîtrise ce lexique signe des devis pertinents, refuse les architectures inadaptées, et négocie en connaissance. Celui qui le refuse paie deux fois : une fois en sur-coût sur les abonnements, une fois en risque opérationnel et réglementaire.

Pour creuser le calcul économique de l'IA appliqué à votre masse salariale, voir Tokens vs masse salariale : le nouveau calcul des DAF. Pour cadrer l'usage en interne, voir le modèle de charte IA en 7 sections.