Le 24 avril 2026, DeepSeek a publié V4, sa nouvelle génération de modèles de langage. Deux variantes sous licence MIT, un million de tokens de contexte, une architecture neuve baptisée Hybrid Attention. Le chiffre qui devrait retenir votre attention n'est pourtant pas celui des 1,6 trillion de paramètres ni celui du prix défiant toute concurrence. C'est celui des puces utilisées pour entraîner et servir le modèle : zéro Nvidia. DeepSeek V4 tourne sur Huawei Ascend 950 orchestrées par l'architecture Supernode, une stack 100 % chinoise. C'est la première fois qu'un modèle de frontier open-source publique cette configuration. Le signal dépasse largement le monde des développeurs : il confirme que trois ans et demi d'export control américain sur les puces IA n'ont pas empêché la Chine de construire sa propre autonomie matérielle. Cet article fait le tour du modèle, de son architecture, de ses benchmarks, de sa grille de prix, et de ce que la bascule matérielle change pour l'Europe qui regardait jusqu'ici la guerre des LLM sans y peser.

1. Ce que contient DeepSeek V4

V4 arrive en deux déclinaisons, publiées simultanément sous licence MIT, téléchargeables, modifiables, déployables localement. Les deux partagent la même architecture Mixture-of-Experts, le même contexte d'un million de tokens et la même limite d'output à 384 000 tokens.

DeepSeek V4 en deux variantes, Pro 1,6 trillion de paramètres et Flash 284 milliards. Prix API input 1,74 et 0,14 dollars par million de tokens. Cache-hit jusqu'à moins 92 pour cent. Sortie maximum 384 000 tokens.
La grille produit DeepSeek V4 au lancement

Sources : DeepSeek API pricing · ofox.ai V4 release guide, avril 2026.

DeepSeek V4-Pro affiche 1,6 trillion de paramètres totaux, dont 49 milliards activés par requête grâce au routing MoE. Les tailles des modèles fermés concurrents ne sont pas communiquées officiellement : les fuites presse (The Information, SemiAnalysis) estiment GPT-4 autour de 800 milliards et Claude Sonnet 4.6 dans l'ordre de 400 milliards, mais aucune de ces données n'est confirmée par OpenAI ou Anthropic. Sur les benchmarks publiés par DeepSeek, V4-Pro devient le modèle numéro un parmi tous les modèles ouverts sur les tâches mathématiques et de programmation. Il reste numéro deux sur le world knowledge, derrière Gemini 3.1 Pro, seul modèle fermé à lui tenir tête.

DeepSeek V4-Flash est le compagnon efficient. 284 milliards de paramètres totaux, 13 milliards activés. L'angle commercial est brutal : 0,14 $ en entrée et 0,28 $ en sortie par million de tokens. Pour donner la mesure de l'écart, Claude Opus 4.7 est facturé 5 $ en entrée et 25 $ en sortie. Sur 80 % des workflows opérationnels d'entreprise, la qualité de V4-Flash est suffisante et le coût est divisé par un facteur de 35 à 90 selon les usages. C'est sur ce point que les choix d'architecture des équipes dev des ETI françaises vont peser dans les six prochains mois.

2. L'architecture Hybrid Attention, la vraie nouveauté technique

DeepSeek V4 remplace l'attention pleine classique — celle qui fait exploser la consommation mémoire dès que le contexte devient long — par un système à deux étages : Compressed Sparse Attention (CSA) et Heavily Compressed Attention (HCA). Le principe : faire basculer chaque requête vers le niveau d'attention optimal selon sa taille et sa nature. Le modèle économise ce qui peut l'être et concentre la puissance là où elle est nécessaire.

Les chiffres communiqués sont spectaculaires. En configuration 1 million de tokens de contexte, V4-Pro ne consomme que 27 % des FLOPs d'inférence par token et 10 % du cache KV de son prédécesseur V3.2. Traduit en pratique : une requête qui coûtait 10 € à votre entreprise sur V3.2 en coûte moins d'un sur V4-Pro, à qualité équivalente. C'est le type d'inflexion qui change la viabilité économique d'un agent en production.

Techniquement, Hybrid Attention se présente comme une réponse directe à l'architecture sparse attention de Claude Sonnet 4.6 et aux travaux publics d'OpenAI sur la compression. DeepSeek ne réinvente pas une brique, mais assemble et tune la combinaison la plus agressive publiée publiquement à ce jour. Pour une analyse comparée des coûts tokens des principaux modèles, voir notre article Le vrai coût énergétique de l'IA en 2026.

3. Le vrai sujet : la stack matérielle est chinoise

Jusqu'ici, tous les modèles de frontier ont été entraînés sur des puces Nvidia : GPT-4 sur H100, Claude Opus sur H100 et B200, Gemini Ultra sur TPU (Google) et GPU Nvidia. L'hypothèse implicite de l'écosystème occidental, depuis octobre 2022, était que le régime d'export control imposé par l'administration Biden sur les H100, H200 puis B200 ralentirait durablement la Chine. Cette hypothèse vient de s'effondrer publiquement.

À gauche Nvidia H100 H200 B200 bloqués à l'export vers la Chine depuis octobre 2022. À droite Huawei Ascend 950 plus architecture Supernode, déployés pour DeepSeek V4 le 24 avril 2026.
La bascule matérielle : ce qui est bloqué, ce qui l'a remplacé

Sources : Modern Diplomacy · communiqué Huawei du 24 avril 2026 · Bloomberg.

DeepSeek a annoncé que V4 a été entraîné et est servi en production sur les puces Huawei Ascend 950, agrégées en clusters massifs via l'architecture Supernode. Huawei a publié un communiqué coordonné le même jour confirmant le partenariat et le support technique. Les cartes Ascend 950 ne sont pas au niveau d'une Blackwell B200 en performance brute par puce, mais combinées en Supernode avec l'interconnect propriétaire Huawei, le système fournit suffisamment de bande passante et de puissance de calcul pour entraîner un modèle frontier de 1,6 trillion de paramètres.

Deux lectures se présentent. Lecture optimiste américaine : DeepSeek a dû utiliser largement plus de puces Huawei que Nvidia n'en aurait eu besoin pour la même performance, ce qui veut dire que la Chine paie son autonomie au prix fort énergétique et industriel. Lecture réaliste : peu importe le coût énergétique quand l'État chinois obère lourdement l'électricité industrielle et que Huawei est adossé à un marché intérieur de 1,4 milliard d'utilisateurs. Le résultat public est là : un modèle open-source de niveau Claude Opus 4.7 sur les tâches de raisonnement, entraîné sans une seule puce américaine.

Ce que ça dit de l'export control Depuis octobre 2022, les États-Unis interdisent l'exportation vers la Chine des puces IA haut de gamme Nvidia (H100, H200, B200) et de leurs équivalents AMD et Intel. L'objectif affiché était d'empêcher la Chine d'atteindre les capacités frontier. Trois ans et demi plus tard, DeepSeek V4 prouve publiquement que l'objectif n'est pas atteint. Les pertes de Nvidia sur le marché chinois sont chiffrées en dizaines de milliards de dollars annuels sans que l'écart stratégique se soit creusé.

4. Benchmarks : où V4 gagne, où il perd

Les chiffres communiqués par DeepSeek au lancement (à vérifier contradictoirement par des benchmarks indépendants dans les prochaines semaines) positionnent V4-Pro comme suit :

DomaineDeepSeek V4-ProMeilleur concurrentÉcart
Mathématiques (AIME, MATH)#1 modèles ouvertsClaude Opus 4.7 (fermé)parité
Programmation (SWE-bench, CodeContests)#1 modèles ouvertsClaude Opus 4.7 (fermé)parité ± 2 pts
World knowledge (MMLU, GPQA)#2 globalGemini 3.1 Pro (fermé)− 4 pts
Contexte long (Needle in Haystack)#1 à 1 M tokensClaude Sonnet 4.6+ 8 pts
Multilinguisme hors chinoiscompétitifGemini 3.1 Pro, GPT-5− 5 à 10 pts
Raisonnement agentique (tool use)non documenté publiquementClaude Sonnet 4.6incertain

La répartition est instructive. DeepSeek V4-Pro est probablement le meilleur choix rapport qualité/prix du marché pour les tâches techniques (code, mathématiques, analyse de documents longs). Il reste derrière les leaders américains sur les domaines qui dépendent de la qualité du corpus d'entraînement en langues occidentales et sur le tool use agentique, où Claude conserve une avance consolidée par des versions successives depuis Claude 3.5.

5. Seize mois de rattrapage chirurgical

DeepSeek n'est pas arrivé d'un coup. La trajectoire publique du laboratoire de Hangzhou depuis décembre 2024 est un exercice de stratégie industrielle à la chinoise : des sorties régulières tous les trois à quatre mois, chacune apportant un saut technique précis, sans jamais céder à la tentation de l'annonce spectaculaire sans produit livré.

Chronologie DeepSeek de décembre 2024 à avril 2026 : V3 en décembre 2024, R1 en janvier 2025 qui fait perdre 600 milliards de dollars à Nvidia, V3.1 en août 2025, V3.2 en novembre 2025, V4 le 24 avril 2026.
Cinq modèles majeurs en seize mois

La lecture de cette chronologie est sans ambiguïté. Chaque sortie a été calibrée pour ouvrir une brèche spécifique : V3 sur les fondamentaux, R1 sur le raisonnement qui a effacé 589 Md$ de capitalisation boursière à Nvidia sur la seule séance du 27 janvier 2025, V3.1 et V3.2 sur l'optimisation mémoire et l'attention compressée, V4 sur la souveraineté matérielle. À ce rythme, si le laboratoire maintient sa cadence de sortie (trois à quatre mois), une V5 pourrait arriver au second semestre 2026 — projection à traiter comme telle, pas comme engagement.

6. Ce que ça change pour l'Europe

L'Europe, qui regardait jusqu'ici la guerre des LLM avec la frustration d'une spectatrice, se retrouve dans une position ambiguë. D'un côté, la disponibilité d'un modèle open-source de niveau frontier à 0,28 $ par million de tokens en sortie fournit une arme de souveraineté accessible. Un hébergeur européen comme Scaleway, OVH, Outscale ou S3NS peut techniquement déployer DeepSeek V4-Flash sur son infrastructure et le proposer aux entreprises européennes sous conditions contractuelles EU-native, répondant aux exigences du RGPD et de l'AI Act sans passer par un fournisseur américain. Mistral reste le champion européen, mais Mistral Large 3 ne fait pas le poids technique face à DeepSeek V4-Pro et Mistral n'a pas la profondeur financière pour tenir le rythme de sortie chinois.

De l'autre côté, DeepSeek reste une entreprise chinoise, soumise à la loi de cybersécurité de la République populaire, avec les obligations de coopération avec les autorités que cela implique. Le modèle lui-même, même téléchargé et self-hosté en Europe, porte les biais de son corpus d'entraînement. Les évaluations publiques montrent des refus systématiques sur Tiananmen, Taiwan, le Xinjiang, le statut politique du Tibet. Un responsable de conformité européen qui déploie V4 doit documenter ces limites, prévoir des garde-fous en sortie, et accepter que le modèle ne couvrira jamais certains cas d'usage sensibles sans fine-tuning dédié.

Le calcul à faire par un dirigeant d'ETI française ou allemande est triple. D'abord : les économies sur la facture tokens. Un agent support client traitant 50 000 requêtes mensuelles passe de 3 000 € sur Claude Sonnet à moins de 50 € sur V4-Flash, différence suffisante pour financer un intégrateur à temps plein. Ensuite : l'acceptabilité politique et juridique d'un modèle chinois sur le périmètre ciblé, qui dépend entièrement du secteur (banque, défense, santé : exclu ; retail, e-commerce, marketing, créatif : acceptable). Enfin : la capacité opérationnelle d'évaluer et de basculer. Les entreprises qui auront audité V4-Flash dès cet été gagneront six mois sur leurs concurrents.

7. Zones de vigilance et angles morts

Les benchmarks sont auto-déclarés. DeepSeek a publié ses propres chiffres au lancement, sans évaluation indépendante à date. Les plateformes tierces (LMArena, Artificial Analysis, LiveCodeBench) mettront deux à quatre semaines à confirmer ou dégonfler les claims. À suivre.

Le support hardware Huawei reste fermé. Si vous n'êtes pas en Chine, vous ne pouvez pas acheter un cluster Ascend 950 Supernode pour self-host V4-Pro. L'alternative est de consommer via l'API DeepSeek officielle (hébergée en Chine), ou de télécharger les poids et de les déployer sur du matériel Nvidia, ce qui est faisable pour V4-Flash mais reste un défi opérationnel pour V4-Pro qui demande une infrastructure multi-nœuds.

La soutenabilité du rythme est une inconnue. DeepSeek est une filiale du fonds quantitatif High-Flyer et ne publie pas de comptes détaillés. La question de la soutenabilité des prix API affichés — 0,28 $ le million de tokens de sortie pour V4-Flash est agressif face au reste du marché — reste ouverte tant que le modèle économique ne sera pas documenté publiquement. Si le financement se tend, les prix ou la cadence pourraient être révisés.

Les risques politiques évoluent. Des discussions publiques existent aux États-Unis (Bureau of Industry and Security, sous-sections de la section 1400 du décret de janvier 2025) sur un durcissement des restrictions à l'import de modèles IA chinois. Aucune règle formelle n'est publiée au 24 avril 2026, mais les entreprises européennes qui déploieraient V4 sur des produits distribués outre-Atlantique doivent anticiper ce scénario.

Les biais politiques du corpus. Les versions précédentes de DeepSeek (V2, V3) refusaient systématiquement certaines requêtes sensibles pour l'État chinois : Tiananmen, statut de Taiwan, Xinjiang, Tibet. V4 vient de sortir : des tests indépendants sont en cours pour documenter si les garde-fous restent identiques. À suivre pour tout usage éditorial, politique ou juridique.

« Trois ans et demi d'export control, et la Chine publie un frontier model open-source entièrement entraîné hors Nvidia. Le problème n'est pas que l'interdiction n'a pas fonctionné. C'est qu'elle a été le déclencheur d'une filière souveraine plus robuste que l'ancienne dépendance. » Otium · 24 avril 2026

8. Notre lecture

DeepSeek V4 n'est pas qu'un nouveau modèle, c'est la validation publique d'un pari industriel. Celui que la Chine a pris en 2022 quand l'administration Biden a signé son premier paquet de restrictions. Le pari disait : si on ne peut pas acheter le silicium américain, on construit le nôtre, on absorbe les surcoûts, et on livre un niveau frontier sur notre propre stack en moins de cinq ans. Trois ans et demi plus tard, V4 est la preuve que le pari tient.

Pour un dirigeant européen en 2026, trois conclusions utiles. Un : l'argument « les modèles IA vont rester américains » n'est plus une hypothèse tenable dans la planification budgétaire à trois ans. La Chine sera dans le peloton de tête, l'Europe probablement en troisième position avec Mistral et les laboratoires académiques, les États-Unis garderont l'avance sur le tool use agentique et les usages entreprise premium. Deux : le rapport qualité/prix de DeepSeek V4-Flash va forcer Anthropic, OpenAI et Google à comprimer leurs prix sur les modèles d'entrée de gamme, avec un bénéfice direct pour tous les intégrateurs européens. Trois : la décision d'intégrer ou non un modèle chinois dans vos workflows ne peut plus être traitée comme une question technique ; elle devient une question juridique et géopolitique, qui mérite son propre mandat dans votre comité de direction.

Pour une analyse des benchmarks qui positionnent les modèles frontier les uns par rapport aux autres, voir notre article Claude Mythos : la première AGI ?. Pour comprendre l'économie physique derrière les prix tokens, Le vrai coût énergétique de l'IA en 2026. Pour la bataille image qui se joue en parallèle, OpenAI relance la bataille contre Google avec ChatGPT Images 2.0.