Le marché des modèles IA image et vidéo compte trente acteurs en avril 2026. Sept jours après la sortie de ChatGPT Images 2.0 (21 avril 2026), OpenAI a fermé l'application grand public Sora le 26 avril 2026, l'API restant disponible jusqu'au 24 septembre 2026. Runway a levé 315 M$ en février pour pivoter vers les world models. Black Forest Labs a tenu le sommet du leaderboard Image Arena pendant six mois avant que GPT Image 2 ne le dépasse de 242 points le 21 avril. La Chine produit du multi-shot 2K à 0,14 $ la seconde via Seedance 2.0. L'EU AI Act impose le watermarking machine-readable sur tout output IA à partir du 2 novembre 2026.

Choisir un modèle revient à choisir une stack et un modèle économique. Les écarts de prix vont de 0,03 $ par image à 200 $ par mois d'abonnement, les écarts de qualité varient selon les benchmarks et les cas d'usage, et la moitié des annonces produit datent de moins de quatre-vingt-dix jours.

Cet article documente les trente modèles retenus avec leurs prix officiels vérifiés en avril 2026, leurs différenciateurs techniques et leurs limites réelles. Il présente les films, pubs et clips déjà produits avec ces outils. Une section dédiée analyse Black Forest Labs, le seul acteur frontier européen crédible sur l'image. Deux bonus traitent des agents IA en visioconférence via Pika-Skills et de la production UGC avec Seedance 2.0 et Higgsfield. La dernière section couvre la roadmap 2026-2027 (Veo 4, Genie 3, world models) et la conformité EU AI Act.

Timeline 2024-2026

Timeline des sorties IA image et vidéo 2024-2026 2024 2025 2026 FLUX.1 août 2024 SD 3.5 / Recraft V3 oct. 2024 Sora preview déc. 2024 Midjourney V7 avr. 2025 Veo 3 / Sora 2 mai-sept. 2025 FLUX.2 [pro] nov. 2025 Genie 3 / Kling 3 janv.-févr. 2026 Seedance 2.0 / MJ V8 févr.-mars 2026 GPT Image 2 · Sora app shut 21-26 avr. 2026 Jalons IA image et vidéo 2024 — 2026 · Source : annonces officielles éditeurs

Productions publiées avec ces modèles

Trois productions récentes documentent l'état de l'art opérationnel : un court-métrage primé en festival, un test comparatif mené par une rédaction généraliste, un finaliste de hackathon. Sources officielles uniquement.

Total Pixel Space — grand prix Runway AI Film Festival 2025

Court-métrage de Jacob Adler, grand prix de la 3e édition du Runway AI Film Festival (mai 2025). Production entièrement réalisée avec Runway Gen-3 et Gen-4. Le festival cumule 1 M$ de prize pool sur trois éditions et 6 000 soumissions en 2025.

Test comparatif Wall Street Journal — Google Veo vs Runway

Joanna Stern (Wall Street Journal) documente la production d'un mini-film de bout en bout avec Google Veo et Runway en parallèle. Méthodologie publique : nombre de prompts, durée d'itération, points de rupture entre les deux modèles.

Feast — finaliste Runway Gen:48 (4e édition)

Court-métrage Feast, finaliste de la 4e édition du Runway Gen:48, challenge de production de 48 heures. Le format Gen:48 contraint à livrer un film complet (script, génération, montage, son) sur deux jours calendaires.

Autres productions diffusées à titre de référence :

1. Tableau de synthèse — les 30 modèles

Trois catégories : 14 modèles image, 15 modèles vidéo, 1 orchestrateur. Le tier (S/A/B) reflète la position marché en avril 2026, pas la qualité absolue : un modèle S domine sa catégorie sur un usage clé, un A fait le travail, un B est viable selon le contexte.

ModèleOrigineTierPrix entréeDifférenciateurLimite
— Image —
GPT Image 2OpenAI · USS20 $/mois (ChatGPT Plus)Layout reasoning, édition multi-images, #1 Image ArenaMode Thinking réservé aux payants
Midjourney V7Midjourney · USS10 $/moisEsthétique top du marché, V8 Alpha sortiPas d'API officielle
FLUX.2 [pro]BFL · AllemagneS0,03 $/imageMulti-référence 10 images, dev open-source 32BPas d'app grand public
Stable Diffusion 3.5Stability · UK/USAOpen-source / 10 $ pour 1 000 créditsOpen-source à grande échelle, écosystème ComfyUIQualité brute en dessous des leaders
Playground v3Playground · USB15 $/moisGraphic design, édition par couches, ~1 800 policesPas d'API ouverte
Kolors 2.1Kuaishou · ChineA10 $/mois (via Kling)Rendu texte chinois et anglais natifTarif API non vitriné, censure chinoise
Ideogram 3.0Ideogram · CanadaA7 $/moisRendu texte ~90-95 % de précisionPhoto-réalisme en dessous des leaders
Adobe Firefly Image 5Adobe · USA9,99 $/moisCommercial-safe, IP indemnification, intégration PhotoshopÉcosystème fermé Adobe
Recraft V3Recraft · US/UKA12 $/moisSVG vectoriel scalable natif, brand kitsNiche graphic design
Leonardo Phoenix 1.0Leonardo · AustralieB12 $/moisPrompt adherence stricte, mode Flow StateMoins photo-réaliste pur
Google Imagen 4Google · USA0,02 $/image (Fast)2K, SynthID watermark intégréModération Google stricte
Reve Image 1.0Reve · USB~0,01 $/imageRendu texte fort, top leaderboard à la sortieÉquipe peu connue, capacités édition limitées
Krea 1Krea AI · USA9 $/moisRealtime Canvas <50 ms, 64+ modèles agrégésAggregator dilue le modèle propriétaire
Bria FIBOBria AI · Israël/USACustom enterpriseReproductibilité JSON déterministe, IP indemnif.Inaccessible aux indépendants
— Vidéo —
Sora 2OpenAI · USS0,10 $/sec (API)Audio natif synchroniséApp fermée 26 avril 2026
Runway Gen-4.5Runway · USS15 $/mois#1 Video Arena, contrôle caméra granulaireCrédits vite consommés sur Gen-4.5 1080p
Veo 3.1 / LiteGoogle · USS0,05 $/sec (Lite 720p)Audio natif, 4K, Scene Extension > 60 sModération stricte sur visages/marques
Kling 3.0Kuaishou · ChineA10 $/moisAudio-vidéo joint (2.6+), Multi-ElementsCensure chinoise, prix crédits explose en HD
Seedance 2.0ByteDance · ChineS0,14 $/secMulti-shot 2K en un prompt, multimodalRéglementation chinoise, écosystème jeune en Occident
Vidu Q3Shengshu · ChineA0,07 $/secReference-to-video, prix le plus bas du marchéQualité en dessous des leaders sur tests indépendants
Pika 2.5Pika · USB10 $/moisPikadditions, Pikaffects, PikaframesOrienté social, durations courtes
Higgsfield Cinema 3.0Higgsfield · USA15 $/moisWrapper multi-modèles, physique optiquePas de modèle propriétaire
HeyGenHeyGen · USS29 $/moisAvatar IV diffusion-based, 175+ languesAvatars stock répétitifs sans Custom
Synthesia 3.0Synthesia · UKS29 $/moisExpress-2 full-body avatars + gesturesFree 10 min watermarké inutile en pro
Hailuo 02 / 2.3MiniMax · ChineA~10-15 $/moisNCR architecture +2,5x efficacitéPas d'audio natif, restrictions de contenu
Luma Ray2 / Ray3Luma · USA30 $/moisKeyframes start+end, jusqu'à 60 secPlus avec watermark si non commercial
PixVerse V6PixVerse · ChineBFree + payantsEnd frame control, 100M+ usersMoins puissant cinématiquement
Wan 2.7Alibaba · ChineA0,10 $/sec (fal/Together)First-and-last-frame, video-to-videoPas open-source confirmé pour 2.7
Tavus CVI / Raven-1Tavus · USS59 $/mois (Starter)600 ms round-trip avec full-visionCrédits explosent vite hors Starter
D-ID Agents 2.0D-ID · IsraëlA5,90 $/mois (Lite)Agentic Videos, Natural User InterfaceLite avec watermark, complexité tarifaire

2. 14 modèles image au crible

Pour chaque modèle, le même protocole : origine, dernière version vérifiée, prix officiels en avril 2026, ce qui le distingue réellement, sa limite la moins discutée. Quand une vidéo officielle isolable existe sur YouTube, elle est embedée ; sinon nous le signalons.

À ne pas confondre — Claude Design. Anthropic propose un outil nommé Claude Design qui produit des maquettes d'interface (UI, design system, mockups web et app). Ce n'est pas un modèle de génération d'image au sens de cet article. Il rend du design d'interface, pas de la photo, de l'illustration ou du visuel marketing. Pour une analyse dédiée, voir notre review : Que vaut réellement Claude Design ?

🇺🇸ChatGPT Images 2.0
gpt-image-2 · 21 avril 2026
20 $/mois (ChatGPT Plus) · 200 $/mois (Pro pour Thinking)
Différenciateur : édition multi-images avec layout reasoning, rendu texte production, mode Thinking (web search + auto-vérification). #1 Image Arena dès la sortie avec +242 points d'écart.
Limite : modération OpenAI stricte, latence du mode Thinking, accès complet payant uniquement.
🇺🇸Midjourney V7 · V8 Alpha
V8.1 Alpha · 14 avril 2026
10 $/mois (Basic) · jusqu'à 120 $/mois (Mega)
Différenciateur : qualité esthétique reconnue (texture, lumière, anatomie), Draft Mode (10x plus rapide à demi-coût), Omni Reference, V8.1 rendu 2K natif et vitesse x5.
Limite : pas d'API officielle, contrôle de prompt moins granulaire que FLUX.
🇩🇪FLUX.2
[pro] 25 nov. 2025 · [klein] 32B open-source
0,03 $/image (text-to-image) · 0,045 $/image (édition)
Différenciateur : multi-référence jusqu'à 10 images simultanées, rendu texte 92 % de précision sur layouts complexes, seul modèle frontier avec une variante open-source 32B production-ready.
Limite : pas d'interface grand public (orienté API), variante open-source nécessite GPU sérieux.
🇬🇧Stable Diffusion 3.5
SD 3.5 Large · oct. 2024
Open-source gratuit · API DreamStudio 10 $ pour 1 000 crédits
Différenciateur : seul modèle réellement open-source à grande échelle, customisation totale (LoRA, ControlNet, fine-tuning), écosystème ComfyUI/Automatic1111 massif.
Limite : qualité brute en dessous de FLUX.2 / Midjourney V7 / GPT Image 2 selon les benchmarks récents.
🇺🇸Playground v3
PGv3 · mises à jour mars 2026
Free (10 éditions / 3 h) · Pro 15 $/mois
Différenciateur : architecture decoder-only LLM, édition par couches (texte, image, formes indépendantes), librairie ~1 800 typefaces, contrôle RGB précis dans le prompt.
Limite : moins polyvalent que FLUX/MJ pour le photo-réalisme, pas d'API publique généraliste.
🇨🇳Kolors 2.1
Kolors 2.1 · juillet 2025
Kling Free 66 crédits/jour · Standard 10 $/mois
Différenciateur : rendu texte chinois ET anglais natif, 180+ styles, restyle/inpainting/outpainting, intégration DeepSeek-R1 pour assistance prompt.
Limite : tarif API non vitriné, censure forte (réglementation chinoise), traçabilité des données d'entraînement opaque.
🇨🇦Ideogram 3.0
Ideogram 3.0 · 26 mars 2025
Free 10 prompts/jour · Basic 7 $/mois · Pro 48 $/mois
Différenciateur : précision rendu texte ~90-95 % (le mieux du marché historique avec FLUX.2), 4,3 milliards de presets stylistiques, Style References avec 3 images de référence.
Limite : moins fort que MJ/FLUX sur le photo-réalisme pur, plan Pro nécessaire pour volume professionnel.
🇺🇸Adobe Firefly Image 5
Image 5 public beta · 14 oct. 2025
Free 25 crédits/mois · Standard 9,99 $/mois · Pro 29,99 $/mois
Différenciateur : commercial-safe (entraîné sur licensed Adobe Stock + domaine public), IP indemnification incluse pour les abonnés entreprise, 4MP photoréalisme natif, intégration native Photoshop/Premiere.
Limite : qualité brute en dessous de FLUX.2/MJ V7 sur photo libre, écosystème fermé Adobe.
🇺🇸Recraft V3
V3 (Red Panda) · 30 oct. 2024
Free 50 crédits/jour · Basic 12 $/mois · API 0,04 $/image
Différenciateur : seul modèle générant du SVG vectoriel scalable natif (logos, icônes), texte fiable à toutes tailles, brand kits avec style identity consistent. #1 Artificial Analysis Image Arena 5 mois consécutifs à sa sortie.
Limite : qualité photo en dessous de FLUX.2/MJ, niche graphic design.
🇦🇺Leonardo Phoenix 1.0
Phoenix 1.0 · 14 juin 2024
Free 150 tokens/jour · Apprentice 12 $/mois · Maestro 60 $/mois
Différenciateur : prompt adherence stricte parmi les meilleurs (multi-sujets), rendu texte legible, mode Flow State pour itération temps réel, Edit with AI.
Limite : moins photoréaliste pur que MJ V7, intégration Canva tire le produit vers le grand public au lieu du pro.
🇺🇸Google Imagen 4
Imagen 4 GA · 17 févr. 2026
Imagen 4 Fast 0,02 $/image · Standard 0,04 $/image · Ultra 0,06 $/image
Différenciateur : jusqu'à 2K, fine details (tissus, gouttes, fourrure), typographie améliorée, SynthID watermark invisible intégré pour la provenance.
Limite : modération Google stricte (visages identifiables, marques), moins puissant que MJ V7 sur esthétique pure selon Image Arena.
🇺🇸Reve Image 1.0
Halfmoon · 24 mars 2025
100 crédits free + 20 générations/jour · 500 crédits = 5 $
Différenciateur : rendu texte fort (concurrent direct d'Ideogram), prompt adherence et aesthetic en haut du leaderboard à la sortie, devant Midjourney v6.1, Imagen 3 et Recraft V3.
Limite : équipe et modèle peu connus en Occident, écosystème immature, capacités d'édition limitées vs FLUX.2.
🇺🇸Krea 1
Krea 1 public beta · 17 juin 2025
Free tier · Basic 9 $/mois · Pro 30 $/mois
Différenciateur : Krea Realtime Canvas (génération < 50 ms en split screen pendant le dessin), aggregator de 64+ modèles tiers (Flux, Runway, Luma, Ideogram, Veo, Sora), Krea Train (LoRA-style avec 50 images).
Limite : positionnement aggregator dilue la valeur du modèle propriétaire Krea-1, dépend de fournisseurs upstream.
🇮🇱Bria FIBO
FIBO foundation · 3 nov. 2025
Custom enterprise (devis) · SOC 2 / ISO 27001 / GDPR / EU AI Act compliant
Différenciateur : seul modèle garantissant la reproductibilité déterministe via JSON inputs (100+ visual attributes), brand-safe, IP indemnification, données 100 % licenciées Getty/Depositphotos/Envato/Freepik.
Limite : tarif inaccessible aux indépendants/PME, qualité visuelle pure en dessous de FLUX.2/MJ, courbe d'apprentissage JSON.

Vidéos officielles disponibles — Image

Ideogram 3.0 — vidéo officielle d'introduction.

Google Imagen 4 — vidéo officielle Google sur Imagen 4 dans Gemini.

Leonardo Phoenix 1.0 — interview Behind Phoenix avec Aninda Saha.

Bria FIBO — vidéo officielle de présentation.

Pas de vidéo officielle isolable : ChatGPT Images 2.0, Midjourney V7/V8, FLUX.2, Stable Diffusion 3.5, Playground v3, Kolors, Adobe Firefly Image 4/5, Recraft V3, Reve Image 1.0, Krea 1. Annonces passées par blog éditeur ou Discord/X.

3. 16 modèles vidéo au crible

Sur la vidéo, le marché se segmente en quatre familles : générateurs cinématiques (Sora 2, Runway, Veo, Kling, Seedance), avatars conversationnels (HeyGen, Synthesia, Tavus, D-ID), produits sociaux (Pika, PixVerse, Hailuo) et orchestrateurs (Higgsfield). Sora 2 reste techniquement la référence audio-vidéo, mais son app grand public a été fermée le 26 avril 2026.

🇺🇸Sora 2
Lancé 30 sept. 2025 · app shut down 26 avril 2026
API : sora-2 720p 0,10 $/sec · sora-2-pro 720p 0,30 $/sec · 1024p 0,50 $/sec
Différenciateur : audio natif synchronisé (premier modèle grand public à intégrer dialogue + SFX + musique en une passe), cohérence physique avancée, jusqu'à 25 sec par clip.
Limite : app grand public fermée le 26 avril 2026, API discontinuée le 24 septembre 2026, modération extrêmement stricte (visages, copyright, marques).
🇺🇸Runway Gen-4 / Gen-4.5
Gen-4.5 · 1 déc. 2025
Free 125 crédits · Standard 15 $/mois · Unlimited 95 $/mois
Différenciateur : #1 sur Video Arena leaderboard (Elo 1247) à la sortie, contrôle caméra granulaire, intégration assets 3D natifs, compréhension de la physique.
Limite : crédits consommés rapidement sur Gen-4.5 1080p, plan Standard limite à ~25 sec de Gen-4.5.
🇺🇸Google Veo 3.1 / 3.1 Lite
Veo 3.1 Lite · 31 mars 2026
Veo 3.1 ~0,40 $/sec · Fast 0,15 $/sec · Lite 0,05 $/sec (720p) / 0,08 $/sec (1080p)
Différenciateur : audio natif (dialogue + SFX + ambient), 4K upscaling, native 9:16, Scene Extension > 60 s, SynthID watermark, physics realism.
Limite : modération stricte sur visages humains/marques, durées courtes en Lite, accès via crédits Gemini API.
🇨🇳Kling 3.0
Kling 3.0 · 5 févr. 2026
Free 66 crédits/jour · Standard 10 $/mois · Premier 64,99 $/mois
Différenciateur : génération audio-visuelle conjointe native (Kling 2.6+), contrôle caméra fluide, Multi-Elements pour édition granulaire, modèle Master sur 2.0.
Limite : censure forte (sujets politiques, marques), tarif crédits explose en haute fidélité.
🇨🇳Seedance 2.0
12 févr. 2026 · API fal 9 avril 2026
~0,14 $/sec via API officielle · tiers dès 0,05 $ / vidéo 5 sec 720p
Différenciateur : architecture multimodale audio-vidéo unifiée (texte + image + audio + vidéo en input), génération multi-plans cohérente d'un seul prompt en 2K.
Limite : restrictions de contenu (réglementation chinoise), accès via plateformes tiers principalement.
🇨🇳Vidu Q3
Q3 · investissement Alibaba 290 M$ avril 2026
Free (watermark) · Standard 10 $/mois · Vidu Q3 ~0,07 $/sec
Différenciateur : reference-to-video natif (cohérence sujet entre images de référence et vidéo), tarif/sec parmi les plus bas du marché (0,07 $).
Limite : moins connu en Occident, qualité visuelle en dessous de Runway Gen-4.5/Sora 2 sur tests indépendants.
🇺🇸Pika 2.5
Pika 2.5 · pivot social 2026
Standard 10 $/mois · Pro 35 $/mois · Fancy 95 $/mois
Différenciateur : Pikadditions (insertion d'objets/personnages dans vidéo existante), Pikaffects (explode, melt, etc.), Pikaframes (workflow keyframe pour mouvement contrôlé).
Limite : qualité brute en dessous de Sora 2 / Runway Gen-4.5, orienté contenu social plus que cinématique.
🇺🇸Higgsfield Cinema Studio 3.0
Cinema 3.0 · 1 avril 2026 · orchestrateur
Starter 15 $/mois · Plus 39 $/mois · Ultra 99 $/mois
Différenciateur : wrapper multi-modèles (Kling 3.0, Veo 3.1, Sora 2, Seedance 2.0, Wan 2.7) dans une UI cinématique. Simulation de physique optique réelle (corps caméra virtuel, type d'objectif, focale).
Limite : pas de modèle propriétaire, c'est un wrapper. Dépendance totale aux fournisseurs amont, tarif ajouté au coût des modèles upstream.
🇺🇸HeyGen
Avatar IV / LiveAvatar 2026
Free · Creator 29 $/mois · Pro 99 $/mois · Business 149 $/mois
Différenciateur : leader avatar talking head (qualité lip-sync, gestures), Avatar IV qualité diffusion, voice cloning, traduction multilingue 175+ langues, 700+ stock avatars + custom photo-realistic.
Limite : avatars stock répétitifs sans Custom Avatar (Business+), crédits Business partagés peuvent limiter teams.
🇬🇧Synthesia 3.0 / Express-2
Express-2 sept. 2025 · Synthesia 3.0 fin 2025
Free 10 min/mois · Starter 29 $/mois · Creator 89 $/mois · Enterprise sur devis
Différenciateur : seul à proposer full-body avatars expressifs avec gestures professionnelles (Express-2), 240+ avatars stock, Conversational AI 3.0 (avatars listening + responding).
Limite : pas de tier free utile en pro (10 min watermarked), Studio avatars custom payants, focus enterprise/L&D.
🇨🇳Hailuo 02 / 2.3
Hailuo 2.3 · février 2026
Free 2-3 vidéos/jour · Standard ~10-15 $/mois · API 0,28 $/vidéo 6 s 768p
Différenciateur : Noise-aware Compute Redistribution (NCR), +2,5x training/inference efficiency, prompt adherence et physics realism élevés.
Limite : durées courtes, pas d'audio natif (vs Veo 3, Sora 2, Seedance 2.0), restrictions de contenu (Chine).
🇺🇸Luma Ray2 / Ray3
Ray3 · sept. 2025
Free (watermark) · Plus 30 $/mois · Pro 90 $/mois · Ultra 300 $/mois
Différenciateur : keyframes natifs (start + end frame), audio generation Ray3, motion coherence + physics, durées longues jusqu'à 60 sec.
Limite : qualité brute en dessous de Veo 3.1 / Sora 2 sur certains tests, prix Plus avec watermark si non commercial.
🇨🇳PixVerse V4 - V6
V6 · cadence soutenue 2025-2026
Free 90 crédits + 60 refill/jour · jusqu'à 199 $/mois
Différenciateur : 100M+ users globaux, audio-visuel synchronisé, end frame control (V5.6), Agent feature pour création assistée, intégration DeepSeek V4.
Limite : moins puissant cinématiquement que Veo/Sora/Seedance, qualité variable selon V version.
🇨🇳Wan 2.7
Wan 2.7 · fin mars 2026
Together AI / fal 0,10 $/sec · WaveSpeedAI 1 $/clip 5 s 720p
Différenciateur : first-and-last-frame control, video-to-video editing amélioré, subject referencing (cohérence character/object), camera control affiné.
Limite : pas open-source confirmé pour 2.7 (régression vs 2.1/2.2 qui étaient open), réputation « uncensored » attire usages problématiques.
🇺🇸Tavus CVI / Raven-1
Raven-1 · 11 févr. 2026
Free 25 min · Starter 59 $/mois · Growth/Enterprise sur devis
Différenciateur : seul à atteindre 600 ms round-trip latence avec avatar full-vision (voit + entend + répond), 100+ replica avatars, custom LLM/TTS pluggable, white-label, SOC 2 + HIPAA.
Limite : usage credits explose vite hors Starter, complexité dev (orienté API + framework), pas d'UI grand public.
🇮🇱D-ID Agents 2.0 / Agentic Videos
Agentic Videos · 23 avril 2026
Lite 5,90 $/mois · Pro ~29 $/mois · Advanced 108-196 $/mois
Différenciateur : pivot strategique vers conversational/agentic AI (NUI replace GUI), V4 Expressive avatars LLM-connected, Agentic Videos transforme une vidéo passive en expérience interactive live, CES 2026 Innovation Award.
Limite : Lite avec watermark inutilisable en pro, complexité de tarification (3 produits différents), latence/qualité face-to-face sous Tavus.

Vidéos officielles disponibles — Vidéo

Runway Gen-4 — vidéo officielle d'introduction.

Luma Ray2 — vidéo officielle d'introduction.

Tavus Raven-1 — vidéo officielle de lancement.

Pas de vidéo officielle isolable : Sora 2 (livestream non-archivé), Veo 3.1 / Lite, Kling 2.0 / 3.0, Seedance 2.0, Vidu Q3, Pika 2.5, Higgsfield Cinema Studio (playlist mais pas de single launch), HeyGen Avatar IV, Synthesia Express-2, Hailuo 02 / 2.3, PixVerse V4-V6, Wan 2.7, D-ID Agents 2.0.

4. Black Forest Labs : succès technique, succès commercial à prouver

L'Europe a un seul acteur frontier sur l'image en avril 2026, et c'est Black Forest Labs. Les fondateurs sont Robin Rombach, Andreas Blattmann et Patrick Esser. Ce sont eux qui ont co-créé Stable Diffusion chez Stability AI avant de partir fonder BFL en Allemagne en 2024. Le contexte compte : ils sont sortis quand Stability AI s'effondrait financièrement, et ils ont choisi un modèle opt-in API + open-source « klein » qui leur garantit à la fois revenus et légitimité communautaire.

Le succès technique est réel

Le succès commercial reste à prouver

Honnêtement, c'est là que la situation est fragile. BFL n'a pas d'app grand public — pas de site grand-pulic style midjourney.com, pas d'app mobile. Le modèle est distribué via intégrateurs, ce qui veut dire que la valeur capturée est partagée avec Replicate, fal, Vercel, AWS. Les revenus ne sont pas publics. La sortie de la #1 Image Arena le 21 avril, six mois après y être arrivé, montre que le leadership technique n'est jamais acquis dans cette industrie.

Le précédent Stability AI plane sur le dossier. Même équipe fondatrice, même stratégie open-source « modèle viral, monetisation API », et pourtant Stability AI a fini en quasi-faillite en 2024. La différence cette fois : BFL est arrivé avec un modèle qualitatif supérieur dès le départ (FLUX.1 [pro] était déjà compétitif vs Midjourney V6), une levée en amont, et un focus enterprise/développeur clair. Mais l'absence d'app grand public laisse les marges à OpenAI (ChatGPT) et Midjourney.

Verdict factuel. BFL est le seul acteur frontier européen crédible sur l'image en avril 2026. Le succès technique est sans équivoque. Le succès commercial est en construction et reste fragile : pas d'app grand public, revenus non publics, leadership Image Arena perdu après 6 mois. Si vous bricolez un produit en France ou en Europe et que vous voulez un modèle image frontier sans dépendre d'OpenAI, FLUX.2 est aujourd'hui votre meilleure option. Avec lucidité.

5. Programmer des visios avec vos agents IA via Pika-Skills

Pika Labs maintient un repo open-source moins connu que les pricipaux outils mais qui change la donne pour qui veut faire intervenir un agent IA dans une réunion vidéo : github.com/Pika-Labs/Pika-Skills. Le repo affiche 1 100 stars et 168 forks en avril 2026.

Le skill clé s'appelle pikastream-video-meeting. Il permet à un agent IA — piloté par Claude Code, OpenClaw, ou n'importe quel orchestrateur compatible — de rejoindre un Google Meet ou un Zoom en avatar vidéo temps réel, avec voice cloning, mémoire de la conversation, et personnalité persistante entre les calls.

Setup minimal

Fonctionnement technique

Cas d'usage concrets

Vidéo officielle Pika Labs sur PikaStream 1.0 Beta :

6. UGC à la demande avec Seedance 2.0 et Higgsfield

L'UGC (user generated content) désigne les vidéos face-caméra style témoignage ou démo produit. Format extrêmement performant en social ads parce qu'il a l'air « authentique » (pas tourné en studio, pas scripté visuellement). Problème : tourner de l'UGC propre coûte cher (acteurs, lieu, prises multiples).

En avril 2026, deux outils résolvent une grande partie du problème — avec une réserve déontologique importante à respecter.

Seedance 2.0 : multi-shot UGC en un prompt

Seedance 2.0 est sans doute le modèle le plus convaincant pour l'UGC face-caméra en avril 2026. Trois raisons :

Démonstration concrète — Seedance 2.0 génère un UGC ad complet en un prompt :

Higgsfield Cinema Studio 3.0 : look UGC avec physique optique

Higgsfield Cinema Studio 3.0 (sorti le 1er avril 2026) ajoute une couche que Seedance n'a pas : la simulation de physique optique réelle. Vous choisissez un type d'objectif (35 mm, 50 mm, téléobjectif), une focale, une ouverture. Le rendu vidéo suit. C'est ce qui transforme un UGC IA « étudiant qui filme avec son téléphone » en UGC IA « créateur pro avec setup propre ».

Higgsfield reste un wrapper : il appelle Seedance 2.0, Veo 3.1, Kling 3.0, Sora 2 ou Wan 2.7 selon votre choix. Tarif : Starter 15 $/mois, Plus 39 $/mois, Ultra 99 $/mois. Le coût Seedance ou Veo sous-jacent reste à payer en plus.

Démonstration UGC studio Higgsfield avec physique optique :

Réserve déontologique

Transparence requise. Une vidéo UGC générée par IA qui se fait passer pour un témoignage humain authentique pose un problème éthique immédiat. La pratique standard 2026 consiste à afficher une mention « vidéo générée par IA » ou « scénario inspiré de cas réels », et à ne jamais utiliser le visage d'une personne réelle sans accord.

Conformité EU AI Act. À partir du 2 novembre 2026, le watermarking machine-readable devient obligatoire sur tout output IA en UE. Sora 2, Veo 3.1 (SynthID), Adobe Firefly (C2PA) intègrent déjà ces standards. Si votre UGC IA est diffusé en UE après cette date, le watermark doit être présent et détectable. Sanctions jusqu'à 15 M€ ou 3 % du CA mondial.

7. Ce qui arrive — 2026-2027

Au-delà des produits actuels, voici ce qui est officiellement annoncé ou solidement télégraphié pour les 12 prochains mois.

Veo 4 (Google DeepMind)

Tease officiel publié fin mars 2026 par Google DeepMind, plusieurs sources presse confirment Google I/O 2026 (mai 2026) comme fenêtre de release. Caractéristiques annoncées : génération jusqu'à 30 secondes en une passe, sortie 4K native, storyboard multi-shots, cohérence personnage renforcée, création d'avatar zero-shot, inputs multimodaux (texte, image, audio, storyboard). Niveau de fiabilité : annonce officielle.

Sora app shut down et pivot OpenAI vers la simulation de monde

Le 24 mars 2026, OpenAI a annoncé l'arrêt de la marque Sora. App grand public fermée le 26 avril 2026, API sora-2 discontinuée le 24 septembre 2026. Pas de Sora 3 grand public en préparation. La R&D vidéo d'OpenAI est pivotée officiellement vers la « world simulation » pour la robotique et la simulation physique. Niveau de fiabilité : annonce officielle OpenAI.

Genie 3 (DeepMind) — le world model est là

Genie 3 a été lancé le 29 janvier 2026 en accès public limité (US Ultra subscribers). C'est un world model interactif temps réel : 24 FPS, 720p, navigation libre dans un environnement généré, cohérence sur quelques minutes. Pas un générateur vidéo : un simulateur navigable. C'est le premier produit grand public à matérialiser la bascule « vidéo linéaire vers monde interactif ». Niveau de fiabilité : en production.

Runway Series E 315 M$ — pivot world models

Runway a levé une Series E de 315 M$ en février 2026, fléchée explicitement sur le développement de world models next-gen. Pas de « Gen-5 » nommé. Le modèle interne s'appelle GWM-1 (General World Model). Cibles communiquées : avatars, robotique, simulation, santé, climat. Niveau de fiabilité : roadmap officielle, calendrier non confirmé.

Midjourney V8 Alpha (puis V9)

V8 Alpha sorti le 17 mars 2026. V8.1 Alpha le 14 avril 2026. Caractéristiques publiées : rendu 2K natif via --hd, vitesse x5 vs V7, rendu texte précis (texte entre guillemets), nouvelle base de code PyTorch sur GPU (vs TPUs). V9 absent des Office Hours publiques. Niveau de fiabilité : V8.1 officiellement en alpha.

Adobe Firefly NAB 2026

NAB 2026 (avril 2026) keynote Adobe : Firefly AI Assistant conversationnel, Video Editor web hybride timeline + texte, upscale 4K, custom models. Firefly devient un orchestrateur multi-modèles (30+ modèles intégrés dont Veo 3.1, Nano Banana 2, Runway Gen-4.5, Ray3, FLUX.2, Kling 3.0). Niveau de fiabilité : officiellement annoncé.

Vidu / Shengshu — investissement Alibaba 290 M$

Le 10 avril 2026, Alibaba a investi 290 M$ dans Shengshu (Vidu) pour accélérer le World Generation Model (WGM) et le World Action Model (WAM). Statégie publique : un « general world model » reliant digital (Vidu) et physique (conduite autonome, robotique). Pas de version Vidu Q4 nommée. Niveau de fiabilité : roadmap officielle, funding confirmé.

Tendance de fond : générateurs vidéo → world models interactifs

C'est la bascule la plus importante de l'année. La « vidéo IA » au sens 2024-2025 (un clip linéaire de 5 à 30 sec) cesse d'être la forme finale. La forme cible devient le monde navigable généré en temps réel : Genie 3 chez Google, GWM-1 chez Runway, WGM/WAM chez Shengshu. Cette bascule a trois conséquences immédiates :

Modèles raisonneurs pour image et vidéo

GPT Image 2 (avril 2026) inaugure le mode Thinking : recherche web, planification multi-étapes, auto-vérification avant génération. Nano Banana Pro intègre le raisonnement Gemini 3. Ray3 de Luma se présente comme « premier modèle vidéo raisonneur ». L'image et la vidéo deviennent des sorties d'agents, pas des outputs simples de diffusion.

Open-source rattrape (et casse les prix)

FLUX.2 [klein] (32B params) et Wan 2.7 d'Alibaba rivalisent avec les modèles propriétaires sur les benchmarks publics. ByteDance Seedance 2.0 et Kling 3.0 cassent les prix par rapport à Sora et Veo. Le rapport qualité/prix bascule côté chinois et open-source européen. Implication directe : pour un usage en production, le coût marginal d'une seconde de vidéo IA chute de ~50 % par an depuis 2024.

EU AI Act — deadline 2 novembre 2026

Watermarking machine-readable obligatoire sur tout output IA (image, vidéo, audio, texte). Sanctions jusqu'à 15 M€ ou 3 % du chiffre d'affaires mondial. Code of Practice finalisé mai-juin 2026. OpenAI, Google (SynthID), Adobe (C2PA) et Midjourney intègrent déjà les standards de provenance. Si vous diffusez du contenu IA en UE après cette date, l'enjeu n'est plus « faut-il watermarker » mais « est-ce que notre watermark passe les tests d'auditeur ».

Conclusion

Pas un seul modèle ne fait tout en avril 2026. C'est même probablement la conclusion la plus importante : le piège mental de chercher « le meilleur modèle IA » n'existe plus. Il y a des modèles qui dominent une catégorie pendant 6 mois, qui cèdent leur place, qui se spécialisent. La force opérationnelle ne vient plus du choix d'un modèle mais de la combinaison de plusieurs.

Concrètement, en production, voici ce qui marche : FLUX.2 ou GPT Image 2 sur l'image volume, Midjourney pour l'esthétique de marque, Veo 3.1 Lite ou Seedance 2.0 sur la vidéo courte, HeyGen ou Synthesia sur les avatars talking head, Tavus sur le conversationnel temps réel, Higgsfield ou Krea pour orchestrer plusieurs modèles en aval, n8n ou Claude Code pour automatiser le tout. Tous interchangeables, tous remplaçables le jour où un nouveau modèle sort.

Anticiper la bascule vers les world models interactifs, c'est anticiper que la « vidéo IA » au sens d'un clip linéaire ne sera plus le format dominant en 2027. Quand Google DeepMind, Runway et Alibaba tirent tous au même endroit, ce n'est pas un signal faible. Reconnaître que ce marché est en mouvement permanent, c'est arrêter de chercher « la solution définitive » : il n'y en aura pas, et c'est très bien comme ça.

La seule discipline qui tient en 2026, c'est la discipline d'agnosticisme effectif. Vos workflows doivent pouvoir changer de modèle sous-jacent en une variable d'environnement. Le 26 avril a prouvé que même Sora pouvait disparaître. Le 21 avril a prouvé que même FLUX.2 pouvait perdre la #1. Construisez en conséquence.