19 mai 2026, Google I/O. Koray Kavukcuoglu, CTO de Google DeepMind, annonce Gemini Omni, nouvelle famille de modèles vidéo génératifs. Le même jour, l'équipe YouTube dévoile Ask YouTube, une recherche conversationnelle alimentée par Gemini qui remplace l'approche par mots-clés. Deux annonces, un même terrain : YouTube. La première injecte la création vidéo IA dans Shorts, gratuitement. La seconde re-architecture la découverte sur l'ensemble du catalogue. Lues ensemble, elles dessinent la doctrine que Google compte appliquer au prochain cycle IA : création IA en haut du funnel, découverte IA en bas, le tout sur sa propre plateforme.
Sources : blog.google, 9to5Google, TechCrunch.
Sommaire
- Ce qui a vraiment été annoncé
- « Omni » : trois lectures du nom
- Création IA dans YouTube Shorts, gratuitement
- Ask YouTube : la découverte conversationnelle
- Pricing Google AI Plus / Pro / Ultra et le tournant compute-used
- La carte de la concurrence : Sora 2, Veo 3.1, Runway, Kling, Seedance
- SynthID, C2PA, AI Act et l'échéance du 2 décembre
- Ce qu'il faut retenir
- FAQ
- Sources
1. Ce qui a vraiment été annoncé
L'annonce officielle est signée par Koray Kavukcuoglu, CTO de Google DeepMind, sur le blog Google (Introducing Gemini Omni). La page modèle officielle deepmind.google/models/gemini-omni résume le positionnement en une formule : « Think of Gemini Omni like Nano Banana, but for video. » Les capacités décrites :
La promesse marketing tient en une formule : n'importe quoi en entrée devient une vidéo. La nouveauté réelle, technique, ne tient pas là. Elle tient dans le passage d'un modèle de génération en un coup (Veo 3, Sora 2 première génération) à un modèle de création conversationnelle. Vous obtenez un premier clip, vous demandez une modification, le clip suivant garde le même personnage, la même physique, le même décor. Ce changement de paradigme est, pour la vidéo, ce que Claude Code a été pour la programmation : un objet itinérant, éditable phrase par phrase, plutôt qu'un livrable final.
L'autre nouveauté importante est la fonction Avatar : l'utilisateur peut générer des vidéos dans lesquelles il apparaît lui-même, avec sa voix. Le sujet du deepfake n'est plus une menace extérieure à combattre, c'est devenu une fonctionnalité vendue par le constructeur. Le couple SynthID + C2PA Content Credentials est la réponse de Google à cette tension : marquer chaque vidéo à deux niveaux, le tatouage statistique invisible (SynthID) et les métadonnées de provenance standardisées (C2PA, portées par Adobe, Microsoft, BBC et OpenAI).
Quatre exemples publiés par DeepMind donnent une idée concrète de ce que le modèle sait faire :
Vidéos : Google DeepMind, mai 2026.
Chaîne YouTube Google. Présentation du modèle, des capacités et de la philosophie de création conversationnelle.
La même capacité vue côté outil créatif : l'agent Flow orchestre les actions sur la timeline.
Pour un regard tiers, et un tour d'horizon des capacités en main d'un créateur (et non sur scène), la vidéo ci-dessous reprend les fonctions principales d'Omni en condition d'usage, avec exemples de transformation vidéo-vers-vidéo et tests de cohérence personnage.
Prise en main et limites observées par Paul J Lipsky. À comparer avec les démos officielles Google ci-dessus.
Pour mettre Omni Flash en perspective face à son concurrent le plus direct sur la qualité vidéo pure, le créateur JSFILMZ a confronté les deux modèles sur les mêmes prompts le jour même de l'annonce. Un point d'entrée utile avant la section ByteDance plus bas.
Benchmark visuel par JSFILMZ. Les mêmes prompts passés aux deux modèles, le même jour de l'annonce Omni.
2. « Omni » : trois lectures du nom
Pendant 48 heures avant l'annonce, la communauté s'est interrogée sur le statut exact d'Omni vis-à-vis de Veo 3.1. La page modèle officielle DeepMind tranche en une phrase : Think of Gemini Omni like Nano Banana, but for video.
Lecture 1 — le visage public de la stack vidéo de Google (officielle). Nano Banana était le nom marketing d'une expérience d'édition d'image conversationnelle qui repose sur Gemini Flash Image. Omni reprend la même logique pour la vidéo : une couche conversationnelle au-dessus d'un moteur vidéo qui reste, au moins en partie, la lignée Veo. La page Gemini Video Generation continue d'ailleurs d'afficher Veo 3.1 comme moteur (gemini.google). Cette lecture est la plus simple et c'est celle que Google revendique.
Lecture 2 — nouveau modèle Gemini-natif. La formulation officielle « first model in the Omni family » laisse entendre qu'on lance une famille de modèles nouveaux, et pas seulement une interface. Cette lecture n'est pas contradictoire avec la précédente : Omni Flash peut s'appuyer sur Veo côté vidéo tout en étant un objet de modèle distinct, finetune ou architecture étendue pour la conversation.
Lecture 3 — véritable modèle omni. La famille Omni vise à terme l'unification image + vidéo + audio dans la même architecture. C'est compatible avec l'annonce que les sorties image et audio arrivent dans des releases ultérieures. Si cette ambition se confirme, Omni est l'archétype de la prochaine génération de modèles Google : un seul moteur à entraîner, à optimiser, à servir — la réponse stratégique au pattern GPT-4o côté OpenAI.
3. Création IA dans YouTube Shorts, gratuitement
La phrase la plus importante de l'annonce n'est pas dans le post de blog principal. Elle est dans le post compagnon de l'équipe YouTube : Gemini Omni est gratuit pour les créateurs Shorts, déploiement cette semaine (9to5Google). Trois conséquences immédiates.
Premièrement, c'est une attaque frontale sur le segment création amateur. OpenAI a sorti l'application Sora avec Sora 2 en septembre 2025 et l'a positionnée comme un réseau social autonome. ByteDance pousse Seedance dans CapCut et TikTok. Google n'a pas besoin d'inventer un réseau social : YouTube Shorts est déjà installé chez plusieurs milliards d'utilisateurs YouTube actifs. Y injecter Omni gratuitement, c'est mettre la création IA directement dans la main de l'utilisateur, sans friction, sans inscription supplémentaire.
Deuxièmement, c'est une opération de données. Chaque vidéo générée sur Shorts produit, en parallèle du livrable, un signal d'apprentissage massif : prompt, version retenue, versions rejetées, édits successifs, durée de visionnage, partages. La gratuité n'est pas un cadeau. C'est l'achat d'un pipeline de RLHF vidéo à l'échelle, dont aucun concurrent ne dispose. OpenAI a la donnée ChatGPT. Google s'achemine vers une donnée vidéo conversationnelle de même ampleur.
Troisièmement, c'est une question posée à TikTok. ByteDance est aujourd'hui l'acteur qui combine le mieux distribution courte vidéo et capacité IA — Seedance reste très compétitif sur la qualité pure (premières évaluations qualitatives). Mais ByteDance opère dans un contexte géopolitique défavorable aux États-Unis, et son accès aux infrastructures NVIDIA reste plafonné. Google entre en force sur le seul terrain où TikTok pouvait espérer rester intouchable.
4. Ask YouTube : la découverte conversationnelle
L'autre annonce de la journée, côté YouTube, s'appelle Ask YouTube. Une refonte de la recherche sur la plateforme, alimentée par Gemini. L'utilisateur ne tape plus des mots-clés, il pose une question complexe, et le moteur lui assemble une réponse composée des vidéos les plus pertinentes sur l'ensemble du catalogue YouTube (9to5Google).
Trois éléments à retenir.
L'accès est restreint. Ask YouTube est réservé aux abonnés YouTube Premium âgés de plus de 18 ans. Déploiement progressif sans date précise communiquée. C'est un test grandeur nature dont l'audience est segmentée : ceux qui paient, et qui sont majeurs. Logique d'apprentissage prudent avant généralisation.
Ce n'est pas un produit de plus, c'est une refonte du contrat. Pendant vingt ans, YouTube a fonctionné sur un déal implicite : les utilisateurs cherchent des mots-clés, l'algorithme apprend, les créateurs optimisent (titre, miniature, mots-clés) pour apparaître dans cette recherche. Ask YouTube court-circuite la couche créateur. La machine assemble une réponse en piochant ce qu'elle veut, où elle veut. Les créateurs perdent la maîtrise de leur point d'entrée.
C'est le pendant découverte d'Omni côté création. Pris séparément, Ask YouTube est une amélioration produit. Pris avec Gemini Omni dans Shorts, il dessine une plateforme où Google contrôle les deux extrémités du tunnel : l'IA aide à créer la vidéo, l'IA aide à la trouver. Tout l'écosystème passe par les modèles Gemini.
5. Pricing Plus / Pro / Ultra et le tournant compute-used
L'autre annonce structurante de I/O 2026, en parallèle d'Omni, concerne le pricing des abonnements Google AI (blog.google — Google AI subscriptions, Engadget).
| Offre | Prix mensuel | Accès Omni | Cible |
|---|---|---|---|
| YouTube Shorts | Gratuit | Inclus | Créateurs grand public, volume |
| Google AI Plus | 7,99 $ | Inclus (limité) | Particuliers équipés, alternative directe à ChatGPT Plus |
| Google AI Pro | 19,99 $ | Inclus | Power users, professionnels solo |
| Google AI Ultra (entrée) | 100 $ | Inclus, quotas étendus | Développeurs, tech leads, créateurs avancés |
| Google AI Ultra (top) | 200 $ (ex-250 $) | Accès complet | Studios, équipes vidéo, usage soutenu |
Deux mouvements à lire en même temps. Premièrement, Plus à 7,99 $/mois : Google sape ChatGPT Plus, installé à 20 $/mois depuis trois ans. La cible n'est pas l'utilisateur Pro existant. C'est l'utilisateur curieux qui n'avait jamais sauté le pas, et qui dispose désormais d'une option premier prix avec accès vidéo IA. Deuxièmement, Ultra passe de 250 $ à 200 $ et un nouveau palier « développeur » apparaît à 100 $. Lecture franche : le pricing initial Ultra était trop haut, l'élasticité prix a été mal estimée. La gamme est ré-étagée proprement.
Le troisième élément, plus discret, est introduit dans la même annonce : un « compute-used limitation model » qui module l'accès en fonction de la complexité du prompt plutôt que d'un quota fixe de messages quotidiens. C'est le glissement, pour un produit consumer, vers une logique de métering proche de celle de l'API. La génération vidéo IA est cinquante à cent fois plus coûteuse, en compute, qu'une réponse texte standard. Le modèle forfaitaire pur ne tient plus.
5. La carte de la concurrence
Gemini Omni débarque dans un marché déjà dense.
Sora 2 (OpenAI) reste le concurrent direct le plus visible. Sortie le 30 septembre 2025, accessible via l'application Sora et l'API en preview, elle a imposé les codes du segment : audio synchronisé, physique soignée, app sociale autonome. Sora 2 garde une longueur d'avance sur la qualité pure des plans courts dans plusieurs comparaisons qualitatives indépendantes, mais peine sur l'édition longue et la cohérence multi-scène, justement le terrain où Omni revendique son avantage.
Veo 3.1 (Google DeepMind) reste actif. La page Gemini Video Generation continue d'afficher Veo 3.1 comme moteur. Pour les développeurs déjà sur Vertex AI ou l'API Gemini en mode vidéo, rien ne change immédiatement. La migration vers Omni se fera, mais Google a soigneusement évité de fixer une date de sunset.
Runway Gen-4, Kling 2.1 (Kuaishou), Seedance 2 (ByteDance) couvrent les niches créatives professionnelles. Runway est devenu un standard dans la production publicitaire et le post-prod cinéma. Kling et Seedance dominent la qualité cinétique pure. Aucun de ces trois n'a la même capacité de distribution grand public que Google sur Shorts — mais leurs APIs et leurs outils workflow restent plus matures pour les cas d'usage studio.
Le segment open weights (HunyuanVideo, Wan 2.5, Mochi) progresse vite mais reste un cran derrière sur la cohérence personnage et la durée. Pour un usage entreprise contraint par la souveraineté ou par le coût d'inférence, ces options redeviennent intéressantes — surtout si Gemini Omni Pro garde un accès API limité aux plans à 100 $ et plus.
La consolidation, à horizon douze à dix-huit mois, ressemblera vraisemblablement à ce qui s'est passé pour l'image en 2024-2025 : deux ou trois modèles frontier généralistes (Omni, Sora successeur, peut-être Veo 4), une poignée d'outils créatifs verticaux (Runway, Pika, ElevenLabs côté voix), et un écosystème open weights utile mais en retard structurel.
6. SynthID, C2PA, AI Act et l'échéance du 2 décembre
Google joue la traçabilité sur deux niveaux. Premièrement, SynthID, un watermark statistique imperceptible appliqué à toutes les vidéos générées par Omni, vérifiable dans l'app Gemini. Deuxièmement, les C2PA Content Credentials, métadonnées de provenance standardisées portées par la Coalition for Content Provenance and Authenticity (Adobe, Microsoft, BBC, OpenAI, Sony, Intel) et embarquées directement dans le fichier vidéo.
La motivation n'est pas seulement éthique, elle est réglementaire. L'accord politique de la Commission européenne sur l'omnibus AI Act, conclu le 7 mai 2026, a confirmé l'obligation de divulgation des contenus IA au 2 décembre 2026 (communiqué Commission, 7 mai 2026, notre récap du 15 mai). Marquer SynthID + C2PA dès le lancement, c'est se mettre en conformité avant que la règle entre en vigueur, et accessoirement mettre la pression sur les concurrents qui ne le font pas systématiquement. Sora 2 utilise un watermark visible. Kling et Seedance ont des dispositifs inégaux. L'AI Act va, dans les six prochains mois, éclairer les retards.
Google annonce par ailleurs un dispositif de sécurité en deux couches : red teaming humain mené par des équipes externes spécialisées, et red teaming automatisé, conformément à ses propres Generative AI policies. La page DeepMind insiste sur le fait que la capacité d'édition Avatar est encore en phase de calibrage : l'utilisateur peut s'incarner dans une vidéo, mais l'édition vidéo-vers-vidéo avec modification de la voix d'autrui reste verrouillée en test interne.
Une question reste ouverte : la robustesse de SynthID et la persistance des C2PA Content Credentials. Le watermark statistique survit-il à un ré-encodage agressif, un upscale, un montage image par image ? Les métadonnées C2PA résistent-elles à un export passe-partout ? Aucune évaluation publique récente ne quantifie le taux de faux négatif sur vidéo transformée. Les outils de vérification existent. La preuve juridique à coup sûr, non.
Pour les opérateurs concernés par l'AI Act, deux décisions sont à prendre dans les six mois. Premièrement, établir un système de traçabilité interne des contenus IA dans les pipelines éditoriaux ou produit, indépendant du watermark du fournisseur. Deuxièmement, formaliser la divulgation publique — mention textuelle, métadonnées C2PA, signalement à l'utilisateur final. L'outillage Google est utile, ce n'est pas une preuve juridique à lui seul.
7. Ce qu'il faut retenir
| Thème | Mouvement | Conséquence immédiate |
|---|---|---|
| Modèle | Gemini Omni Flash dispo le 19/05/2026 | Premier modèle d'une famille « omni ». Sortie vidéo, sortie image et audio à venir. |
| Distribution | Gratuit sur YouTube Shorts & Create | Attaque frontale sur le créateur amateur. Achat d'un pipeline RLHF vidéo à l'échelle. |
| Pricing | Plus 7,99 $ · Pro 19,99 $ · Ultra 100/200 $ | Sape ChatGPT Plus. Compute-used limitation introduit la facturation à la complexité. |
| Concurrence | Sora 2, Veo 3.1, Runway, Kling, Seedance | Course à deux niveaux : modèles frontier généralistes vs outils créatifs verticaux. |
| Réglementaire | SynthID systématique, AI Act au 2/12/2026 | Conformité anticipée. La traçabilité interne reste à construire côté opérateurs. |
| Ambiguïté produit | Omni vs Veo 3.1 non clarifié | Ne pas parier sur la stabilité du nom de modèle. Coder contre l'API, pas contre la marque. |
Premièrement, la création vidéo IA bascule du livrable unique vers la conversation. C'est le même mouvement qui a fait passer la génération de code du one-shot au dialogue itératif. Toute startup vidéo IA qui reste sur un workflow « prompt → résultat » va devoir se mettre à jour, vite.
Deuxièmement, Google rejoue sur la vidéo la même partition que sur la recherche dans les années 2000 : capter la création amateur en gratuit, accumuler la donnée, vendre la profondeur aux pros via les abonnements. La distribution YouTube est l'arme structurelle qui manque à tous les concurrents.
Troisièmement, le compute vidéo IA est en train de devenir une variable de gestion produit. Quotas dynamiques, facturation à la complexité, latence variable. Pour qui bâtit un produit IA côté vidéo, modéliser le coût marginal et le passer correctement dans la grille tarifaire devient un sujet de design produit à part entière.
8. FAQ
Qu'est-ce que Gemini Omni ?
Une nouvelle famille de modèles vidéo génératifs annoncée par Google le 19 mai 2026 à Google I/O. Le premier modèle, Gemini Omni Flash, accepte en entrée du texte, des images, de l'audio et de la vidéo. Il produit en sortie de la vidéo éditable en langage naturel. Les sorties image et audio sont annoncées pour des releases ultérieures, ce qui suggère une architecture véritablement multimodale.
Quelle différence avec Veo 3.1 ?
Google n'a pas clarifié officiellement le statut de Veo 3.1 face à Omni. Trois lectures coexistent : rebrand commercial avec Veo en moteur, nouveau modèle Gemini-natif, ou véritable modèle omni générant image, vidéo et audio. La page Gemini Video Generation continue de mentionner Veo 3.1, ce qui plaide pour une cohabitation au moins temporaire.
Combien coûte Gemini Omni ?
Gemini Omni Flash est inclus, sans surcoût, dans tous les abonnements payants Google AI : Plus à 7,99 $/mois, Pro à 19,99 $/mois, Ultra à 100 $/mois ou 200 $/mois selon le palier. Il est gratuit dans YouTube Shorts et YouTube Create. Les APIs développeur et entreprise arrivent dans les semaines suivant le lancement.
Que faut-il savoir sur le watermark SynthID ?
SynthID est un marquage numérique imperceptible appliqué sur toutes les vidéos générées par Omni. Il est vérifiable dans l'app Gemini. Sa robustesse contre les ré-encodages et les transformations lourdes n'est pas documentée publiquement à ce stade. Pour les opérateurs soumis à l'AI Act, SynthID est un appui utile mais pas une preuve juridique à lui seul : une traçabilité interne reste à construire.
Faut-il migrer un produit existant de Veo 3.1 vers Omni ?
Pas dans la précipitation. Veo 3.1 reste actif. Aucune date de sunset n'a été communiquée. La recommandation est triple : suivre la sortie de l'API Omni développeur dans les semaines à venir, comparer coût et qualité réels sur un cas d'usage représentatif, et abstraire votre code derrière une couche de service interne pour pouvoir basculer sans toucher au produit final.
Quels concurrents directs surveiller ?
Sora 2 (OpenAI) sur la qualité et l'audio synchronisé, Runway Gen-4 sur les workflows studio, Kling 2.1 et Seedance 2 sur la qualité cinétique pure, et l'écosystème open weights (HunyuanVideo, Wan 2.5, Mochi) pour les usages contraints par la souveraineté ou le coût.
9. Sources
- Introducing Gemini Omni — Koray Kavukcuoglu, blog Google, 19 mai 2026.
- Gemini Omni — DeepMind model page — capacités, sécurité, comparaison « like Nano Banana, but for video ».
- 9to5Google — déploiement Omni dans YouTube Shorts et Ask YouTube.
- TechCrunch — refonte de l'app Gemini face à ChatGPT et Claude.
- Engadget — nouveau palier Google AI Ultra à 100 $ et baisse du palier top à 200 $.
- Everything new in our Google AI subscriptions — nouvelle structure tarifaire Plus / Pro / Ultra.
- BFMTV Tech — Ask YouTube et Gemini Omni au I/O 2026, lecture francophone de l'annonce.
- Les Numériques — couverture francophone du modèle multimodal.
- Commission européenne — accord politique sur l'omnibus AI Act, 7 mai 2026.
- AI & Analytics Diaries (Uttam) — premières comparaisons qualitatives Omni vs Seedance 2.
Décryptage IA d'Otium. Pour les annonces de la semaine en format synthétique, voir le silo Décryptage IA et notre récap hebdomadaire publié tous les vendredis.