Google hat an der I/O 2026 sein erstes Omni-Modell vorgestellt. Es generiert aus Text, Bild und Audio gleichzeitig ein 10-Sekunden-Video – ab sofort in YouTube Shorts mit SynthID-Watermark.
Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.
Google bringt mit Gemini Omni Flash das erste massentaugliche Video-Modell mit nicht-optionalem SynthID-Wasserzeichen – ein neuer Provenance-Standard.
Google hat an der I/O 2026 sein erstes Omni-Modell vorgestellt: Gemini Omni Flash. Ein Modell, das Text, Bild, Audio und Video gleichzeitig versteht und daraus ein 10-Sekunden-Video mit synchronisiertem Ton erzeugt. Live seit 19. Mai – in der Gemini-App, in Google Flow und in den YouTube Shorts.
Bisher mussten Video-Generatoren wie Veo, Sora oder Runway mehrere spezialisierte Modelle hintereinanderschalten: eines für die Bildkomposition, eines für die Bewegung, eines für den Ton. Omni Flash macht das in einem einzigen Forward-Pass: Du wirfst Text, ein paar Bilder, eine Sprachaufnahme rein – und bekommst einen fertigen Clip zurück, der alle Modalitäten konsistent verbindet.
Demis Hassabis sprach an der Keynote von einem «World Model»: Omni soll nicht nur hübsche Bilder generieren, sondern Physik, Kausalität und narrative Struktur verstehen. Konkret: Wenn du eine Tasse vom Tisch fallen lässt, soll sie unten zerbrechen – und nicht in Zeitlupe wegfliegen.
Gemini Omni Flash ist live in folgenden Produkten:
Eine Funktion fehlt bewusst: Audio-Editing innerhalb eines generierten Videos. Du kannst also nicht nachträglich die Stimme im Clip ändern oder eine andere Sprache reinsetzen. Google nennt das eine «zurückgehaltene Capability» – mit Verweis auf Deepfake-Risiken.
Das Sicherheits-Pendant zum Modell ist SynthID. Jeder Clip, der mit Omni Flash erzeugt wird, bekommt ein unsichtbares Wasserzeichen direkt im Bild- und Audiosignal. Verifizieren kannst du es über die Gemini-App, über Google Chrome oder über die Google-Suche – einfach das Video reinziehen, und du siehst, ob es KI-generiert ist.
SynthID ist nicht optional. Jeder Output trägt ein imperzeptibles Wasserzeichen, das in der Gemini-App, in Chrome und in der Google-Suche verifizierbar ist.
Damit setzt Google einen Standard, den weder OpenAI noch xAI bisher flächendeckend ausrollen. Wenn YouTube Shorts ab dieser Woche markierte Omni-Videos in den Feed kippt, wird SynthID quasi über Nacht zur weltweit am breitesten ausgerollten Provenance-Technologie.
Sora 2 von OpenAI gilt qualitativ als ebenbürtig, ist aber nicht in einem Massenprodukt mit dreistelligen Millionen-Nutzern verfügbar. Mit Omni Flash kombiniert Google drei Vorteile, die OpenAI fehlen:
Das ist die eigentliche I/O-Botschaft: Google verschenkt Video-Generation nicht aus Grosszügigkeit, sondern macht sie zum Standard – damit Sora, Veo und Runway nicht zum Standard werden.
Wenn du YouTube Shorts oder die Gemini-App nutzt, kannst du diese Woche das erste Mal Videos direkt per Chat erzeugen. Für Schweizer Content-Creators heisst das: Ein Drehtag wird oft günstiger durch ein 20-Sekunden-Prompt-Set. Aber: Sobald dein Clip eine Person zeigt, die etwas sagt, was sie nie gesagt hat, weist SynthID ihn als KI-generiert aus. Was wie eine Einschränkung wirkt, ist faktisch ein Branchenvorteil – wer ehrlich kommuniziert, gewinnt Vertrauen.
Google hat einen zweiten Omni-Modus angeteasert: Avatar Mode. Damit könnte ein Nutzer sich selbst in beliebige Videos hineinsetzen lassen. Diese Fähigkeit ist explizit «held back» bis weitere Sicherheitsmechanismen greifen. Heisst: Spätestens Anfang 2027 dürfte dieser Modus kommen – und dann wird die nächste Welle der Deepfake-Debatten losgehen.