Googles neues, offenes Modell DiffusionGemma erzeugt Text nicht Wort für Wort, sondern ganze Blöcke auf einmal – wie ein Bildgenerator aus Rauschen ein Motiv schärft. Das macht es bis zu viermal schneller und lässt es lokal auf dem eigenen Rechner laufen.
Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.
DiffusionGemma überträgt den Trick der Bildgeneratoren auf Text: ganze Blöcke statt Wort für Wort – viermal schneller und offen für den eigenen Rechner.
Die meisten KI-Modelle schreiben Text Wort für Wort, von links nach rechts. Googles neues DiffusionGemma macht es anders – und ist dabei bis zu viermal schneller.
Der Name verrät den Trick. Bildgeneratoren wie Midjourney starten mit einem Bild aus reinem Rauschen und schärfen es Schritt für Schritt zum fertigen Motiv – das nennt man Diffusion. DiffusionGemma überträgt genau dieses Prinzip auf Text: Statt ein Wort nach dem anderen vorherzusagen, entwirft das Modell einen ganzen Block von bis zu 256 Zeicheneinheiten auf einmal und verfeinert ihn parallel.
Weil dabei viele Teile gleichzeitig statt nacheinander entstehen, wird das Ganze deutlich schneller. Auf einer professionellen NVIDIA-H100-Grafikkarte schafft das Modell über 1000 Zeicheneinheiten pro Sekunde, auf einer High-End-Gamerkarte (RTX 5090) immerhin noch über 700.
Das Tempo hat seinen Preis. Google selbst nennt DiffusionGemma ein experimentelles Modell und räumt ein: Die Textqualität liegt unter der des regulären Gemma 4. Wer maximale Qualität braucht, soll laut Google weiterhin das Standardmodell nehmen.
Technisch ist DiffusionGemma ein Mixture-of-Experts-Modell – vereinfacht gesagt sind im Modell viele Spezialisten versammelt, von denen je nach Aufgabe nur ein Teil aktiv wird. Von insgesamt 26 Milliarden Parametern sind pro Anfrage nur rund 3,8 Milliarden im Einsatz. Das hält den Rechenaufwand tief.
Der für viele wichtigste Punkt: DiffusionGemma ist offen und unter der freien Apache-2.0-Lizenz verfügbar. Quantisiert (also auf weniger Speicher zusammengestaucht) passt es in die 18 Gigabyte einer guten Consumer-Grafikkarte.
Konkret heisst das: Man kann das Modell lokal auf dem eigenen Gerät laufen lassen, ohne dass Daten an einen Cloud-Anbieter wandern. Gerade in der Schweiz, wo Datenschutz und digitale Souveränität hoch im Kurs stehen – Stichwort das hiesige offene Sprachmodell Apertus – ist das ein Argument. Für schnelle Entwürfe, Autovervollständigung oder Tests ist ein vier Mal schnelleres Modell auf dem eigenen Laptop attraktiv, auch wenn der letzte Schliff dann von einem stärkeren Modell kommt.