Google hat am 2. April seine neue Gemma-4-Familie veröffentlicht – jetzt unter der offenen Apache-2.0-Lizenz statt hinter Googles proprietärem Schleier. Das könnte bedeutender sein als die Benchmarks selbst.
Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.
Apache 2.0 macht Gemma 4 zur ersten echten Open-Source-Alternative für die Entwicklung auf Unternehmensebene.
Ja, die 31B-Dense-Variante ist mit einem Arena-AI-ELO von 1'452 global die #3 unter den Open-Source-Modellen. Die 26B MoE (Mixture-of-Experts) aktiviert nur 4B Parameter gleichzeitig – eine Quote von "Intelligenz pro Parameter", die es so noch nicht gab. Aber ehrlich? Die echte Nachricht ist die Apache-2.0-Lizenz.
Das bedeutet für dich: Du darfst Gemma 4 trainieren, finetunen, kommerziell nutzen – ohne juristische Hürden. Google hat damit eine echte Barriere abgebaut. VentureBeat fasst es treffend zusammen: Diese Lizenzänderung könnte wichtiger sein als jeder Benchmark-Punkt.
Die 31B-Version zeigt beeindruckende Zahlen: 89,2 % auf AIME 2026 (mathematisches Denken), 80 % auf LiveCodeBench v6 (Code-Verständnis). Das ist kein Spielzeug-Modell. Gleichzeitig läuft die Variante überraschend schnell. Georgi Gerganov (bekannt von llama.cpp) zeigte, dass Gemma 4 auf M2-Ultra-Hardware 300 Token pro Sekunde verarbeitet.
Noch interessanter: Die Edge-Modelle E2B und E4B. Die E4B-Variante schafft immer noch 42,5 % auf AIME 2026. Das ist nicht wenig für 4 Milliarden Parameter.
Sebastian Raschka merkte an, dass der architektonische Sprung von 27B auf 31B klein ausfällt. Die echten Gewinne kommen aus dem Training-Setup und der Daten-Kurierung. Das zeigt: Google bastelt jetzt an Effizienzmechanismen statt nur an Rohkraft.
Nathan Lambert ist vorsichtig optimistisch, warnt aber vor bekannten Finetuning- und Tooling-Problemen. Die Community muss hier noch nachziehen. Cloudflare hat Gemma 4 bereits auf Workers AI verfügbar gemacht – das bedeutet: Deine nächste Edge-Function könnte damit laufen.
Lightning AI zeigt mit 105,4 Token pro Sekunde bei nur 0,20 Dollar pro Million Tokens, dass das Deployment skaliert. NVIDIA hat mit NVFP4-Quantisierung eine 4-Bit-Kompression veröffentlicht, die 99,7 % der Baseline-Genauigkeit hält.
Gemma 4 ist nicht das grösste Modell. Es ist aber das offenste Modell dieser Grösse – und das ist ein echter Shift. Für Teams, die an KI-Anwendungen bauen, ohne sich an OpenAI, Anthropic oder Meta binden zu wollen, ist das eine echte Option geworden. Die Infrastruktur-Partner haben bereits reagiert. Jetzt ist die Frage: Werden die Developer-Tools und Fine-Tuning-Recipes folgen?
Das Potenzial steckt in der Kombination: offene Lizenz, solide Performance auf kleinerer Hardware, aktive Deployment-Partner. Nicht revolutionär – aber pragmatisch. Und genau das braucht es gerade in der KI-Infrastruktur.