Google hat an der I/O 2026 mit Gemini 3.5 Flash ein mittleres Modell vorgestellt, das den eigenen Gemini 3.1 Pro auf praktisch jedem agentischen Benchmark schlägt – zu einem Drittel des Preises. Auf dem unabhängigen Intelligence Index liegt es nur zwei Punkte hinter Claude Opus 4.7, kostet aber rund ein Drittel pro Token.
Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.
Gemini 3.5 Flash schlägt Pro auf agentischen Benchmarks und kostet nur ein Drittel von Claude Opus 4.7 – Google macht Frontier-KI plötzlich billig.
Google hat an der I/O 2026 nicht das Frontier-Modell vorgestellt, das alle erwarteten. Stattdessen kam Gemini 3.5 Flash – das mittlere Modell der Familie. Und das hat es in sich: Es schlägt den eigenen Vorgänger Gemini 3.1 Pro auf praktisch jedem agentischen Benchmark – zu einem Drittel des Preises. Auf dem unabhängigen Artificial Analysis Intelligence Index liegt es bei 55 Punkten und damit nur zwei Zähler hinter Anthropics Claude Opus 4.7 – kostet aber rund ein Drittel pro Token.
Bisher galt eine simple Regel im Markt: Flash-Modelle sind günstig und schnell, Pro-Modelle sind teuer und smart. Mit 3.5 Flash kippt Google diese Logik. Konkret:
Damit liegt 3.5 Flash überall vor Gemini 3.1 Pro – und das, obwohl es technisch der «kleinere» Bruder ist. Eine 3.5-Pro-Variante ist in internem Test und soll im Juni folgen.
Hier wird es interessant für jeden, der KI im Geschäft einsetzt:
Modell | Input (pro 1M Tokens) | Output (pro 1M Tokens)
Gemini 3 Flash (alt) | 0,50 $ | 3,00 $
Gemini 3.5 Flash (neu) | 1,50 $ | 9,00 $
Gemini 3.1 Pro | 2,50 $ | 15,00 $
Claude Opus 4.7 | 5,00 $ | 25,00 $
3.5 Flash ist also dreimal teurer als das alte Flash – aber 40 % günstiger als Pro bei besserer Leistung. Und es ist rund ein Drittel des Preises von Claude Opus 4.7 bei nur zwei Indexpunkten Rückstand.
Simon Willison fasste es trocken zusammen: «Google plant offenbar, Flash für alles zu verwenden.»
Im Unterschied zu vielen Releases der vergangenen Monate ist 3.5 Flash nicht «coming soon», sondern ab dem 19. Mai live in:
Das Modell beherrscht Text, Bilder, Audio und Video als Input. Der Output-Tokenpool liegt bei 65 536 Tokens, das Kontextfenster bei einer Million. «Dynamic Thinking» – also der Wechsel zwischen schnellen und nachdenklicheren Antworten – ist standardmässig aktiviert.
Für Schweizer Unternehmen, die KI in Workflows einbauen, verschiebt sich die Rechnung neu. Wer bisher bei Pro-Modellen blieb, weil Flash nicht genug konnte, kann jetzt für unter der Hälfte des Token-Preises auf 3.5 Flash umsteigen – ohne Qualitätsverlust. Vor allem in Agent-Pipelines, wo schnell viele kurze Calls anfallen, wird das spürbar billiger.
Auch für API-Konkurrenten wird es enger: Anthropic muss bei Opus 4.7 entweder massiv im Preis runter oder klar im Leistungsabstand vorlegen. OpenAI hatte mit GPT-5.5 Instant am 5. Mai bereits einen ähnlichen Schritt gemacht – jetzt zieht Google nach und legt sogar drauf.
Google macht hier zwei Dinge gleichzeitig: Es positioniert Flash als das neue «Default-Modell» für die breite Masse und hält Pro als Premium-Stufe für die wenigen Aufgaben zurück, bei denen 5 Punkte mehr auf dem Intelligence Index die fünffachen Token-Kosten rechtfertigen. Für die Hälfte aller produktiven KI-Workloads dürfte 3.5 Flash ab heute das vernünftigste Werkzeug sein.
Und für alle, die noch auf das «echte» Frontier-Modell warten: Gemini 3.5 Pro kommt im Juni. Bis dahin reicht der Flash – und das ist die eigentliche Nachricht.