Gemini 3.1 Flash-Lite ist GA – Google macht Billig-KI für Agenten salonfähig

Google hat am 8. Mai Gemini 3.1 Flash-Lite auf der Gemini Enterprise Agent Platform GA gemacht. Mit 0,25 Dollar pro Million Input-Tokens und 2,5-mal schnellerer Time-to-First-Token zielt das Modell auf Hochvolumen-Workflows – und unterbietet OpenAI sowie Anthropic im Preis.

Google hat am 8. Mai bekannt gegeben, dass Gemini 3.1 Flash-Lite auf der Gemini Enterprise Agent Platform allgemein verfügbar ist. Das Modell zielt klar auf eine Lücke, die OpenAIs GPT‑5.5 und Anthropics Claude im Frontier-Segment offenlassen: Workloads, bei denen Latenz und Preis die wichtigsten Kennzahlen sind.

25 Cent pro Million Tokens – und 2,5x schneller

Mit 0,25 Dollar pro Million Input-Tokens und 1,50 Dollar pro Million Output-Tokens ist Flash-Lite das günstigste Modell der Gemini-3-Reihe. Laut Google-Benchmarks liefert es im Vergleich zum Vorgänger Gemini 2.5 Flash eine 2,5-mal schnellere Time to First Token und 45 Prozent mehr Output-Geschwindigkeit – bei vergleichbarer oder besserer Qualität.

Auf dem Arena.ai-Leaderboard erreicht Flash-Lite einen Elo-Score von 1432. In den akademischen Benchmarks GPQA Diamond (86,9 Prozent) und MMMU Pro (76,8 Prozent) schlägt das Modell sogar grössere Gemini-Generationen wie 2.5 Flash. Wichtig für Agenten-Workflows: Die «Thinking Levels» lassen sich pro Anfrage steuern – kurze Replies kosten wenig Compute, komplexe Reasoning-Aufgaben dürfen länger denken.

Erste Kunden, harte Zahlen

Google nennt eine Reihe Kunden, die Flash-Lite bereits produktiv einsetzen:

JetBrains integriert das Modell in seinen Junie-Agenten und in den IDE-Assistenten – laut AI-Director Vladislav Tankov der «perfekte Mix aus Intelligenz und minimaler Latenz»
Gladly wickelt mit Flash-Lite Millionen Kundendialoge pro Woche über SMS, WhatsApp und Instagram ab – ungefähr 60 Prozent günstiger als bei vergleichbaren Reasoning-Modellen, mit p95-Latenz um 1,8 Sekunden und 99,6 Prozent Erfolgsrate
Ramp nutzt Flash-Lite für latenzkritische Funktionen in seiner Finanz-Plattform
AlphaSense, OffDeal, krea.ai und das Gaming-Startup Astrocade stehen ebenfalls auf der Referenzliste

Was das im Wettbewerb verschiebt

Flash-Lite zielt auf den Sweet Spot zwischen Smart und Schnell: Tool-Calling, Klassifizierung, Übersetzung, Content-Moderation, agentische Pipelines mit hoher Frequenz. Google positioniert das Modell explizit gegen GPT‑5 mini, Claude 4.5 Haiku und Grok 4.1 Fast – und unterbietet sie laut eigener Tabelle bei Output-Speed wie Preis.

Für dich als Entwickler oder Team-Lead heisst das: Wer bislang Reasoning-Modelle in High-Volume-Pipelines verbrannt hat, kann ab sofort deutlich günstiger auf Flash-Lite umsteigen, ohne Qualität in den meisten Standardfällen zu verlieren. Die Botschaft an OpenAI und Anthropic ist eindeutig: Im Volumen-Segment macht Google jetzt den Preis.

Verfügbar ist das Modell über die Gemini API in Google AI Studio sowie für Enterprise-Kunden über Vertex AI und die neue Gemini Enterprise Agent Platform.

GPT-Realtime-2: OpenAI bringt Voice mit GPT-5-Hirn und Echtzeit-Übersetzung

OpenAI hat drei neue Voice-Modelle veröffentlicht: GPT-Realtime-2 mit GPT-5-Reasoning, GPT-Realtime-Translate für Live-Übersetzung in 70 Sprachen und GPT-Realtime-Whisper für Streaming-Transkription. Voice ist damit nicht mehr Demo-Feature, sondern operativer Bauklotz für Produkte.

Drei API-Endpunkte – Reasoning-Voice, Live-Translation und Streaming-Transkription – die das Voice-Modell zum echten Produkt-Bauklotz machen.

Illustration einer Rakete auf Startrampe nachts mit Kontrollturm, kinewsletter.ch Stil

KI-Business

7. Mai 2026

Anthropic mietet das ganze Colossus-1 von SpaceX – und Claude Code verdoppelt die Limits

Anthropic hat einen Compute-Deal mit SpaceX über die volle Kapazität des Colossus-1-Datacenters in Memphis verkündet: 300 Megawatt, über 220'000 NVIDIA-GPUs. Parallel verdoppeln sich die 5h-Limits in Claude Code, die Peak-Hour-Drosselung fällt weg, und API-Limits für Opus steigen massiv. Im Vertrag versteckt: Interesse an orbitaler Compute-Kapazität.

Mehr Compute, weniger Limits, härteres Statement im Compute-Wettrüsten – und Musks SpaceX als unerwarteter Lieferant.

Aufgeschlagenes Notizbuch mit handgeschriebenen Memory-Notizen, Aktenschrank mit Karteikarten, Lupe auf altem Brief, kinewsletter.ch Stil

Neue Modelle

7. Mai 2026

GPT-5.5 Instant ist neu der ChatGPT-Standard – mit weniger Halluzinationen und einem Speicher, der dir antwortet

OpenAI hat GPT-5.5 Instant ausgerollt: 52,5 % weniger Halluzinationen bei heiklen Themen und ein neues Memory-Sources-Feature, das endlich offenlegt, woran sich ChatGPT erinnert. Das Modell ist neuer Default in ChatGPT.

GPT-5.5 Instant ist der neue ChatGPT-Default mit 52,5 % weniger Halluzinationen und transparentem «Memory Sources»-Feature.

Gemini 3.1 Flash-Lite ist GA – Google macht Billig-KI für Agenten salonfähig

25 Cent pro Million Tokens – und 2,5x schneller

Erste Kunden, harte Zahlen

Google nennt eine Reihe Kunden, die Flash-Lite bereits produktiv einsetzen:

JetBrains integriert das Modell in seinen Junie-Agenten und in den IDE-Assistenten – laut AI-Director Vladislav Tankov der «perfekte Mix aus Intelligenz und minimaler Latenz»

Gladly wickelt mit Flash-Lite Millionen Kundendialoge pro Woche über SMS, WhatsApp und Instagram ab – ungefähr 60 Prozent günstiger als bei vergleichbaren Reasoning-Modellen, mit p95-Latenz um 1,8 Sekunden und 99,6 Prozent Erfolgsrate

Ramp nutzt Flash-Lite für latenzkritische Funktionen in seiner Finanz-Plattform

AlphaSense, OffDeal, krea.ai und das Gaming-Startup Astrocade stehen ebenfalls auf der Referenzliste

Was das im Wettbewerb verschiebt

Verfügbar ist das Modell über die Gemini API in Google AI Studio sowie für Enterprise-Kunden über Vertex AI und die neue Gemini Enterprise Agent Platform.

GPT-Realtime-2: OpenAI bringt Voice mit GPT-5-Hirn und Echtzeit-Übersetzung

Drei API-Endpunkte – Reasoning-Voice, Live-Translation und Streaming-Transkription – die das Voice-Modell zum echten Produkt-Bauklotz machen.

KI-Business

7. Mai 2026

Anthropic mietet das ganze Colossus-1 von SpaceX – und Claude Code verdoppelt die Limits

Mehr Compute, weniger Limits, härteres Statement im Compute-Wettrüsten – und Musks SpaceX als unerwarteter Lieferant.

Neue Modelle

7. Mai 2026

GPT-5.5 Instant ist neu der ChatGPT-Standard – mit weniger Halluzinationen und einem Speicher, der dir antwortet

GPT-5.5 Instant ist der neue ChatGPT-Default mit 52,5 % weniger Halluzinationen und transparentem «Memory Sources»-Feature.

Gemini 3.1 Flash-Lite ist GA – Google macht Billig-KI für Agenten salonfähig

25 Cent pro Million Tokens – und 2,5x schneller

Erste Kunden, harte Zahlen

Was das im Wettbewerb verschiebt

Fazit

Quellen

Das könnte dich auch interessieren

GPT-Realtime-2: OpenAI bringt Voice mit GPT-5-Hirn und Echtzeit-Übersetzung

Anthropic mietet das ganze Colossus-1 von SpaceX – und Claude Code verdoppelt die Limits

GPT-5.5 Instant ist neu der ChatGPT-Standard – mit weniger Halluzinationen und einem Speicher, der dir antwortet

Gemini 3.1 Flash-Lite ist GA – Google macht Billig-KI für Agenten salonfähig

25 Cent pro Million Tokens – und 2,5x schneller

Erste Kunden, harte Zahlen

Was das im Wettbewerb verschiebt

Fazit

Quellen

Das könnte dich auch interessieren

GPT-Realtime-2: OpenAI bringt Voice mit GPT-5-Hirn und Echtzeit-Übersetzung

Anthropic mietet das ganze Colossus-1 von SpaceX – und Claude Code verdoppelt die Limits

GPT-5.5 Instant ist neu der ChatGPT-Standard – mit weniger Halluzinationen und einem Speicher, der dir antwortet