Google hat am 8. Mai Gemini 3.1 Flash-Lite auf der Gemini Enterprise Agent Platform GA gemacht. Mit 0,25 Dollar pro Million Input-Tokens und 2,5-mal schnellerer Time-to-First-Token zielt das Modell auf Hochvolumen-Workflows – und unterbietet OpenAI sowie Anthropic im Preis.
Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.
Google kontert OpenAIs GPT-5 mini und Anthropics Claude Haiku mit dem günstigsten Modell der Gemini-3-Reihe – und macht im Volumen-Segment den Preis.
Google hat am 8. Mai bekannt gegeben, dass Gemini 3.1 Flash-Lite auf der Gemini Enterprise Agent Platform allgemein verfügbar ist. Das Modell zielt klar auf eine Lücke, die OpenAIs GPT‑5.5 und Anthropics Claude im Frontier-Segment offenlassen: Workloads, bei denen Latenz und Preis die wichtigsten Kennzahlen sind.
Mit 0,25 Dollar pro Million Input-Tokens und 1,50 Dollar pro Million Output-Tokens ist Flash-Lite das günstigste Modell der Gemini-3-Reihe. Laut Google-Benchmarks liefert es im Vergleich zum Vorgänger Gemini 2.5 Flash eine 2,5-mal schnellere Time to First Token und 45 Prozent mehr Output-Geschwindigkeit – bei vergleichbarer oder besserer Qualität.
Auf dem Arena.ai-Leaderboard erreicht Flash-Lite einen Elo-Score von 1432. In den akademischen Benchmarks GPQA Diamond (86,9 Prozent) und MMMU Pro (76,8 Prozent) schlägt das Modell sogar grössere Gemini-Generationen wie 2.5 Flash. Wichtig für Agenten-Workflows: Die «Thinking Levels» lassen sich pro Anfrage steuern – kurze Replies kosten wenig Compute, komplexe Reasoning-Aufgaben dürfen länger denken.
Google nennt eine Reihe Kunden, die Flash-Lite bereits produktiv einsetzen:
Flash-Lite zielt auf den Sweet Spot zwischen Smart und Schnell: Tool-Calling, Klassifizierung, Übersetzung, Content-Moderation, agentische Pipelines mit hoher Frequenz. Google positioniert das Modell explizit gegen GPT‑5 mini, Claude 4.5 Haiku und Grok 4.1 Fast – und unterbietet sie laut eigener Tabelle bei Output-Speed wie Preis.
Für dich als Entwickler oder Team-Lead heisst das: Wer bislang Reasoning-Modelle in High-Volume-Pipelines verbrannt hat, kann ab sofort deutlich günstiger auf Flash-Lite umsteigen, ohne Qualität in den meisten Standardfällen zu verlieren. Die Botschaft an OpenAI und Anthropic ist eindeutig: Im Volumen-Segment macht Google jetzt den Preis.
Verfügbar ist das Modell über die Gemini API in Google AI Studio sowie für Enterprise-Kunden über Vertex AI und die neue Gemini Enterprise Agent Platform.