Google hat am 8. Mai Gemini 3.1 Flash-Lite auf der Gemini Enterprise Agent Platform GA gemacht. Mit 0,25 Dollar pro Million Input-Tokens und 2,5-mal schnellerer Time-to-First-Token zielt das Modell auf Hochvolumen-Workflows – und unterbietet OpenAI sowie Anthropic im Preis.

Google kontert OpenAIs GPT-5 mini und Anthropics Claude Haiku mit dem günstigsten Modell der Gemini-3-Reihe – und macht im Volumen-Segment den Preis.
Google hat am 8. Mai bekannt gegeben, dass Gemini 3.1 Flash-Lite auf der Gemini Enterprise Agent Platform allgemein verfügbar ist. Das Modell zielt klar auf eine Lücke, die OpenAIs GPT‑5.5 und Anthropics Claude im Frontier-Segment offenlassen: Workloads, bei denen Latenz und Preis die wichtigsten Kennzahlen sind.
Mit 0,25 Dollar pro Million Input-Tokens und 1,50 Dollar pro Million Output-Tokens ist Flash-Lite das günstigste Modell der Gemini-3-Reihe. Laut Google-Benchmarks liefert es im Vergleich zum Vorgänger Gemini 2.5 Flash eine 2,5-mal schnellere Time to First Token und 45 Prozent mehr Output-Geschwindigkeit – bei vergleichbarer oder besserer Qualität.
Auf dem Arena.ai-Leaderboard erreicht Flash-Lite einen Elo-Score von 1432. In den akademischen Benchmarks GPQA Diamond (86,9 Prozent) und MMMU Pro (76,8 Prozent) schlägt das Modell sogar grössere Gemini-Generationen wie 2.5 Flash. Wichtig für Agenten-Workflows: Die «Thinking Levels» lassen sich pro Anfrage steuern – kurze Replies kosten wenig Compute, komplexe Reasoning-Aufgaben dürfen länger denken.
Google nennt eine Reihe Kunden, die Flash-Lite bereits produktiv einsetzen:
Flash-Lite zielt auf den Sweet Spot zwischen Smart und Schnell: Tool-Calling, Klassifizierung, Übersetzung, Content-Moderation, agentische Pipelines mit hoher Frequenz. Google positioniert das Modell explizit gegen GPT‑5 mini, Claude 4.5 Haiku und Grok 4.1 Fast – und unterbietet sie laut eigener Tabelle bei Output-Speed wie Preis.
Für dich als Entwickler oder Team-Lead heisst das: Wer bislang Reasoning-Modelle in High-Volume-Pipelines verbrannt hat, kann ab sofort deutlich günstiger auf Flash-Lite umsteigen, ohne Qualität in den meisten Standardfällen zu verlieren. Die Botschaft an OpenAI und Anthropic ist eindeutig: Im Volumen-Segment macht Google jetzt den Preis.
Verfügbar ist das Modell über die Gemini API in Google AI Studio sowie für Enterprise-Kunden über Vertex AI und die neue Gemini Enterprise Agent Platform.
Google kontert OpenAIs GPT-5 mini und Anthropics Claude Haiku mit dem günstigsten Modell der Gemini-3-Reihe – und macht im Volumen-Segment den Preis.

OpenAI hat drei neue Voice-Modelle veröffentlicht: GPT-Realtime-2 mit GPT-5-Reasoning, GPT-Realtime-Translate für Live-Übersetzung in 70 Sprachen und GPT-Realtime-Whisper für Streaming-Transkription. Voice ist damit nicht mehr Demo-Feature, sondern operativer Bauklotz für Produkte.
Drei API-Endpunkte – Reasoning-Voice, Live-Translation und Streaming-Transkription – die das Voice-Modell zum echten Produkt-Bauklotz machen.

Anthropic hat einen Compute-Deal mit SpaceX über die volle Kapazität des Colossus-1-Datacenters in Memphis verkündet: 300 Megawatt, über 220'000 NVIDIA-GPUs. Parallel verdoppeln sich die 5h-Limits in Claude Code, die Peak-Hour-Drosselung fällt weg, und API-Limits für Opus steigen massiv. Im Vertrag versteckt: Interesse an orbitaler Compute-Kapazität.
Mehr Compute, weniger Limits, härteres Statement im Compute-Wettrüsten – und Musks SpaceX als unerwarteter Lieferant.

OpenAI hat GPT-5.5 Instant ausgerollt: 52,5 % weniger Halluzinationen bei heiklen Themen und ein neues Memory-Sources-Feature, das endlich offenlegt, woran sich ChatGPT erinnert. Das Modell ist neuer Default in ChatGPT.
GPT-5.5 Instant ist der neue ChatGPT-Default mit 52,5 % weniger Halluzinationen und transparentem «Memory Sources»-Feature.