NewsKategorienNewsletter-ArchivÜber unsKostenlos abonnieren

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

FOLGE UNS
LIXIG
NAVIGATION
Alle NewsNewsletter-ArchivAutorenÜber unsKontakt
KATEGORIEN
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
RECHTLICHES
ImpressumDatenschutzAGB
© 2026 Inoo GmbH · Altstätten SG · Schweiz
Ein Produkt von InooSwiss Made Software
HOME·NEWS·NEUE MODELLE

Gemini 3.1 Flash-Lite ist GA – Google macht Billig-KI für Agenten salonfähig

Google hat am 8. Mai Gemini 3.1 Flash-Lite auf der Gemini Enterprise Agent Platform GA gemacht. Mit 0,25 Dollar pro Million Input-Tokens und 2,5-mal schnellerer Time-to-First-Token zielt das Modell auf Hochvolumen-Workflows – und unterbietet OpenAI sowie Anthropic im Preis.

Pascal Eugster
Pascal Eugster
GRÜNDER & ENTWICKLER
11. MAI 2026
2 MIN. LESEZEIT
Skizze einer Stoppuhr auf Werkbank mit Zahnrädern und Glühbirne – steht für Geschwindigkeit und Effizienz
Skizze einer Stoppuhr auf Werkbank mit Zahnraedern und Gluehbirne, dark mode, kinewsletter.ch Stil
INHALT
0125 Cent pro Million Tokens – und 2,5x schneller02Erste Kunden, harte Zahlen03Was das im Wettbewerb verschiebt
INHALT
0125 Cent pro Million Tokens – und 2,5x schneller02Erste Kunden, harte Zahlen03Was das im Wettbewerb verschiebt
in
PARTNER · INOO GMBH
Wie viel KI verträgt dein Betrieb? In 30 Minuten Klartext.

Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.

Gespräch buchen →
DAS WICHTIGSTE IN KÜRZE

Google kontert OpenAIs GPT-5 mini und Anthropics Claude Haiku mit dem günstigsten Modell der Gemini-3-Reihe – und macht im Volumen-Segment den Preis.

Google hat am 8. Mai bekannt gegeben, dass Gemini 3.1 Flash-Lite auf der Gemini Enterprise Agent Platform allgemein verfügbar ist. Das Modell zielt klar auf eine Lücke, die OpenAIs GPT‑5.5 und Anthropics Claude im Frontier-Segment offenlassen: Workloads, bei denen Latenz und Preis die wichtigsten Kennzahlen sind.

25 Cent pro Million Tokens – und 2,5x schneller

Mit 0,25 Dollar pro Million Input-Tokens und 1,50 Dollar pro Million Output-Tokens ist Flash-Lite das günstigste Modell der Gemini-3-Reihe. Laut Google-Benchmarks liefert es im Vergleich zum Vorgänger Gemini 2.5 Flash eine 2,5-mal schnellere Time to First Token und 45 Prozent mehr Output-Geschwindigkeit – bei vergleichbarer oder besserer Qualität.

Auf dem Arena.ai-Leaderboard erreicht Flash-Lite einen Elo-Score von 1432. In den akademischen Benchmarks GPQA Diamond (86,9 Prozent) und MMMU Pro (76,8 Prozent) schlägt das Modell sogar grössere Gemini-Generationen wie 2.5 Flash. Wichtig für Agenten-Workflows: Die «Thinking Levels» lassen sich pro Anfrage steuern – kurze Replies kosten wenig Compute, komplexe Reasoning-Aufgaben dürfen länger denken.

Erste Kunden, harte Zahlen

Google nennt eine Reihe Kunden, die Flash-Lite bereits produktiv einsetzen:

  • JetBrains integriert das Modell in seinen Junie-Agenten und in den IDE-Assistenten – laut AI-Director Vladislav Tankov der «perfekte Mix aus Intelligenz und minimaler Latenz»
  • Gladly wickelt mit Flash-Lite Millionen Kundendialoge pro Woche über SMS, WhatsApp und Instagram ab – ungefähr 60 Prozent günstiger als bei vergleichbaren Reasoning-Modellen, mit p95-Latenz um 1,8 Sekunden und 99,6 Prozent Erfolgsrate
  • Ramp nutzt Flash-Lite für latenzkritische Funktionen in seiner Finanz-Plattform
  • AlphaSense, OffDeal, krea.ai und das Gaming-Startup Astrocade stehen ebenfalls auf der Referenzliste

Was das im Wettbewerb verschiebt

Flash-Lite zielt auf den Sweet Spot zwischen Smart und Schnell: Tool-Calling, Klassifizierung, Übersetzung, Content-Moderation, agentische Pipelines mit hoher Frequenz. Google positioniert das Modell explizit gegen GPT‑5 mini, Claude 4.5 Haiku und Grok 4.1 Fast – und unterbietet sie laut eigener Tabelle bei Output-Speed wie Preis.

Für dich als Entwickler oder Team-Lead heisst das: Wer bislang Reasoning-Modelle in High-Volume-Pipelines verbrannt hat, kann ab sofort deutlich günstiger auf Flash-Lite umsteigen, ohne Qualität in den meisten Standardfällen zu verlieren. Die Botschaft an OpenAI und Anthropic ist eindeutig: Im Volumen-Segment macht Google jetzt den Preis.

Verfügbar ist das Modell über die Gemini API in Google AI Studio sowie für Enterprise-Kunden über Vertex AI und die neue Gemini Enterprise Agent Platform.

Quellen

Gemini 3.1 Flash-Lite is now generally available – Google Cloud Blog↗ EXTERNER LINKGemini 3.1 Flash-Lite: Built for intelligence at scale – The Keyword↗ EXTERNER LINKGoogle launches Gemini 3.1 Flash-Lite in General Availability – TestingCatalog↗ EXTERNER LINKGemini 3.1 Flash-Lite – Google DeepMind↗ EXTERNER LINK
TEILEN
LinkedIn→X / Twitter→E-Mail→
KOSTENLOS ABONNIEREN
Diese News jeden Freitag in dein Postfach?

WEITERLESENDas könnte dich auch interessieren.

Handgezeichnete Skizze eines Blatt Papiers, auf dem sich aus einer Wolke verstreuter Tintenpunkte Textzeilen bilden, daneben ein Füllfederhalter und ein kleiner Computer
Handgezeichnete Skizze eines Blatt Papiers, auf dem sich aus einer Wolke verstreuter Tintenpunkte Textzeilen bilden, daneben ein Füllfederhalter und ein kleiner Computer (Dark Mode)
NEUE MODELLE·12. JUNI 2026

Googles Modell schreibt Text, wie ein Bild entsteht

Googles neues, offenes Modell DiffusionGemma erzeugt Text nicht Wort für Wort, sondern ganze Blöcke auf einmal – wie ein Bildgenerator aus Rauschen ein Motiv schärft. Das macht es bis zu viermal schneller und lässt es lokal auf dem eigenen Rechner laufen.

Handgezeichnete Skizze eines grossen Notbremshebels an einem Schaltpult mit einem Schmetterling und elektroblauem Akzent
Handgezeichnete Skizze eines grossen Notbremshebels an einem Schaltpult mit einem Schmetterling und elektroblauem Akzent
NEUE MODELLE·10. JUNI 2026

Claude Fable 5: Anthropics stärkstes Modell – mit Notbremse

Anthropic hat am 9. Juni Claude Fable 5 veröffentlicht – das fähigste Modell, das je für alle zugänglich war. Bei heiklen Themen wie Cybersecurity übergibt es heimlich an das schwächere Opus 4.8. Parallel kommt Mythos 5 für Cyber-Verteidiger.

Handgezeichnete Skizze eines elektroblau leuchtenden Computerchips auf einem Holzschreibtisch, daneben eine Sanduhr, aufgefaecherte Buchseiten und eine Schreibtischlampe
Handgezeichnete Skizze eines elektroblau leuchtenden Computerchips auf einem Holzschreibtisch, daneben eine Sanduhr, aufgefaecherte Buchseiten und eine Schreibtischlampe (Dark Mode)
NEUE MODELLE·5. JUNI 2026

MiniMax M3: viel Kontext, wenig Rechenaufwand

Das chinesische Labor MiniMax bringt mit M3 ein offenes Modell, das eine Million Token verarbeitet – und dafür nur ein Zwanzigstel der Rechenleistung des Vorgängers braucht. Gewichte folgen in zehn Tagen.