GPT-Realtime-2: OpenAI bringt Voice mit GPT-5-Hirn und Echtzeit-Übersetzung

OpenAI hat drei neue Voice-Modelle veröffentlicht: GPT-Realtime-2 mit GPT-5-Reasoning, GPT-Realtime-Translate für Live-Übersetzung in 70 Sprachen und GPT-Realtime-Whisper für Streaming-Transkription. Voice ist damit nicht mehr Demo-Feature, sondern operativer Bauklotz für Produkte.

OpenAI hat seine Voice-API generalüberholt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper sind seit Donnerstag, 7. Mai 2026, im Realtime-API verfügbar. Drei Modelle, drei Aufgaben – und der Anspruch, dass Voice-Apps endlich aus dem "kann auch reden"-Kuriositätsmodus kommen.

GPT-5-Reasoning, jetzt mit Stimme

GPT-Realtime-2 ist OpenAIs erstes Voice-Modell mit GPT-5-Klasse-Reasoning. Das heisst: Während du sprichst, kann das Modell mitdenken, Tools aufrufen, Korrekturen verarbeiten und Unterbrechungen handhaben – ohne das Gespräch zu verlieren. Der Kontext ist auf 128'000 Token angewachsen, was für längere Service-Calls oder Tutorings genug Spielraum lässt.

Der Preis ist saftig: 32 Dollar pro Million Audio-Input-Token, 64 Dollar pro Million Output-Token. Cached Input kostet 40 Cent. Wer ernsthaft skaliert, sollte rechnen.

Übersetzung als eigenes Modell

Spannender ist GPT-Realtime-Translate. Das Modell übersetzt gesprochene Sprache aus über 70 Eingabesprachen in 13 Ausgabesprachen – live, Wort für Wort, im Tempo der Sprecherin. Abrechnung: 3,4 Cent pro Minute. Für Customer-Support-Hotlines, internationale Sales-Calls, Konferenz-Streams oder Bildungsplattformen ist das eine Ansage.

GPT-Realtime-Whisper rundet das Paket ab: Streaming-Transkription in Echtzeit für 1,7 Cent pro Minute. Damit kann eine App mitschreiben, während gesprochen wird – ohne auf das Ende des Satzes zu warten.

Was das für deinen Stack bedeutet

Wenn du als Entwicklerin oder Entwickler an Voice-Agenten, Live-Translation-Tools oder Meeting-Bots baust, musste man bisher mehrere Modelle stapeln – Speech-to-Text, dann LLM, dann Text-to-Speech. GPT-Realtime-2 macht das in einem Aufruf. Die Modelle laufen alle im Realtime-API von OpenAI und sind sofort im Playground testbar.

Für Anthropic – aktuell ohne breit verfügbares Voice-Modell – wird es eng. Die Voice-Schiene war einer der wenigen Vorsprünge, den OpenAI im Produktwettbewerb noch klar hielt. Mit Reasoning, Übersetzung und Transkription jeweils als eigene API-Endpunkte wird der Vorsprung jetzt operationalisiert.

Einordnung: Voice ist ab jetzt nicht mehr Demo-Feature, sondern Bauklotz für ernsthafte Produkte. Wer Schweizer Mehrsprachigkeit (de/fr/it/en) automatisch ins Produkt holen will, hat plötzlich einen sauberen API-Pfad.

Gemini 3.1 Flash-Lite ist GA – Google macht Billig-KI für Agenten salonfähig

Google hat am 8. Mai Gemini 3.1 Flash-Lite auf der Gemini Enterprise Agent Platform GA gemacht. Mit 0,25 Dollar pro Million Input-Tokens und 2,5-mal schnellerer Time-to-First-Token zielt das Modell auf Hochvolumen-Workflows – und unterbietet OpenAI sowie Anthropic im Preis.

Google kontert OpenAIs GPT-5 mini und Anthropics Claude Haiku mit dem günstigsten Modell der Gemini-3-Reihe – und macht im Volumen-Segment den Preis.

Illustration einer Rakete auf Startrampe nachts mit Kontrollturm, kinewsletter.ch Stil

KI-Business

7. Mai 2026

Anthropic mietet das ganze Colossus-1 von SpaceX – und Claude Code verdoppelt die Limits

Anthropic hat einen Compute-Deal mit SpaceX über die volle Kapazität des Colossus-1-Datacenters in Memphis verkündet: 300 Megawatt, über 220'000 NVIDIA-GPUs. Parallel verdoppeln sich die 5h-Limits in Claude Code, die Peak-Hour-Drosselung fällt weg, und API-Limits für Opus steigen massiv. Im Vertrag versteckt: Interesse an orbitaler Compute-Kapazität.

Mehr Compute, weniger Limits, härteres Statement im Compute-Wettrüsten – und Musks SpaceX als unerwarteter Lieferant.

Aufgeschlagenes Notizbuch mit handgeschriebenen Memory-Notizen, Aktenschrank mit Karteikarten, Lupe auf altem Brief, kinewsletter.ch Stil

Neue Modelle

7. Mai 2026

GPT-5.5 Instant ist neu der ChatGPT-Standard – mit weniger Halluzinationen und einem Speicher, der dir antwortet

OpenAI hat GPT-5.5 Instant ausgerollt: 52,5 % weniger Halluzinationen bei heiklen Themen und ein neues Memory-Sources-Feature, das endlich offenlegt, woran sich ChatGPT erinnert. Das Modell ist neuer Default in ChatGPT.

GPT-5.5 Instant ist der neue ChatGPT-Default mit 52,5 % weniger Halluzinationen und transparentem «Memory Sources»-Feature.

GPT-Realtime-2: OpenAI bringt Voice mit GPT-5-Hirn und Echtzeit-Übersetzung

GPT-5-Reasoning, jetzt mit Stimme

Der Preis ist saftig: 32 Dollar pro Million Audio-Input-Token, 64 Dollar pro Million Output-Token. Cached Input kostet 40 Cent. Wer ernsthaft skaliert, sollte rechnen.

Übersetzung als eigenes Modell

Was das für deinen Stack bedeutet

Gemini 3.1 Flash-Lite ist GA – Google macht Billig-KI für Agenten salonfähig

Google kontert OpenAIs GPT-5 mini und Anthropics Claude Haiku mit dem günstigsten Modell der Gemini-3-Reihe – und macht im Volumen-Segment den Preis.

KI-Business

7. Mai 2026

Anthropic mietet das ganze Colossus-1 von SpaceX – und Claude Code verdoppelt die Limits

Mehr Compute, weniger Limits, härteres Statement im Compute-Wettrüsten – und Musks SpaceX als unerwarteter Lieferant.

Neue Modelle

7. Mai 2026

GPT-5.5 Instant ist neu der ChatGPT-Standard – mit weniger Halluzinationen und einem Speicher, der dir antwortet

GPT-5.5 Instant ist der neue ChatGPT-Default mit 52,5 % weniger Halluzinationen und transparentem «Memory Sources»-Feature.

GPT-Realtime-2: OpenAI bringt Voice mit GPT-5-Hirn und Echtzeit-Übersetzung

GPT-5-Reasoning, jetzt mit Stimme

Übersetzung als eigenes Modell

Was das für deinen Stack bedeutet

Fazit

Quellen

Das könnte dich auch interessieren

Gemini 3.1 Flash-Lite ist GA – Google macht Billig-KI für Agenten salonfähig

Anthropic mietet das ganze Colossus-1 von SpaceX – und Claude Code verdoppelt die Limits

GPT-5.5 Instant ist neu der ChatGPT-Standard – mit weniger Halluzinationen und einem Speicher, der dir antwortet

GPT-Realtime-2: OpenAI bringt Voice mit GPT-5-Hirn und Echtzeit-Übersetzung

GPT-5-Reasoning, jetzt mit Stimme

Übersetzung als eigenes Modell

Was das für deinen Stack bedeutet

Fazit

Quellen

Das könnte dich auch interessieren

Gemini 3.1 Flash-Lite ist GA – Google macht Billig-KI für Agenten salonfähig

Anthropic mietet das ganze Colossus-1 von SpaceX – und Claude Code verdoppelt die Limits

GPT-5.5 Instant ist neu der ChatGPT-Standard – mit weniger Halluzinationen und einem Speicher, der dir antwortet