OpenAI hat drei neue Voice-Modelle veröffentlicht: GPT-Realtime-2 mit GPT-5-Reasoning, GPT-Realtime-Translate für Live-Übersetzung in 70 Sprachen und GPT-Realtime-Whisper für Streaming-Transkription. Voice ist damit nicht mehr Demo-Feature, sondern operativer Bauklotz für Produkte.

Drei API-Endpunkte – Reasoning-Voice, Live-Translation und Streaming-Transkription – die das Voice-Modell zum echten Produkt-Bauklotz machen.
OpenAI hat seine Voice-API generalüberholt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper sind seit Donnerstag, 7. Mai 2026, im Realtime-API verfügbar. Drei Modelle, drei Aufgaben – und der Anspruch, dass Voice-Apps endlich aus dem "kann auch reden"-Kuriositätsmodus kommen.
GPT-Realtime-2 ist OpenAIs erstes Voice-Modell mit GPT-5-Klasse-Reasoning. Das heisst: Während du sprichst, kann das Modell mitdenken, Tools aufrufen, Korrekturen verarbeiten und Unterbrechungen handhaben – ohne das Gespräch zu verlieren. Der Kontext ist auf 128'000 Token angewachsen, was für längere Service-Calls oder Tutorings genug Spielraum lässt.
Der Preis ist saftig: 32 Dollar pro Million Audio-Input-Token, 64 Dollar pro Million Output-Token. Cached Input kostet 40 Cent. Wer ernsthaft skaliert, sollte rechnen.
Spannender ist GPT-Realtime-Translate. Das Modell übersetzt gesprochene Sprache aus über 70 Eingabesprachen in 13 Ausgabesprachen – live, Wort für Wort, im Tempo der Sprecherin. Abrechnung: 3,4 Cent pro Minute. Für Customer-Support-Hotlines, internationale Sales-Calls, Konferenz-Streams oder Bildungsplattformen ist das eine Ansage.
GPT-Realtime-Whisper rundet das Paket ab: Streaming-Transkription in Echtzeit für 1,7 Cent pro Minute. Damit kann eine App mitschreiben, während gesprochen wird – ohne auf das Ende des Satzes zu warten.
Wenn du als Entwicklerin oder Entwickler an Voice-Agenten, Live-Translation-Tools oder Meeting-Bots baust, musste man bisher mehrere Modelle stapeln – Speech-to-Text, dann LLM, dann Text-to-Speech. GPT-Realtime-2 macht das in einem Aufruf. Die Modelle laufen alle im Realtime-API von OpenAI und sind sofort im Playground testbar.
Für Anthropic – aktuell ohne breit verfügbares Voice-Modell – wird es eng. Die Voice-Schiene war einer der wenigen Vorsprünge, den OpenAI im Produktwettbewerb noch klar hielt. Mit Reasoning, Übersetzung und Transkription jeweils als eigene API-Endpunkte wird der Vorsprung jetzt operationalisiert.
Einordnung: Voice ist ab jetzt nicht mehr Demo-Feature, sondern Bauklotz für ernsthafte Produkte. Wer Schweizer Mehrsprachigkeit (de/fr/it/en) automatisch ins Produkt holen will, hat plötzlich einen sauberen API-Pfad.
Drei API-Endpunkte – Reasoning-Voice, Live-Translation und Streaming-Transkription – die das Voice-Modell zum echten Produkt-Bauklotz machen.

Google hat am 8. Mai Gemini 3.1 Flash-Lite auf der Gemini Enterprise Agent Platform GA gemacht. Mit 0,25 Dollar pro Million Input-Tokens und 2,5-mal schnellerer Time-to-First-Token zielt das Modell auf Hochvolumen-Workflows – und unterbietet OpenAI sowie Anthropic im Preis.
Google kontert OpenAIs GPT-5 mini und Anthropics Claude Haiku mit dem günstigsten Modell der Gemini-3-Reihe – und macht im Volumen-Segment den Preis.

Anthropic hat einen Compute-Deal mit SpaceX über die volle Kapazität des Colossus-1-Datacenters in Memphis verkündet: 300 Megawatt, über 220'000 NVIDIA-GPUs. Parallel verdoppeln sich die 5h-Limits in Claude Code, die Peak-Hour-Drosselung fällt weg, und API-Limits für Opus steigen massiv. Im Vertrag versteckt: Interesse an orbitaler Compute-Kapazität.
Mehr Compute, weniger Limits, härteres Statement im Compute-Wettrüsten – und Musks SpaceX als unerwarteter Lieferant.

OpenAI hat GPT-5.5 Instant ausgerollt: 52,5 % weniger Halluzinationen bei heiklen Themen und ein neues Memory-Sources-Feature, das endlich offenlegt, woran sich ChatGPT erinnert. Das Modell ist neuer Default in ChatGPT.
GPT-5.5 Instant ist der neue ChatGPT-Default mit 52,5 % weniger Halluzinationen und transparentem «Memory Sources»-Feature.