OpenAI hat drei neue Voice-Modelle veröffentlicht: GPT-Realtime-2 mit GPT-5-Reasoning, GPT-Realtime-Translate für Live-Übersetzung in 70 Sprachen und GPT-Realtime-Whisper für Streaming-Transkription. Voice ist damit nicht mehr Demo-Feature, sondern operativer Bauklotz für Produkte.
Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.
Drei API-Endpunkte – Reasoning-Voice, Live-Translation und Streaming-Transkription – die das Voice-Modell zum echten Produkt-Bauklotz machen.
OpenAI hat seine Voice-API generalüberholt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper sind seit Donnerstag, 7. Mai 2026, im Realtime-API verfügbar. Drei Modelle, drei Aufgaben – und der Anspruch, dass Voice-Apps endlich aus dem "kann auch reden"-Kuriositätsmodus kommen.
GPT-Realtime-2 ist OpenAIs erstes Voice-Modell mit GPT-5-Klasse-Reasoning. Das heisst: Während du sprichst, kann das Modell mitdenken, Tools aufrufen, Korrekturen verarbeiten und Unterbrechungen handhaben – ohne das Gespräch zu verlieren. Der Kontext ist auf 128'000 Token angewachsen, was für längere Service-Calls oder Tutorings genug Spielraum lässt.
Der Preis ist saftig: 32 Dollar pro Million Audio-Input-Token, 64 Dollar pro Million Output-Token. Cached Input kostet 40 Cent. Wer ernsthaft skaliert, sollte rechnen.
Spannender ist GPT-Realtime-Translate. Das Modell übersetzt gesprochene Sprache aus über 70 Eingabesprachen in 13 Ausgabesprachen – live, Wort für Wort, im Tempo der Sprecherin. Abrechnung: 3,4 Cent pro Minute. Für Customer-Support-Hotlines, internationale Sales-Calls, Konferenz-Streams oder Bildungsplattformen ist das eine Ansage.
GPT-Realtime-Whisper rundet das Paket ab: Streaming-Transkription in Echtzeit für 1,7 Cent pro Minute. Damit kann eine App mitschreiben, während gesprochen wird – ohne auf das Ende des Satzes zu warten.
Wenn du als Entwicklerin oder Entwickler an Voice-Agenten, Live-Translation-Tools oder Meeting-Bots baust, musste man bisher mehrere Modelle stapeln – Speech-to-Text, dann LLM, dann Text-to-Speech. GPT-Realtime-2 macht das in einem Aufruf. Die Modelle laufen alle im Realtime-API von OpenAI und sind sofort im Playground testbar.
Für Anthropic – aktuell ohne breit verfügbares Voice-Modell – wird es eng. Die Voice-Schiene war einer der wenigen Vorsprünge, den OpenAI im Produktwettbewerb noch klar hielt. Mit Reasoning, Übersetzung und Transkription jeweils als eigene API-Endpunkte wird der Vorsprung jetzt operationalisiert.
Einordnung: Voice ist ab jetzt nicht mehr Demo-Feature, sondern Bauklotz für ernsthafte Produkte. Wer Schweizer Mehrsprachigkeit (de/fr/it/en) automatisch ins Produkt holen will, hat plötzlich einen sauberen API-Pfad.