NewsKategorienNewsletter-ArchivÜber unsKostenlos abonnieren

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

FOLGE UNS
LIXIG
NAVIGATION
Alle NewsNewsletter-ArchivAutorenÜber unsKontakt
KATEGORIEN
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
RECHTLICHES
ImpressumDatenschutzAGB
© 2026 Inoo GmbH · Altstätten SG · Schweiz
Ein Produkt von InooSwiss Made Software
HOME·NEWS·NEUE MODELLE

GPT-Realtime-2: OpenAI bringt Voice mit GPT-5-Hirn und Echtzeit-Übersetzung

OpenAI hat drei neue Voice-Modelle veröffentlicht: GPT-Realtime-2 mit GPT-5-Reasoning, GPT-Realtime-Translate für Live-Übersetzung in 70 Sprachen und GPT-Realtime-Whisper für Streaming-Transkription. Voice ist damit nicht mehr Demo-Feature, sondern operativer Bauklotz für Produkte.

Pascal Eugster
Pascal Eugster
GRÜNDER & ENTWICKLER
8. MAI 2026
2 MIN. LESEZEIT
Vintage Telefonzentrale mit Sprachenflaggen, kinewsletter.ch Stil
Vintage Telefonzentrale mit Sprachenflaggen (Dark Mode), kinewsletter.ch Stil
INHALT
01GPT-5-Reasoning, jetzt mit Stimme02Übersetzung als eigenes Modell03Was das für deinen Stack bedeutet
INHALT
01GPT-5-Reasoning, jetzt mit Stimme02Übersetzung als eigenes Modell03Was das für deinen Stack bedeutet
in
PARTNER · INOO GMBH
Wie viel KI verträgt dein Betrieb? In 30 Minuten Klartext.

Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.

Gespräch buchen →
DAS WICHTIGSTE IN KÜRZE

Drei API-Endpunkte – Reasoning-Voice, Live-Translation und Streaming-Transkription – die das Voice-Modell zum echten Produkt-Bauklotz machen.

OpenAI hat seine Voice-API generalüberholt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper sind seit Donnerstag, 7. Mai 2026, im Realtime-API verfügbar. Drei Modelle, drei Aufgaben – und der Anspruch, dass Voice-Apps endlich aus dem "kann auch reden"-Kuriositätsmodus kommen.

GPT-5-Reasoning, jetzt mit Stimme

GPT-Realtime-2 ist OpenAIs erstes Voice-Modell mit GPT-5-Klasse-Reasoning. Das heisst: Während du sprichst, kann das Modell mitdenken, Tools aufrufen, Korrekturen verarbeiten und Unterbrechungen handhaben – ohne das Gespräch zu verlieren. Der Kontext ist auf 128'000 Token angewachsen, was für längere Service-Calls oder Tutorings genug Spielraum lässt.

Der Preis ist saftig: 32 Dollar pro Million Audio-Input-Token, 64 Dollar pro Million Output-Token. Cached Input kostet 40 Cent. Wer ernsthaft skaliert, sollte rechnen.

Übersetzung als eigenes Modell

Spannender ist GPT-Realtime-Translate. Das Modell übersetzt gesprochene Sprache aus über 70 Eingabesprachen in 13 Ausgabesprachen – live, Wort für Wort, im Tempo der Sprecherin. Abrechnung: 3,4 Cent pro Minute. Für Customer-Support-Hotlines, internationale Sales-Calls, Konferenz-Streams oder Bildungsplattformen ist das eine Ansage.

GPT-Realtime-Whisper rundet das Paket ab: Streaming-Transkription in Echtzeit für 1,7 Cent pro Minute. Damit kann eine App mitschreiben, während gesprochen wird – ohne auf das Ende des Satzes zu warten.

Was das für deinen Stack bedeutet

Wenn du als Entwicklerin oder Entwickler an Voice-Agenten, Live-Translation-Tools oder Meeting-Bots baust, musste man bisher mehrere Modelle stapeln – Speech-to-Text, dann LLM, dann Text-to-Speech. GPT-Realtime-2 macht das in einem Aufruf. Die Modelle laufen alle im Realtime-API von OpenAI und sind sofort im Playground testbar.

Für Anthropic – aktuell ohne breit verfügbares Voice-Modell – wird es eng. Die Voice-Schiene war einer der wenigen Vorsprünge, den OpenAI im Produktwettbewerb noch klar hielt. Mit Reasoning, Übersetzung und Transkription jeweils als eigene API-Endpunkte wird der Vorsprung jetzt operationalisiert.

Einordnung: Voice ist ab jetzt nicht mehr Demo-Feature, sondern Bauklotz für ernsthafte Produkte. Wer Schweizer Mehrsprachigkeit (de/fr/it/en) automatisch ins Produkt holen will, hat plötzlich einen sauberen API-Pfad.

Quellen

OpenAI: Advancing voice intelligence↗ EXTERNER LINKOpenAI Realtime API Docs↗ EXTERNER LINKTechCrunch↗ EXTERNER LINK9to5Mac↗ EXTERNER LINK
TEILEN
LinkedIn→X / Twitter→E-Mail→
KOSTENLOS ABONNIEREN
Diese News jeden Freitag in dein Postfach?

WEITERLESENDas könnte dich auch interessieren.

Handgezeichnete Skizze eines Blatt Papiers, auf dem sich aus einer Wolke verstreuter Tintenpunkte Textzeilen bilden, daneben ein Füllfederhalter und ein kleiner Computer
Handgezeichnete Skizze eines Blatt Papiers, auf dem sich aus einer Wolke verstreuter Tintenpunkte Textzeilen bilden, daneben ein Füllfederhalter und ein kleiner Computer (Dark Mode)
NEUE MODELLE·12. JUNI 2026

Googles Modell schreibt Text, wie ein Bild entsteht

Googles neues, offenes Modell DiffusionGemma erzeugt Text nicht Wort für Wort, sondern ganze Blöcke auf einmal – wie ein Bildgenerator aus Rauschen ein Motiv schärft. Das macht es bis zu viermal schneller und lässt es lokal auf dem eigenen Rechner laufen.

Handgezeichnete Skizze eines grossen Notbremshebels an einem Schaltpult mit einem Schmetterling und elektroblauem Akzent
Handgezeichnete Skizze eines grossen Notbremshebels an einem Schaltpult mit einem Schmetterling und elektroblauem Akzent
NEUE MODELLE·10. JUNI 2026

Claude Fable 5: Anthropics stärkstes Modell – mit Notbremse

Anthropic hat am 9. Juni Claude Fable 5 veröffentlicht – das fähigste Modell, das je für alle zugänglich war. Bei heiklen Themen wie Cybersecurity übergibt es heimlich an das schwächere Opus 4.8. Parallel kommt Mythos 5 für Cyber-Verteidiger.

Handgezeichnete Skizze eines elektroblau leuchtenden Computerchips auf einem Holzschreibtisch, daneben eine Sanduhr, aufgefaecherte Buchseiten und eine Schreibtischlampe
Handgezeichnete Skizze eines elektroblau leuchtenden Computerchips auf einem Holzschreibtisch, daneben eine Sanduhr, aufgefaecherte Buchseiten und eine Schreibtischlampe (Dark Mode)
NEUE MODELLE·5. JUNI 2026

MiniMax M3: viel Kontext, wenig Rechenaufwand

Das chinesische Labor MiniMax bringt mit M3 ein offenes Modell, das eine Million Token verarbeitet – und dafür nur ein Zwanzigstel der Rechenleistung des Vorgängers braucht. Gewichte folgen in zehn Tagen.