kinewsletter.chkinewsletter.ch
News
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
Newsletter-Archiv
Search
News
Kategorien
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
Newsletter-ArchivÜber unsSuche
Kostenlos abonnieren
kinewsletter.chkinewsletter.ch

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

Navigation

Alle NewsNewsletter-ArchivAutorenÜber unsKontakt

Rechtliches

ImpressumDatenschutzAGB

© 2026Inoo GmbH · Altstätten SG · Schweiz

Swiss Made SoftwareEin Produkt vonInooInoo
  1. Home
  2. KI-News
  3. Neue Modelle
  4. GPT-Realtime-2: OpenAI bringt Voice mit GPT-5-Hirn und Echtzeit-Übersetzung
Neue Modelle

GPT-Realtime-2: OpenAI bringt Voice mit GPT-5-Hirn und Echtzeit-Übersetzung

OpenAI hat drei neue Voice-Modelle veröffentlicht: GPT-Realtime-2 mit GPT-5-Reasoning, GPT-Realtime-Translate für Live-Übersetzung in 70 Sprachen und GPT-Realtime-Whisper für Streaming-Transkription. Voice ist damit nicht mehr Demo-Feature, sondern operativer Bauklotz für Produkte.

Freitag, 8. Mai 2026~2 Min. Lesezeit
Pascal Eugster
Pascal EugsterGründer & Entwickler
Vintage Telefonzentrale mit Sprachenflaggen, kinewsletter.ch Stil
Vintage Telefonzentrale mit Sprachenflaggen, kinewsletter.ch Stil
Das Wichtigste

Drei API-Endpunkte – Reasoning-Voice, Live-Translation und Streaming-Transkription – die das Voice-Modell zum echten Produkt-Bauklotz machen.

OpenAI hat seine Voice-API generalüberholt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper sind seit Donnerstag, 7. Mai 2026, im Realtime-API verfügbar. Drei Modelle, drei Aufgaben – und der Anspruch, dass Voice-Apps endlich aus dem "kann auch reden"-Kuriositätsmodus kommen.

GPT-5-Reasoning, jetzt mit Stimme

GPT-Realtime-2 ist OpenAIs erstes Voice-Modell mit GPT-5-Klasse-Reasoning. Das heisst: Während du sprichst, kann das Modell mitdenken, Tools aufrufen, Korrekturen verarbeiten und Unterbrechungen handhaben – ohne das Gespräch zu verlieren. Der Kontext ist auf 128'000 Token angewachsen, was für längere Service-Calls oder Tutorings genug Spielraum lässt.

Der Preis ist saftig: 32 Dollar pro Million Audio-Input-Token, 64 Dollar pro Million Output-Token. Cached Input kostet 40 Cent. Wer ernsthaft skaliert, sollte rechnen.

Übersetzung als eigenes Modell

Spannender ist GPT-Realtime-Translate. Das Modell übersetzt gesprochene Sprache aus über 70 Eingabesprachen in 13 Ausgabesprachen – live, Wort für Wort, im Tempo der Sprecherin. Abrechnung: 3,4 Cent pro Minute. Für Customer-Support-Hotlines, internationale Sales-Calls, Konferenz-Streams oder Bildungsplattformen ist das eine Ansage.

GPT-Realtime-Whisper rundet das Paket ab: Streaming-Transkription in Echtzeit für 1,7 Cent pro Minute. Damit kann eine App mitschreiben, während gesprochen wird – ohne auf das Ende des Satzes zu warten.

Was das für deinen Stack bedeutet

Wenn du als Entwicklerin oder Entwickler an Voice-Agenten, Live-Translation-Tools oder Meeting-Bots baust, musste man bisher mehrere Modelle stapeln – Speech-to-Text, dann LLM, dann Text-to-Speech. GPT-Realtime-2 macht das in einem Aufruf. Die Modelle laufen alle im Realtime-API von OpenAI und sind sofort im Playground testbar.

Für Anthropic – aktuell ohne breit verfügbares Voice-Modell – wird es eng. Die Voice-Schiene war einer der wenigen Vorsprünge, den OpenAI im Produktwettbewerb noch klar hielt. Mit Reasoning, Übersetzung und Transkription jeweils als eigene API-Endpunkte wird der Vorsprung jetzt operationalisiert.

Einordnung: Voice ist ab jetzt nicht mehr Demo-Feature, sondern Bauklotz für ernsthafte Produkte. Wer Schweizer Mehrsprachigkeit (de/fr/it/en) automatisch ins Produkt holen will, hat plötzlich einen sauberen API-Pfad.

Fazit

Drei API-Endpunkte – Reasoning-Voice, Live-Translation und Streaming-Transkription – die das Voice-Modell zum echten Produkt-Bauklotz machen.

Quellen

  • OpenAI: Advancing voice intelligence(wird in neuem Tab geöffnet)
  • OpenAI Realtime API Docs(wird in neuem Tab geöffnet)
  • TechCrunch(wird in neuem Tab geöffnet)
  • 9to5Mac(wird in neuem Tab geöffnet)
Teilen:

Das könnte dich auch interessieren

Skizze einer Stoppuhr auf Werkbank mit Zahnrädern und Glühbirne – steht für Geschwindigkeit und Effizienz
Skizze einer Stoppuhr auf Werkbank mit Zahnrädern und Glühbirne – steht für Geschwindigkeit und Effizienz
Neue Modelle
11. Mai 2026

Gemini 3.1 Flash-Lite ist GA – Google macht Billig-KI für Agenten salonfähig

Google hat am 8. Mai Gemini 3.1 Flash-Lite auf der Gemini Enterprise Agent Platform GA gemacht. Mit 0,25 Dollar pro Million Input-Tokens und 2,5-mal schnellerer Time-to-First-Token zielt das Modell auf Hochvolumen-Workflows – und unterbietet OpenAI sowie Anthropic im Preis.

Google kontert OpenAIs GPT-5 mini und Anthropics Claude Haiku mit dem günstigsten Modell der Gemini-3-Reihe – und macht im Volumen-Segment den Preis.

Weiterlesen
Illustration einer Rakete auf Startrampe nachts mit Kontrollturm, kinewsletter.ch Stil
Illustration einer Rakete auf Startrampe nachts mit Kontrollturm, kinewsletter.ch Stil
KI-Business
7. Mai 2026

Anthropic mietet das ganze Colossus-1 von SpaceX – und Claude Code verdoppelt die Limits

Anthropic hat einen Compute-Deal mit SpaceX über die volle Kapazität des Colossus-1-Datacenters in Memphis verkündet: 300 Megawatt, über 220'000 NVIDIA-GPUs. Parallel verdoppeln sich die 5h-Limits in Claude Code, die Peak-Hour-Drosselung fällt weg, und API-Limits für Opus steigen massiv. Im Vertrag versteckt: Interesse an orbitaler Compute-Kapazität.

Mehr Compute, weniger Limits, härteres Statement im Compute-Wettrüsten – und Musks SpaceX als unerwarteter Lieferant.

Weiterlesen
Aufgeschlagenes Notizbuch mit handgeschriebenen Memory-Notizen, Aktenschrank mit Karteikarten, Lupe auf altem Brief, kinewsletter.ch Stil
Aufgeschlagenes Notizbuch mit handgeschriebenen Memory-Notizen, Aktenschrank mit Karteikarten, Lupe auf altem Brief, kinewsletter.ch Stil
Neue Modelle
7. Mai 2026

GPT-5.5 Instant ist neu der ChatGPT-Standard – mit weniger Halluzinationen und einem Speicher, der dir antwortet

OpenAI hat GPT-5.5 Instant ausgerollt: 52,5 % weniger Halluzinationen bei heiklen Themen und ein neues Memory-Sources-Feature, das endlich offenlegt, woran sich ChatGPT erinnert. Das Modell ist neuer Default in ChatGPT.

GPT-5.5 Instant ist der neue ChatGPT-Default mit 52,5 % weniger Halluzinationen und transparentem «Memory Sources»-Feature.

Weiterlesen