OpenAI hat GPT-5.4 vorgestellt – erstmals vereint ein Modell Coding, Reasoning und native Computerbedienung. Auf dem OSWorld-Benchmark übertrifft es mit 75% sogar den menschlichen Referenzwert. Was das für ChatGPT-Nutzer und Entwickler bedeutet.

GPT-5.4 ist das erste OpenAI-Modell, das Computer besser bedient als Menschen – und verschiebt den KI-Wettbewerb von «klugstes Modell» hin zu «beste KI-Arbeitskraft».
OpenAI hat gestern GPT-5.4 vorgestellt – und packt damit erstmals Coding, Reasoning, agentische Workflows und native Computerbedienung in ein einziges Modell. Das Ergebnis: Eine KI, die deinen Computer besser bedient als die meisten Menschen.
GPT-5.4 kommt in drei Varianten: als Basismodell, als GPT-5.4 Thinking (für komplexes Schlussfolgern in ChatGPT) und als GPT-5.4 Pro (maximale Leistung für Profis). Der grösste Sprung liegt bei der sogenannten Computer-Use-Fähigkeit – das Modell kann eigenständig Software bedienen, durch Screenshots navigieren und Maus- sowie Tastatureingaben ausführen.
Auf dem OSWorld-Benchmark, der genau diese Fähigkeit testet, erreicht GPT-5.4 75% – und übertrifft damit den menschlichen Referenzwert von 72,4%. Zum Vergleich: GPT-5.2 schaffte gerade mal 47,3%. Das ist kein inkrementeller Fortschritt, sondern ein Quantensprung.
Die technischen Eckdaten lesen sich beeindruckend: Das Kontextfenster (also die Menge an Text, die das Modell gleichzeitig verarbeiten kann) reicht in der API bis zu 1 Million Tokens – das entspricht rund 4'000 Seiten. Standardmässig arbeitet das Modell mit 272'000 Tokens; die Million ist als erweiterter Modus über die API verfügbar.
Bei der Genauigkeit hat OpenAI ebenfalls nachgelegt: 33% weniger Falschaussagen bei einzelnen Behauptungen und 18% weniger fehlerhafte Antworten insgesamt im Vergleich zu GPT-5.2. Gleichzeitig braucht das Modell für bestimmte Aufgaben 47% weniger Tokens – es arbeitet also effizienter, obwohl die API-Preise leicht gestiegen sind.
Neu ist auch ein Feature namens Tool Search: Bisher mussten alle verfügbaren Werkzeuge im System-Prompt definiert werden, was viele Tokens verbrauchte. GPT-5.4 sucht sich die passenden Tools selbst – das spart Kontext und beschleunigt Antworten.
Auf dem hauseigenen GDPval-Benchmark, der Wissensarbeit über 44 Berufsfelder testet, erreicht GPT-5.4 83% – ein deutlicher Sprung gegenüber den 70,9% von GPT-5.2. Auch auf Mercors APEX-Agents-Benchmark, der professionelle Fähigkeiten in Recht und Finanzen misst, führt das Modell die Rangliste an.
Die Lancierung kam nur 48 Stunden nach GPT-5.3 Instant und ist eine klare Kampfansage an Anthropic, das mit Claude im Enterprise-Bereich zuletzt Marktanteile gewonnen hat. OpenAI konsolidiert hier die Fähigkeiten mehrerer Vorgängermodelle – GPT-5.3-Codex fürs Programmieren, die Reasoning-Modelle fürs Schlussfolgern – in einem einheitlichen System.
Bemerkenswert: OpenAI vergibt erstmals die Cybersicherheits-Einstufung «High Capability» an ein allgemeines Reasoning-Modell. Das signalisiert, dass die Fähigkeiten mittlerweile ein Niveau erreichen, bei dem besondere Sicherheitsvorkehrungen nötig sind.
GPT-5.4 ist ab sofort verfügbar für ChatGPT Plus (20 Dollar/Monat), Team, Pro (200 Dollar/Monat), Enterprise und Edu. In der API kostet das Modell 2.50 Dollar pro Million Input-Tokens – etwas mehr als GPT-5.2, aber durch die höhere Effizienz relativiert sich der Aufpreis.
Konkret heisst das: Wenn du ChatGPT regelmässig nutzt, wirst du ein spürbar präziseres Modell bekommen. Die Reasoning-Variante GPT-5.4 Thinking ersetzt innerhalb der nächsten drei Monate GPT-5.2 Thinking – Abschaltung ist der 5. Juni 2026. Entwickler, die die API nutzen, profitieren vor allem vom riesigen Kontextfenster und der nativen Computer-Use-Fähigkeit für automatisierte Workflows.
Für Schweizer Unternehmen, die OpenAI-APIs im Einsatz haben, lohnt sich ein Blick auf die neuen Pricing-Stufen: Bei Anfragen über 272'000 Input-Tokens verdoppelt sich der Preis. Wer das Million-Token-Fenster nutzen will, sollte die Kosten im Auge behalten.
Mit GPT-5.4 verschiebt sich der KI-Wettbewerb von «Wer hat das klügste Modell?» hin zu «Wessen KI erledigt echte Arbeit am besten?». Die native Computerbedienung, die den menschlichen Benchmark übertrifft, markiert einen Wendepunkt: KI-Agenten werden vom Konzept zur täglichen Realität am Arbeitsplatz.
OpenAI, Anthropic und Google liefern sich hier ein enges Rennen. GPT-5.4 ist OpenAIs deutlichste Antwort darauf – ob sie reicht, werden die nächsten Wochen zeigen.
GPT-5.4 ist das erste OpenAI-Modell, das Computer besser bedient als Menschen – und verschiebt den KI-Wettbewerb von «klugstes Modell» hin zu «beste KI-Arbeitskraft».

OpenAI hat drei neue Voice-Modelle veröffentlicht: GPT-Realtime-2 mit GPT-5-Reasoning, GPT-Realtime-Translate für Live-Übersetzung in 70 Sprachen und GPT-Realtime-Whisper für Streaming-Transkription. Voice ist damit nicht mehr Demo-Feature, sondern operativer Bauklotz für Produkte.
Drei API-Endpunkte – Reasoning-Voice, Live-Translation und Streaming-Transkription – die das Voice-Modell zum echten Produkt-Bauklotz machen.

Anthropic hat einen Compute-Deal mit SpaceX über die volle Kapazität des Colossus-1-Datacenters in Memphis verkündet: 300 Megawatt, über 220'000 NVIDIA-GPUs. Parallel verdoppeln sich die 5h-Limits in Claude Code, die Peak-Hour-Drosselung fällt weg, und API-Limits für Opus steigen massiv. Im Vertrag versteckt: Interesse an orbitaler Compute-Kapazität.
Mehr Compute, weniger Limits, härteres Statement im Compute-Wettrüsten – und Musks SpaceX als unerwarteter Lieferant.

OpenAI hat GPT-5.5 Instant ausgerollt: 52,5 % weniger Halluzinationen bei heiklen Themen und ein neues Memory-Sources-Feature, das endlich offenlegt, woran sich ChatGPT erinnert. Das Modell ist neuer Default in ChatGPT.
GPT-5.5 Instant ist der neue ChatGPT-Default mit 52,5 % weniger Halluzinationen und transparentem «Memory Sources»-Feature.