GPT-5.4 ist da – OpenAIs bisher vielseitigstes Modell

OpenAI hat GPT-5.4 vorgestellt – erstmals vereint ein Modell Coding, Reasoning und native Computerbedienung. Auf dem OSWorld-Benchmark übertrifft es mit 75% sogar den menschlichen Referenzwert. Was das für ChatGPT-Nutzer und Entwickler bedeutet.

Pascal Eugster

GRÜNDER & ENTWICKLER

6. MÄRZ 2026

3 MIN. LESEZEIT

OpenAI hat gestern GPT-5.4 vorgestellt – und packt damit erstmals Coding, Reasoning, agentische Workflows und native Computerbedienung in ein einziges Modell. Das Ergebnis: Eine KI, die deinen Computer besser bedient als die meisten Menschen.

Besser als der Mensch – zumindest am Bildschirm

GPT-5.4 kommt in drei Varianten: als Basismodell, als GPT-5.4 Thinking (für komplexes Schlussfolgern in ChatGPT) und als GPT-5.4 Pro (maximale Leistung für Profis). Der grösste Sprung liegt bei der sogenannten Computer-Use-Fähigkeit – das Modell kann eigenständig Software bedienen, durch Screenshots navigieren und Maus- sowie Tastatureingaben ausführen.

Auf dem OSWorld-Benchmark, der genau diese Fähigkeit testet, erreicht GPT-5.4 75% – und übertrifft damit den menschlichen Referenzwert von 72,4%. Zum Vergleich: GPT-5.2 schaffte gerade mal 47,3%. Das ist kein inkrementeller Fortschritt, sondern ein Quantensprung.

1 Million Tokens und weniger Fehler

Die technischen Eckdaten lesen sich beeindruckend: Das Kontextfenster (also die Menge an Text, die das Modell gleichzeitig verarbeiten kann) reicht in der API bis zu 1 Million Tokens – das entspricht rund 4'000 Seiten. Standardmässig arbeitet das Modell mit 272'000 Tokens; die Million ist als erweiterter Modus über die API verfügbar.

Bei der Genauigkeit hat OpenAI ebenfalls nachgelegt: 33% weniger Falschaussagen bei einzelnen Behauptungen und 18% weniger fehlerhafte Antworten insgesamt im Vergleich zu GPT-5.2. Gleichzeitig braucht das Modell für bestimmte Aufgaben 47% weniger Tokens – es arbeitet also effizienter, obwohl die API-Preise leicht gestiegen sind.

Neu ist auch ein Feature namens Tool Search: Bisher mussten alle verfügbaren Werkzeuge im System-Prompt definiert werden, was viele Tokens verbrauchte. GPT-5.4 sucht sich die passenden Tools selbst – das spart Kontext und beschleunigt Antworten.

83% bei Wissensarbeit über 44 Berufe

Auf dem hauseigenen GDPval-Benchmark, der Wissensarbeit über 44 Berufsfelder testet, erreicht GPT-5.4 83% – ein deutlicher Sprung gegenüber den 70,9% von GPT-5.2. Auch auf Mercors APEX-Agents-Benchmark, der professionelle Fähigkeiten in Recht und Finanzen misst, führt das Modell die Rangliste an.

Die Lancierung kam nur 48 Stunden nach GPT-5.3 Instant und ist eine klare Kampfansage an Anthropic, das mit Claude im Enterprise-Bereich zuletzt Marktanteile gewonnen hat. OpenAI konsolidiert hier die Fähigkeiten mehrerer Vorgängermodelle – GPT-5.3-Codex fürs Programmieren, die Reasoning-Modelle fürs Schlussfolgern – in einem einheitlichen System.

Bemerkenswert: OpenAI vergibt erstmals die Cybersicherheits-Einstufung «High Capability» an ein allgemeines Reasoning-Modell. Das signalisiert, dass die Fähigkeiten mittlerweile ein Niveau erreichen, bei dem besondere Sicherheitsvorkehrungen nötig sind.

Was das für dich als ChatGPT-Nutzer heisst

GPT-5.4 ist ab sofort verfügbar für ChatGPT Plus (20 Dollar/Monat), Team, Pro (200 Dollar/Monat), Enterprise und Edu. In der API kostet das Modell 2.50 Dollar pro Million Input-Tokens – etwas mehr als GPT-5.2, aber durch die höhere Effizienz relativiert sich der Aufpreis.

Konkret heisst das: Wenn du ChatGPT regelmässig nutzt, wirst du ein spürbar präziseres Modell bekommen. Die Reasoning-Variante GPT-5.4 Thinking ersetzt innerhalb der nächsten drei Monate GPT-5.2 Thinking – Abschaltung ist der 5. Juni 2026. Entwickler, die die API nutzen, profitieren vor allem vom riesigen Kontextfenster und der nativen Computer-Use-Fähigkeit für automatisierte Workflows.

Für Schweizer Unternehmen, die OpenAI-APIs im Einsatz haben, lohnt sich ein Blick auf die neuen Pricing-Stufen: Bei Anfragen über 272'000 Input-Tokens verdoppelt sich der Preis. Wer das Million-Token-Fenster nutzen will, sollte die Kosten im Auge behalten.

Der Wettlauf um den KI-Arbeitsplatz

Mit GPT-5.4 verschiebt sich der KI-Wettbewerb von «Wer hat das klügste Modell?» hin zu «Wessen KI erledigt echte Arbeit am besten?». Die native Computerbedienung, die den menschlichen Benchmark übertrifft, markiert einen Wendepunkt: KI-Agenten werden vom Konzept zur täglichen Realität am Arbeitsplatz.

OpenAI, Anthropic und Google liefern sich hier ein enges Rennen. GPT-5.4 ist OpenAIs deutlichste Antwort darauf – ob sie reicht, werden die nächsten Wochen zeigen.

Besser als der Mensch – zumindest am Bildschirm

1 Million Tokens und weniger Fehler

83% bei Wissensarbeit über 44 Berufe

Was das für dich als ChatGPT-Nutzer heisst

Der Wettlauf um den KI-Arbeitsplatz

OpenAI, Anthropic und Google liefern sich hier ein enges Rennen. GPT-5.4 ist OpenAIs deutlichste Antwort darauf – ob sie reicht, werden die nächsten Wochen zeigen.

GPT-5.4 ist da – OpenAIs bisher vielseitigstes Modell

Besser als der Mensch – zumindest am Bildschirm

1 Million Tokens und weniger Fehler

83% bei Wissensarbeit über 44 Berufe

Was das für dich als ChatGPT-Nutzer heisst

Der Wettlauf um den KI-Arbeitsplatz

Quellen

GPT-5.4 ist da – OpenAIs bisher vielseitigstes Modell

Besser als der Mensch – zumindest am Bildschirm

1 Million Tokens und weniger Fehler

83% bei Wissensarbeit über 44 Berufe

Was das für dich als ChatGPT-Nutzer heisst

Der Wettlauf um den KI-Arbeitsplatz

Quellen

GPT-5.4 ist da – OpenAIs bisher vielseitigstes Modell

Besser als der Mensch – zumindest am Bildschirm

1 Million Tokens und weniger Fehler

83% bei Wissensarbeit über 44 Berufe

Was das für dich als ChatGPT-Nutzer heisst

Der Wettlauf um den KI-Arbeitsplatz

Quellen

WEITERLESENDas könnte dich auch interessieren.

Googles Modell schreibt Text, wie ein Bild entsteht

Claude Fable 5: Anthropics stärkstes Modell – mit Notbremse

MiniMax M3: viel Kontext, wenig Rechenaufwand

GPT-5.4 ist da – OpenAIs bisher vielseitigstes Modell

Besser als der Mensch – zumindest am Bildschirm

1 Million Tokens und weniger Fehler

83% bei Wissensarbeit über 44 Berufe

Was das für dich als ChatGPT-Nutzer heisst

Der Wettlauf um den KI-Arbeitsplatz

Quellen

WEITERLESENDas könnte dich auch interessieren.

Googles Modell schreibt Text, wie ein Bild entsteht

Claude Fable 5: Anthropics stärkstes Modell – mit Notbremse

MiniMax M3: viel Kontext, wenig Rechenaufwand