Murats Spezialmodell schlägt GPT, Claude und Gemini

Thinking Machines Lab von Ex-OpenAI-Chefin Mira Murati und der Hedgefonds Bridgewater zeigen: Ein kleines, feinjustiertes Custom-Modell schlägt die grossen Frontier-LLMs bei Finanzaufgaben. Es erreicht 84,7 Prozent Genauigkeit und kostet nur einen Bruchteil.

Pascal Eugster

GRÜNDER & ENTWICKLER

4. JULI 2026

3 MIN. LESEZEIT

Ein kleines Spezialmodell schlägt GPT, Claude und Gemini – und kostet nur einen Bruchteil. Das ist das überraschende Ergebnis der ersten grossen angewandten Studie aus Thinking Machines Lab, dem Startup der früheren OpenAI-Chefin Mira Murati. Gemeinsam mit den AIA Labs des weltgrössten Hedgefonds Bridgewater hat das Team gezeigt, wie ein massgeschneidertes Modell erfahrene Finanzprofis bei ihrer täglichen Fleissarbeit ersetzt – genauer und deutlich günstiger als die teuren Universal-Modelle.

Wenn ChatGPT beim Zeitunglesen versagt

Am 30. Juni veröffentlichten die beiden Häuser ihre Forschung unter dem Titel «Learning to Replicate Expert Judgment in Financial Tasks». Der Ausgangspunkt: Investoren ertrinken täglich in Dokumenten – Nachrichten, Research-Berichte, Firmenunterlagen, E-Mails. Das Lesen ist nicht das Problem. Der Aufwand steckt in den vielen kleinen Urteilen: Was ist relevant, was ist Rauschen? Genau diese Triage wollte das Team automatisieren.

Der Haken: Die grossen Frontier-Modelle scheiterten kläglich. Mit einem simplen Prompt, der die Aufgabe nur beschreibt, kamen Varianten von GPT, Claude und Gemini über rund 50 Prozent Treffer nicht hinaus – ein Münzwurf. Ein Beispiel aus der Studie: Ein Artikel über Trumps Anspruch auf Grönland ist für einen Makro-Investor irrelevant, eine Meldung über neue China-Zölle hochrelevant. Beide berühren Geopolitik und Finanzen – die Nuance dazwischen kriegt ein generisches Modell nicht zuverlässig hin.

84,7 Prozent – und Fehler fast um ein Drittel reduziert

Selbst mit ausgefeiltem Prompt-Engineering – von Bridgewaters Experten geschriebene Anweisungen, dazu automatische Prompt-Optimierung – kletterten die Frontier-Modelle nur in die mittleren 70er. Unter 80 Prozent, also unter der Schwelle, ab der die Profis dem System im Alltag vertrauen würden.

Dann kam das Feintuning. Statt Experten-Intuition in einen starren Prompt zu pressen, trainierte das Team ein offenes Basismodell (Qwen3-235B) auf Bridgewaters eigenen, von Experten gelabelten Daten – über Murats Trainings-Plattform Tinker. Das Resultat über sechs reale Finanzaufgaben hinweg:

84,7 % Durchschnitts-Genauigkeit – gegenüber 78,2 % beim besten getesteten Frontier-Modell
29,8 % weniger Fehler als die stärkste Konkurrenz
13,8-mal tiefere Inferenzkosten pro Aufgabe (also rund ein Vierzehntel)

Zwei Trainings-Tricks trugen den grössten Teil bei: sogenanntes Interleaved Batching (die Aufgaben werden abwechselnd im Rundlauf trainiert) brachte 12,1 Prozentpunkte, On-Policy Distillation (das Modell lernt von einer stärkeren Vorgänger-Version seiner selbst) weitere 3,1.

Warum eigene Daten mehr wert sind als der beste Prompt

Die Kern-Erkenntnis geht über die Finanzbranche hinaus. Ein Prompt kann nur das vermitteln, was ein Experte in Worte fassen kann. Die Urteile, die am meisten zählen, sind aber oft die am schwersten erklärbaren. Genau die lernt ein Modell, wenn es auf experten-gelabelten, proprietären Daten feinjustiert wird – Unterscheidungen, die kein noch so cleveres Prompt-Engineering einem Universal-Modell beibringt.

Für dich als Unternehmen – auch als Schweizer KMU – steckt darin eine handfeste Botschaft: Der teuerste Frontier-LLM ist nicht automatisch die beste Lösung. Wer über eigene, sauber aufbereitete Daten mit dem Know-how seiner Fachleute verfügt, kann daraus ein kleines Spezialmodell bauen, das für die konkrete Aufgabe treffsicherer und massiv billiger ist. Das senkt nicht nur die laufenden Kosten, sondern hält sensible Daten auch näher am eigenen Haus.

Einordnung: Es ist das erste grössere angewandte Forschungsresultat aus Murats Thinking Machines Lab – und ein deutliches Signal. Murati verliess OpenAI Ende 2024 mit der These, der nächste Wertschub in der KI komme nicht aus noch grösseren Universal-Modellen, sondern aus Massanfertigung. Die Studie liefert dafür den ersten belastbaren Beleg. Bridgewater verwaltet rund 100 Milliarden Dollar – und setzt künftig auf viele kleine, spezialisierte Modelle statt auf das eine Universalgehirn. Für den Enterprise-Einsatz könnte das der Anfang einer Trendwende sein: differenzierte Intelligenz statt Einheits-LLM.

Wenn ChatGPT beim Zeitunglesen versagt

84,7 Prozent – und Fehler fast um ein Drittel reduziert

84,7 % Durchschnitts-Genauigkeit – gegenüber 78,2 % beim besten getesteten Frontier-Modell
29,8 % weniger Fehler als die stärkste Konkurrenz
13,8-mal tiefere Inferenzkosten pro Aufgabe (also rund ein Vierzehntel)

Murats Spezialmodell schlägt GPT, Claude und Gemini

Wenn ChatGPT beim Zeitunglesen versagt

84,7 Prozent – und Fehler fast um ein Drittel reduziert

Warum eigene Daten mehr wert sind als der beste Prompt

Quellen

Murats Spezialmodell schlägt GPT, Claude und Gemini

Wenn ChatGPT beim Zeitunglesen versagt

84,7 Prozent – und Fehler fast um ein Drittel reduziert

Warum eigene Daten mehr wert sind als der beste Prompt

Quellen

Murats Spezialmodell schlägt GPT, Claude und Gemini

Wenn ChatGPT beim Zeitunglesen versagt

84,7 Prozent – und Fehler fast um ein Drittel reduziert

Warum eigene Daten mehr wert sind als der beste Prompt

Quellen

WEITERLESENDas könnte dich auch interessieren.

AISI: Benchmarks unterschätzen KI-Agenten systematisch

KI scheitert an echter Biologie – in 7 von 10 Fällen

GPT-5 löst ein drei Jahre altes Immunologie-Rätsel

KI besteht nur jede dritte Forschungsaufgabe

Diese KI träumt sich Strassen für Roboterautos

Kühlen wie im Atomreaktor – KI-Server ohne Wasser

Murats Spezialmodell schlägt GPT, Claude und Gemini

Wenn ChatGPT beim Zeitunglesen versagt

84,7 Prozent – und Fehler fast um ein Drittel reduziert

Warum eigene Daten mehr wert sind als der beste Prompt

Quellen

WEITERLESENDas könnte dich auch interessieren.

AISI: Benchmarks unterschätzen KI-Agenten systematisch

KI scheitert an echter Biologie – in 7 von 10 Fällen

GPT-5 löst ein drei Jahre altes Immunologie-Rätsel

KI besteht nur jede dritte Forschungsaufgabe

Diese KI träumt sich Strassen für Roboterautos

Kühlen wie im Atomreaktor – KI-Server ohne Wasser