Thinking Machines Lab von Ex-OpenAI-Chefin Mira Murati und der Hedgefonds Bridgewater zeigen: Ein kleines, feinjustiertes Custom-Modell schlägt die grossen Frontier-LLMs bei Finanzaufgaben. Es erreicht 84,7 Prozent Genauigkeit und kostet nur einen Bruchteil.
Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.
Ein Spezialmodell auf eigenen Experten-Daten schlägt das teure Universal-LLM bei genau definierten Aufgaben – genauer und rund 14-mal günstiger.
Ein kleines Spezialmodell schlägt GPT, Claude und Gemini – und kostet nur einen Bruchteil. Das ist das überraschende Ergebnis der ersten grossen angewandten Studie aus Thinking Machines Lab, dem Startup der früheren OpenAI-Chefin Mira Murati. Gemeinsam mit den AIA Labs des weltgrössten Hedgefonds Bridgewater hat das Team gezeigt, wie ein massgeschneidertes Modell erfahrene Finanzprofis bei ihrer täglichen Fleissarbeit ersetzt – genauer und deutlich günstiger als die teuren Universal-Modelle.
Am 30. Juni veröffentlichten die beiden Häuser ihre Forschung unter dem Titel «Learning to Replicate Expert Judgment in Financial Tasks». Der Ausgangspunkt: Investoren ertrinken täglich in Dokumenten – Nachrichten, Research-Berichte, Firmenunterlagen, E-Mails. Das Lesen ist nicht das Problem. Der Aufwand steckt in den vielen kleinen Urteilen: Was ist relevant, was ist Rauschen? Genau diese Triage wollte das Team automatisieren.
Der Haken: Die grossen Frontier-Modelle scheiterten kläglich. Mit einem simplen Prompt, der die Aufgabe nur beschreibt, kamen Varianten von GPT, Claude und Gemini über rund 50 Prozent Treffer nicht hinaus – ein Münzwurf. Ein Beispiel aus der Studie: Ein Artikel über Trumps Anspruch auf Grönland ist für einen Makro-Investor irrelevant, eine Meldung über neue China-Zölle hochrelevant. Beide berühren Geopolitik und Finanzen – die Nuance dazwischen kriegt ein generisches Modell nicht zuverlässig hin.
Selbst mit ausgefeiltem Prompt-Engineering – von Bridgewaters Experten geschriebene Anweisungen, dazu automatische Prompt-Optimierung – kletterten die Frontier-Modelle nur in die mittleren 70er. Unter 80 Prozent, also unter der Schwelle, ab der die Profis dem System im Alltag vertrauen würden.
Dann kam das Feintuning. Statt Experten-Intuition in einen starren Prompt zu pressen, trainierte das Team ein offenes Basismodell (Qwen3-235B) auf Bridgewaters eigenen, von Experten gelabelten Daten – über Murats Trainings-Plattform Tinker. Das Resultat über sechs reale Finanzaufgaben hinweg:
Zwei Trainings-Tricks trugen den grössten Teil bei: sogenanntes Interleaved Batching (die Aufgaben werden abwechselnd im Rundlauf trainiert) brachte 12,1 Prozentpunkte, On-Policy Distillation (das Modell lernt von einer stärkeren Vorgänger-Version seiner selbst) weitere 3,1.
Die Kern-Erkenntnis geht über die Finanzbranche hinaus. Ein Prompt kann nur das vermitteln, was ein Experte in Worte fassen kann. Die Urteile, die am meisten zählen, sind aber oft die am schwersten erklärbaren. Genau die lernt ein Modell, wenn es auf experten-gelabelten, proprietären Daten feinjustiert wird – Unterscheidungen, die kein noch so cleveres Prompt-Engineering einem Universal-Modell beibringt.
Für dich als Unternehmen – auch als Schweizer KMU – steckt darin eine handfeste Botschaft: Der teuerste Frontier-LLM ist nicht automatisch die beste Lösung. Wer über eigene, sauber aufbereitete Daten mit dem Know-how seiner Fachleute verfügt, kann daraus ein kleines Spezialmodell bauen, das für die konkrete Aufgabe treffsicherer und massiv billiger ist. Das senkt nicht nur die laufenden Kosten, sondern hält sensible Daten auch näher am eigenen Haus.
Einordnung: Es ist das erste grössere angewandte Forschungsresultat aus Murats Thinking Machines Lab – und ein deutliches Signal. Murati verliess OpenAI Ende 2024 mit der These, der nächste Wertschub in der KI komme nicht aus noch grösseren Universal-Modellen, sondern aus Massanfertigung. Die Studie liefert dafür den ersten belastbaren Beleg. Bridgewater verwaltet rund 100 Milliarden Dollar – und setzt künftig auf viele kleine, spezialisierte Modelle statt auf das eine Universalgehirn. Für den Enterprise-Einsatz könnte das der Anfang einer Trendwende sein: differenzierte Intelligenz statt Einheits-LLM.