NewsKategorienNewsletter-ArchivÜber unsKostenlos abonnieren

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

FOLGE UNS
LIXIG
NAVIGATION
KI NewsArchivNewsletter-ArchivAutorenÜber unsKontakt
KATEGORIEN
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
RECHTLICHES
ImpressumDatenschutzAGB
© 2026 Inoo GmbH · Altstätten SG · Schweiz
Ein Produkt von InooSwiss Made Software
HOME·NEWS·KI-FORSCHUNG

Murats Spezialmodell schlägt GPT, Claude und Gemini

Thinking Machines Lab von Ex-OpenAI-Chefin Mira Murati und der Hedgefonds Bridgewater zeigen: Ein kleines, feinjustiertes Custom-Modell schlägt die grossen Frontier-LLMs bei Finanzaufgaben. Es erreicht 84,7 Prozent Genauigkeit und kostet nur einen Bruchteil.

Pascal Eugster
Pascal Eugster
GRÜNDER & ENTWICKLER
4. JULI 2026
3 MIN. LESEZEIT
Illustration eines kleinen Schlüssels, der ein grosses Schloss öffnet, mit Lupe auf Finanzdokumenten, kinewsletter.ch Stil
Illustration eines kleinen Schlüssels, der ein grosses Schloss öffnet, mit Lupe auf Finanzdokumenten, kinewsletter.ch Stil
INHALT
01Wenn ChatGPT beim Zeitunglesen versagt0284,7 Prozent – und Fehler fast um ein Drittel reduziert03Warum eigene Daten mehr wert sind als der beste Prompt
INHALT
01Wenn ChatGPT beim Zeitunglesen versagt0284,7 Prozent – und Fehler fast um ein Drittel reduziert03Warum eigene Daten mehr wert sind als der beste Prompt
in
PARTNER · INOO GMBH
Wie viel KI verträgt dein Betrieb? In 30 Minuten Klartext.

Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.

Gespräch buchen →
DAS WICHTIGSTE IN KÜRZE

Ein Spezialmodell auf eigenen Experten-Daten schlägt das teure Universal-LLM bei genau definierten Aufgaben – genauer und rund 14-mal günstiger.

Ein kleines Spezialmodell schlägt GPT, Claude und Gemini – und kostet nur einen Bruchteil. Das ist das überraschende Ergebnis der ersten grossen angewandten Studie aus Thinking Machines Lab, dem Startup der früheren OpenAI-Chefin Mira Murati. Gemeinsam mit den AIA Labs des weltgrössten Hedgefonds Bridgewater hat das Team gezeigt, wie ein massgeschneidertes Modell erfahrene Finanzprofis bei ihrer täglichen Fleissarbeit ersetzt – genauer und deutlich günstiger als die teuren Universal-Modelle.

Wenn ChatGPT beim Zeitunglesen versagt

Am 30. Juni veröffentlichten die beiden Häuser ihre Forschung unter dem Titel «Learning to Replicate Expert Judgment in Financial Tasks». Der Ausgangspunkt: Investoren ertrinken täglich in Dokumenten – Nachrichten, Research-Berichte, Firmenunterlagen, E-Mails. Das Lesen ist nicht das Problem. Der Aufwand steckt in den vielen kleinen Urteilen: Was ist relevant, was ist Rauschen? Genau diese Triage wollte das Team automatisieren.

Der Haken: Die grossen Frontier-Modelle scheiterten kläglich. Mit einem simplen Prompt, der die Aufgabe nur beschreibt, kamen Varianten von GPT, Claude und Gemini über rund 50 Prozent Treffer nicht hinaus – ein Münzwurf. Ein Beispiel aus der Studie: Ein Artikel über Trumps Anspruch auf Grönland ist für einen Makro-Investor irrelevant, eine Meldung über neue China-Zölle hochrelevant. Beide berühren Geopolitik und Finanzen – die Nuance dazwischen kriegt ein generisches Modell nicht zuverlässig hin.

84,7 Prozent – und Fehler fast um ein Drittel reduziert

Selbst mit ausgefeiltem Prompt-Engineering – von Bridgewaters Experten geschriebene Anweisungen, dazu automatische Prompt-Optimierung – kletterten die Frontier-Modelle nur in die mittleren 70er. Unter 80 Prozent, also unter der Schwelle, ab der die Profis dem System im Alltag vertrauen würden.

Dann kam das Feintuning. Statt Experten-Intuition in einen starren Prompt zu pressen, trainierte das Team ein offenes Basismodell (Qwen3-235B) auf Bridgewaters eigenen, von Experten gelabelten Daten – über Murats Trainings-Plattform Tinker. Das Resultat über sechs reale Finanzaufgaben hinweg:

  • 84,7 % Durchschnitts-Genauigkeit – gegenüber 78,2 % beim besten getesteten Frontier-Modell
  • 29,8 % weniger Fehler als die stärkste Konkurrenz
  • 13,8-mal tiefere Inferenzkosten pro Aufgabe (also rund ein Vierzehntel)

Zwei Trainings-Tricks trugen den grössten Teil bei: sogenanntes Interleaved Batching (die Aufgaben werden abwechselnd im Rundlauf trainiert) brachte 12,1 Prozentpunkte, On-Policy Distillation (das Modell lernt von einer stärkeren Vorgänger-Version seiner selbst) weitere 3,1.

Warum eigene Daten mehr wert sind als der beste Prompt

Die Kern-Erkenntnis geht über die Finanzbranche hinaus. Ein Prompt kann nur das vermitteln, was ein Experte in Worte fassen kann. Die Urteile, die am meisten zählen, sind aber oft die am schwersten erklärbaren. Genau die lernt ein Modell, wenn es auf experten-gelabelten, proprietären Daten feinjustiert wird – Unterscheidungen, die kein noch so cleveres Prompt-Engineering einem Universal-Modell beibringt.

Für dich als Unternehmen – auch als Schweizer KMU – steckt darin eine handfeste Botschaft: Der teuerste Frontier-LLM ist nicht automatisch die beste Lösung. Wer über eigene, sauber aufbereitete Daten mit dem Know-how seiner Fachleute verfügt, kann daraus ein kleines Spezialmodell bauen, das für die konkrete Aufgabe treffsicherer und massiv billiger ist. Das senkt nicht nur die laufenden Kosten, sondern hält sensible Daten auch näher am eigenen Haus.

Einordnung: Es ist das erste grössere angewandte Forschungsresultat aus Murats Thinking Machines Lab – und ein deutliches Signal. Murati verliess OpenAI Ende 2024 mit der These, der nächste Wert­schub in der KI komme nicht aus noch grösseren Universal-Modellen, sondern aus Massanfertigung. Die Studie liefert dafür den ersten belastbaren Beleg. Bridgewater verwaltet rund 100 Milliarden Dollar – und setzt künftig auf viele kleine, spezialisierte Modelle statt auf das eine Universalgehirn. Für den Enterprise-Einsatz könnte das der Anfang einer Trendwende sein: differenzierte Intelligenz statt Einheits-LLM.

Quellen

Learning to Replicate Expert Judgment in Financial Tasks – Thinking Machines Lab / Bridgewater AIA Labs↗ EXTERNER LINKThinking Machines partners with Bridgewater to build AI model that cuts errors by nearly 30% – Crypto Briefing↗ EXTERNER LINKThinking Machines Lab × Bridgewater: Custom model beats frontier – FourWeekMBA↗ EXTERNER LINK
TEILEN
LinkedIn→X / Twitter→E-Mail→
KOSTENLOS ABONNIEREN
Diese News jeden Freitag in dein Postfach?

WEITERLESENDas könnte dich auch interessieren.

Illustration einer Balkenwaage mit Messschieber und Lupe als Sinnbild für unterschätzte Messwerte, kinewsletter.ch Stil
Illustration einer Balkenwaage mit Messschieber und Lupe als Sinnbild für unterschätzte Messwerte, kinewsletter.ch Stil
KI-FORSCHUNG·4. JULI 2026

AISI: Benchmarks unterschätzen KI-Agenten systematisch

Das britische AI Security Institute zeigt in seinem Frontier AI Trends Report, dass gängige Benchmarks die wahren Fähigkeiten von KI-Agenten zu tief ansetzen. Verbesserte man nur das «Scaffolding» eines Modells, stieg die Leistung in Cyber-Tests um fast 10 Prozentpunkte. Für KI-Sicherheit und Regulierung ist das ein Alarmzeichen.

Handgezeichnete Skizze einer Laborbank mit Mikroskop, Reagenzglasstaender und Whiteboard mit DNA-Doppelhelix, elektroblauer Akzent
Handgezeichnete Skizze einer Laborbank mit Mikroskop, Reagenzglasstaender und Whiteboard mit DNA-Doppelhelix, elektroblauer Akzent (Dark Mode)
KI-FORSCHUNG·1. JULI 2026

KI scheitert an echter Biologie – in 7 von 10 Fällen

OpenAIs neuer Benchmark GeneBench-Pro prüft echtes Forschungsurteil statt Faktenwissen. Das beste Modell besteht nur knapp jede dritte der 129 Biologie-Aufgaben – eine nüchterne Messlatte für den Hype um KI in der Wissenschaft.

Handgezeichnete Skizze eines Mikroskops mit Petrischalen und Reagenzgläsern auf einer Laborbank, kinewsletter.ch Stil
Skizze Mikroskop mit Petrischalen und Reagenzglaesern, kinewsletter.ch Stil
KI-FORSCHUNG·25. JUNI 2026

GPT-5 löst ein drei Jahre altes Immunologie-Rätsel

Der Immunologe Derya Unutmaz hatte ein Experiment vor drei Jahren ungelöst beiseitegelegt. GPT-5 Pro lieferte die Erklärung in einem Anlauf – und sagte danach sogar das Ergebnis eines unveröffentlichten Versuchs korrekt voraus. Ein Lehrstück darüber, wie KI zur Forschungspartnerin wird, ohne Expertenwissen zu ersetzen.

Illustration eines Mikroskops im Labor, kinewsletter.ch Stil
Dark Illustration, kinewsletter.ch Stil
KI-FORSCHUNG·19. JUNI 2026

KI besteht nur jede dritte Forschungsaufgabe

OpenAIs neuer Test LifeSciBench prüft KI an 750 echten Aufgaben aus der Life-Science-Forschung. Das beste Modell löst nur 36 Prozent – ein nützlicher Dämpfer für überzogene Erwartungen an KI im Labor.

Handgezeichnete Skizze eines Bildschirms mit einer kurvigen Strasse in eine Berglandschaft, davor ein Spielzeugauto und eine Kamera auf einem Stativ
Handgezeichnete Skizze eines Bildschirms mit einer kurvigen Strasse in eine Berglandschaft, davor ein Spielzeugauto und eine Kamera auf einem Stativ (Dark Mode)
KI-FORSCHUNG·12. JUNI 2026

Diese KI träumt sich Strassen für Roboterautos

Das Startup Decart hat mit Oasis 3 ein Weltmodell vorgestellt, das fotorealistische Strassenszenen in Echtzeit erfindet – ein endloser Fahrsimulator, um selbstfahrende Autos auch mit seltenen Situationen zu trainieren. Noch fahren die Autos aber durch Wände.

Handgezeichnete Skizze eines Computerchips auf einer Werkbank mit elektroblau leuchtenden aufsteigenden Blasen, Druckmanometer und Kühlschlauch
Handgezeichnete Skizze eines Computerchips auf einer Werkbank mit elektroblau leuchtenden aufsteigenden Blasen, Druckmanometer und Kühlschlauch (Dark Mode)
KI-FORSCHUNG·11. JUNI 2026

Kühlen wie im Atomreaktor – KI-Server ohne Wasser

Ein MIT-Spin-off namens Ferveret kühlt KI-Chips mit einem Trick aus der Kernreaktor-Physik – ganz ohne Wasser und mit deutlich weniger Strom. Im Test holte das System 35 Prozent mehr Rechenleistung aus derselben Energie.

Mehr aus KI-Forschung →