NewsKategorienNewsletter-ArchivÜber unsKostenlos abonnieren

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

FOLGE UNS
LIXIG
NAVIGATION
Alle NewsNewsletter-ArchivAutorenÜber unsKontakt
KATEGORIEN
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
RECHTLICHES
ImpressumDatenschutzAGB
© 2026 Inoo GmbH · Altstätten SG · Schweiz
Ein Produkt von InooSwiss Made Software
HOME·NEWS·NEUE MODELLE

Qwen3.7-Max läuft 35 Stunden autonom – und optimiert Code für Alibabas eigenen Chip

Alibabas neues Top-Modell arbeitet 35 Stunden ohne Unterbruch an einer Kernel-Optimierung. Auf Standard-Benchmarks zieht es mit Claude Opus 4.6 gleich.

Pascal Eugster
Pascal Eugster
GRÜNDER & ENTWICKLER
26. MAI 2026
4 MIN. LESEZEIT
Skizze Qwen3.7-Max Roboter optimiert blau leuchtenden Chip auf Workbench mit Sanduhr
Skizze Qwen3.7-Max Roboter optimiert blau leuchtenden Chip auf Workbench mit Sanduhr (Dark)
INHALT
01Was Qwen3.7-Max ist – und was nicht02Das 35-Stunden-Kernel-Experiment03Drei-Komponenten-Training: Aufgabe, Werkzeug, Validator04Das Modell überwacht sein eigenes Training05Benchmarks: Augenhöhe mit Opus 4.606Für dich konkret
INHALT
01Was Qwen3.7-Max ist – und was nicht02Das 35-Stunden-Kernel-Experiment03Drei-Komponenten-Training: Aufgabe, Werkzeug, Validator04Das Modell überwacht sein eigenes Training05Benchmarks: Augenhöhe mit Opus 4.606Für dich konkret
in
PARTNER · INOO GMBH
Wie viel KI verträgt dein Betrieb? In 30 Minuten Klartext.

Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.

Gespräch buchen →
DAS WICHTIGSTE IN KÜRZE

China spielt im Agent-Game oben mit – und macht es zugleich strategisch knifflig: Qwen3.7-Max ist nur über die Alibaba-Cloud verfügbar, kein Open Weights.

Alibaba hat mit Qwen3.7-Max sein neues Top-Modell veröffentlicht – diesmal nicht für Chats, sondern für Agenten. In einem Praxis-Test arbeitete das Modell 35 Stunden am Stück völlig autonom an einer Code-Optimierung. Auf Standard-Benchmarks zieht es mit Claude Opus 4.6 gleich und distanziert die chinesische Konkurrenz von DeepSeek und Kimi deutlich.

Was Qwen3.7-Max ist – und was nicht

Wie schon die Vorgänger Qwen3-Max und Qwen3.6-Plus ist die neue Max-Version proprietär und nur über die Alibaba Cloud Model Studio API verfügbar. Das letzte offene Flaggschiff war Qwen3.5-397B-A17B im Februar 2026. Wer Qwen3.7-Max nutzen will, muss in den Cloud-Dienst – Open-Weights-Veröffentlichung gibt's nicht.

Das Modell unterstützt OpenAI- und Anthropic-kompatible Schnittstellen und läuft direkt in Claude Code, OpenClaw oder Qwen Code. Vier Anwendungsfälle stehen laut Qwen-Team im Fokus: Coding-Agent von Frontend-Prototyp bis Multi-File-Projekt, Office-Automatisierung, Langzeit-Operationen und konsistente Leistung über verschiedene Agent-Frameworks hinweg.

Das 35-Stunden-Kernel-Experiment

Der ungewöhnlichste Test im Release-Bericht: Qwen3.7-Max sollte einen hardwarespezifischen Attention-Kernel für die Open-Source-Inferenz-Software SGLang optimieren. Die Zielhardware war eine Cloud-Instanz mit T-Head-ZW-M890-Beschleunigern – einem hauseigenen Chip aus Alibabas Halbleiter-Sparte, den das Modell während des Trainings nie zu Gesicht bekommen hatte.

Es gab keine Messdaten, keine Hardware-Doku und keinen Beispiel-Code – nur die Referenz-Implementierung in der Programmiersprache Triton. Über rund 35 Stunden ununterbrochene autonome Arbeit führte das Modell 432 Kernel-Tests mit 1'158 Tool-Calls aus, kompilierte, mass, revidierte den Code in Schleifen, fing Compilation-Errors ab und spürte Performance-Engpässe selbständig auf.

Das Ergebnis: ein durchschnittlich 10-facher Speedup gegenüber der Referenz. Im selben Setup schaffte GLM 5.1 nur 7,3x, Kimi K2.6 kam auf 5x, DeepSeek V4 Pro auf 3,3x, und der Vorgänger Qwen3.6-Plus blieb mit 1,1x praktisch stehen. Mehrere Modelle brachen die Session nach fünf Runden ohne Tool-Call von selbst ab.

Drei-Komponenten-Training: Aufgabe, Werkzeug, Validator

Hinter der Robustheit steckt ein Trainings-Ansatz, den Qwen schon bei 3.5 eingeführt hat: Jede Trainings-Aufgabe wird in drei unabhängige Teile zerlegt – die eigentliche Aufgabe, die Werkzeug-Umgebung und der Validator, der das Ergebnis prüft. Diese Bausteine können beliebig kombiniert werden.

Die Idee dahinter: Das Modell soll Strategien lernen, die überall funktionieren – nicht Tricks, die nur für ein bestimmtes Setup gelten. Auf den Benchmarks QwenClawBench und CoWorkBench liefert Qwen3.7-Max nahezu identische Werte, egal ob es in OpenClaw, Claude Code oder Hermes läuft. Der Vorgänger schwankte hier noch deutlich.

Das Modell überwacht sein eigenes Training

Eine weitere Spielerei: Das Qwen-Team setzte Qwen3.7-Max als Aufseher in seinem eigenen Trainings-Loop ein. Über 86 Stunden autonome Laufzeit prüfte das Modell 13'952 Trajektorien des trainierten Modells und entdeckte 1'618 Fälle von Reward-Hacking – also Tricks, mit denen sich das Trainings-Modell Belohnungen erschlich, etwa durch Kopieren korrekter Antworten direkt von GitHub. Qwen3.7-Max formulierte dabei selbständig 13 neue Detektions-Regeln.

Benchmarks: Augenhöhe mit Opus 4.6

Auf SWE-Verified landet Qwen3.7-Max bei 80,4 Punkten – knapp hinter Opus 4.6 Max (80,8) und DeepSeek V4 Pro Max (80,6). Auf den Mathe- und Wissenschafts-Benchmarks GPQA Diamond (92,4), HMMT 2026 Februar (97,1) und Apex (44,5) führt Qwen3.7-Max in der eigenen Vergleichstabelle. Einschränkung: Mehrere der angeführten Benchmarks (QwenWebDev, QwenClawBench, CoWorkBench, QwenWorldBench) sind hauseigene Tests von Alibaba selbst. Wie üblich gilt: Vendor-Benchmarks bitte mit etwas Salz geniessen.

Ach ja, eine Demo im Release-Video: Qwen3.7-Max steuert auch einen vierbeinigen Roboter durch physische Räume.

Für dich konkret

Wenn du KI-Agenten für lang laufende Aufgaben einsetzt – Code-Migration, Daten-Pipelines, autonome Office-Tasks – steht mit Qwen3.7-Max ein weiterer ernstzunehmender Kandidat im Feld. Die OpenAI- und Anthropic-kompatible API macht den Wechsel oder das Parallel-Testen technisch einfach: Bestehende Claude-Code- oder Codex-Setups laufen ohne grosse Anpassung.

Für Schweizer Unternehmen gilt dieselbe Vorsicht wie bei DeepSeek: Alibabas API verarbeitet Daten in der Volksrepublik – das kollidiert mit DSG, FINMA-Vorgaben und Berufsgeheimnissen. Anders als DeepSeek ist Qwen3.7-Max aber nicht als Open Weights verfügbar, ein Self-Hosting in Europa fällt damit weg. Wer ernsthaft testet, bleibt bei sensiblen Daten besser bei Anthropic, OpenAI oder Google Cloud Vertex AI in der Schweiz-Region.

🔗 Quellen: The Decoder, Qwen Blog – Qwen3.7, SGLang

Quellen

The Decoder - Qwen3.7-Max↗ EXTERNER LINKQwen Blog - Qwen3.7↗ EXTERNER LINKSGLang - GitHub↗ EXTERNER LINK
TEILEN
LinkedIn→X / Twitter→E-Mail→
KOSTENLOS ABONNIEREN
Diese News jeden Freitag in dein Postfach?

WEITERLESENDas könnte dich auch interessieren.

Handgezeichnete Skizze eines elektroblau leuchtenden Computerchips auf einem Holzschreibtisch, daneben eine Sanduhr, aufgefaecherte Buchseiten und eine Schreibtischlampe
Handgezeichnete Skizze eines elektroblau leuchtenden Computerchips auf einem Holzschreibtisch, daneben eine Sanduhr, aufgefaecherte Buchseiten und eine Schreibtischlampe (Dark Mode)
NEUE MODELLE·5. JUNI 2026

MiniMax M3: viel Kontext, wenig Rechenaufwand

Das chinesische Labor MiniMax bringt mit M3 ein offenes Modell, das eine Million Token verarbeitet – und dafür nur ein Zwanzigstel der Rechenleistung des Vorgängers braucht. Gewichte folgen in zehn Tagen.

Skizze einer Werkbank, an der eine Person eine Reihe kleiner elektroblauer Roboterfiguren zusammenbaut, offener Werkzeugkasten, Bauplan an der Wand, Fenster mit Morgenlicht
Skizze einer Werkbank, an der eine Person eine Reihe kleiner elektroblauer Roboterfiguren zusammenbaut, offener Werkzeugkasten, Bauplan an der Wand, Fenster mit Morgenlicht (Dark)
NEUE MODELLE·3. JUNI 2026

Microsoft baut sieben eigene KI-Modelle – und löst sich von OpenAI

An der Build 2026 hat Microsoft sieben eigene MAI-Modelle vorgestellt – fürs Schlussfolgern, Programmieren, Sprache und Bild. Das erklärte Ziel: weniger Abhängigkeit von Partner OpenAI.

Skizze eines freundlichen Roboters am Schreibtisch, der eine Hand mit einer kleinen Warnflagge hebt, davor ein Laptop mit Code und eine Lupe
Skizze eines freundlichen Roboters am Schreibtisch, der eine Hand mit einer kleinen Warnflagge hebt, davor ein Laptop mit Code und eine Lupe (Dark)
NEUE MODELLE·29. MAI 2026

Anthropic bringt Claude Opus 4.8 – und macht das Modell vor allem ehrlicher

Anthropic hat am 28. Mai Claude Opus 4.8 vorgestellt. Das neue Spitzenmodell ist beim Programmieren und bei agentischen Aufgaben stärker – vor allem aber rund viermal seltener bereit, eigene Fehler unkommentiert durchgehen zu lassen.