Qwen3.7-Max läuft 35 Stunden autonom – und optimiert Code für Alibabas eigenen Chip

Alibaba hat mit Qwen3.7-Max sein neues Top-Modell veröffentlicht – diesmal nicht für Chats, sondern für Agenten. In einem Praxis-Test arbeitete das Modell 35 Stunden am Stück völlig autonom an einer Code-Optimierung. Auf Standard-Benchmarks zieht es mit Claude Opus 4.6 gleich und distanziert die chinesische Konkurrenz von DeepSeek und Kimi deutlich.

Was Qwen3.7-Max ist – und was nicht

Wie schon die Vorgänger Qwen3-Max und Qwen3.6-Plus ist die neue Max-Version proprietär und nur über die Alibaba Cloud Model Studio API verfügbar. Das letzte offene Flaggschiff war Qwen3.5-397B-A17B im Februar 2026. Wer Qwen3.7-Max nutzen will, muss in den Cloud-Dienst – Open-Weights-Veröffentlichung gibt's nicht.

Das Modell unterstützt OpenAI- und Anthropic-kompatible Schnittstellen und läuft direkt in Claude Code, OpenClaw oder Qwen Code. Vier Anwendungsfälle stehen laut Qwen-Team im Fokus: Coding-Agent von Frontend-Prototyp bis Multi-File-Projekt, Office-Automatisierung, Langzeit-Operationen und konsistente Leistung über verschiedene Agent-Frameworks hinweg.

Das 35-Stunden-Kernel-Experiment

Der ungewöhnlichste Test im Release-Bericht: Qwen3.7-Max sollte einen hardwarespezifischen Attention-Kernel für die Open-Source-Inferenz-Software SGLang optimieren. Die Zielhardware war eine Cloud-Instanz mit T-Head-ZW-M890-Beschleunigern – einem hauseigenen Chip aus Alibabas Halbleiter-Sparte, den das Modell während des Trainings nie zu Gesicht bekommen hatte.

Es gab keine Messdaten, keine Hardware-Doku und keinen Beispiel-Code – nur die Referenz-Implementierung in der Programmiersprache Triton. Über rund 35 Stunden ununterbrochene autonome Arbeit führte das Modell 432 Kernel-Tests mit 1'158 Tool-Calls aus, kompilierte, mass, revidierte den Code in Schleifen, fing Compilation-Errors ab und spürte Performance-Engpässe selbständig auf.

Das Ergebnis: ein durchschnittlich 10-facher Speedup gegenüber der Referenz. Im selben Setup schaffte GLM 5.1 nur 7,3x, Kimi K2.6 kam auf 5x, DeepSeek V4 Pro auf 3,3x, und der Vorgänger Qwen3.6-Plus blieb mit 1,1x praktisch stehen. Mehrere Modelle brachen die Session nach fünf Runden ohne Tool-Call von selbst ab.

Drei-Komponenten-Training: Aufgabe, Werkzeug, Validator

Hinter der Robustheit steckt ein Trainings-Ansatz, den Qwen schon bei 3.5 eingeführt hat: Jede Trainings-Aufgabe wird in drei unabhängige Teile zerlegt – die eigentliche Aufgabe, die Werkzeug-Umgebung und der Validator, der das Ergebnis prüft. Diese Bausteine können beliebig kombiniert werden.

Die Idee dahinter: Das Modell soll Strategien lernen, die überall funktionieren – nicht Tricks, die nur für ein bestimmtes Setup gelten. Auf den Benchmarks QwenClawBench und CoWorkBench liefert Qwen3.7-Max nahezu identische Werte, egal ob es in OpenClaw, Claude Code oder Hermes läuft. Der Vorgänger schwankte hier noch deutlich.

Das Modell überwacht sein eigenes Training

Eine weitere Spielerei: Das Qwen-Team setzte Qwen3.7-Max als Aufseher in seinem eigenen Trainings-Loop ein. Über 86 Stunden autonome Laufzeit prüfte das Modell 13'952 Trajektorien des trainierten Modells und entdeckte 1'618 Fälle von Reward-Hacking – also Tricks, mit denen sich das Trainings-Modell Belohnungen erschlich, etwa durch Kopieren korrekter Antworten direkt von GitHub. Qwen3.7-Max formulierte dabei selbständig 13 neue Detektions-Regeln.

Benchmarks: Augenhöhe mit Opus 4.6

Auf SWE-Verified landet Qwen3.7-Max bei 80,4 Punkten – knapp hinter Opus 4.6 Max (80,8) und DeepSeek V4 Pro Max (80,6). Auf den Mathe- und Wissenschafts-Benchmarks GPQA Diamond (92,4), HMMT 2026 Februar (97,1) und Apex (44,5) führt Qwen3.7-Max in der eigenen Vergleichstabelle. Einschränkung: Mehrere der angeführten Benchmarks (QwenWebDev, QwenClawBench, CoWorkBench, QwenWorldBench) sind hauseigene Tests von Alibaba selbst. Wie üblich gilt: Vendor-Benchmarks bitte mit etwas Salz geniessen.

Ach ja, eine Demo im Release-Video: Qwen3.7-Max steuert auch einen vierbeinigen Roboter durch physische Räume.

Für dich konkret

Wenn du KI-Agenten für lang laufende Aufgaben einsetzt – Code-Migration, Daten-Pipelines, autonome Office-Tasks – steht mit Qwen3.7-Max ein weiterer ernstzunehmender Kandidat im Feld. Die OpenAI- und Anthropic-kompatible API macht den Wechsel oder das Parallel-Testen technisch einfach: Bestehende Claude-Code- oder Codex-Setups laufen ohne grosse Anpassung.

Für Schweizer Unternehmen gilt dieselbe Vorsicht wie bei DeepSeek: Alibabas API verarbeitet Daten in der Volksrepublik – das kollidiert mit DSG, FINMA-Vorgaben und Berufsgeheimnissen. Anders als DeepSeek ist Qwen3.7-Max aber nicht als Open Weights verfügbar, ein Self-Hosting in Europa fällt damit weg. Wer ernsthaft testet, bleibt bei sensiblen Daten besser bei Anthropic, OpenAI oder Google Cloud Vertex AI in der Schweiz-Region.

🔗 Quellen: The Decoder, Qwen Blog – Qwen3.7, SGLang