NewsKategorienNewsletter-ArchivÜber unsKostenlos abonnieren

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

FOLGE UNS
LIXIG
NAVIGATION
Alle NewsNewsletter-ArchivAutorenÜber unsKontakt
KATEGORIEN
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
RECHTLICHES
ImpressumDatenschutzAGB
© 2026 Inoo GmbH · Altstätten SG · Schweiz
Ein Produkt von InooSwiss Made Software
HOME·NEWS·NEUE MODELLE

Qwen3.7-Max läuft 35 Stunden autonom – und optimiert Code für Alibabas eigenen Chip

Alibabas neues Top-Modell arbeitet 35 Stunden ohne Unterbruch an einer Kernel-Optimierung. Auf Standard-Benchmarks zieht es mit Claude Opus 4.6 gleich.

Pascal Eugster
Pascal Eugster
GRÜNDER & ENTWICKLER
26. MAI 2026
4 MIN. LESEZEIT
Skizze Qwen3.7-Max Roboter optimiert blau leuchtenden Chip auf Workbench mit Sanduhr
Skizze Qwen3.7-Max Roboter optimiert blau leuchtenden Chip auf Workbench mit Sanduhr (Dark)
INHALT
01Was Qwen3.7-Max ist – und was nicht02Das 35-Stunden-Kernel-Experiment03Drei-Komponenten-Training: Aufgabe, Werkzeug, Validator04Das Modell überwacht sein eigenes Training05Benchmarks: Augenhöhe mit Opus 4.606Für dich konkret
INHALT
01Was Qwen3.7-Max ist – und was nicht02Das 35-Stunden-Kernel-Experiment03Drei-Komponenten-Training: Aufgabe, Werkzeug, Validator04Das Modell überwacht sein eigenes Training05Benchmarks: Augenhöhe mit Opus 4.606Für dich konkret
in
PARTNER · INOO GMBH
Wie viel KI verträgt dein Betrieb? In 30 Minuten Klartext.

Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.

Gespräch buchen →
DAS WICHTIGSTE IN KÜRZE

China spielt im Agent-Game oben mit – und macht es zugleich strategisch knifflig: Qwen3.7-Max ist nur über die Alibaba-Cloud verfügbar, kein Open Weights.

Alibaba hat mit Qwen3.7-Max sein neues Top-Modell veröffentlicht – diesmal nicht für Chats, sondern für Agenten. In einem Praxis-Test arbeitete das Modell 35 Stunden am Stück völlig autonom an einer Code-Optimierung. Auf Standard-Benchmarks zieht es mit Claude Opus 4.6 gleich und distanziert die chinesische Konkurrenz von DeepSeek und Kimi deutlich.

Was Qwen3.7-Max ist – und was nicht

Wie schon die Vorgänger Qwen3-Max und Qwen3.6-Plus ist die neue Max-Version proprietär und nur über die Alibaba Cloud Model Studio API verfügbar. Das letzte offene Flaggschiff war Qwen3.5-397B-A17B im Februar 2026. Wer Qwen3.7-Max nutzen will, muss in den Cloud-Dienst – Open-Weights-Veröffentlichung gibt's nicht.

Das Modell unterstützt OpenAI- und Anthropic-kompatible Schnittstellen und läuft direkt in Claude Code, OpenClaw oder Qwen Code. Vier Anwendungsfälle stehen laut Qwen-Team im Fokus: Coding-Agent von Frontend-Prototyp bis Multi-File-Projekt, Office-Automatisierung, Langzeit-Operationen und konsistente Leistung über verschiedene Agent-Frameworks hinweg.

Das 35-Stunden-Kernel-Experiment

Der ungewöhnlichste Test im Release-Bericht: Qwen3.7-Max sollte einen hardwarespezifischen Attention-Kernel für die Open-Source-Inferenz-Software SGLang optimieren. Die Zielhardware war eine Cloud-Instanz mit T-Head-ZW-M890-Beschleunigern – einem hauseigenen Chip aus Alibabas Halbleiter-Sparte, den das Modell während des Trainings nie zu Gesicht bekommen hatte.

Es gab keine Messdaten, keine Hardware-Doku und keinen Beispiel-Code – nur die Referenz-Implementierung in der Programmiersprache Triton. Über rund 35 Stunden ununterbrochene autonome Arbeit führte das Modell 432 Kernel-Tests mit 1'158 Tool-Calls aus, kompilierte, mass, revidierte den Code in Schleifen, fing Compilation-Errors ab und spürte Performance-Engpässe selbständig auf.

Das Ergebnis: ein durchschnittlich 10-facher Speedup gegenüber der Referenz. Im selben Setup schaffte GLM 5.1 nur 7,3x, Kimi K2.6 kam auf 5x, DeepSeek V4 Pro auf 3,3x, und der Vorgänger Qwen3.6-Plus blieb mit 1,1x praktisch stehen. Mehrere Modelle brachen die Session nach fünf Runden ohne Tool-Call von selbst ab.

Drei-Komponenten-Training: Aufgabe, Werkzeug, Validator

Hinter der Robustheit steckt ein Trainings-Ansatz, den Qwen schon bei 3.5 eingeführt hat: Jede Trainings-Aufgabe wird in drei unabhängige Teile zerlegt – die eigentliche Aufgabe, die Werkzeug-Umgebung und der Validator, der das Ergebnis prüft. Diese Bausteine können beliebig kombiniert werden.

Die Idee dahinter: Das Modell soll Strategien lernen, die überall funktionieren – nicht Tricks, die nur für ein bestimmtes Setup gelten. Auf den Benchmarks QwenClawBench und CoWorkBench liefert Qwen3.7-Max nahezu identische Werte, egal ob es in OpenClaw, Claude Code oder Hermes läuft. Der Vorgänger schwankte hier noch deutlich.

Das Modell überwacht sein eigenes Training

Eine weitere Spielerei: Das Qwen-Team setzte Qwen3.7-Max als Aufseher in seinem eigenen Trainings-Loop ein. Über 86 Stunden autonome Laufzeit prüfte das Modell 13'952 Trajektorien des trainierten Modells und entdeckte 1'618 Fälle von Reward-Hacking – also Tricks, mit denen sich das Trainings-Modell Belohnungen erschlich, etwa durch Kopieren korrekter Antworten direkt von GitHub. Qwen3.7-Max formulierte dabei selbständig 13 neue Detektions-Regeln.

Benchmarks: Augenhöhe mit Opus 4.6

Auf SWE-Verified landet Qwen3.7-Max bei 80,4 Punkten – knapp hinter Opus 4.6 Max (80,8) und DeepSeek V4 Pro Max (80,6). Auf den Mathe- und Wissenschafts-Benchmarks GPQA Diamond (92,4), HMMT 2026 Februar (97,1) und Apex (44,5) führt Qwen3.7-Max in der eigenen Vergleichstabelle. Einschränkung: Mehrere der angeführten Benchmarks (QwenWebDev, QwenClawBench, CoWorkBench, QwenWorldBench) sind hauseigene Tests von Alibaba selbst. Wie üblich gilt: Vendor-Benchmarks bitte mit etwas Salz geniessen.

Ach ja, eine Demo im Release-Video: Qwen3.7-Max steuert auch einen vierbeinigen Roboter durch physische Räume.

Für dich konkret

Wenn du KI-Agenten für lang laufende Aufgaben einsetzt – Code-Migration, Daten-Pipelines, autonome Office-Tasks – steht mit Qwen3.7-Max ein weiterer ernstzunehmender Kandidat im Feld. Die OpenAI- und Anthropic-kompatible API macht den Wechsel oder das Parallel-Testen technisch einfach: Bestehende Claude-Code- oder Codex-Setups laufen ohne grosse Anpassung.

Für Schweizer Unternehmen gilt dieselbe Vorsicht wie bei DeepSeek: Alibabas API verarbeitet Daten in der Volksrepublik – das kollidiert mit DSG, FINMA-Vorgaben und Berufsgeheimnissen. Anders als DeepSeek ist Qwen3.7-Max aber nicht als Open Weights verfügbar, ein Self-Hosting in Europa fällt damit weg. Wer ernsthaft testet, bleibt bei sensiblen Daten besser bei Anthropic, OpenAI oder Google Cloud Vertex AI in der Schweiz-Region.

🔗 Quellen: The Decoder, Qwen Blog – Qwen3.7, SGLang

Quellen

The Decoder - Qwen3.7-Max↗ EXTERNER LINKQwen Blog - Qwen3.7↗ EXTERNER LINKSGLang - GitHub↗ EXTERNER LINK
TEILEN
LinkedIn→X / Twitter→E-Mail→
KOSTENLOS ABONNIEREN
Diese News jeden Freitag in dein Postfach?

WEITERLESENDas könnte dich auch interessieren.

Skizze eines freundlichen Roboters am Schreibtisch, der eine Hand mit einer kleinen Warnflagge hebt, davor ein Laptop mit Code und eine Lupe
Skizze eines freundlichen Roboters am Schreibtisch, der eine Hand mit einer kleinen Warnflagge hebt, davor ein Laptop mit Code und eine Lupe (Dark)
NEUE MODELLE·29. MAI 2026

Anthropic bringt Claude Opus 4.8 – und macht das Modell vor allem ehrlicher

Anthropic hat am 28. Mai Claude Opus 4.8 vorgestellt. Das neue Spitzenmodell ist beim Programmieren und bei agentischen Aufgaben stärker – vor allem aber rund viermal seltener bereit, eigene Fehler unkommentiert durchgehen zu lassen.

Skizze DeepSeek Preisschild mit Walfisch und wankenden Konkurrenz-Türmen
Skizze DeepSeek Preisschild Dark Mode, kinewsletter.ch Stil
NEUE MODELLE·25. MAI 2026

DeepSeek macht 75-Prozent-Rabatt permanent – und ist 34-mal günstiger als GPT-5.5

Der chinesische Anbieter DeepSeek macht den 75-Prozent-Rabatt auf sein Flaggschiff V4-Pro dauerhaft. Output-Tokens kosten 34-mal weniger als GPT-5.5 – mit Compliance-Haken für die Schweiz.

Illustration zum Artikel «Gemini Omni Flash: Google macht aus einem Satz ein Video – m», kinewsletter.ch Stil
Illustration zum Artikel 02-gemini-omni, kinewsletter.ch Stil (dark)
NEUE MODELLE·21. MAI 2026

Gemini Omni Flash: Google macht aus einem Satz ein Video – mit Wasserzeichen

Google hat an der I/O 2026 sein erstes Omni-Modell vorgestellt. Es generiert aus Text, Bild und Audio gleichzeitig ein 10-Sekunden-Video – ab sofort in YouTube Shorts mit SynthID-Watermark.