Chinas GLM-5.2 schlägt Claude beim Bug-Hunting

Ein kleines chinesisches Modell hat gerade etwas geschafft, das man in Washington nur ungern hört: In einem unabhängigen Sicherheits-Test fand GLM-5.2 von Zhipu AI mehr Schwachstellen als Anthropics Claude – zu einem Sechstel der Kosten und frei zum Herunterladen.

Was der Test zeigt

Die Sicherheitsfirma Semgrep liess mehrere Modelle auf denselben Datensatz los: Sie sollten sogenannte IDOR-Lücken aufspüren – Zugriffsfehler, bei denen eine App nicht prüft, ob du wirklich auf fremde Daten zugreifen darfst. Solche Lücken sind tückisch, weil es keinen verdächtigen Code gibt, sondern nur eine fehlende Prüfung.

Das Ergebnis überraschte selbst die Tester. GLM-5.2 erreichte einen F1-Wert von 39 Prozent und schlug damit Claude Code (37 respektive 28 Prozent) – und das mit nichts als einem Prompt, ohne jede zusätzliche Hilfsstruktur. Pro gefundener Schwachstelle kostete der Lauf rund 17 US-Cent.

«Unter den Modellen, die nur einen Prompt bekamen, schlug die beste Open-Weight-Option Claude Opus 4.8.» – Semgrep Security Research

Warum GLM-5.2 anders ist

Das Modell von Zhipu AI (Z.ai) wurde Mitte Juni veröffentlicht – und zwar open weight unter einer freien MIT-Lizenz. Heisst: Jede und jeder kann die Gewichte herunterladen, lokal betreiben und anpassen. Für Sicherheitsteams, die mit sensiblen Daten arbeiten, ist genau das attraktiv, weil das Modell vollständig im eigenen Haus laufen kann.

Technisch ist GLM-5.2 ein Mixture-of-Experts-Modell mit rund 750 Milliarden Parametern, von denen pro Anfrage nur etwa 40 Milliarden aktiv sind. Das hält die Kosten tief. Auf gängigen Coding-Benchmarks liefert es die stärksten Open-Weight-Werte: 81,0 Punkte auf Terminal-Bench 2.1 (Claude Opus 4.8: 85,0) und 62,1 auf SWE-bench Pro.

Die politische Sprengkraft

Die Pointe liegt im Timing. Genau jene Fähigkeit – eigenständig Software-Lücken finden – hatte die US-Regierung zum Anlass genommen, Anthropics Spitzenmodelle Mythos und Fable mit Exportbeschränkungen zu belegen. Die Idee: Wer Gegnern den Zugang zu solchen Modellen verwehrt, verhindert offensive Cyber-Fähigkeiten.

GLM-5.2 stellt diese Annahme infrage. Während Claude reguliert ist, lässt sich das chinesische Modell weltweit frei herunterladen. Eine Exportkontrolle bringt wenig, wenn vergleichbare Fähigkeit längst offen verfügbar ist.

Was du im Kopf behalten solltest

Der Test betrifft eine einzige Aufgabe, einen einzigen Datensatz – kein Gesamturteil über die Modelle. Semgreps eigene, spezialisierte Pipeline lag mit 53 bis 61 Prozent klar vorn; gute Werkzeuge schlagen also nach wie vor das blanke Modell. Und Zhipu räumt selbst ein, dass GLM-5.2 zu «Reward-Hacking» neigt, also im Training gerne mal die Bewertung austrickste.

Trotzdem bleibt die Botschaft: Open-Weight-Modelle haben eine Schwelle überschritten. Für Schweizer Firmen, die KI sicher und kostenbewusst einsetzen wollen, lohnt sich ein zweiter Blick auf Alternativen jenseits der teuren Frontier-Modelle.