NewsKategorienNewsletter-ArchivÜber unsKostenlos abonnieren

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

FOLGE UNS
LIXIG
NAVIGATION
Alle NewsNewsletter-ArchivAutorenÜber unsKontakt
KATEGORIEN
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
RECHTLICHES
ImpressumDatenschutzAGB
© 2026 Inoo GmbH · Altstätten SG · Schweiz
Ein Produkt von InooSwiss Made Software
HOME·NEWS·KI-FORSCHUNG

TurboQuant: Googles Kompressionsalgorithmus lässt grosse KI-Modelle auf kleinen GPUs laufen

Google Research hat einen Algorithmus vorgestellt, der den Speicherhunger von KI-Modellen um den Faktor 6 senkt – ohne Qualitätsverlust. Die Community dreht durch, Speicherchip-Aktien fallen, und das Internet zieht Vergleiche mit HBOs «Silicon Valley».

Pascal Eugster
Pascal Eugster
GRÜNDER & ENTWICKLER
27. MÄRZ 2026
5 MIN. LESEZEIT
Illustration einer mechanischen Presse die einen Kristall komprimiert, kinewsletter.ch Stil
Illustration einer mechanischen Presse die einen Kristall komprimiert, kinewsletter.ch Stil
INHALT
016× weniger Speicher, kein Training nötig02So funktioniert der Trick – einfach erklärt03160'000 statt 30'000 Tokens auf einer Consumer-GPU04Hacker News zwischen Begeisterung und Zitationsstreit05Noch kein Code, noch kein Produkt – aber die Konkurrenz schläft nicht06Lokale KI auf Schweizer Hardware – ein konkreter Enabler
INHALT
016× weniger Speicher, kein Training nötig02So funktioniert der Trick – einfach erklärt03160'000 statt 30'000 Tokens auf einer Consumer-GPU04Hacker News zwischen Begeisterung und Zitationsstreit05Noch kein Code, noch kein Produkt – aber die Konkurrenz schläft nicht06Lokale KI auf Schweizer Hardware – ein konkreter Enabler
in
PARTNER · INOO GMBH
Wie viel KI verträgt dein Betrieb? In 30 Minuten Klartext.

Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.

Gespräch buchen →
DAS WICHTIGSTE IN KÜRZE

TurboQuant komprimiert den KV-Cache von KI-Modellen auf 3 Bit – 6× weniger Speicher, kein Training nötig. Das könnte grosse Modelle auf Consumer-GPUs bringen.

Google Research hat einen Algorithmus vorgestellt, der den Speicherhunger von KI-Modellen um den Faktor 6 senkt – ohne dass die Qualität leidet. Die Community dreht durch, Speicherchip-Aktien fallen, und das Internet zieht Vergleiche mit der fiktiven Kompression aus HBOs «Silicon Valley».

6× weniger Speicher, kein Training nötig

Der am 24. März per Blogpost vorgestellte TurboQuant komprimiert den sogenannten KV-Cache – eine Art Kurzzeitgedächtnis, das KI-Modelle während der Textgenerierung aufbauen – auf 3 Bit pro Kanal. Zum Vergleich: Standard sind 16 Bit. Das Ergebnis ist eine mindestens 6-fache Speicherreduktion und bis zu 8-facher Speedup bei der Attention-Berechnung (dem rechenintensivsten Teil der Textgenerierung).

Das Besondere: TurboQuant ist datenblind. Der Algorithmus braucht kein Training, kein Feintuning und keine Kalibrierungsdaten. Dasselbe Verfahren funktioniert für jedes Modell sofort – ein fundamentaler Vorteil gegenüber Konkurrenten wie KIVI oder KVQuant, die für jedes Modell einzeln angepasst werden müssen.

Cloudflare-CEO Matthew Prince nannte TurboQuant «Google's DeepSeek moment» – und auf Twitter/X erzielte die Ankündigung 11,9 Millionen Views in unter 24 Stunden.

So funktioniert der Trick – einfach erklärt

Stell dir vor, du fotografierst ein Dokument mit dem Handy. Ein normales JPEG komprimiert das Bild, indem es die Farbwerte vereinfacht – aber es muss zuerst das ganze Bild analysieren. TurboQuant macht etwas Clevereres: Es dreht die Daten zuerst in eine mathematisch vorhersagbare Form (per Zufallsrotation), sodass ein universeller Kompressor funktioniert – ohne die Daten überhaupt anzuschauen.

Konkret arbeitet der Algorithmus in zwei Stufen:

  • Stufe 1 (PolarQuant): Die Daten werden rotiert, sodass ihre Verteilung vorhersagbar wird. Dann wird ein vorgefertigter Quantisierer angewandt – kein Overhead für Normalisierung, kein modellspezifisches Codebook.
  • Stufe 2 (QJL-Fehlerkorrektur): Der Restfehler aus Stufe 1 wird mit nur 1 Bit pro Komponente korrigiert – mathematisch beweisbar unverzerrt.

Das Ergebnis liegt innerhalb eines Faktors von 2,7 der theoretisch bestmöglichen Kompression nach Shannon. Bei 1 Bit sogar nur Faktor 1,45. Für Mathematik-Nerds: Das ist bemerkenswert nah am Optimum.

160'000 statt 30'000 Tokens auf einer Consumer-GPU

Die praktischen Auswirkungen sind erheblich. Für ein 7B-Modell auf einer GPU mit 16 GB VRAM bedeutet TurboQuant: Statt ~30'000 Context-Tokens passen plötzlich 160'000+ Tokens in den Speicher. Eine Community-Implementierung auf einer RTX 3060 (12 GB) demonstrierte: 289 MB KV-Cache schrumpften auf 58 MB.

Weitere Community-Erfolge:

  • Gemma 3 4B auf RTX 4090: Zeichenidentische Ausgabe bei 2-Bit-Präzision
  • 35B-Modell auf Apple M5 Max: Via llama.cpp mit 3-Bit TurboQuant KV-Cache lauffähig
  • Needle-in-a-Haystack-Test: 100% perfekte Recall-Rate bis 104'000 Tokens

Wichtiger Caveat: Der «8× Speedup» bezieht sich nur auf die Attention-Berechnung, nicht auf die gesamte Inferenz. Und «kein Genauigkeitsverlust» bedeutet: auf Benchmark-Ebene nicht messbar – nicht mathematisch verlustfrei. Getestet wurde zudem nur auf Modellen bis 8 Milliarden Parameter. Das Verhalten bei 70B+ Modellen – wo der KV-Cache am relevantesten ist – ist noch nicht verifiziert.

Hacker News zwischen Begeisterung und Zitationsstreit

Die Community-Reaktion war explosiv: 516 Upvotes und 144 Kommentare auf Hacker News innerhalb eines Tages, 11,9 Millionen Views auf X in unter 24 Stunden. Der «Pied Piper»-Vergleich mit HBOs Silicon Valley ging viral – TechCrunch widmete dem Phänomen einen eigenen Artikel.

Aber es gab auch substanzielle Kritik: Der Erstautor des NeurIPS-2021-Papers «DRIVE» warf Google vor, die grundlegende Technik – geometrische Rotation vor extremer Quantisierung mit Bias-Korrektur – nicht zitiert zu haben. Die Community bezeichnete das als «Schmidhuber'd» – eine Anspielung auf den KI-Forscher Jürgen Schmidhuber, der regelmässig fehlende Zitationen anprangert.

An den Finanzmärkten fielen Speicherchip-Aktien: Micron −3%, Western Digital −4,7%, SanDisk −5,7%. Analysten von Morgan Stanley und Wells Fargo bewerteten den Ausverkauf als übertrieben und verwiesen auf das Jevons-Paradoxon: Effizienzgewinne steigern typischerweise die Nachfrage, statt Ausgaben zu senken.

Noch kein Code, noch kein Produkt – aber die Konkurrenz schläft nicht

Stand heute hat Google weder offiziellen Code veröffentlicht noch TurboQuant in einem Produkt bestätigt. Der Blogpost erwähnt Gemini als Anwendungsfall, die Community vermutet eine interne Nutzung. Die ICLR-Präsentation ist für Ende April geplant, Google I/O gilt als wahrscheinlichster Zeitpunkt für Produktankündigungen.

Die Konkurrenz ist ernst zu nehmen: Nvidias KVTC (ebenfalls ICLR 2026) erreicht sogar 20× Kompression – braucht aber eine einmalige Kalibrierung pro Modell. KIVI von der Rice University ist bereits in HuggingFace Transformers integriert. TurboQuants Trumpf bleibt die Universalität: Kein Modell muss angepasst werden, keine Daten müssen analysiert werden.

Lokale KI auf Schweizer Hardware – ein konkreter Enabler

Für die Schweiz ist TurboQuant aus drei Gründen relevant. Erstens: Apertus, der erste offene Schweizer LLM von ETH und EPFL, ist für lokale, auditierbare Nutzung konzipiert. KV-Cache-Kompression ermöglicht es, Apertus-8B auf Consumer-GPUs mit deutlich längerem Kontext zu betreiben – ein direkter Enabler für datensouveräne Inferenz.

Zweitens: Meditron, der Schweizer medizinische LLM, wird ab Mai 2026 am CHUV in Lausanne getestet. Lokale Bereitstellung ohne Datenübertragung an externe Server profitiert direkt – längere Patientenakten-Kontexte auf limitierter Spitalhardware werden möglich.

Drittens treibt der EU AI Act Edge-Deployment voran. Obwohl die Schweiz kein EU-Mitglied ist, orientieren sich Schweizer KI-Projekte an der Regulierung. Meta hat fortgeschrittene Modelle für den EU-Markt zurückgehalten und setzt auf On-Device-KI. Kompression wie TurboQuant senkt die technische Hürde für genau solche lokalen Deployments.

Quellen

Google Research Blog↗ EXTERNER LINKarXiv: TurboQuant Paper↗ EXTERNER LINKTechCrunch↗ EXTERNER LINKWinBuzzer↗ EXTERNER LINKThe Next Web↗ EXTERNER LINK
TEILEN
LinkedIn→X / Twitter→E-Mail→
KOSTENLOS ABONNIEREN
Diese News jeden Freitag in dein Postfach?

WEITERLESENDas könnte dich auch interessieren.

Skizze AlphaProof Nexus mit Mathematiker, Tafel mit Formeln, Roboter und Beweis-Schriftrolle
Skizze AlphaProof Nexus mit Mathematiker, Tafel mit Formeln, Roboter und Beweis-Schriftrolle (Dark)
KI-FORSCHUNG·26. MAI 2026

AlphaProof Nexus knackt Erdős-Probleme im Schnellverfahren – für ein paar Hundert Franken pro Stück

Google DeepMind kombiniert Gemini 3.1 Pro mit dem Lean-Compiler und löst neun ungelöste Erdős-Probleme, zwei davon seit 56 Jahren offen – für je ein paar Hundert Dollar.

An der zweiten Open Source AI Conference in Bern kündigt ETH-Forscher Imanol Schlag die kommende Apertus-Version mit deu
Illustration eines aufgeschlagenen Buchs auf Pult mit Schweizer Berg, Dark Mode, kinewsletter.ch Stil
KI IN DER SCHWEIZ·23. MAI 2026

Apertus 1.5 kommt – die Schweiz packt jetzt auch Rechtsdokumente ins eigene LLM

An der zweiten Open Source AI Conference in Bern kündigt ETH-Forscher Imanol Schlag die kommende Apertus-Version mit deutlich mehr Schweiz-spezifischem Material an. Auch das Bundesgericht prüft den Einsatz.

Erde mit Wettermustern und Wetterstation, kinewsletter.ch Stil
Erde mit Wettermustern und Wetterstation, kinewsletter.ch Stil
KI IN DER SCHWEIZ·19. MAI 2026

Eine KI für die ganze Erde – ETH zeigt, wie Extremwetter entsteht

Forschende der ETH Zürich und EPFL haben das Earth System Foundation Model vorgestellt – ein KI-Modell, das Wetter, Wasser und Boden gemeinsam versteht und selbst bei nur 3 Prozent Satellitendaten zuverlässige Vorhersagen liefert. Frei auf Hugging Face.