12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen

Ein Startup aus Miami namens Subquadratic ist heute mit einer 29-Mio.-Dollar-Seed-Runde aus dem Stealth-Modus getreten und behauptet, das gelöst zu haben, woran Transformer-Modelle seit Jahren scheitern: ein Sprachmodell, dessen Aufmerksamkeits-Compute nicht quadratisch, sondern linear mit der Eingabe wächst. Das Resultat heisst SubQ 1M-Preview, hat ein 12-Millionen-Token-Kontextfenster und kostet laut Hersteller ein Fünftel von Frontier-Modellen wie Claude Opus oder GPT-5.5. Die Forschung-Community ist gespalten – zwischen «grösster Architektur-Durchbruch seit dem Transformer» und «AI Theranos».

Was bei Transformern nicht skaliert

Die Aufmerksamkeit (engl. attention) – das Herzstück jedes modernen Sprachmodells – wächst bei Transformern quadratisch mit der Tokenzahl: Wer den Kontext von 1 auf 2 Mio. Tokens verdoppelt, vervierfacht den Compute-Bedarf. Bei 12 Mio. Tokens ist das schlicht zu teuer für die Praxis. Genau hier setzt Subquadratics neue Architektur an: Subquadratic Sparse Attention (SSA). Statt jeden Token mit jedem zu vergleichen, wählt SSA für jede Anfrage nur eine kleine Untermenge relevanter Positionen aus und rechnet exakte Aufmerksamkeit nur dort. Bei 12 Mio. Tokens reduziert das den Attention-Compute laut Subquadratic um fast das Tausendfache. Komplexitätstheoretisch verschiebt sich die Skalierung von O(n²) auf O(n).

Was an Zahlen kommuniziert wurde

Die Hersteller-Benchmarks vergleichen SubQ 1M-Preview gegen Claude Opus 4.6 / 4.7, Gemini 3.1 Pro und GPT-5.4 / 5.5:

SWE-Bench Verified (Coding-Aufgaben): 81,8% bei SubQ, 87,6% bei Opus 4.7
RULER @ 128K (Long-Context): 95,0% bei SubQ, 94,8% bei Opus 4.6 (intern evaluiert)
MRCR v2 8-needle, 1M (Multi-round Coreference): 65,9% bei SubQ, 78,3% bei Opus 4.6, 74,0% bei GPT-5.5

Subquadratic spricht zusätzlich von 52× schneller als FlashAttention bei 1 Mio. Tokens und einem Output von 150 Tokens pro Sekunde. Die Architektur ist auf zwei Produkte gemappt: SubQ API (OpenAI-kompatible Endpoints, Streaming, Tool-Use) und SubQ Code – ein CLI-Coding-Agent, der ganze Repositories in einen Kontext lädt und mit Claude Code, OpenAI Codex und Cursor zusammenarbeitet.

Wer dahintersteckt – und woher das Geld kommt

CEO ist Justin Dangel, fünffacher Gründer mit Exits in Health-Tech, Insurtech und Consumer-Goods. CTO ist Alex Whedon, früher Software-Engineer bei Meta und Head of Generative AI bei TribeAI. Die Forscher kommen laut eigener Angabe aus Meta, Google, Oxford, Cambridge und der Brigham Young University.

Die 29-Mio.-Seed-Runde bewertet das Unternehmen laut The New Stack mit 500 Mio. Dollar. Mit dabei: Justin Mateen (Tinder-Mitgründer, JAM Fund), Javier Villamizar (ehemaliger Partner SoftBank Vision Fund) und Frühinvestoren von Anthropic, OpenAI, Stripe und Brex. Parallel hat SubQ am 4. Mai einen 24-monatigen GPU-Mietvertrag über 19,6 Mio. Dollar mit dem Compute-Anbieter Digi Power X geschlossen – Inbetriebnahme am 15. Mai 2026.

Der Kleingedruckte: Skepsis aus der Forschungs-Community

VentureBeat fasst die Reaktionen pointiert zusammen: «SubQ ist entweder der grösste Durchbruch seit dem Transformer – oder AI Theranos.» Drei Punkte stehen im Raum:

Benchmark-Methodik: Jedes Modell wurde nur einmal durchlaufen wegen hoher Inferenzkosten. Ohne Konfidenzintervalle bleibt Raum für Varianz.
Lab-zu-Produktion-Lücke: Im internen Labor-Run schaffte SubQ auf MRCR v2 stolze 83 Punkte – die per Drittanbieter verifizierte Produktionsversion 65,9. Die 17-Punkte-Differenz ist nicht erklärt.
Keine Weights, kein vollständiger Technical Report: Bisher nur ein Blogpost zur Architektur. Pricing-Details für die API sind ebenfalls nicht öffentlich – das macht den «50× günstiger»-Claim aktuell unprüfbar.

Schweiz-Bezug

Lange Kontextfenster sind genau die Eigenschaft, die Schweizer Banken, Pharma-Unternehmen und Treuhand-Häuser interessiert. Wer einen kompletten Kreditakte-Stack, eine ganze klinische Studie oder mehrere Jahre Buchhaltungsdaten in einen Prompt packen kann, spart die ganze Komplexität von Retrieval-Augmented-Generation-Pipelines (RAG) und vermeidet die typischen Fehlerquellen beim Chunking. Für Coding-Teams bei Swisscom, Logitech, Postfinance oder ETH-Spin-offs ist SubQ Code interessant, weil es die ständige Verschiebung zwischen Repository-Kontext und Modell-Antwort eliminiert. Dass Schweizer Forschung an dem Thema arbeitet, ist bekannt: Apertus aus dem ETH-EPFL-Verbund und State-Space-Modelle wie Mamba haben verwandte Ideen verfolgt. SubQ ist das US-Pendant, das jetzt zuerst ein Produkt am Markt hat – wenn die Behauptungen halten.

Einordnung

Wenn die SSA-Architektur in unabhängigen Reproduktionen bestätigt wird, ist das tatsächlich der grösste Architektur-Sprung seit dem Transformer von 2017. Die Frage ist, wie schnell. Bisher hat Subquadratic einen Blog-Post, einen Investorenkreis und einen Compute-Vertrag – aber keine Weights und keinen Peer-Review. Wer im Enterprise-Umfeld auf SubQ setzt, sollte kurzfristig Pilot-Workloads laufen lassen und längerfristig auf das Technical-Paper warten. Der Underdog-Trade ist klar: Eine kleine Wette, dass die Branche sich in zwei Jahren nicht mehr nur über Modellgrössen, sondern über Aufmerksamkeits-Sparsamkeit unterhält.

Was bei Transformern nicht skaliert

Was an Zahlen kommuniziert wurde

Die Hersteller-Benchmarks vergleichen SubQ 1M-Preview gegen Claude Opus 4.6 / 4.7, Gemini 3.1 Pro und GPT-5.4 / 5.5:

SWE-Bench Verified (Coding-Aufgaben): 81,8% bei SubQ, 87,6% bei Opus 4.7
RULER @ 128K (Long-Context): 95,0% bei SubQ, 94,8% bei Opus 4.6 (intern evaluiert)
MRCR v2 8-needle, 1M (Multi-round Coreference): 65,9% bei SubQ, 78,3% bei Opus 4.6, 74,0% bei GPT-5.5

Wer dahintersteckt – und woher das Geld kommt

Der Kleingedruckte: Skepsis aus der Forschungs-Community

VentureBeat fasst die Reaktionen pointiert zusammen: «SubQ ist entweder der grösste Durchbruch seit dem Transformer – oder AI Theranos.» Drei Punkte stehen im Raum:

Benchmark-Methodik: Jedes Modell wurde nur einmal durchlaufen wegen hoher Inferenzkosten. Ohne Konfidenzintervalle bleibt Raum für Varianz.
Lab-zu-Produktion-Lücke: Im internen Labor-Run schaffte SubQ auf MRCR v2 stolze 83 Punkte – die per Drittanbieter verifizierte Produktionsversion 65,9. Die 17-Punkte-Differenz ist nicht erklärt.
Keine Weights, kein vollständiger Technical Report: Bisher nur ein Blogpost zur Architektur. Pricing-Details für die API sind ebenfalls nicht öffentlich – das macht den «50× günstiger»-Claim aktuell unprüfbar.

12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen

Was bei Transformern nicht skaliert

Was an Zahlen kommuniziert wurde

Wer dahintersteckt – und woher das Geld kommt

Der Kleingedruckte: Skepsis aus der Forschungs-Community

Schweiz-Bezug

Einordnung

Fazit

Quellen

Das könnte dich auch interessieren

Google DeepMind kauft sich in Eve-Online-Studio ein – und macht Spiele zum KI-Trainingsplatz

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

Harvard zeigt: OpenAI o1 stellt in der Notaufnahme bessere Diagnosen als zwei Internisten

12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen

Was bei Transformern nicht skaliert

Was an Zahlen kommuniziert wurde

Wer dahintersteckt – und woher das Geld kommt

Der Kleingedruckte: Skepsis aus der Forschungs-Community

Schweiz-Bezug

Einordnung

Fazit

Quellen

Das könnte dich auch interessieren

Google DeepMind kauft sich in Eve-Online-Studio ein – und macht Spiele zum KI-Trainingsplatz

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

Harvard zeigt: OpenAI o1 stellt in der Notaufnahme bessere Diagnosen als zwei Internisten