Das Miami-Startup Subquadratic ist mit einer 29-Mio.-Dollar-Seed-Runde gestartet und stellt SubQ 1M-Preview vor – ein Sprachmodell mit 12 Mio. Token Kontext und einer neuen Aufmerksamkeits-Architektur (SSA), die Compute linear statt quadratisch skaliert. CEO ist Justin Dangel, CTO Alex Whedon (Ex-Meta).

Wenn die Sparse-Attention-Architektur unabhängig verifiziert wird, ist das der grösste Architektur-Sprung seit dem Transformer – aber bisher fehlen Weights, Peer-Review und API-Pricing.
Ein Startup aus Miami namens Subquadratic ist heute mit einer 29-Mio.-Dollar-Seed-Runde aus dem Stealth-Modus getreten und behauptet, das gelöst zu haben, woran Transformer-Modelle seit Jahren scheitern: ein Sprachmodell, dessen Aufmerksamkeits-Compute nicht quadratisch, sondern linear mit der Eingabe wächst. Das Resultat heisst SubQ 1M-Preview, hat ein 12-Millionen-Token-Kontextfenster und kostet laut Hersteller ein Fünftel von Frontier-Modellen wie Claude Opus oder GPT-5.5. Die Forschung-Community ist gespalten – zwischen «grösster Architektur-Durchbruch seit dem Transformer» und «AI Theranos».
Die Aufmerksamkeit (engl. attention) – das Herzstück jedes modernen Sprachmodells – wächst bei Transformern quadratisch mit der Tokenzahl: Wer den Kontext von 1 auf 2 Mio. Tokens verdoppelt, vervierfacht den Compute-Bedarf. Bei 12 Mio. Tokens ist das schlicht zu teuer für die Praxis. Genau hier setzt Subquadratics neue Architektur an: Subquadratic Sparse Attention (SSA). Statt jeden Token mit jedem zu vergleichen, wählt SSA für jede Anfrage nur eine kleine Untermenge relevanter Positionen aus und rechnet exakte Aufmerksamkeit nur dort. Bei 12 Mio. Tokens reduziert das den Attention-Compute laut Subquadratic um fast das Tausendfache. Komplexitätstheoretisch verschiebt sich die Skalierung von O(n²) auf O(n).
Die Hersteller-Benchmarks vergleichen SubQ 1M-Preview gegen Claude Opus 4.6 / 4.7, Gemini 3.1 Pro und GPT-5.4 / 5.5:
Subquadratic spricht zusätzlich von 52× schneller als FlashAttention bei 1 Mio. Tokens und einem Output von 150 Tokens pro Sekunde. Die Architektur ist auf zwei Produkte gemappt: SubQ API (OpenAI-kompatible Endpoints, Streaming, Tool-Use) und SubQ Code – ein CLI-Coding-Agent, der ganze Repositories in einen Kontext lädt und mit Claude Code, OpenAI Codex und Cursor zusammenarbeitet.
CEO ist Justin Dangel, fünffacher Gründer mit Exits in Health-Tech, Insurtech und Consumer-Goods. CTO ist Alex Whedon, früher Software-Engineer bei Meta und Head of Generative AI bei TribeAI. Die Forscher kommen laut eigener Angabe aus Meta, Google, Oxford, Cambridge und der Brigham Young University.
Die 29-Mio.-Seed-Runde bewertet das Unternehmen laut The New Stack mit 500 Mio. Dollar. Mit dabei: Justin Mateen (Tinder-Mitgründer, JAM Fund), Javier Villamizar (ehemaliger Partner SoftBank Vision Fund) und Frühinvestoren von Anthropic, OpenAI, Stripe und Brex. Parallel hat SubQ am 4. Mai einen 24-monatigen GPU-Mietvertrag über 19,6 Mio. Dollar mit dem Compute-Anbieter Digi Power X geschlossen – Inbetriebnahme am 15. Mai 2026.
VentureBeat fasst die Reaktionen pointiert zusammen: «SubQ ist entweder der grösste Durchbruch seit dem Transformer – oder AI Theranos.» Drei Punkte stehen im Raum:
Lange Kontextfenster sind genau die Eigenschaft, die Schweizer Banken, Pharma-Unternehmen und Treuhand-Häuser interessiert. Wer einen kompletten Kreditakte-Stack, eine ganze klinische Studie oder mehrere Jahre Buchhaltungsdaten in einen Prompt packen kann, spart die ganze Komplexität von Retrieval-Augmented-Generation-Pipelines (RAG) und vermeidet die typischen Fehlerquellen beim Chunking. Für Coding-Teams bei Swisscom, Logitech, Postfinance oder ETH-Spin-offs ist SubQ Code interessant, weil es die ständige Verschiebung zwischen Repository-Kontext und Modell-Antwort eliminiert. Dass Schweizer Forschung an dem Thema arbeitet, ist bekannt: Apertus aus dem ETH-EPFL-Verbund und State-Space-Modelle wie Mamba haben verwandte Ideen verfolgt. SubQ ist das US-Pendant, das jetzt zuerst ein Produkt am Markt hat – wenn die Behauptungen halten.
Wenn die SSA-Architektur in unabhängigen Reproduktionen bestätigt wird, ist das tatsächlich der grösste Architektur-Sprung seit dem Transformer von 2017. Die Frage ist, wie schnell. Bisher hat Subquadratic einen Blog-Post, einen Investorenkreis und einen Compute-Vertrag – aber keine Weights und keinen Peer-Review. Wer im Enterprise-Umfeld auf SubQ setzt, sollte kurzfristig Pilot-Workloads laufen lassen und längerfristig auf das Technical-Paper warten. Der Underdog-Trade ist klar: Eine kleine Wette, dass die Branche sich in zwei Jahren nicht mehr nur über Modellgrössen, sondern über Aufmerksamkeits-Sparsamkeit unterhält.
Wenn die Sparse-Attention-Architektur unabhängig verifiziert wird, ist das der grösste Architektur-Sprung seit dem Transformer – aber bisher fehlen Weights, Peer-Review und API-Pricing.

CCP Games heisst seit dem 6. Mai 2026 Fenris Creations, ist unabhängig von Pearl Abyss – und hat Google DeepMind als Minderheits-Investor. Das KI-Labor will mit Eve Online Long-Horizon-Planning, Memory und Continual Learning trainieren.
DeepMind macht aus 22 Jahren MMO-Wirtschaft eine Trainingsumgebung für Agenten, die langfristig planen, sich erinnern und kontinuierlich lernen.

Anthropic-CEO Amodei warnt: Sechs bis zwölf Monate Zeit, bevor chinesische KI gleichzieht. Mythos liefert nicht nur Schwachstellen, sondern den lauffähigen Exploit gleich mit.
Patch-Geschwindigkeit wird zum Wettbewerbsfaktor – wer Updates über Tage liegen lässt, fängt sich KI-generierte Exploits ein.

Eine in Science publizierte Harvard-Studie hat OpenAIs Reasoning-Modell o1-preview in 76 echten ER-Fällen gegen zwei Internisten antreten lassen. Das Modell traf in 67% der Fälle die exakte oder nahe Diagnose – die Ärzte in 55% bzw. 50%.
Die Lücke zwischen KI-Decision-Support und ärztlicher Erstdiagnose schliesst sich schneller, als Standesregeln und Haftungsrecht in der Schweiz folgen können.