kinewsletter.chkinewsletter.ch
News
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
Newsletter-Archiv
Search
News
Kategorien
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
Newsletter-ArchivÜber unsSuche
Kostenlos abonnieren
kinewsletter.chkinewsletter.ch

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

Navigation

Alle NewsNewsletter-ArchivAutorenÜber unsKontakt

Rechtliches

ImpressumDatenschutzAGB

© 2026Inoo GmbH · Altstätten SG · Schweiz

Swiss Made SoftwareEin Produkt vonInooInoo
  1. Home
  2. KI-News
  3. KI-Forschung
  4. 12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen
KI-ForschungNeue ModelleKI-Business

12 Mio. Token in einem Prompt: Subquadratic startet mit 29 Mio. Dollar – und ein paar mahnenden Stimmen

Das Miami-Startup Subquadratic ist mit einer 29-Mio.-Dollar-Seed-Runde gestartet und stellt SubQ 1M-Preview vor – ein Sprachmodell mit 12 Mio. Token Kontext und einer neuen Aufmerksamkeits-Architektur (SSA), die Compute linear statt quadratisch skaliert. CEO ist Justin Dangel, CTO Alex Whedon (Ex-Meta).

Mittwoch, 6. Mai 2026~4 Min. Lesezeit
Pascal Eugster
Pascal EugsterGründer & Entwickler
Illustration einer Bibliothek mit Bücherregalen, Leiter und Lupe auf Lesetisch, kinewsletter.ch Stil
Illustration einer Bibliothek mit Bücherregalen, Leiter und Lupe auf Lesetisch, kinewsletter.ch Stil
Das Wichtigste

Wenn die Sparse-Attention-Architektur unabhängig verifiziert wird, ist das der grösste Architektur-Sprung seit dem Transformer – aber bisher fehlen Weights, Peer-Review und API-Pricing.

Ein Startup aus Miami namens Subquadratic ist heute mit einer 29-Mio.-Dollar-Seed-Runde aus dem Stealth-Modus getreten und behauptet, das gelöst zu haben, woran Transformer-Modelle seit Jahren scheitern: ein Sprachmodell, dessen Aufmerksamkeits-Compute nicht quadratisch, sondern linear mit der Eingabe wächst. Das Resultat heisst SubQ 1M-Preview, hat ein 12-Millionen-Token-Kontextfenster und kostet laut Hersteller ein Fünftel von Frontier-Modellen wie Claude Opus oder GPT-5.5. Die Forschung-Community ist gespalten – zwischen «grösster Architektur-Durchbruch seit dem Transformer» und «AI Theranos».

Was bei Transformern nicht skaliert

Die Aufmerksamkeit (engl. attention) – das Herzstück jedes modernen Sprachmodells – wächst bei Transformern quadratisch mit der Tokenzahl: Wer den Kontext von 1 auf 2 Mio. Tokens verdoppelt, vervierfacht den Compute-Bedarf. Bei 12 Mio. Tokens ist das schlicht zu teuer für die Praxis. Genau hier setzt Subquadratics neue Architektur an: Subquadratic Sparse Attention (SSA). Statt jeden Token mit jedem zu vergleichen, wählt SSA für jede Anfrage nur eine kleine Untermenge relevanter Positionen aus und rechnet exakte Aufmerksamkeit nur dort. Bei 12 Mio. Tokens reduziert das den Attention-Compute laut Subquadratic um fast das Tausendfache. Komplexitätstheoretisch verschiebt sich die Skalierung von O(n²) auf O(n).

Was an Zahlen kommuniziert wurde

Die Hersteller-Benchmarks vergleichen SubQ 1M-Preview gegen Claude Opus 4.6 / 4.7, Gemini 3.1 Pro und GPT-5.4 / 5.5:

  • SWE-Bench Verified (Coding-Aufgaben): 81,8% bei SubQ, 87,6% bei Opus 4.7
  • RULER @ 128K (Long-Context): 95,0% bei SubQ, 94,8% bei Opus 4.6 (intern evaluiert)
  • MRCR v2 8-needle, 1M (Multi-round Coreference): 65,9% bei SubQ, 78,3% bei Opus 4.6, 74,0% bei GPT-5.5

Subquadratic spricht zusätzlich von 52× schneller als FlashAttention bei 1 Mio. Tokens und einem Output von 150 Tokens pro Sekunde. Die Architektur ist auf zwei Produkte gemappt: SubQ API (OpenAI-kompatible Endpoints, Streaming, Tool-Use) und SubQ Code – ein CLI-Coding-Agent, der ganze Repositories in einen Kontext lädt und mit Claude Code, OpenAI Codex und Cursor zusammenarbeitet.

Wer dahintersteckt – und woher das Geld kommt

CEO ist Justin Dangel, fünffacher Gründer mit Exits in Health-Tech, Insurtech und Consumer-Goods. CTO ist Alex Whedon, früher Software-Engineer bei Meta und Head of Generative AI bei TribeAI. Die Forscher kommen laut eigener Angabe aus Meta, Google, Oxford, Cambridge und der Brigham Young University.

Die 29-Mio.-Seed-Runde bewertet das Unternehmen laut The New Stack mit 500 Mio. Dollar. Mit dabei: Justin Mateen (Tinder-Mitgründer, JAM Fund), Javier Villamizar (ehemaliger Partner SoftBank Vision Fund) und Frühinvestoren von Anthropic, OpenAI, Stripe und Brex. Parallel hat SubQ am 4. Mai einen 24-monatigen GPU-Mietvertrag über 19,6 Mio. Dollar mit dem Compute-Anbieter Digi Power X geschlossen – Inbetriebnahme am 15. Mai 2026.

Der Kleingedruckte: Skepsis aus der Forschungs-Community

VentureBeat fasst die Reaktionen pointiert zusammen: «SubQ ist entweder der grösste Durchbruch seit dem Transformer – oder AI Theranos.» Drei Punkte stehen im Raum:

  • Benchmark-Methodik: Jedes Modell wurde nur einmal durchlaufen wegen hoher Inferenzkosten. Ohne Konfidenzintervalle bleibt Raum für Varianz.
  • Lab-zu-Produktion-Lücke: Im internen Labor-Run schaffte SubQ auf MRCR v2 stolze 83 Punkte – die per Drittanbieter verifizierte Produktionsversion 65,9. Die 17-Punkte-Differenz ist nicht erklärt.
  • Keine Weights, kein vollständiger Technical Report: Bisher nur ein Blogpost zur Architektur. Pricing-Details für die API sind ebenfalls nicht öffentlich – das macht den «50× günstiger»-Claim aktuell unprüfbar.

Schweiz-Bezug

Lange Kontextfenster sind genau die Eigenschaft, die Schweizer Banken, Pharma-Unternehmen und Treuhand-Häuser interessiert. Wer einen kompletten Kreditakte-Stack, eine ganze klinische Studie oder mehrere Jahre Buchhaltungsdaten in einen Prompt packen kann, spart die ganze Komplexität von Retrieval-Augmented-Generation-Pipelines (RAG) und vermeidet die typischen Fehlerquellen beim Chunking. Für Coding-Teams bei Swisscom, Logitech, Postfinance oder ETH-Spin-offs ist SubQ Code interessant, weil es die ständige Verschiebung zwischen Repository-Kontext und Modell-Antwort eliminiert. Dass Schweizer Forschung an dem Thema arbeitet, ist bekannt: Apertus aus dem ETH-EPFL-Verbund und State-Space-Modelle wie Mamba haben verwandte Ideen verfolgt. SubQ ist das US-Pendant, das jetzt zuerst ein Produkt am Markt hat – wenn die Behauptungen halten.

Einordnung

Wenn die SSA-Architektur in unabhängigen Reproduktionen bestätigt wird, ist das tatsächlich der grösste Architektur-Sprung seit dem Transformer von 2017. Die Frage ist, wie schnell. Bisher hat Subquadratic einen Blog-Post, einen Investorenkreis und einen Compute-Vertrag – aber keine Weights und keinen Peer-Review. Wer im Enterprise-Umfeld auf SubQ setzt, sollte kurzfristig Pilot-Workloads laufen lassen und längerfristig auf das Technical-Paper warten. Der Underdog-Trade ist klar: Eine kleine Wette, dass die Branche sich in zwei Jahren nicht mehr nur über Modellgrössen, sondern über Aufmerksamkeits-Sparsamkeit unterhält.

Fazit

Wenn die Sparse-Attention-Architektur unabhängig verifiziert wird, ist das der grösste Architektur-Sprung seit dem Transformer – aber bisher fehlen Weights, Peer-Review und API-Pricing.

Quellen

  • Subquadratic launches with $29M to bring 12M-token context windows to AI – SiliconANGLE(wird in neuem Tab geöffnet)
  • The context window has been shattered: Subquadratic debuts a 12-million-token window – The New Stack(wird in neuem Tab geöffnet)
  • Miami startup Subquadratic claims 1,000x AI efficiency gain – VentureBeat(wird in neuem Tab geöffnet)
  • Introducing SubQ: The First Fully Subquadratic LLM – subq.ai(wird in neuem Tab geöffnet)
  • How SSA Makes Long Context Practical – subq.ai(wird in neuem Tab geöffnet)
  • Digi Power X Signs First AI Revenue Contract – $19.6M, 24-Month SubQ AI Agreement – StockTitan(wird in neuem Tab geöffnet)
  • SubQ Review: The First Subquadratic LLM – FelloAI(wird in neuem Tab geöffnet)
Teilen:

Das könnte dich auch interessieren

Planetarium mit Teleskop und Sternenkarte, kinewsletter.ch Stil
Planetarium mit Teleskop und Sternenkarte, kinewsletter.ch Stil
KI-Forschung
8. Mai 2026

Google DeepMind kauft sich in Eve-Online-Studio ein – und macht Spiele zum KI-Trainingsplatz

CCP Games heisst seit dem 6. Mai 2026 Fenris Creations, ist unabhängig von Pearl Abyss – und hat Google DeepMind als Minderheits-Investor. Das KI-Labor will mit Eve Online Long-Horizon-Planning, Memory und Continual Learning trainieren.

DeepMind macht aus 22 Jahren MMO-Wirtschaft eine Trainingsumgebung für Agenten, die langfristig planen, sich erinnern und kontinuierlich lernen.

Weiterlesen
Skizze einer Werkbank mit aufgebrochenem Vorhaengeschloss und Lockpicking-Werkzeug, kinewsletter.ch Stil
Skizze einer Werkbank mit aufgebrochenem Vorhaengeschloss und Lockpicking-Werkzeug, kinewsletter.ch Stil
Regulierung & Ethik
6. Mai 2026

«Moment of Danger»: Anthropic-CEO warnt vor 12-Monats-Fenster, in dem KI Software auseinandernimmt

Anthropic-CEO Amodei warnt: Sechs bis zwölf Monate Zeit, bevor chinesische KI gleichzieht. Mythos liefert nicht nur Schwachstellen, sondern den lauffähigen Exploit gleich mit.

Patch-Geschwindigkeit wird zum Wettbewerbsfaktor – wer Updates über Tage liegen lässt, fängt sich KI-generierte Exploits ein.

Weiterlesen
Illustration eines Notfallraum-Korridors mit Stretcher, Stethoskop und Vital-Monitor, kinewsletter.ch Stil
Illustration eines Notfallraum-Korridors mit Stretcher, Stethoskop und Vital-Monitor, kinewsletter.ch Stil
KI-Forschung
5. Mai 2026

Harvard zeigt: OpenAI o1 stellt in der Notaufnahme bessere Diagnosen als zwei Internisten

Eine in Science publizierte Harvard-Studie hat OpenAIs Reasoning-Modell o1-preview in 76 echten ER-Fällen gegen zwei Internisten antreten lassen. Das Modell traf in 67% der Fälle die exakte oder nahe Diagnose – die Ärzte in 55% bzw. 50%.

Die Lücke zwischen KI-Decision-Support und ärztlicher Erstdiagnose schliesst sich schneller, als Standesregeln und Haftungsrecht in der Schweiz folgen können.

Weiterlesen