Forschende am MIT veröffentlichen ChartNet – einen offenen Datensatz mit über einer Million Diagrammen. Damit trainierte kleine Modelle schlagen viel grössere kommerzielle KI beim Lesen von Charts.
Kostenloses Erstgespräch — herstellerneutral, direkt aus dem Rheintal.
Nicht das grössere Modell gewinnt, sondern das besser trainierte – und der Datensatz ist offen.
Selbst teure KI-Modelle scheitern erstaunlich oft an einer simplen Aufgabe: ein Balkendiagramm korrekt lesen. Forschende am MIT zeigen jetzt, dass das nicht an der Modellgrösse liegt – sondern am Übungsmaterial.
Am 3. Juni haben das MIT und das MIT-IBM Computing Research Lab ChartNet veröffentlicht – einen offenen Datensatz mit über einer Million Diagrammen. Das Besondere: Jedes Bild kommt nicht allein, sondern mit dem zugehörigen Code, einer Textbeschreibung, einer Zahlentabelle und passenden Frage-Antwort-Paaren. Genau diese Zusatzinfos helfen einem Modell, die Bildpunkte mit der Bedeutung dahinter zu verknüpfen.
Der Trick steckt in einer zweistufigen Pipeline. Zuerst übersetzt ein automatisches System bestehende Diagramme in Code. Dann verändert es diesen Code schrittweise – Diagrammtyp, Werte, Thema, Farben. So entstehen aus einer einzigen Vorlage Hunderte Varianten. Eine eingebaute Qualitätskontrolle prüft, dass der Code lauffähig ist und die erzeugten Bilder sauber und korrekt sind.
Das Ergebnis ist die eigentliche Pointe. Trainiert man kleine, offene Modelle (etwa IBMs Granite-Vision-Reihe) mit ChartNet, übertreffen sie um Grössenordnungen grössere kommerzielle Modelle – beim Auslesen von Daten, beim Zusammenfassen und beim Beantworten von Fragen zu einem Diagramm. Nicht das grössere Modell gewinnt, sondern das besser trainierte.
Für kleine Firmen ist das eine gute Nachricht. Wer keine riesigen Rechenbudgets hat, kann mit einem offenen Modell plus offenem Datensatz brauchbare Ergebnisse erzielen – etwa um Geschäftszahlen oder Reports automatisch auszuwerten. Lead-Autorin Jovana Kondic formuliert das Ziel so: starke Leistung mit kleinen Modellen, «die nicht unendlich viel Rechenleistung brauchen». Die Arbeit wird an der IEEE-Konferenz für Computer Vision (CVPR) vorgestellt.