Eine Million Diagramme: MITs ChartNet lehrt KI das Lesen

Selbst teure KI-Modelle scheitern erstaunlich oft an einer simplen Aufgabe: ein Balkendiagramm korrekt lesen. Forschende am MIT zeigen jetzt, dass das nicht an der Modellgrösse liegt – sondern am Übungsmaterial.

Eine Million Diagramme zum Üben

Am 3. Juni haben das MIT und das MIT-IBM Computing Research Lab ChartNet veröffentlicht – einen offenen Datensatz mit über einer Million Diagrammen. Das Besondere: Jedes Bild kommt nicht allein, sondern mit dem zugehörigen Code, einer Textbeschreibung, einer Zahlentabelle und passenden Frage-Antwort-Paaren. Genau diese Zusatzinfos helfen einem Modell, die Bildpunkte mit der Bedeutung dahinter zu verknüpfen.

Wie aus einem Chart Tausende werden

Der Trick steckt in einer zweistufigen Pipeline. Zuerst übersetzt ein automatisches System bestehende Diagramme in Code. Dann verändert es diesen Code schrittweise – Diagrammtyp, Werte, Thema, Farben. So entstehen aus einer einzigen Vorlage Hunderte Varianten. Eine eingebaute Qualitätskontrolle prüft, dass der Code lauffähig ist und die erzeugten Bilder sauber und korrekt sind.

Die Kleinen schlagen die Grossen

Das Ergebnis ist die eigentliche Pointe. Trainiert man kleine, offene Modelle (etwa IBMs Granite-Vision-Reihe) mit ChartNet, übertreffen sie um Grössenordnungen grössere kommerzielle Modelle – beim Auslesen von Daten, beim Zusammenfassen und beim Beantworten von Fragen zu einem Diagramm. Nicht das grössere Modell gewinnt, sondern das besser trainierte.

Warum das auch KMU hilft

Für kleine Firmen ist das eine gute Nachricht. Wer keine riesigen Rechenbudgets hat, kann mit einem offenen Modell plus offenem Datensatz brauchbare Ergebnisse erzielen – etwa um Geschäftszahlen oder Reports automatisch auszuwerten. Lead-Autorin Jovana Kondic formuliert das Ziel so: starke Leistung mit kleinen Modellen, «die nicht unendlich viel Rechenleistung brauchen». Die Arbeit wird an der IEEE-Konferenz für Computer Vision (CVPR) vorgestellt.