
Meta zeigt der KI-Branche den Spiegel: Während alle auf Pixelgenerierung setzen, baut Zuckerbergs Team echte Intelligenz
Die Tech-Giganten liefern sich ein Wettrüsten um die schönsten KI-generierten Videos. OpenAI prahlt mit Sora, Google kontert mit Veo, und Nvidia wirft Cosmos in den Ring. Doch während alle auf den Pixelzug aufspringen, fährt Meta einen radikal anderen Kurs – und könnte damit die gesamte Branche vorführen.
Mit V-JEPA 2 präsentiert der Facebook-Konzern ein 1,2 Milliarden Parameter starkes Videomodell, das nicht versucht, jeden Grashalm perfekt zu generieren. Stattdessen entwickelt es ein echtes Verständnis der physikalischen Welt. Der Clou: Das System kann Roboter steuern – und das nach nur 62 Stunden Training mit Roboterdaten.
Yann LeCun rechnet mit der Konkurrenz ab
Metas Chefwissenschaftler Yann LeCun, eine Koryphäe der KI-Forschung, bezeichnet generative Modelle wie Sora unverblümt als "Sackgasse". Eine bemerkenswerte Kampfansage an die gesamte Branche, die Milliarden in die Pixelperfektion pumpt. Seine Alternative heißt Joint Embedding Predictive Architecture (JEPA) – ein Ansatz, der fundamental anders tickt.
Während Sora und Co. versuchen, jedes Detail vorherzusagen – wo genau welches Blatt am Baum hängt, wie der Schatten fällt –, konzentriert sich V-JEPA 2 auf das Wesentliche. Es lernt abstrakte Konzepte: Der Ball wird fallen. Das Objekt bewegt sich nach links. Punkt.
Diese Abstraktion macht das System nicht nur effizienter, sondern auch praktisch nutzbar. Für die Planung einer Roboteraktion benötigt V-JEPA 2 gerade einmal 16 Sekunden. Nvidias generatives Cosmos-Modell? Braucht satte vier Minuten. Das ist der Unterschied zwischen einem System, das versteht, und einem, das nur nachahmt.
Lernen wie ein Kleinkind – nur schneller
Das Training von V-JEPA 2 erfolgt in zwei Phasen, die an die menschliche Entwicklung erinnern. Zunächst verschlingt das Modell über eine Million Stunden Videomaterial – ohne jede menschliche Anleitung. Es beobachtet die Welt aus verschiedenen Perspektiven: Ich-Perspektive, Außenansichten, Tutorial-Videos, gefilterte YouTube-Inhalte.
Der technische Kniff dabei: Ein "Encoder" mit einer Milliarde Parametern übersetzt die Videos in abstrakte Repräsentationen. Teile der Videos werden ausgeblendet, und ein "Predictor" muss vorhersagen, was in den Lücken passiert – aber eben nicht pixelgenau, sondern konzeptionell.
In der zweiten Phase kommt die Robotersteuerung ins Spiel. Und hier wird es wirklich beeindruckend: Nur 62 Stunden Roboterdaten aus einem öffentlichen Datensatz genügen. Andere Systeme brauchen tausende Stunden spezifischer Trainingsdaten und müssen für jede neue Umgebung neu trainiert werden. V-JEPA 2? Funktioniert einfach.
Von der Theorie zur Praxis: Roboter greifen zu
Die Leistungsfähigkeit zeigt sich in harten Zahlen. Beim Something-Something v2 Datensatz, der komplexe Bewegungen testet, erreicht V-JEPA 2 eine Genauigkeit von 77,3 Prozent – deutlich über der Konkurrenz. Bei der Vorhersage zukünftiger Aktionen im Epic-Kitchens-100 Test kann das Modell eine Sekunde im Voraus mit 39,7 Prozent Trefferquote vorhersagen, welche Aktion als nächstes kommt. Das ist eine Verbesserung von 44 Prozent gegenüber bisherigen Systemen.
Aber der wahre Test findet in der realen Welt statt. Meta ließ V-JEPA 2 zwei verschiedene Franka-Roboterarme in völlig neuen Laborumgebungen steuern – ohne zusätzliches Training. Bei Aufgaben wie dem Greifen einer Tasse oder dem Platzieren von Objekten erreichte das System Erfolgsraten zwischen 65 und 80 Prozent.
Die Steuerung funktioniert dabei verblüffend intuitiv: Der Roboter bekommt ein Foto des Zielzustands gezeigt. V-JEPA 2 plant dann schrittweise, simuliert verschiedene Bewegungen in seinem gelernten Weltmodell und wählt die vielversprechendste aus. Nach jeder Bewegung wird neu geplant – wie ein Mensch, der eine Aufgabe löst.
Die unbequeme Wahrheit: KI versteht die Welt noch nicht wirklich
Doch Meta macht auch etwas, was in der Branche selten ist: Sie zeigen schonungslos die Grenzen auf. Drei neue Benchmarks offenbaren die Lücke zwischen KI und menschlichem Physikverständnis.
Der IntPhys 2 Test, inspiriert von entwicklungspsychologischen Experimenten, zeigt Videopaare mit physikalischen Unmöglichkeiten – etwa ein Ball, der plötzlich nach oben statt nach unten fällt. Menschen erkennen das sofort. Selbst V-JEPA 2? Liegt kaum über dem Zufallsniveau.
Der MVPBench geht noch weiter mit geschickt konstruierten Videopaaren, die oberflächliche Tricks verhindern. V-JEPA 2 erreicht hier mit 44,5 Prozent zwar die beste Leistung aller getesteten Systeme, aber das ist immer noch weit von menschlicher Performance entfernt.
Besonders aufschlussreich ist der CausalVQA-Test für kausales Verständnis. Die Modelle müssen kontrafaktische Fragen beantworten ("Was wäre passiert, wenn..."). Das Ergebnis: Aktuelle KI-Systeme können gut beschreiben, was sie sehen, aber sie verstehen nicht wirklich, warum etwas passiert.
Die Zukunft gehört den Hierarchien
V-JEPA 2 hat noch Schwächen. Langfristige Planung über mehrere Minuten? Fehlanzeige. Empfindlichkeit gegenüber Kamerapositionen? Ein Problem in der Praxis. Doch Metas Vision ist klar: Hierarchische Modelle, die auf verschiedenen Zeitskalen planen können – vom Bruchteil einer Sekunde bis zu Stunden.
Interessanterweise gibt auch Meta die generative KI nicht völlig auf. Mark Zuckerberg rekrutiert gerade ein Team für genau diese Forschung. Vielleicht ist das der klügste Schachzug: Beide Wege parallel verfolgen und schauen, welcher zum Ziel führt.
Während die Konkurrenz weiter Pixel perfektioniert, baut Meta an echter maschineller Intelligenz. V-JEPA 2 mag noch nicht perfekt sein, aber es zeigt einen Weg auf, der über die bloße Nachahmung hinausgeht. In einer Welt, in der KI-Hype oft wichtiger scheint als KI-Substanz, ist das erfrischend ehrlich – und möglicherweise wegweisend.
- Themen:
- #Übernahmen-Fussion
RETTE DEIN GELD: Der digitale Euro kommt
Keine Kreditkarte erforderlich • Keine versteckten Kosten
Ihre Experten im Webinar:

Dr. Daniele Ganser

Peter Hahne

Ernst Wolff

Prof. Dr. R. Werner

Matthew Piepenburg

Tom O. Regenauer
Die 4 Gefahren
für Ihr Vermögen
Konkrete Lösungen
zum Schutz
15.000€ Gold
zu gewinnen
- Kettner Edelmetalle News
- Finanzen
- Wirtschaft
- Politik