Le suivi de points améliore les modèles d'action du monde
Des chercheurs ont publié sur arXiv (référence 2605.23856) JOPAT, un modèle monde-action conjoint qui combine prédiction visuelle au niveau pixel, suivi de points 2D avec gestion de la visibilité, et prédiction d'actions, le tout dans un unique transformeur de diffusion par débruitage. L'idée centrale est de ne pas se contenter de prédire l'apparence pixel à pixel, mais d'intégrer explicitement des trajectoires de points dans la scène, ce qui donne au modèle une représentation directe du mouvement plutôt qu'une reconstruction visuelle brute. Les évaluations portent sur deux environnements : le benchmark de simulation LIBERO, largement utilisé dans la communauté manipulation, et des tâches réelles via la plateforme open-source LeRobot d'Hugging Face. Sur ces deux environnements, JOPAT surpasse les baselines pixel-only, avec les gains les plus marqués sur les tâches à horizon long impliquant occlusions, interactions inter-objets, et mouvements partiellement hors cadre.
L'apport technique concret est de résoudre un problème bien connu du robot learning : la prédiction pixel-level mélange dynamique du scène avec des facteurs parasites comme l'éclairage, la texture ou les reflets, ce qui rend les représentations apprises fragiles face à des variations visuelles sans lien avec la tâche. En introduisant des tracks 2D comme signal de supervision supplémentaire, JOPAT force le modèle à construire une représentation de mouvement explicite et stable, notamment en cas d'occultation partielle ou de sortie de champ. C'est un résultat notable pour les intégrateurs qui déploient des bras manipulateurs en environnement non contrôlé : si la robustesse aux variations visuelles se confirme hors labo, cela réduit le besoin de contrôle d'éclairage et de marqueurs artificiels, deux contraintes coûteuses en production.
Le suivi de points comme signal de supervision intermédiaire s'inscrit dans une tendance plus large qui cherche à doter les politiques robotiques de représentations structurées plutôt que de tout apprendre depuis les pixels bruts. Des travaux récents comme Track2Act, ATM ou RoboTAP ont exploré des approches voisines ; JOPAT se distingue en intégrant cette supervision directement dans le cadre des world-action models diffusifs, un paradigme popularisé par des modèles comme UniSim ou GROOT de NVIDIA. La plateforme LeRobot, maintenue par Hugging Face, constitue ici le pont vers des expériences matérielles reproductibles avec des robots bas coût, ce qui accélère la validation hors simulation. Les prochaines étapes naturelles seront la généralisation à des manipulateurs à degrés de liberté élevés, la tenue à des changements de fond importants, et l'évaluation sur des séquences multi-étapes représentatives des usages industriels réels.
Le recours à la plateforme LeRobot de Hugging Face (entreprise française) comme banc de test matériel reproductible consolide la position de l'écosystème français dans l'infrastructure de recherche en robot learning.
Ce que j'aime dans l'approche, c'est que plutôt que d'essayer de mieux prédire les pixels (qui mélangent le mouvement utile avec l'éclairage, les reflets, tout le bruit), ils forcent le modèle à suivre des points dans la scène. C'est bête à dire mais c'est souvent une représentation intermédiaire bien choisie qui fait la différence en robotique. Si les gains se reproduisent hors labo, tu te retrouves avec moins de setup rigide, moins de marqueurs artificiels, et c'est pas rien quand tu déploies un bras en environnement réel.
Dans nos dossiers




