SKIP : paradigme d'interpolation par images-clés éparses pour modèles du monde incarnés efficaces
Une équipe de recherche publie SKIP (Sparse Keyframe Interpolation Paradigm), un cadre visant à accélérer l'inférence des modèles de monde incarnés (embodied world models) en robotique. Ces modèles prédisent visuellement l'effet des actions d'un robot sur son environnement et servent à générer des données synthétiques pour entraîner des politiques de contrôle. Générer ces séquences image par image est coûteux en calcul, mais supprimer des frames de façon indiscriminée détruit les événements critiques (approche, contact, saisie, relâchement) dont les politiques aval ont besoin. SKIP fonctionne en trois étapes : identification des keyframes pertinentes via des caractéristiques multimodales robot-aware, synthèse de ces seules keyframes par un modèle de diffusion vidéo sparse, puis reconstruction des intervalles manquants par un interpolateur conditionné sur les actions du robot. Sur le benchmark LIBERO, SKIP génère des séquences denses 4,16 fois plus vite qu'une baseline frame-by-frame et réduit le FVD (Fréchet Video Distance) agrégé de 89,0 %. Lorsque les vidéos SKIP remplacent intégralement les démonstrations réelles pour entraîner la politique π₀.₅ de Physical Intelligence, la perte de performance n'est que de 1,3 point de pourcentage en simulation et de 6,7 pp sur robot réel, contre un effondrement de 48 à 58 pp avec la génération dense classique.
Ce résultat valide un principe clé pour les pipelines de robotique apprenante : une génération synthétique ciblée sur les événements critiques peut remplacer des démonstrations humaines coûteuses sans dégrader sérieusement la politique finale. L'effondrement de la génération dense (48-58 pp) confirme que c'est la préservation des keyframes critiques, et non la densité brute des frames, qui conditionne le transfert sim-to-real. Pour les équipes développant des robots manipulateurs à grande échelle, réduire la dépendance aux données réelles est un levier économique et opérationnel majeur. SKIP répond également au goulot d'étranglement du rollout inference, qui freine actuellement le déploiement de ces modèles de monde dans des boucles d'entraînement intensives.
Les modèles de monde incarnés s'imposent comme axe de recherche depuis les travaux sur UniSim et les premières politiques visuomotrices génératives. La politique π₀.₅ est issue de Physical Intelligence, startup fondée en 2023 spécialisée en modèles de fondation pour la robotique généraliste. Dans le paysage concurrentiel, des approches comme IRASim ou RoboDreamer poursuivent des objectifs similaires ; SKIP se distingue par sa stratégie d'économie computationnelle orientée événements plutôt que par simple sous-échantillonnage temporel. Aucun acteur européen n'est directement impliqué dans ce travail. Les prochaines étapes naturelles incluent la validation sur des tâches de manipulation plus complexes et l'intégration dans des pipelines VLA (Vision-Language-Action) en production.
Dans nos dossiers




