RecherchearXiv cs.RO2h

Chemin de planification dans des modèles du monde physiquement viables

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Voici la traduction/résumé en français :

Des chercheurs présentent un nouveau modèle de monde "physiquement viable" destiné à la planification de trajectoires pour robots évoluant en extérieur, dans des environnements non structurés. Le constat de départ est simple : les opérateurs ne peuvent pas recartographier un site vaste ou isolé avant chaque mission, si bien que les robots planifient leurs déplacements à partir de reconstructions de scène collectées à l'avance, en supposant à tort que le terrain reste inchangé. Le système décrit dans l'article, publié sur arXiv (2607.00673v1), enrichit des scènes reconstruites en 3D Gaussian splatting avec une simulation physique capable de générer des versions modifiées de l'environnement (inondation, déformation, obstacles nouveaux) sans avoir à recollecter de données capteurs ni à reconstruire la carte. Un planificateur sensible au terrain exploite ensuite ces versions simulées pour évaluer si un itinéraire prévu reste praticable avant que le robot ne s'y engage. Les tests ont été menés sur un site extérieur réel du centre du Texas, avec plusieurs niveaux de sévérité de crue simulée.

L'enjeu est celui de la fiabilité des robots autonomes déployés loin de toute supervision humaine constante, en logistique, agriculture, secours ou surveillance de sites. Aujourd'hui, la plupart des systèmes planifient sur une carte figée et découvrent les changements de terrain en cours de route, parfois trop tard pour faire demi-tour, notamment dans les environnements contraints où le repli devient impossible une fois les conditions dégradées. En montrant que des échecs d'itinéraire à long horizon et des besoins de recalcul de trajectoire n'apparaissent que lorsque le terrain futur est simulé, et pas sur la reconstruction d'origine, les auteurs pointent une limite concrète des pipelines de planification actuels, encore trop dépendants de cartes statiques.

Ce travail s'inscrit dans la tendance récente d'utilisation du 3D Gaussian splatting pour la reconstruction de scènes robotiques, combinée ici à la simulation physique pour anticiper l'évolution d'un environnement plutôt que se contenter de le capturer une fois pour toutes. Il s'agit pour l'instant d'un résultat de recherche évalué sur un unique site de test avec un scénario d'inondation, sans indication de déploiement industriel ni de comparaison directe avec des solutions commerciales existantes. Les auteurs évoquent la généralisation à d'autres types de changements de terrain comme prolongement naturel de ces travaux.

Dans nos dossiers

World models arXiv cs.RO

À lire aussi

1arXiv cs.RO

Les facteurs de succès en planification physique avec des modèles du monde prédictifs à embedding joint

Des chercheurs de Meta AI (FAIR) ont publié une étude systématique des modèles du monde à architecture prédictive par plongement conjoint, désignés sous l'acronyme JEPA-WM (Joint-Embedding Predictive Architecture World Models), appliqués à la planification physique d'agents autonomes. L'équipe a analysé trois dimensions techniques critiques : architecture du modèle, objectif d'entraînement et algorithme de planification, sur des environnements simulés et sur des données robotiques réelles, pour des tâches de navigation et de manipulation. Au terme de cette ablation, ils proposent une configuration qui surpasse deux baselines de référence, DINO-WM et V-JEPA-2-AC. Le code, les checkpoints et les données sont accessibles publiquement sur GitHub (facebookresearch/jepa-wms). L'originalité des JEPA-WM tient à leur mode de planification : plutôt que d'opérer dans l'espace d'entrée brut (pixels, vecteurs d'état), ces modèles planifient dans l'espace de représentation appris, ce qui permet d'abstraire les détails visuels non pertinents et d'accélérer la recherche de trajectoires. La contribution principale de ce travail n'est pas une nouvelle architecture, mais un guide empirique des choix qui font réellement la différence. Pour un intégrateur ou une équipe R&D robotique, cela comble un vide récurrent dans la littérature : savoir quelles décisions d'implémentation ont de l'impact, et lesquelles n'en ont pas. Le fait que les expériences couvrent des données réelles, et pas uniquement de la simulation, renforce la crédibilité des conclusions et réduit partiellement le problème classique du gap sim-to-real qui fragilise beaucoup de travaux sur les world models pour la manipulation. Les JEPA (Joint-Embedding Predictive Architectures) constituent une famille de modèles portée par Yann LeCun et FAIR comme alternative aux architectures génératives classiques (diffusion, autorégressif) pour modéliser le monde physique. V-JEPA-2, sorti début 2025, en représentait une étape clé ; V-JEPA-2-AC, l'une des baselines ici surpassées, en est la variante avec conditionnement par actions. DINO-WM, l'autre référence, combine des features DINO avec une planification par modèle du monde. Cette étude s'inscrit dans un contexte de forte compétition autour des modèles fondationnels pour la robotique, où Physical Intelligence (pi.), Google DeepMind, et des acteurs européens comme Enchanted Tools ou Wandercraft développent leurs propres pipelines de planification et de contrôle. Les prochaines étapes naturelles incluraient une mise à l'échelle des données d'entraînement et une extension à des morphologies robotiques plus variées, notamment humanoïdes.

UELes guidelines empiriques et checkpoints open-source de FAIR pourraient bénéficier directement aux équipes R&D européennes (Enchanted Tools, Wandercraft) développant leurs propres pipelines de planification physique sur world models.

RechercheOpinion

1 source

2arXiv cs.RO

Planification à long terme grâce à des politiques bi-niveaux sur des modèles du monde symboliques

Une équipe de recherche publie sur arXiv (réf. 2605.15975, mai 2026) BISON, un système de planification robotique à deux niveaux conçu pour résoudre des tâches longue durée impliquant des séquences d'actions complexes. L'architecture repose sur des "bilevel policies" : une politique bas niveau (π^ll), un réseau de neurones entraîné par imitation sur des démonstrations continues, et une politique haut niveau (π^hl), construite à partir d'abstractions symboliques de ces mêmes démonstrations, enrichies par généralisation inductive. Sur les benchmarks étendus MetaWorld, BISON surpasse les méthodes VLA (Vision-Language-Action) et les architectures end-to-end en généralisation à de longues séquences et à des environnements contenant davantage d'objets que ceux vus à l'entraînement. Le chiffre mis en avant : la composante symbolique seule peut résoudre des problèmes impliquant 10 000 objets pertinents en moins d'une minute. L'enjeu technique sous-jacent est bien connu des équipes de robotique industrielle : l'apprentissage par imitation fonctionne remarquablement bien pour le contrôle fin des manipulateurs, mais ne passe pas à l'échelle dès qu'une tâche exige plusieurs dizaines d'étapes enchaînées. Les VLA de nouvelle génération comme Pi-0 ou les dérivés de RT-2 restent en difficulté sur ce point. BISON propose de ne pas choisir entre les deux paradigmes, mais de les stratifier : le réseau neuronal gère la dextérité physique, le raisonnement symbolique prend en charge la séquence globale. Pour un intégrateur ou un COO industriel, cela signifie potentiellement des robots capables d'exécuter des gammes opératoires longues sans replanification humaine à chaque étape, avec un coût mémoire et temps d'inférence réduit par rapport aux approches monolithiques. BISON s'inscrit dans un retour discret mais croissant aux approches hybrides neuro-symboliques, en réaction aux limites des architectures entièrement end-to-end qui dominent la littérature depuis 2022. La comparaison directe avec les VLA dans les expériences est un positionnement explicite dans ce débat. Il faut toutefois noter que les évaluations sont réalisées en simulation (MetaWorld), sans validation en environnement physique rapportée à ce stade, ce qui laisse entière la question du sim-to-real gap. La page projet est disponible, aucun calendrier de déploiement réel n'est annoncé.

RecherchePaper

1 source

3arXiv cs.RO

Visual-RRT : planification de chemins vers des objectifs visuels par rendu différentiable

Des chercheurs du laboratoire SGVR de l'université KAIST (Corée du Sud) ont publié en avril 2026 Visual-RRT (vRRT), un planificateur de mouvement pour bras manipulateurs capables de naviguer vers un objectif défini par une image ou une vidéo, sans configuration articulaire numérique explicite. La méthode combine les arbres à exploration rapide aléatoire (RRT), algorithme classique de planification de trajectoire, avec le rendu différentiable du robot pour guider la recherche par gradient visuel. Deux mécanismes complémentaires ont été introduits : une stratégie d'exploration-exploitation à frontières adaptatives, qui priorise les régions de l'espace de configuration visuellement prometteuses, et une expansion inertielle par gradient, qui propage les états d'optimisation entre les branches de l'arbre pour garantir une cohérence dynamique du gradient. Les expériences couvrent trois manipulateurs standard de l'industrie et de la recherche : Franka Emika Panda, Universal Robots UR5e, et Fetch Robotics, en simulation et en environnement réel. L'apport technique fondamental réside dans la suppression d'un prérequis contraignant des planificateurs RRT classiques : la nécessité de spécifier la configuration-but sous forme d'angles articulaires précis. Dans les applications réelles d'automatisation ou d'apprentissage par démonstration, l'opérateur dispose le plus souvent d'une vidéo ou d'une photo de l'état-cible, pas d'un vecteur de joints. vRRT comble ce fossé en projetant l'espace visuel dans l'espace de configuration via rendu différentiable, ce qui permet d'utiliser un signal d'erreur visuel directement comme fonction de coût pour l'exploration. C'est un pas vers des systèmes robotiques plus faciles à programmer par l'exemple, sans calibration manuelle de la configuration finale. Les RRT sont un acquis algorithmique des années 1990-2000 (Steven LaValle, 1998), massivement utilisés dans la robotique industrielle et les véhicules autonomes. L'intégration du rendu différentiable, popularisée par des frameworks comme PyTorch3D ou Mitsuba 3, dans la planification de trajectoire est une tendance émergente depuis 2022-2023. Sur ce créneau, des travaux concurrents explorent les Visual Language Action models (VLA) comme pi-0 de Physical Intelligence ou les approches basées sur la diffusion pour la planification. vRRT se distingue par sa modularité sur des RRT existants et sa compatibilité avec des architectures standard. Le code source est disponible publiquement. Aucune collaboration industrielle ni calendrier de déploiement n'est mentionné dans la publication ; il s'agit à ce stade d'un résultat de recherche académique, pas d'un produit commercialisé.

RecherchePaper

1 source

4arXiv cs.RO

Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative

Une équipe de chercheurs a déposé début mai 2026 sur arXiv (référence 2605.00412v1) un article de position proposant un nouveau cadre théorique pour les modèles du monde en IA incarnée : les Hamiltonian World Models. L'idée centrale est d'encoder les observations d'un robot ou d'un agent autonome dans un espace de phase latent structuré, de faire évoluer cet état via une dynamique inspirée du formalisme hamiltonien de la mécanique classique (avec des termes de contrôle, de dissipation et des résidus appris), puis de décoder la trajectoire prédite en observations futures exploitables pour la planification. Il s'agit d'un preprint théorique sans résultats expérimentaux publiés à ce stade. L'argument principal avancé est que le véritable goulot d'étranglement des modèles du monde n'est plus leur capacité à générer des futurs visuellement réalistes, mais à produire des prédictions physiquement cohérentes et exploitables pour la décision sur un horizon long. Les trois courants dominants actuels peinent chacun à garantir cette stabilité physique : les modèles vidéo génératifs 2D (à la Sora ou Genie), les modèles 3D centrés sur la reconstruction de scènes, et les modèles latents prédictifs de type JEPA (portés notamment par Yann LeCun chez Meta) progressent en silo sans répondre aux exigences du contrôle robotique réel. Pour les équipes de reinforcement learning basé sur modèles (MBRL) et les intégrateurs robotiques, cela se traduit concrètement par des politiques qui dérivent lors des rollouts simulés, fragilisant le transfert sim-to-real. Ancrer la dynamique latente dans le formalisme hamiltonien promettrait une meilleure interprétabilité des représentations internes, une moindre consommation de données d'entraînement et une stabilité accrue en inférence longue. Les auteurs reconnaissent eux-mêmes les obstacles pratiques majeurs : friction, contacts discontinus, forces non-conservatives et objets déformables rendent l'application directe du hamiltonien aux scènes robotiques réelles particulièrement complexe. Ce travail s'inscrit dans un renouveau plus large des world models, porté par Dreamer (Google DeepMind), JEPA (Meta), Genie 2 (Google DeepMind) et les travaux de Physical Intelligence sur les Visual-Language-Action models, mais il se distingue par un ancrage explicite en physique analytique plutôt qu'en apprentissage purement statistique. Aucun déploiement ni partenariat industriel n'est annoncé : l'article reste pour l'instant une contribution théorique ouvrant une direction de recherche.

RecherchePaper

1 source