Aller au contenu principal
Planification à long terme grâce à des politiques bi-niveaux sur des modèles du monde symboliques
RecherchearXiv cs.RO6sem

Planification à long terme grâce à des politiques bi-niveaux sur des modèles du monde symboliques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche publie sur arXiv (réf. 2605.15975, mai 2026) BISON, un système de planification robotique à deux niveaux conçu pour résoudre des tâches longue durée impliquant des séquences d'actions complexes. L'architecture repose sur des "bilevel policies" : une politique bas niveau (π^ll), un réseau de neurones entraîné par imitation sur des démonstrations continues, et une politique haut niveau (π^hl), construite à partir d'abstractions symboliques de ces mêmes démonstrations, enrichies par généralisation inductive. Sur les benchmarks étendus MetaWorld, BISON surpasse les méthodes VLA (Vision-Language-Action) et les architectures end-to-end en généralisation à de longues séquences et à des environnements contenant davantage d'objets que ceux vus à l'entraînement. Le chiffre mis en avant : la composante symbolique seule peut résoudre des problèmes impliquant 10 000 objets pertinents en moins d'une minute.

L'enjeu technique sous-jacent est bien connu des équipes de robotique industrielle : l'apprentissage par imitation fonctionne remarquablement bien pour le contrôle fin des manipulateurs, mais ne passe pas à l'échelle dès qu'une tâche exige plusieurs dizaines d'étapes enchaînées. Les VLA de nouvelle génération comme Pi-0 ou les dérivés de RT-2 restent en difficulté sur ce point. BISON propose de ne pas choisir entre les deux paradigmes, mais de les stratifier : le réseau neuronal gère la dextérité physique, le raisonnement symbolique prend en charge la séquence globale. Pour un intégrateur ou un COO industriel, cela signifie potentiellement des robots capables d'exécuter des gammes opératoires longues sans replanification humaine à chaque étape, avec un coût mémoire et temps d'inférence réduit par rapport aux approches monolithiques.

BISON s'inscrit dans un retour discret mais croissant aux approches hybrides neuro-symboliques, en réaction aux limites des architectures entièrement end-to-end qui dominent la littérature depuis 2022. La comparaison directe avec les VLA dans les expériences est un positionnement explicite dans ce débat. Il faut toutefois noter que les évaluations sont réalisées en simulation (MetaWorld), sans validation en environnement physique rapportée à ce stade, ce qui laisse entière la question du sim-to-real gap. La page projet est disponible, aucun calendrier de déploiement réel n'est annoncé.

Dans nos dossiers

À lire aussi

SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde
1arXiv cs.RO 

SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde

Des chercheurs proposent SANTS (State-Adaptive Noise Trajectory Scheduler), un scheduler léger pour les politiques de diffusion vidéo-vers-action dans les World Action Models (WAMs). Soumis sur arXiv (2605.27947) le 28 mai 2026, le travail part d'un constat empirique : dans les WAMs pixel-space, débruiter complètement la vidéo future n'optimise pas toujours la qualité de l'action produite. Au-delà d'un seuil dépendant de l'état du robot, le raffinement supplémentaire sature ou dégrade la performance. SANTS lit la représentation vidéo-état courante et le niveau de bruit, prédit un point d'arrêt adaptatif, et est entraîné par post-training avec une récompense sur la qualité finale de l'action (et non sur la fidélité de la vidéo intermédiaire). Résultats annoncés : 94,4 % de succès sur RoboTwin 2.0, 73,1 % sur sept tâches réelles, avec une réduction de latence de 81,7 % et 79,0 % respectivement par rapport au débruitage complet. L'enjeu opérationnel est la fréquence de contrôle : les WAMs souffrent d'une latence d'inférence élevée qui limite leur déploiement dans des boucles de contrôle rapides. Diviser par cinq ce coût d'inférence sans perte majeure de performance valide l'idée que la représentation future n'a pas besoin d'être parfaitement rendue pour conditionner efficacement l'action, une hypothèse implicite des architectures WAM qui n'était pas encore démontrée à cette échelle. Cela dit, le papier reste un preprint non relu par les pairs, et sept tâches réelles constituent un set de validation étroit pour prétendre à une généralisation industrielle. Les WAMs ont émergé comme alternative aux politiques VLA classiques en intégrant une prédiction vidéo du futur pour guider la génération d'actions. SANTS se positionne comme une surcouche d'optimisation compatible avec les designs existants, sans modifier la branche action du modèle de base. Dans l'écosystème actuel, Physical Intelligence (pi0), NVIDIA (GR00T N2) et Figure (Figure 03) développent des politiques de diffusion pour la manipulation, où la réduction de la latence d'inférence devient un facteur de compétitivité commerciale. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus larges comme DROID ou Open X-Embodiment, et la mise à disposition publique des poids et du code.

RechercheOpinion
1 source
ACID : cohérence des actions par dynamique inverse pour la planification avec des modèles du monde
2arXiv cs.RO 

ACID : cohérence des actions par dynamique inverse pour la planification avec des modèles du monde

ACID (Action Consistency via Inverse Dynamics), présenté dans un article arXiv publié début juillet 2026 (arXiv:2607.02403v1), s'attaque à un défaut connu de la planification par modèles du monde conditionnés par l'action, une méthode largement utilisée en contrôle robotique. Le problème identifié par les auteurs : le coût de planification standard ne juge une trajectoire candidate qu'à l'aune de la proximité entre l'état terminal prédit et l'objectif, sans vérifier si les transitions intermédiaires sont réalisables. Résultat, une trajectoire peut sembler cohérente sur le papier tout en divergeant fortement une fois exécutée dans l'environnement réel. ACID introduit un principe de "cohérence d'action cyclique" : à chaque étape, un modèle de dynamique inverse tente de retrouver, à partir de la transition prédite, l'action qui l'a produite ; l'écart entre cette action reconstruite et l'action réelle est intégré au coût de planification via une pondération adaptative invariante à l'échelle. Les auteurs valident la méthode sur quatre modèles du monde différents et six tâches couvrant la manipulation d'objets rigides et déformables, le contrôle de systèmes articulés et la navigation visuelle, avec un gain systématique en qualité de planification. L'apport principal n'est pas seulement la précision, mais l'efficacité : ACID atteint une exactitude comparable aux méthodes de référence tout en réduisant substantiellement le budget de calcul nécessaire à la planification. C'est un point sensible pour l'embarqué robotique, où le temps de cycle et la puissance de calcul disponible contraignent directement le déploiement temps réel. Le papier touche aussi à un débat plus large dans le secteur : la fiabilité des modèles du monde utilisés pour anticiper les conséquences d'une action avant de l'exécuter, un maillon critique face aux erreurs qui s'accumulent le long d'une trajectoire prédite. Cette approche s'inscrit dans la lignée des travaux sur la planification par modèle prédictif (MPC) couplée à des dynamiques apprises, une alternative aux architectures vision-langage-action de bout en bout comme Pi-0, GR00T N2 ou Helix, qui n'exposent pas de mécanisme de vérification explicite des trajectoires intermédiaires. Publié en preprint, ACID n'a pas encore fait l'objet d'une revue par les pairs ni d'une validation sur robot physique au-delà des bancs de test utilisés dans l'étude ; la suite logique serait une évaluation en conditions réelles et une comparaison directe avec les méthodes de planification par diffusion, autre piste active du domaine.

RecherchePaper
1 source
Chemin de planification dans des modèles du monde physiquement viables
3arXiv cs.RO 

Chemin de planification dans des modèles du monde physiquement viables

Voici la traduction/résumé en français : Des chercheurs présentent un nouveau modèle de monde "physiquement viable" destiné à la planification de trajectoires pour robots évoluant en extérieur, dans des environnements non structurés. Le constat de départ est simple : les opérateurs ne peuvent pas recartographier un site vaste ou isolé avant chaque mission, si bien que les robots planifient leurs déplacements à partir de reconstructions de scène collectées à l'avance, en supposant à tort que le terrain reste inchangé. Le système décrit dans l'article, publié sur arXiv (2607.00673v1), enrichit des scènes reconstruites en 3D Gaussian splatting avec une simulation physique capable de générer des versions modifiées de l'environnement (inondation, déformation, obstacles nouveaux) sans avoir à recollecter de données capteurs ni à reconstruire la carte. Un planificateur sensible au terrain exploite ensuite ces versions simulées pour évaluer si un itinéraire prévu reste praticable avant que le robot ne s'y engage. Les tests ont été menés sur un site extérieur réel du centre du Texas, avec plusieurs niveaux de sévérité de crue simulée. L'enjeu est celui de la fiabilité des robots autonomes déployés loin de toute supervision humaine constante, en logistique, agriculture, secours ou surveillance de sites. Aujourd'hui, la plupart des systèmes planifient sur une carte figée et découvrent les changements de terrain en cours de route, parfois trop tard pour faire demi-tour, notamment dans les environnements contraints où le repli devient impossible une fois les conditions dégradées. En montrant que des échecs d'itinéraire à long horizon et des besoins de recalcul de trajectoire n'apparaissent que lorsque le terrain futur est simulé, et pas sur la reconstruction d'origine, les auteurs pointent une limite concrète des pipelines de planification actuels, encore trop dépendants de cartes statiques. Ce travail s'inscrit dans la tendance récente d'utilisation du 3D Gaussian splatting pour la reconstruction de scènes robotiques, combinée ici à la simulation physique pour anticiper l'évolution d'un environnement plutôt que se contenter de le capturer une fois pour toutes. Il s'agit pour l'instant d'un résultat de recherche évalué sur un unique site de test avec un scénario d'inondation, sans indication de déploiement industriel ni de comparaison directe avec des solutions commerciales existantes. Les auteurs évoquent la généralisation à d'autres types de changements de terrain comme prolongement naturel de ces travaux.

RecherchePaper
1 source
LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage
4arXiv cs.RO 

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Des chercheurs ont publié LLM-Flax (arXiv 2604.26569v1), un framework en trois étapes conçu pour automatiser le déploiement de planificateurs de tâches neuro-symboliques sans expertise manuelle ni données d'entraînement. Le système prend en entrée uniquement un LLM hébergé localement et un fichier PDDL décrivant le domaine : l'étape 1 génère les règles de relaxation par prompting structuré avec auto-correction, l'étape 2 pilote la récupération sur échec via une politique de budget de latence, et l'étape 3 remplace entièrement le réseau GNN par un scoring d'objets zero-shot. Évalué sur le benchmark MazeNamo en grilles 10x10, 12x12 et 15x15 (8 benchmarks au total), LLM-Flax atteint un taux de succès moyen de 0,945 contre 0,828 pour la baseline manuelle, soit un gain de +0,117. Sur la configuration 12x12 Expert, où le planificateur manuel échoue complètement (SR 0,000), LLM-Flax atteint SR 0,733 ; sur 15x15 Hard, il obtient SR 1,000 contre 0,900 pour l'approche de référence. Le principal verrou adressé est le coût de transfert de domaine : adapter un planificateur symbolique à une nouvelle cellule robotique mobilise aujourd'hui des centaines de problèmes d'entraînement et l'intervention d'un expert métier, ce qui rend le déploiement à l'échelle industrielle prohibitif. La politique de budget de latence de l'étape 2, qui réserve explicitement une enveloppe d'appels LLM avant chaque séquence de récupération sur échec, adresse un problème pratique rarement traité dans la littérature : les boucles de fallback infinies qui paralysent les systèmes en production. L'étape 3 démontre la faisabilité du zero-shot avec SR 0,720 sur 12x12 Hard sans aucune donnée d'entraînement, mais bute sur la fenêtre de contexte à grande échelle, que les auteurs identifient eux-mêmes comme le principal défi ouvert. LLM-Flax s'inscrit dans la lignée des travaux combinant PDDL et LLMs pour la robotique, après SayCan (Google, 2022), Code as Policies (Google DeepMind) et ProgPrompt. Cette approche neuro-symbolique reste distinctement différente des architectures VLA end-to-end comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) : elle préserve un module de raisonnement explicite et auditable, ce qui peut constituer un avantage dans les environnements industriels certifiables. Le benchmark MazeNamo demeure un environnement de navigation 2D simplifié, éloigné des scénarios de manipulation réels ; aucun déploiement terrain n'est annoncé à ce stade, et les auteurs indiquent l'extension à des environnements multi-objets complexes comme prochaine étape.

RecherchePaper
1 source