Diffusion hybride pour la planification…

Sélection et planification simultanées des contacts pour la manipulation riche en contacts par optimisation en cascade

37

1arXiv cs.RO

Sélection et planification simultanées des contacts pour la manipulation riche en contacts par optimisation en cascade

Des chercheurs ont publié sur arXiv (référence 2605.27972) un cadre d'optimisation en cascade baptisé SCSP, pour Simultaneous Contact Selection and Planning, dédié à la manipulation robotique en contact riche. Ce type de manipulation regroupe les tâches où le bras doit gérer plusieurs points de contact dynamiques : pivotement d'objet, manipulation en main, assemblage serré. Le système repose sur deux modules séquentiels : CSO (Contact Selection Optimization), qui détermine automatiquement les localisations de contact optimales sur l'objet cible, et CPO (Contact Planning Optimization), qui génère ensuite les trajectoires de manipulation correspondantes en temps réel pour des bras redondants à sept degrés de liberté ou plus. Les auteurs valident l'approche en simulation et sur robot physique, sur des tâches décrites comme complexes, sans que l'abstract ne fournisse de métriques de temps de cycle ou de taux de succès chiffrés. Le verrou que SCSP prétend lever est structurant pour la manipulation autonome : la quasi-totalité des méthodes contact-implicit existantes suppose que la séquence de points de contact est définie à l'avance par l'opérateur. Le robot optimise la trajectoire, pas l'endroit où il entre en contact. CSO contourne les deux obstacles qui rendaient la sélection active difficile, à savoir la complémentarité dans la dynamique de contact et les gradients parcimonieux, en substituant un modèle de contact approché et différentiable au modèle physique discontinu, couplé à une optimisation discrète-continue. CPO exploite ensuite ces localisations comme prior pour planifier en temps réel. Si le comportement se généralise hors simulation, le framework permettrait d'aborder des tâches de manipulation substantiellement plus complexes sans paramétrage manuel des modes de contact, ce qui est aujourd'hui l'un des goulots d'étranglement principaux en intégration industrielle. Le champ de la manipulation en contact riche est partagé entre deux grandes familles : l'optimisation classique (contact-implicit trajectory optimization, MPC) et l'apprentissage (VLA, diffusion policies), portées notamment par Physical Intelligence avec Pi-0, Covariant et Figure AI. SCSP s'inscrit dans la ligne optimisation, plus interprétable et potentiellement plus robuste hors distribution que les approches end-to-end. L'identité institutionnelle des auteurs n'apparaît pas dans l'abstract arXiv, ce qui complique l'évaluation de la maturité et du soutien financier derrière le travail. Les démonstrations vidéo disponibles sur le site projet constitueront le vrai test de crédibilité avant tout positionnement industriel.

RecherchePaper

1 source

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

44

2arXiv cs.RO

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

NEXUS est un cadre modulaire présenté en mai 2026 sous forme de preprint arXiv (2605.09387), conçu pour l'apprentissage continu de contraintes symboliques dans les agents incarnés. Son objectif central : combler l'écart fondamental entre l'incertitude probabiliste des grands modèles de langage (LLM) et les exigences de déterminisme strict requises dans le monde physique. Le framework dissocie explicitement deux dimensions : la faisabilité physique, améliorée par des retours d'exécution en boucle fermée, et les spécifications de sécurité, ancrées dans des contraintes dures déterministes formant une défense pré-action. Évalué sur le benchmark SafeAgentBench, NEXUS affiche des taux de succès supérieurs aux approches existantes, refuse efficacement les instructions non sûres, résiste aux attaques adversariales, et améliore progressivement son efficacité de planification par accumulation de connaissances symboliques. La pertinence du cadre réside dans son traitement architectural d'un problème structurel : les LLM, malgré leurs performances en planification, restent des systèmes probabilistes susceptibles de produire des comportements dangereux en environnement physique contraint. NEXUS transforme les artefacts symboliques, jusqu'ici utilisés comme de simples interfaces statiques dans les travaux antérieurs, en vecteurs d'évolution de la connaissance. L'ancrage déterministe des risques est particulièrement utile pour les intégrateurs industriels : un agent peut apprendre à reconnaître et refuser des séquences d'actions dangereuses, y compris face à des instructions adversariales délibérément construites. Pour les décideurs envisageant le déploiement d'agents autonomes en entrepôts ou en production, la distinction entre défense réactive et défense pré-action constitue un avantage concret sur le plan de la certification et de la traçabilité. Ce travail s'inscrit dans la continuité de cadres comme SayCan (Google DeepMind) ou Code as Policies, qui ont posé les bases de la planification incarnée par LLM mais traitaient la sécurité comme une contrainte externe figée. NEXUS la rend évolutive via l'apprentissage continu, ce qui le distingue architecturalement. SafeAgentBench, utilisé pour la validation, s'impose progressivement comme référence pour évaluer la robustesse sécuritaire des agents incarnés. Il convient de noter qu'il s'agit à ce stade d'un preprint sans déploiement industriel annoncé ni validation terrain confirmée. La séparation faisabilité/sécurité que propose NEXUS pourrait néanmoins influencer les prochaines générations de middleware robotique, notamment dans les contextes où la traçabilité réglementaire des décisions autonomes est requise.

UELe cadre NEXUS, en rendant les décisions autonomes traçables et auditables via des contraintes symboliques déterministes, pourrait faciliter la mise en conformité avec l'AI Act pour les intégrateurs européens déployant des agents autonomes en environnement industriel.

RecherchePaper

1 source

Diffusion à somme de coûts avec guidage dynamique pour la planification de mouvement

34

3arXiv cs.RO

Diffusion à somme de coûts avec guidage dynamique pour la planification de mouvement

Une équipe de recherche publie en mai 2026 (arXiv:2605.24690) une nouvelle méthode de planification de trajectoires pour la manipulation robotique, basée sur les modèles de diffusion. L'approche, baptisée "Sum of Costs Diffusion with Dynamic Guidance", guide le processus de débruitage du modèle de diffusion par le gradient du coût total de collision, c'est-à-dire la somme des coûts de collision sur l'ensemble de la trajectoire candidate. Autre contribution clé : une heuristique dynamique pour sélectionner l'étape de départ à partir de laquelle ce guidage par gradient est activé. Sur le benchmark Mπnets, un jeu de données de référence pour la planification en environnements encombrés, la méthode obtient les meilleures performances parmi l'ensemble des approches comparées. La généralisation reste le verrou principal de la planification de mouvement en manipulation robotique. Les planificateurs classiques (familles RRT, OMPL) peinent à s'adapter à de nouveaux environnements sans replanification coûteuse, tandis que les approches deep learning souffrent d'une généralisation limitée hors distribution. Le guidage par gradient de coût de collision, appliqué dynamiquement au cours du débruitage, offre une alternative : le modèle ajuste la trajectoire en continu selon la géométrie réelle de la scène, sans retraining. La sélection dynamique du step de départ du guidage adresse un problème connu des modèles de diffusion guidés, le compromis entre force du guidage et diversité des échantillons. Les résultats sur la diversité des configurations de test de Mπnets soutiennent l'hypothèse que cette formulation est plus robuste que les stratégies de guidage par coût ponctuel utilisées dans les travaux antérieurs. Cela dit, l'article est une prépublication non encore révisée par les pairs, et les métriques gagneraient à être validées sur des benchmarks physiques réels. L'intérêt pour les modèles de diffusion en planification robotique s'est accéléré depuis 2023 avec des travaux comme Diffusion Policy (Chi et al.) ou SE(3)-DiffusionFields. Les approches concurrentes directement comparées incluent MPinets et CuRobo (NVIDIA), deux méthodes learning-based de référence sur Mπnets. La méthode proposée s'inscrit dans un courant qui cherche à marier la flexibilité générative des modèles de diffusion avec des contraintes de sécurité physique (évitement de collision) sans passer par un planificateur externe. La prochaine étape logique sera une validation sur hardware réel et des environnements dynamiques, conditions nécessaires pour que ce type d'approche intéresse les intégrateurs industriels.

RecherchePaper

1 source

Titre découverte conjointe de symboles d'objets et d'actions par prédiction d'effets pour la planification de manipulation robotique

38

4arXiv cs.RO

Titre découverte conjointe de symboles d'objets et d'actions par prédiction d'effets pour la planification de manipulation robotique

Ce travail de recherche, publié sur arXiv, s'attaque à un problème central en planification robotique : comment faire en sorte qu'un robot autonome transforme des interactions sensorimotrices continues et complexes en représentations discrètes exploitables pour planifier ses actions. Les auteurs proposent un modèle qui découvre simultanément des primitives de manipulation de haut niveau et des catégories d'objets, via une couche binaire dite « bottleneck », entraînée à prédire des résultats multimodaux (mouvement de l'objet, contact, retour de force) à partir de données d'interaction générées aléatoirement. Le système s'appuie ensuite sur une méthode de planification discrète qui utilise les étapes intermédiaires de la trajectoire d'effets prédite, permettant des exécutions partielles d'actions pour un contrôle précis à bas niveau. Les expériences portent sur des tâches de repositionnement et d'empilement d'objets sur table, et montrent une précision de planification supérieure à un état de l'art existant et à une méthode alternative fondée sur la vision, aussi bien sur des objets déjà vus que sur des objets nouveaux. L'enjeu dépasse la simple performance de laboratoire. Les approches classiques de catégorisation d'objets en robotique reposent soit sur l'apparence visuelle, ce qui échoue dès que deux objets se ressemblent mais réagissent différemment à la manipulation, soit sur les effets observés, mais avec des actions figées à l'avance. En liant les deux via l'apprentissage, cette méthode permet une généralisation en few-shot fondée sur le comportement réel de l'objet plutôt que sur son aspect, un enjeu direct pour les intégrateurs industriels confrontés à des objets non standardisés en entrepôt ou en logistique, où deux boîtes identiques visuellement peuvent avoir un contenu, un poids ou une rigidité totalement différents. Ce travail s'inscrit dans la lignée des recherches sur l'ancrage symbolique (symbol grounding) pour la planification robotique, un champ qui cherche depuis plusieurs années à dépasser les limites de la perception purement visuelle. Les auteurs annoncent vouloir étendre cette approche à des tâches de manipulation plus variées et à des objets plus complexes, une piste qui pourrait à terme nourrir les architectures de type VLA utilisées par les bras industriels et les robots humanoïdes.

RecherchePaper

1 source

Diffusion hybride pour la planification symbolique et continue simultanée

À lire aussi

Sélection et planification simultanées des contacts pour la manipulation riche en contacts par optimisation en cascade

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

Diffusion à somme de coûts avec guidage dynamique pour la planification de mouvement

Titre découverte conjointe de symboles d'objets et d'actions par prédiction d'effets pour la planification de manipulation robotique