Aller au contenu principal
Learn2Decompose : décomposition de problèmes pour planifier efficacement la manipulation séquentielle de multiples objets
RecherchearXiv cs.RO6sem

Learn2Decompose : décomposition de problèmes pour planifier efficacement la manipulation séquentielle de multiples objets

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (identifiant 2408.06843, cinquième révision soumise en 2025) une méthode baptisée Learn2Decompose, conçue pour réduire les temps de planification dans des tâches de manipulation séquentielle d'objets multiples en environnements dynamiques. L'approche s'appuie sur trois composantes distinctes : la décomposition d'objectifs (goal decomposition), qui découpe le problème global en séquences de sous-objectifs intermédiaires que le robot doit atteindre successivement ; l'apprentissage de distance computationnelle, qui prédit la complexité de planification entre deux états pour identifier le sous-objectif le plus proche après une perturbation de la scène ; et la réduction de l'ensemble d'objets actifs (object reduction), qui limite le nombre d'objets considérés à chaque étape de replanification. La méthode est évaluée sur trois benchmarks de manipulation robotique, sans que les gains chiffrés exacts soient communiqués dans le résumé public du papier.

L'enjeu est direct : les solveurs classiques de TAMP (Task And Motion Planning) souffrent d'une complexité exponentielle à mesure que l'horizon de planification s'allonge et que le nombre d'objets augmente. En environnement industriel réel, entrepôt, ligne d'assemblage, cellule de picking, cette explosion combinatoire rend les approches TAMP difficiles à déployer sans contraintes fortes sur la taille des scènes. En apprenant des décompositions depuis des démonstrations humaines plutôt qu'en énumérant l'espace de plans, Learn2Decompose introduit un biais inductif qui réduit l'espace de recherche sans abandonner les garanties formelles du planificateur sous-jacent. L'idée de prédire une "distance computationnelle" entre états comme proxy du coût de replanning est méthodologiquement notable : elle permet au système de se reconfigurer dynamiquement après une perturbation, sans relancer une planification globale depuis zéro.

Le TAMP est un domaine classique de la robotique, avec des travaux fondateurs au MIT, à Stanford et à CMU depuis les années 2010. La tension entre robustesse des planificateurs symboliques et leur passage à l'échelle reste un problème ouvert. Deux familles de réponses s'affrontent : les approches entièrement apprenantes comme les VLA (vision-language-action models) ou les diffusion policies telles que Pi-0 de Physical Intelligence, qui évitent le planificateur formel mais peinent sur les tâches longue-durée avec de nombreux objets ; et les approches hybrides comme Learn2Decompose, qui conservent le planificateur mais l'accélèrent par apprentissage automatique. Des acteurs comme Intrinsic (spin-off Google X) ou des équipes académiques comme celles derrière PDDLStream investissent dans des directions similaires. La cinquième révision du papier indique un cycle de peer review itératif ; les résultats quantitatifs complets et les comparaisons systématiques avec d'autres accélérateurs TAMP méritent consultation dans le manuscrit intégral.

À lire aussi

Titre découverte conjointe de symboles d'objets et d'actions par prédiction d'effets pour la planification de manipulation robotique
1arXiv cs.RO 

Titre découverte conjointe de symboles d'objets et d'actions par prédiction d'effets pour la planification de manipulation robotique

Ce travail de recherche, publié sur arXiv, s'attaque à un problème central en planification robotique : comment faire en sorte qu'un robot autonome transforme des interactions sensorimotrices continues et complexes en représentations discrètes exploitables pour planifier ses actions. Les auteurs proposent un modèle qui découvre simultanément des primitives de manipulation de haut niveau et des catégories d'objets, via une couche binaire dite « bottleneck », entraînée à prédire des résultats multimodaux (mouvement de l'objet, contact, retour de force) à partir de données d'interaction générées aléatoirement. Le système s'appuie ensuite sur une méthode de planification discrète qui utilise les étapes intermédiaires de la trajectoire d'effets prédite, permettant des exécutions partielles d'actions pour un contrôle précis à bas niveau. Les expériences portent sur des tâches de repositionnement et d'empilement d'objets sur table, et montrent une précision de planification supérieure à un état de l'art existant et à une méthode alternative fondée sur la vision, aussi bien sur des objets déjà vus que sur des objets nouveaux. L'enjeu dépasse la simple performance de laboratoire. Les approches classiques de catégorisation d'objets en robotique reposent soit sur l'apparence visuelle, ce qui échoue dès que deux objets se ressemblent mais réagissent différemment à la manipulation, soit sur les effets observés, mais avec des actions figées à l'avance. En liant les deux via l'apprentissage, cette méthode permet une généralisation en few-shot fondée sur le comportement réel de l'objet plutôt que sur son aspect, un enjeu direct pour les intégrateurs industriels confrontés à des objets non standardisés en entrepôt ou en logistique, où deux boîtes identiques visuellement peuvent avoir un contenu, un poids ou une rigidité totalement différents. Ce travail s'inscrit dans la lignée des recherches sur l'ancrage symbolique (symbol grounding) pour la planification robotique, un champ qui cherche depuis plusieurs années à dépasser les limites de la perception purement visuelle. Les auteurs annoncent vouloir étendre cette approche à des tâches de manipulation plus variées et à des objets plus complexes, une piste qui pourrait à terme nourrir les architectures de type VLA utilisées par les bras industriels et les robots humanoïdes.

RecherchePaper
1 source
Planification de mouvement en corps entier et contrôle à sécurité critique pour la manipulation aérienne
2arXiv cs.RO 

Planification de mouvement en corps entier et contrôle à sécurité critique pour la manipulation aérienne

Une équipe de chercheurs propose sur arXiv (2511.02342v3) un cadre de planification de mouvement corps entier pour manipulateurs aériens : des drones multirotors équipés de bras robotiques conçus pour opérer dans des espaces encombrés. Le système repose sur une représentation par superquadriques (SQ), surfaces paramétriques différentiables qui modélisent avec précision la géométrie du véhicule, du bras embarqué et des obstacles environnants. Un planificateur à clairance maximale fusionne diagrammes de Voronoï et formulation de variété d'équilibre pour générer des trajectoires lisses, tandis qu'un contrôleur de sécurité applique simultanément les limites de poussée et l'évitement de collision via des fonctions de barrière d'ordre supérieur (high-order CBFs). En simulation, l'approche surpasse les planificateurs par échantillonnage en vitesse, sécurité et fluidité ; des expériences sur une plateforme physique réelle confirment la cohérence des performances sim-to-real. La manipulation aérienne bute depuis longtemps sur le conservatisme des abstractions géométriques classiques : boîtes englobantes et ellipsoïdes surestiment l'encombrement du système, imposent des déviations inutiles et ferment des passages pourtant praticables. Les superquadriques résolvent ce problème en modélisant les surfaces réelles avec une fidélité géométrique fine, sans le coût computationnel des maillages. Pour les intégrateurs et équipes R&D, cela se traduit par des cycles plus courts et la capacité d'opérer dans des espaces confinés, directement pertinents pour l'inspection de structures, la maintenance en hauteur ou l'intervention en zone difficile d'accès. La validation hardware distingue ce travail de nombreuses publications restées cantonnées à la simulation, et les garanties formelles des CBF d'ordre supérieur constituent un argument de poids pour des déploiements en environnements réels. La manipulation aérienne est un champ de recherche actif depuis une décennie, motivé par l'inspection d'éoliennes, de pylônes et d'infrastructures inaccessibles aux robots terrestres. La représentation par superquadriques, issue des travaux de Barr dans les années 1980 et revisitée par la robotique de manipulation terrestre, gagne en traction pour les contextes où la précision géométrique est critique. Parmi les équipes actives sur des problèmes voisins figurent l'ETH Zurich (ASL), le LAAS-CNRS côté français, ainsi que plusieurs groupes nord-américains et asiatiques. Ce preprint ne mentionne aucun partenaire industriel ni horizon de déploiement commercial, ce qui le positionne comme une contribution académique fondamentale avec validation expérimentale.

UELe LAAS-CNRS est explicitement cité parmi les équipes actives sur des problèmes voisins ; cette contribution pourrait alimenter les travaux européens sur la manipulation aérienne pour l'inspection d'infrastructures.

RecherchePaper
1 source
ObjView-Bench : repenser la difficulté et le déploiement pour la planification de vues centrées sur les objets
3arXiv cs.RO 

ObjView-Bench : repenser la difficulté et le déploiement pour la planification de vues centrées sur les objets

Des chercheurs ont publié ObjView-Bench (arXiv:2605.10707), un cadre d'évaluation dédié à la planification de vues centrée sur les objets, sous-tâche fondamentale de la reconstruction 3D active en robotique. L'article diagnostique un problème structurel dans les benchmarks existants : ils confondent la complexité intrinsèque des objets, la difficulté de planification, les hypothèses de budget de captures, et les contraintes de portée physique du robot. Pour y remédier, ObjView-Bench sépare explicitement trois quantités distinctes : l'auto-occlusion omnidirectionnelle, attribut propre à l'objet ; la difficulté de saturation d'observation ; et la difficulté de planification dépendante du protocole, formalisée comme un problème de couverture d'ensemble (set-cover). Le framework intègre des protocoles d'évaluation orientés déploiement, testés sur des planificateurs classiques, appris et hybrides. Cette séparation conceptuelle a des conséquences directes sur la validité des conclusions issues des évaluations courantes. L'article démontre que les classements entre méthodes varient substantiellement selon le régime de budget de vues disponible et les contraintes de portée atteignable, deux paramètres quasi-systématiquement ignorés dans les settings idéalisés. En pratique, une approche jugée supérieure en laboratoire peut se révéler moins robuste dès lors que le bras ou la tête robotique ne peut pas atteindre toutes les positions angulaires théoriques. L'étude montre également qu'un échantillonnage tenant compte de la difficulté de planification améliore les performances des planificateurs appris, piste concrète pour optimiser les systèmes neuronaux de reconstruction active. La planification de vues pour la reconstruction 3D est un problème ouvert depuis plusieurs décennies, des approches classiques basées sur le gain d'information (next-best-view) jusqu'aux planificateurs entraînés par apprentissage par renforcement ou imitation. L'absence de benchmarks unifiés et réalistes complique la comparaison équitable entre ces familles de méthodes, un problème que partagent d'autres domaines de la robotique, comme en témoignent les efforts de standardisation autour de BOP ou RLBench. ObjView-Bench s'inscrit dans ce mouvement de fond vers des évaluations en conditions de déploiement. Cet article est une contribution de recherche fondamentale sans annonce industrielle associée ; les extensions envisagées portent sur les objets déformables et les scènes multi-objets.

RecherchePaper
1 source
Compréhension vidéo découplée centrée sur les objets pour la génération de commandes de manipulation robotique
4arXiv cs.RO 

Compréhension vidéo découplée centrée sur les objets pour la génération de commandes de manipulation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.16470) un framework de compréhension vidéo orienté objets, conçu pour traduire automatiquement des démonstrations gestuelles en commandes exécutables par un bras robotique, sans passer par une syntaxe de programmation classique. La méthode combine des modules TSM (Temporal Shift Module) pour la classification spatio-temporelle d'actions avec un algorithme original de sélection d'objets qui identifie, dans chaque séquence, les objets fonctionnellement pertinents via trois critères : classification de rôle par trajectoire, détection de flou, et minimisation de chevauchements. Les objets retenus sont ensuite analysés par des VLMs (Vision-Language Models) pour la reconnaissance de catégorie et la généralisation zero-shot. Évalué sur une version modifiée du benchmark Something-Something V2, le système atteint 86,79 % de précision en classification d'actions, un score BLEU-4 de 0,337 sur des objets connus et 0,261 sur des objets inédits, soit des gains respectifs de +80,2 % et +143,9 % face au meilleur baseline spécialisé. Sur METEOR et CIDEr, les gains montent à +157,9 % et +171,7 % pour les objets inconnus. Ce résultat est notable pour deux raisons distinctes. D'abord, la généralisation sur des objets non vus durant l'entraînement, qui est précisément le point de rupture habituel des systèmes task-specific : un robot industriel déployé dans un environnement variable ne peut pas être ré-entraîné pour chaque référence produit. Ensuite, l'architecture modulaire découplée (reconnaissance d'action d'un côté, identification d'objet de l'autre) facilite la maintenance et le débogage en production, à l'inverse des architectures bout-en-bout opaques. Sur le papier, ce type de système pourrait réduire la dépendance à la téléopération manuelle pour constituer des datasets de manipulation, un coût majeur pour les déploiements à grande échelle. Il s'agit ici d'un preprint académique, pas d'un produit validé en environnement réel : les métriques sont mesurées sur un benchmark vidéo, pas sur un robot physique, ce qui laisse entier le sim-to-real gap. Le benchmark Something-Something V2 reste un cadre contrôlé, éloigné du désordre d'un atelier de production. Ce travail s'inscrit dans un mouvement plus large de recherche sur les VLA (Vision-Language-Action models), où des acteurs comme Physical Intelligence (pi), Google DeepMind ou le MIT tentent de résoudre exactement ce problème : faire apprendre un robot par observation vidéo plutôt que par démonstration manuelle coûteuse. La prochaine étape naturelle serait une validation sur hardware réel avec un bras collaboratif standard (UR, Franka), ce que le papier ne documente pas encore.

RechercheOpinion
1 source