Aller au contenu principal
Prise de décision hiérarchique intégrée pour la planification et le contrôle en cinématique inverse
RecherchearXiv cs.RO6sem

Prise de décision hiérarchique intégrée pour la planification et le contrôle en cinématique inverse

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs présente sur arXiv (2412.01324, v4) un solveur de programmation non linéaire hiérarchique et épars qui intègre simultanément prise de décision discrète et cinématique inverse (IK) corps entier. En un seul problème d'optimisation, le système résout des questions jusqu'ici traitées séparément : sélectionner le nombre minimal d'articulations à activer (contrôle IK épars), choisir parmi un large ensemble de positions candidates où poser un effecteur terminal, ou coordonner deux bras pour saisir un objet orienté aléatoirement. Le solveur s'appuie sur la norme ℓ₀, qui pénalise directement le nombre de variables non nulles, là où la littérature recourt habituellement à la norme ℓ₁, une approximation convexe plus facile à manipuler mais moins fidèle au problème réel.

L'enjeu est la réduction du fossé entre planification et exécution dans les robots manipulateurs complexes. Les méthodes actuelles font appel à la programmation entière mixte non linéaire (MINLP), dont le coût de calcul est prohibitif en temps réel, ou à des heuristiques de faisabilité (cartes d'atteignabilité, workspace envelopes) qui simplifient le problème au détriment de la précision. Ce cadre traite le problème non linéaire directement, sans relaxation, en exploitant sa structure hiérarchique éparse. Pour un intégrateur travaillant sur des bras bi-manuels ou des plateformes humanoïdes, cela représente une piste concrète pour réduire la dépendance aux bibliothèques de mouvements pré-calculés et aux pipelines de sélection de prises hors ligne.

Ce travail s'inscrit dans la lignée de la programmation quadratique hiérarchique (HQP), paradigme établi en commande de robots redondants depuis les travaux de Sentis et Khatib dans les années 2000. L'usage de la norme ℓ₀ dans des problèmes continus non convexes reste rare en robotique, ce qui constitue la principale originalité revendiquée. L'article ne présente toutefois pas de validation sur plateforme matérielle réelle, ni de benchmarks comparatifs en temps de calcul face à des solveurs de référence comme Drake (Toyota Research Institute) ou les pipelines MoveIt/TRAC-IK, une limite méthodologique à noter avant d'envisager un déploiement. Les suites naturelles seraient une intégration sur humanoïde et une comparaison avec les approches d'apprentissage par renforcement pour la sélection de prises.

Dans nos dossiers

À lire aussi

Planification de mouvement en corps entier et contrôle à sécurité critique pour la manipulation aérienne
1arXiv cs.RO 

Planification de mouvement en corps entier et contrôle à sécurité critique pour la manipulation aérienne

Une équipe de chercheurs propose sur arXiv (2511.02342v3) un cadre de planification de mouvement corps entier pour manipulateurs aériens : des drones multirotors équipés de bras robotiques conçus pour opérer dans des espaces encombrés. Le système repose sur une représentation par superquadriques (SQ), surfaces paramétriques différentiables qui modélisent avec précision la géométrie du véhicule, du bras embarqué et des obstacles environnants. Un planificateur à clairance maximale fusionne diagrammes de Voronoï et formulation de variété d'équilibre pour générer des trajectoires lisses, tandis qu'un contrôleur de sécurité applique simultanément les limites de poussée et l'évitement de collision via des fonctions de barrière d'ordre supérieur (high-order CBFs). En simulation, l'approche surpasse les planificateurs par échantillonnage en vitesse, sécurité et fluidité ; des expériences sur une plateforme physique réelle confirment la cohérence des performances sim-to-real. La manipulation aérienne bute depuis longtemps sur le conservatisme des abstractions géométriques classiques : boîtes englobantes et ellipsoïdes surestiment l'encombrement du système, imposent des déviations inutiles et ferment des passages pourtant praticables. Les superquadriques résolvent ce problème en modélisant les surfaces réelles avec une fidélité géométrique fine, sans le coût computationnel des maillages. Pour les intégrateurs et équipes R&D, cela se traduit par des cycles plus courts et la capacité d'opérer dans des espaces confinés, directement pertinents pour l'inspection de structures, la maintenance en hauteur ou l'intervention en zone difficile d'accès. La validation hardware distingue ce travail de nombreuses publications restées cantonnées à la simulation, et les garanties formelles des CBF d'ordre supérieur constituent un argument de poids pour des déploiements en environnements réels. La manipulation aérienne est un champ de recherche actif depuis une décennie, motivé par l'inspection d'éoliennes, de pylônes et d'infrastructures inaccessibles aux robots terrestres. La représentation par superquadriques, issue des travaux de Barr dans les années 1980 et revisitée par la robotique de manipulation terrestre, gagne en traction pour les contextes où la précision géométrique est critique. Parmi les équipes actives sur des problèmes voisins figurent l'ETH Zurich (ASL), le LAAS-CNRS côté français, ainsi que plusieurs groupes nord-américains et asiatiques. Ce preprint ne mentionne aucun partenaire industriel ni horizon de déploiement commercial, ce qui le positionne comme une contribution académique fondamentale avec validation expérimentale.

UELe LAAS-CNRS est explicitement cité parmi les équipes actives sur des problèmes voisins ; cette contribution pourrait alimenter les travaux européens sur la manipulation aérienne pour l'inspection d'infrastructures.

RecherchePaper
1 source
Suivi de main par vision pour la manipulation robotique via cinématique inverse
2arXiv cs.RO 

Suivi de main par vision pour la manipulation robotique via cinématique inverse

Des chercheurs ont publié sur arXiv (réf. 2603.11383) une pipeline de télé-opération bas coût pour bras manipulateurs, baptisée hand-shadowing : une caméra RGB-D égocentrique montée sur des lunettes imprimées en 3D capte les mains de l'opérateur, MediaPipe Hands en extrait 21 points de repère par main, la profondeur les projette dans l'espace 3D, et un algorithme de cinématique inverse à moindres carrés atténués (damped least-squares IK) génère les commandes articulaires du robot SO-ARM101 (5 degrés de liberté + 1 préhenseur). Les actions sont d'abord validées dans un simulateur physique avant d'être rejouées sur le robot réel. Sur un benchmark structuré pick-and-place (grille 5 cases, 10 saisies par case, 3 runs indépendants), la pipeline atteint un taux de succès de 86,7 % ± 4,2 %, avec une erreur IK moyenne de 36,4 mm et une réduction du jerk de 57 à 68 % grâce à un lissage par moyenne mobile exponentielle (EMA). En environnements non structurés réels (supermarché, pharmacie), ce taux chute à 9,3 %, principalement à cause de l'occultation des mains par les objets environnants. Ce résultat illustre avec brutalité le reality gap qui sépare les conditions de laboratoire du déploiement industriel : une marge de 77 points entre les deux contextes n'est pas un détail d'intégration, c'est un défi de fond pour toute approche marker-free analytique. La comparaison directe avec quatre politiques VLA entraînées sur données leader-follower (ACT, SmolVLA, pi_0.5 de Physical Intelligence et GR00T N1.5 de NVIDIA) est méthodologiquement utile : elle positionne cette approche de retargeting pur face aux modèles appris, et quantifie l'écart sans se limiter à la démonstration sélective. Pour un COO ou un intégrateur, le message est clair : le bas coût matériel (lunettes imprimées, caméra grand public) ne compense pas encore l'insuffisance de robustesse à l'occlusion. La télé-opération reste un goulot d'étranglement majeur pour la collecte de données d'entraînement robotique, et les systèmes leader-follower filaires ou magnétiques restent chers et contraignants. Ce travail s'inscrit dans une vague de recherche qui cherche à démocratiser la capture de démonstrations avec du matériel grand public, aux côtés d'approches comme UMI (Columbia) ou AnyTeleop. Pour contourner la faiblesse de MediaPipe face à l'occlusion, les auteurs intègrent WiLoR comme détecteur alternatif et obtiennent 8 % de gain en taux de détection, une amélioration modeste qui confirme que le problème reste ouvert. La prochaine étape logique serait d'ajouter une gestion multi-vues ou un suivi temporel robuste pour traiter les environnements encombrés, conditions précisément où la télé-opération sans marqueur aurait le plus de valeur.

RecherchePaper
1 source
Planification robotique embarquée : éliminer la redondance d'inférence pour une prise de décision efficace
3arXiv cs.RO 

Planification robotique embarquée : éliminer la redondance d'inférence pour une prise de décision efficace

Des chercheurs ont publié REIS (arXiv:2605.31460), un framework de planification robotique embarquée conçu pour réduire la latence d'inférence des modèles de langage et de vision-langage (LLM/VLM) utilisés comme politiques de contrôle. Le constat central : dans les séquences de tâches robotiques, les observations consécutives produisent fréquemment des actions et sous-objectifs identiques, créant une redondance temporelle massive qui gaspille des ressources de calcul sans apporter d'information supplémentaire. REIS répond à ce problème en combinant trois mécanismes : un filtrage de scène léger (scene gating), un routage d'affordances guidé par les caches clé-valeur (KV-steered affordance routing), et un raisonnement délibératif activé uniquement lorsque la situation l'exige. Les expériences ont été menées sur le benchmark ALFRED, référence pour l'instruction-following en environnement 3D simulé, et sur des tâches robotiques en conditions réelles. Les résultats indiquent une suppression significative de l'overhead de raisonnement avec des performances maintenues sur les métriques standards, sans que des chiffres précis de réduction de latence ne soient communiqués dans le résumé public. La latence d'inférence est l'un des freins principaux à l'adoption des architectures VLA (Vision-Language-Action) en environnement industriel. Un système qui interroge un modèle de plusieurs milliards de paramètres à chaque frame de caméra est difficilement déployable sur un manipulateur en temps réel sans infrastructure cloud dédiée. REIS propose une approche inspirée de la cognition humaine : on ne recalcule pas une décision si le contexte n'a pas changé, économisant les cycles GPU pour les moments où la scène évolue réellement. Pour les intégrateurs et COO industriels, c'est une piste concrète pour rendre les politiques VLM opérables sur matériel embarqué, condition souvent non négociable dans les environnements à contraintes de latence ou de confidentialité des données. La tendance à utiliser des LLM/VLM comme cerveau de planification robotique est portée par des travaux notables : RT-2 et RT-X de Google DeepMind, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou encore les récents travaux d'Enchanted Tools (France) sur les architectures hybrides. Le gap entre démonstrations académiques et déploiement réel reste cependant structurel : les modèles de grande taille nécessitent typiquement un GPU dédié, incompatible avec les contraintes d'un robot mobile compact. REIS s'inscrit dans un axe de recherche croissant sur l'efficacité computationnelle des politiques incarnées, aux côtés de la distillation de politique, la quantization, et le token merging. Aucun partenariat industriel ni timeline de commercialisation ne sont mentionnés : il s'agit d'une contribution de recherche académique, sans produit livré ni déploiement annoncé à ce stade.

UELa réduction de latence d'inférence VLA intéresse indirectement les acteurs européens travaillant sur l'embarquement, mais REIS reste une contribution académique sans déploiement ni partenariat industriel annoncé en Europe.

RechercheOpinion
1 source
DAG-STL : un cadre hiérarchique pour la planification de trajectoires zéro-shot sous contraintes de logique temporelle signalée
4arXiv cs.RO 

DAG-STL : un cadre hiérarchique pour la planification de trajectoires zéro-shot sous contraintes de logique temporelle signalée

Des chercheurs ont publié DAG-STL, un cadre hiérarchique de planification de trajectoires pour robots opérant sous contraintes de Signal Temporal Logic (STL), une logique formelle permettant de spécifier des tâches robotiques structurées dans le temps. Le pipeline decompose-allocate-generate fonctionne en trois étapes : il décompose d'abord une formule STL en conditions de progression d'accessibilité et d'invariance, liées par des contraintes de synchronisation partagées ; il alloue ensuite des waypoints temporels via des estimations d'accessibilité apprises ; enfin, il synthétise les trajectoires entre ces waypoints à l'aide d'un générateur basé sur la diffusion. Les expériences ont été conduites sur trois benchmarks standards : Maze2D, OGBench AntMaze, et le domaine Cube, avec un environnement personnalisé incluant une référence par optimisation. DAG-STL surpasse significativement l'approche concurrente de diffusion guidée par robustesse directe sur des tâches STL à long horizon, et récupère la majorité des tâches solubles par optimisation classique tout en conservant un avantage computationnel notable. L'apport principal de ce travail est de résoudre la planification STL en contexte zero-shot, c'est-à-dire sans avoir jamais vu la tâche cible lors de l'entraînement, et sans modèle analytique de la dynamique du système. Pour les intégrateurs et décideurs en robotique, cela signifie qu'un robot équipé de DAG-STL pourrait recevoir une spécification temporelle formelle inédite et en dériver un plan exécutable uniquement depuis des données de trajectoires génériques préenregistrées. La séparation explicite entre raisonnement logique et réalisation physique de la trajectoire est une décision architecturale structurante : elle réduit les problèmes de planification globale long-horizon à une série de sous-problèmes plus courts et mieux couverts par les données. Le cadre introduit également une métrique de cohérence dynamique sans rollout et un mécanisme de replanification hiérarchique en ligne, deux mécanismes qui adressent directement le gap simulation-réel, sujet central des débats sur le sim-to-real dans les VLA (Vision-Language-Action models). DAG-STL s'inscrit dans un courant de recherche actif qui cherche à doter les robots d'une capacité de généralisation formellement vérifiable, à la croisée de la planification sous contraintes logiques temporelles et des modèles génératifs de trajectoires. La STL est un langage étudié depuis les années 2000 en vérification formelle, mais son application à la planification robotique offline reste difficile faute de modèles dynamiques disponibles dans des environnements réels. Les approches concurrentes incluent les méthodes d'imitation learning task-spécifiques et les planificateurs à base de modèle explicite, que DAG-STL vise à dépasser sur le critère de généralisation. Le preprint est disponible sur arXiv (2604.18343) et les prochaines étapes naturelles seraient une validation sur des plateformes physiques, notamment en manipulation et navigation réelle, pour confirmer les gains observés en simulation.

RecherchePaper
1 source