Aller au contenu principal
RecherchearXiv cs.RO1h

Commande prédictive par intégrale de chemin informée par objets pour la manipulation robotique sans préhension

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont présenté une formulation hiérarchique du contrôle MPPI (Model Predictive Path Integral) appliquée à la manipulation non-préhensile, c'est-à-dire au déplacement d'objets par poussée sans saisie physique. Publiée sur arXiv (référence 2605.30778), la méthode décompose le problème en deux niveaux : un premier plan est calculé en supposant que l'objet peut être actionné directement, puis cette trajectoire sert de référence pour résoudre le problème couplé robot-objet. Les expériences ont été conduites sur un bras xArm6 à 6 degrés de liberté de UFactory, avec pour tâche de pousser un objet vers une cible tout en contournant des obstacles statiques. En simulation, la méthode augmente le taux de succès de 40 % et accélère la fréquence de contrôle de 26 % par rapport à un MPPI standard. Sur matériel réel, le gain de succès atteint 20 % pour un coût de calcul comparable.

Cette décomposition hiérarchique répond à un problème fondamental de la planification à long horizon : l'espace de recherche conjoint robot-objet est trop vaste pour être exploré efficacement dans des délais temps-réel. En résolvant d'abord un sous-problème centré sur l'objet, l'algorithme oriente l'échantillonnage stochastique vers des régions prometteuses, réduisant le gaspillage computationnel sans nécessiter de hardware spécialisé. Pour un intégrateur industriel, cela signifie que des tâches impliquant poussées ou réorientations sans préhension deviennent planifiables en temps réel sur des cellules robotiques standard, un verrou qui limitait jusqu'ici l'automatisation de nombreuses opérations de manutention.

Le MPPI est une méthode de contrôle prédictif par échantillonnage stochastique introduite par Theodorou et Williams à Georgia Tech, et popularisée en robotique par NVIDIA via ses environnements de simulation. La manipulation non-préhensile reste un domaine actif, avec des contributions récentes de MIT CSAIL, ETH Zurich et Stanford sur la gestion des contacts discontinus. Ce travail reste à ce stade un preprint non évalué par les pairs, et les benchmarks se limitent à des scénarios de poussée en espace plan avec obstacles statiques : des configurations plus complexes, obstacles dynamiques ou objets déformables, n'ont pas été testés.

À lire aussi

DART : commande prédictive augmentée par apprentissage pour la manipulation bi-bras non préhensile
1arXiv cs.RO 

DART : commande prédictive augmentée par apprentissage pour la manipulation bi-bras non préhensile

Des chercheurs ont publié sur arXiv (référence 2604.17833) les travaux autour de DART, un framework bimanuel conçu pour la manipulation non préhensile d'objets posés sur un plateau. L'approche repose sur un contrôleur prédictif non linéaire (MPC) couplé à un contrôleur d'impédance par optimisation, permettant de déplacer des objets sur le plateau sans les saisir directement. Le système évalue trois stratégies de modélisation de la dynamique plateau-objet : un modèle analytique physique, un modèle par régression en ligne adaptatif en temps réel, et un modèle de dynamique entraîné par apprentissage par renforcement (RL), ce dernier offrant une meilleure généralisation sur des objets aux propriétés variées. Les évaluations ont été réalisées en simulation sur des objets de masses, géométries et coefficients de friction différents. Les auteurs revendiquent que DART constitue le premier framework dédié à ce type de tâche en configuration bimanuelle. L'intérêt technique de DART réside dans la comparaison rigoureuse des trois approches de modélisation sur des métriques concrètes : temps de stabilisation, erreur en régime permanent, effort de contrôle et généralisation. Ce benchmark interne est utile pour les équipes d'intégration robotique qui doivent choisir entre modèles physiques (précis mais rigides), adaptation en ligne (réactive mais computationnellement coûteuse) et RL (flexible mais plus difficile à certifier). L'association MPC et contrôleur d'impédance est une piste crédible pour la manipulation d'objets fragiles ou instables, un verrou important en robotique de service. Toutefois, la validation reste strictement en simulation : le passage au réel implique des défis de perception, de latence et de calibration que le papier ne traite pas encore. Ce travail s'inscrit dans un intérêt croissant pour la robotique de service en hôtellerie et restauration, où des acteurs comme Bear Robotics (Servi), Keenon Robotics ou encore Enchanted Tools (Miroki, développé en France) positionnent leurs plateformes sur des tâches de transport et de service en salle. Les approches dominantes jusqu'ici privilégient la navigation autonome avec préhension classique ; la manipulation non préhensile sur plateau reste peu explorée à l'échelle produit. La prochaine étape naturelle pour DART serait une validation sur plateforme physique, avec des bras commerciaux type Franka Research 3 ou Universal Robots, avant d'envisager une intégration dans un robot mobile de service.

UEEnchanted Tools (Miroki, France) est cité comme acteur du service robotique susceptible de bénéficier de ce type de manipulation non préhensile sur plateau, mais le travail reste en simulation sans transfert réel annoncé.

RecherchePaper
1 source
Suivi de main par vision pour la manipulation robotique via cinématique inverse
2arXiv cs.RO 

Suivi de main par vision pour la manipulation robotique via cinématique inverse

Des chercheurs ont publié sur arXiv (réf. 2603.11383) une pipeline de télé-opération bas coût pour bras manipulateurs, baptisée hand-shadowing : une caméra RGB-D égocentrique montée sur des lunettes imprimées en 3D capte les mains de l'opérateur, MediaPipe Hands en extrait 21 points de repère par main, la profondeur les projette dans l'espace 3D, et un algorithme de cinématique inverse à moindres carrés atténués (damped least-squares IK) génère les commandes articulaires du robot SO-ARM101 (5 degrés de liberté + 1 préhenseur). Les actions sont d'abord validées dans un simulateur physique avant d'être rejouées sur le robot réel. Sur un benchmark structuré pick-and-place (grille 5 cases, 10 saisies par case, 3 runs indépendants), la pipeline atteint un taux de succès de 86,7 % ± 4,2 %, avec une erreur IK moyenne de 36,4 mm et une réduction du jerk de 57 à 68 % grâce à un lissage par moyenne mobile exponentielle (EMA). En environnements non structurés réels (supermarché, pharmacie), ce taux chute à 9,3 %, principalement à cause de l'occultation des mains par les objets environnants. Ce résultat illustre avec brutalité le reality gap qui sépare les conditions de laboratoire du déploiement industriel : une marge de 77 points entre les deux contextes n'est pas un détail d'intégration, c'est un défi de fond pour toute approche marker-free analytique. La comparaison directe avec quatre politiques VLA entraînées sur données leader-follower (ACT, SmolVLA, pi_0.5 de Physical Intelligence et GR00T N1.5 de NVIDIA) est méthodologiquement utile : elle positionne cette approche de retargeting pur face aux modèles appris, et quantifie l'écart sans se limiter à la démonstration sélective. Pour un COO ou un intégrateur, le message est clair : le bas coût matériel (lunettes imprimées, caméra grand public) ne compense pas encore l'insuffisance de robustesse à l'occlusion. La télé-opération reste un goulot d'étranglement majeur pour la collecte de données d'entraînement robotique, et les systèmes leader-follower filaires ou magnétiques restent chers et contraignants. Ce travail s'inscrit dans une vague de recherche qui cherche à démocratiser la capture de démonstrations avec du matériel grand public, aux côtés d'approches comme UMI (Columbia) ou AnyTeleop. Pour contourner la faiblesse de MediaPipe face à l'occlusion, les auteurs intègrent WiLoR comme détecteur alternatif et obtiennent 8 % de gain en taux de détection, une amélioration modeste qui confirme que le problème reste ouvert. La prochaine étape logique serait d'ajouter une gestion multi-vues ou un suivi temporel robuste pour traiter les environnements encombrés, conditions précisément où la télé-opération sans marqueur aurait le plus de valeur.

RecherchePaper
1 source
FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable
3arXiv cs.RO 

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable

Des chercheurs ont publié FuncCanon sur arXiv (réf. 2509.19102, deuxième révision), un framework qui décompose les tâches de manipulation robotique à long horizon en séquences d'"action chunks", des triplets structurés (acteur, verbe, objet), pour apprendre des politiques généralisables à partir de démonstrations humaines. L'idée centrale est de centrer l'apprentissage sur les actions elles-mêmes, pas sur des tâches isolées, ce qui ouvre la voie à la composition et à la réutilisation de primitives. La brique technique originale est la "canonicalisation fonctionnelle d'objets" : les objets sont projetés dans des repères fonctionnels partagés en s'appuyant sur des cues d'affordance extraites de grands modèles vision-langage (VLM). Ce mapping automatique permet de transférer des trajectoires de manipulation entre instances d'une même catégorie sans nouvelles démonstrations. La politique apprise, FuncDiffuser, est une politique de diffusion centrée objet et action, entraînée sur ces données alignées et évaluée sur des benchmarks en simulation et en déploiement réel. L'abstract ne fournit pas de métriques précises (temps de cycle, taux de succès chiffré, nombre de DOF testés), ce qui limite l'évaluation indépendante à ce stade. Le problème que FuncCanon attaque directement est la généralisation hors distribution des politiques end-to-end issues de l'imitation learning, un obstacle bien documenté qui bloque le passage à l'échelle industrielle. En normalisant la pose et la fonctionnalité des objets avant l'apprentissage, FuncDiffuser n'a pas besoin de voir chaque instance d'une catégorie lors de l'entraînement, ce qui réduit structurellement le volume de démonstrations nécessaires par référence produit. Pour un intégrateur industriel, c'est un levier économique potentiellement significatif : le coût de télé-opération pour collecter des données reste l'un des principaux freins au déploiement de bras robotiques en production. Les auteurs revendiquent également une robustesse sim-to-real, mais sans chiffres publiés dans l'abstract, cette affirmation reste à vérifier sur les benchmarks complets disponibles sur le site du projet. FuncCanon s'inscrit dans une vague de travaux visant à dépasser les limites des politiques de diffusion pures (Diffusion Policy, Chi et al., 2023) en ajoutant des représentations sémantiques intermédiaires. Les approches concurrentes incluent Pi-0 de Physical Intelligence, qui exploite une architecture VLA (vision-language-action) pour la généralisation zéro-shot, et GR00T N2 de NVIDIA, qui mise sur un entraînement massif sur données synthétiques. ACT (Action Chunking with Transformers, Zhao et al., 2023) partage la logique de découpage en chunks mais sans canonicalisation fonctionnelle. L'utilisation des VLMs pour extraire des affordances plutôt qu'apprendre des représentations ad hoc est une tendance forte portée par RT-2 de Google DeepMind et OpenVLA. FuncCanon reste pour l'instant une contribution académique sans partenaire industriel ni timeline de commercialisation annoncée.

RechercheOpinion
1 source
Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle
4arXiv cs.RO 

Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle

Des chercheurs ont publié sur arXiv (référence 2510.20955v2) un algorithme permettant de vérifier la sécurité des décisions d'un robot mobile sans disposer d'un oracle de sécurité formel. Les approches classiques exigent soit des contraintes explicitement modélisées, soit des données annotées manuellement comme sûres ou dangereuses, deux méthodes coûteuses en ingénierie et sources d'erreurs. L'algorithme proposé contourne ce besoin via un simulateur : avant d'exécuter une action, le système la projette dans le simulateur vers un état futur, puis utilise l'algorithme Model-Predictive Path Integral (MPPI) pour vérifier l'existence d'un chemin de retour vers un état antérieur de la trajectoire. Sous une hypothèse d'invariance positive sur l'espace des états dangereux, si ce chemin de retour existe, l'état courant est mathématiquement garanti hors de la zone à risque. Les expériences montrent que la méthode approche les performances d'un oracle réel, en limitant notamment les faux négatifs, c'est-à-dire les cas où un état dangereux serait classifié à tort comme sûr. L'enjeu pratique est réel pour le déploiement des AMR (Autonomous Mobile Robots) en environnements industriels non structurés. La dépendance aux annotations manuelles de sécurité constitue un goulot d'étranglement majeur : chaque changement de site ou de configuration peut invalider les contraintes précédemment formulées. En exploitant les contraintes implicites déjà encodées dans les simulateurs physiques modernes, cette approche rend les systèmes de contrôle sûr plus généralisables, sans réécriture à chaque nouveau déploiement. Éliminer les faux négatifs est critique : c'est le scénario où un robot exécute une action jugée sûre à tort, avec des conséquences potentiellement irréversibles en conditions réelles. MPPI est un algorithme de planification par échantillonnage stochastique, initialement développé à Georgia Tech dans les travaux de Grady Williams et Evangelos Theodorou, et depuis repris dans de nombreux travaux sur la navigation autonome et les véhicules sans conducteur. Son utilisation ici comme outil de vérification de réversibilité plutôt que de planification directe constitue l'originalité méthodologique centrale de la contribution. Le travail s'inscrit dans un courant de recherche actif sur la sécurité sans supervision dense, aux côtés des Control Barrier Functions (CBF) appris par données et du safe reinforcement learning. L'article reste une contribution académique avec résultats en simulation uniquement, sans partenaire industriel ni déploiement annoncé. La prochaine étape naturelle serait une validation sur hardware réel dans des environnements aux contraintes implicites complexes et une comparaison quantitative avec des méthodes CBF classiques sur des benchmarks standardisés.

RecherchePaper
1 source