RecherchearXiv cs.RO3h

LDHP : planification hiérarchique pilotée par bibliothèque pour la manipulation dextérique non préhensile

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

LDHP, pour Library-Driven Hierarchical Planning, est un nouveau planificateur pour la manipulation non-préhensile, c'est-à-dire la manutention d'objets fins, larges ou difficiles à saisir avec une prise ferme classique (tissus, plaques, pièces plates). L'architecture proposée fonctionne en deux niveaux : un planificateur de haut niveau, dit "contact-state", propose des trajectoires de pose d'objet via des primitives appelées MoveObject, tandis qu'un planificateur de bas niveau génère des séquences de prise réalisables grâce à des primitives AdjustGrasp. La faisabilité de chaque mouvement est certifiée par des vérifications de collision et des calculs de mécanique quasi-statique, et les segments les plus sensibles au contact sont affinés par une méthode de dichotomie bornée. Les auteurs ont testé leur système sur robot réel, sur deux tâches : le levage d'objets sans mobilité (zero-mobility lifting) et l'insertion dans une fente (slot insertion), avec une exécution jugée cohérente et une robustesse démontrée face aux changements de forme et d'environnement.

L'intérêt de ce travail tient à sa position par rapport aux deux grandes familles d'approches existantes. D'un côté, les planificateurs classiques ignorent souvent les contraintes réelles du gripper et produisent des mouvements théoriquement valides mais physiquement inexécutables sur un robot réel, un écueil fréquent derrière les démonstrations qui échouent hors labo. De l'autre, les approches par apprentissage, dont les modèles VLA à la GR00T N2, Pi-0 ou Helix, nécessitent d'immenses volumes de données et peinent à généraliser à des tâches hors distribution. En faisant de l'exécutabilité un critère de conception dès le départ, plutôt qu'une contrainte ajoutée après coup, LDHP découple le mouvement de l'objet de la faisabilité de la prise, ce qui permet à la même pipeline de transférer d'une tâche à l'autre et d'une géométrie d'objet à l'autre sans redéveloppement. Pour les intégrateurs et ingénieurs en robotique industrielle, c'est un signal que des pipelines structurées et certifiables peuvent rivaliser avec les approches data-hungry sur des tâches de manipulation fine, sans les coûts de collecte de données associés.

La manipulation non-préhensile reste un problème de recherche ouvert de longue date, distinct du paradigme pick-and-place qui domine encore la robotique industrielle. Le champ s'est historiquement divisé entre méthodes de planification et de recherche formelles d'un côté, et méthodes d'apprentissage entraînées sur de larges jeux de démonstrations de l'autre. LDHP se positionne comme un pont entre les deux : une pipeline de planification structurée et vérifiable, mais conçue pour exposer des points d'accroche permettant d'y greffer, en option, des a priori appris. Publié sur arXiv en version mise à jour (v2), le travail reste à ce stade purement académique, sans produit ni déploiement industriel associé ; les suites logiques concerneraient l'extension à des tâches et des géométries d'objets plus complexes, ainsi qu'une intégration effective de composants appris dans les crochets prévus à cet effet.

Dans nos dossiers

NVIDIA GR00T Manipulation robotique arXiv cs.RO

À lire aussi

1arXiv cs.RO

ActivePusher : apprentissage actif et planification par physique résiduelle pour la manipulation non-préhensile

Une équipe de recherche du laboratoire elpis-lab a publié sur arXiv en juin 2025 (identifiant 2506.04646, désormais à sa quatrième révision) un framework baptisé ActivePusher, dédié à la manipulation non-préhensile, c'est-à-dire le déplacement d'objets par poussée ou roulement, sans saisie. L'approche combine deux blocs techniques : un modèle de dynamique par physique résiduelle, qui superpose un correctif appris par réseau de neurones à un modèle physique analytique de base, et un mécanisme d'apprentissage actif guidé par l'incertitude, qui oriente automatiquement la collecte de données vers les paramètres de compétence les moins bien couverts. Le framework s'intègre avec des planificateurs kinodynamiques à base de modèle, en pondérant l'échantillonnage de commandes selon les zones de faible incertitude du modèle appris. Les auteurs valident l'approche en simulation et sur robot réel, avec des taux de succès de planification supérieurs aux méthodes de référence, à volume de données d'entraînement égal. L'enjeu est significatif pour les intégrateurs et équipes R&D travaillant sur la manipulation en environnement non structuré. La manipulation non-préhensile reste un goulot d'étranglement dans de nombreuses lignes d'assemblage et de tri, précisément parce que les modèles analytiques (friction, contact multipoint) sont difficiles à calibrer et fragiles face aux variations de surface ou de géométrie. ActivePusher attaque ce problème sous deux angles simultanément : réduire le coût de collecte de données en évitant les interactions aléatoires peu informatives, et rendre la planification longue-portée plus fiable en évitant les régions d'incertitude élevée. C'est une réponse directe au "sim-to-real gap" structurel qui plombe les déploiements industriels de bras manipulateurs sur tâches de contact. La manipulation non-préhensile est un axe de recherche actif depuis les travaux fondateurs sur la mécanique du contact des années 1990, mais les approches purement analytiques ont montré leurs limites face à la variabilité du monde réel. Des frameworks comme MPPI (Model Predictive Path Integral) ou les planificateurs kinodynamiques basés sur des modèles appris (travaux de Karol Hausman, Pieter Abbeel) forment le paysage concurrent direct. ActivePusher se distingue par le couplage explicite entre acquisition active et planification, là où la plupart des approches traitent ces deux problèmes séparément. Le code source est disponible publiquement sur GitHub (elpis-lab/ActivePusher), ce qui devrait favoriser la reproductibilité. Aucun partenaire industriel ni timeline de transfert n'est mentionné : il s'agit d'une contribution académique, sans déploiement annoncé à ce stade.

RecherchePaper

1 source

2arXiv cs.RO

De la préhension à la dextérité : pré-entraînement à grande échelle pour la manipulation dextérique

Des chercheurs publient sur arXiv un nouveau papier intitulé "From Grasps to Dexterity: Large-Scale Grasp Pretraining for Dexterous Manipulation", qui s'attaque à un problème precis de la manipulation dextre robotique: utiliser un simple geste de préhension pour ensuite manipuler un outil articulé (actionner une gâchette, tourner une molette, ouvrir une pince) plutôt que de simplement le saisir et le poser. L'équipe construit un jeu de données de 355 000 trajectoires à partir d'annotations de préhension dextre à grande échelle, utilisé pour préentraîner un contrôleur bas niveau conditionné par objectif, lui-même piloté par un module haut niveau qui prédit les sous-objectifs de la main. Ce contrôleur est ensuite affiné sur des démonstrations spécifiques à chaque tâche. Pour évaluer l'approche, les auteurs introduisent DexCraft, un banc d'essai en simulation comportant six tâches d'usage d'outils articulés nécessitant une coordination fine des doigts. En conditions réelles, la méthode améliore le taux de réussite complet des tâches de 33,3 points de pourcentage par rapport à la référence DP3, et dépasse aussi les politiques de diffusion entraînées de bout en bout ainsi que les architectures hiérarchiques entraînées depuis zéro. L'intérêt pour l'industrie tient au fait que la plupart des grands jeux de données de préhension dextre existants n'avaient jusqu'ici servi qu'à générer des prises ou à faire du pick-and-place, une tâche relativement simple comparée à l'usage fonctionnel d'un outil, qui exige de maintenir le contact tout en actionnant une pièce mobile. Démontrer qu'un préentraînement sur des données de grasping generalise à ce type de manipulation contact-riche est un signal utile pour les équipes qui travaillent sur des mains robotiques multi-doigts, notamment dans le contexte des humanoïdes où la dextérité fine reste un goulot d'étranglement bien plus limitant que la locomotion. Cela va dans le sens d'une hypothèse défendue par plusieurs laboratoires: les grands corpus de démonstration, même génériques, peuvent servir de socle de préentraînement réutilisable plutôt que d'être collectés tâche par tâche. Ce travail s'inscrit dans la lignée des approches hiérarchiques d'apprentissage par imitation combinant planification haut niveau et contrôle bas niveau, un courant de recherche actif face aux politiques de diffusion de bout en bout comme DP3, utilisées ici comme référence de comparaison. Il s'agit à ce stade d'un résultat académique publié sur arXiv, testé en simulation via DexCraft et validé par des expériences réelles limitées, et non d'un système déployé commercialement. Les auteurs mettent à disposition des vidéos de démonstration sur leur page de projet, mais aucune date de mise en open source du code ni de partenariat industriel n'est mentionnée dans le résumé.

RecherchePaper

1 source

3arXiv cs.RO

Manipulation souple par poussée non-préhensile

Des chercheurs ont publié sur arXiv (2605.25672) une méthode permettant à un bras manipulateur de pousser des objets en milieu humain sans les saisir, tout en maintenant une compliance passive. L'approche étend un modèle de poussée existant intégré à un contrôle en impédance, puis construit un cadre de commande prédictive (MPC) qui module conjointement position et vitesse du robot pour produire la force de contact voulue et adapter le point de contact selon la trajectoire désirée de l'objet. Un filtre de passivité basé sur un "energy tank" module ensuite la vitesse de référence pour éviter l'accumulation incontrôlée d'énergie lors d'interactions extérieures imprévues. La méthode a été validée en simulation puis expérimentalement sur deux systèmes robotiques physiques distincts. Ce travail répond à un besoin croissant dans la robotique collaborative: déplacer des objets sans préhension dans des espaces humains sans risquer de blesser un opérateur en cas de contact non planifié. La plupart des approches MPC pour la manipulation par poussée supposent un robot rigide, ce qui les rend inadaptées aux environnements partagés. En combinant impédance et passivité, cette méthode ouvre la voie à des manipulateurs opérant en mode "open floor" dans des entrepôts ou sur des lignes d'assemblage. Le mécanisme d'energy tank, issu de la robotique haptique, applique ici un principe de stabilité éprouvé à la manipulation non-préhensile. Limite notable: le papier ne fournit pas de métriques de cycle time ni de masse utile testée en conditions réalistes, ce qui limite les conclusions directes pour les intégrateurs industriels. Ce développement s'inscrit dans un champ actif où des équipes comme celles de Berkeley (pushing as pre-grasp manipulation) et d'ETH Zurich (planar pushing) ont posé les bases théoriques; la brique compliance manquait pour un transfert industriel crédible. Côté commercial, la manipulation sans préhension reste peu déployée: Righthand Robotics et Covariant privilégient la préhension adaptative, tandis que des solutions de poussée planaire existent dans les AMR mais sans bras articulé compliant. En France, les acteurs logistiques comme Exotec restent dépendants de la préhension pour la manipulation fine d'objets. La prochaine étape naturelle serait une validation sur scénario d'entrepôt réel avec un spectre plus large de géométries et masses d'objets, perspective que les auteurs mentionnent explicitement.

UELes acteurs logistiques européens comme Exotec pourraient à terme bénéficier de cette approche pour réduire leur dépendance à la préhension fine en entrepôt, mais l'absence de métriques industrielles réalistes retarde tout transfert opérationnel.

RecherchePaper

1 source

4arXiv cs.RO

DexFuture : ciblage visuomoteur hiérarchique par états futurs pour la manipulation bimanuelle d'outils

Des chercheurs ont publié DexFuture (arXiv:2606.05699), une architecture hiérarchique pour la manipulation bimanuelle dextre avec des outils. Le système se décompose en deux niveaux : un prédicteur de cibles visuomotrices futures (Future-State Visuomotor Target Predictor) en haute couche, et une politique d'exécution bas niveau conditionnée sur ces cibles (Target-Conditioned Structured Dexterous Policy). Le prédicteur exploite un flux RGB égocentrique, des données proprioceptives et un historique géométrique pour générer une trajectoire multi-étape via un transformeur conditionné sur l'horizon temporel ; le module d'exécution suit ensuite ces cibles articulation par articulation (per-link) à 60 Hz. Sur le benchmark OakInk2 de tâches bimanuelles avec outils, DexFuture atteint 90 % des performances d'un oracle disposant d'états privilégiés (informations inaccessibles en déploiement réel), contre seulement 7 % pour une politique sans référence future, et s'exécute environ 250 fois plus vite que les approches de planification CEM de type DexWM. Ce résultat est notable car il s'attaque à l'un des verrous fondamentaux de la robotique dextre : comment générer une référence future dynamiquement cohérente sans s'appuyer sur des états privilégiés issus de démonstrations humaines, et sans planification contrefactuelle lente sur des séquences d'actions à haute dimension. L'écart de performance entre la politique sans référence (7 %) et DexFuture (90 %) illustre à quel point le conditionnement sur un horizon temporel est déterminant pour la manipulation fine à deux mains. Pour les intégrateurs et décideurs B2B, l'exécution à 60 Hz est compatible avec du contrôle temps-réel sur hardware standard, là où les approches CEM nécessitaient des cycles bien trop longs pour un déploiement industriel. La séparation explicite entre prédiction sémantique lente (long horizon) et exécution haute fréquence (bas niveau) est une architecture qui se répand dans la robotique de précision, et DexFuture en fournit une validation quantitative significative sur benchmark public. Le benchmark OakInk2 est une référence académique établie pour évaluer la manipulation d'outils à deux mains avec des mains anthropomorphes, couvrant des tâches réalistes de préhension, transfert et utilisation d'outils courants. Le champ des politiques visuomotrices pour mains dextres est en pleine effervescence : DexWM (world models pour la dextérité), Pi-0 de Physical Intelligence, et les approches VLA (Vision-Language-Action) de Google DeepMind et Figure AI poussent la généralisation vers des niveaux inédits. DexFuture se distingue en ciblant la cohérence dynamique de la trajectoire future sans supervision privilégiée, une contrainte plus réaliste que les méthodes supposant un accès complet à l'état du système. L'article n'annonce ni déploiement physique ni timeline commerciale : il s'agit d'un résultat de recherche fondamentale validé en simulation et sur données de démonstration. Les étapes naturelles seraient le passage à des mains physiques (sim-to-real), l'extension à des outils non vus à l'entraînement, et l'intégration dans des pipelines VLA pour des tâches de longue durée.

RecherchePaper

1 source