NDPP-Grasp : préhension dextérique orientée tâche…

Manipulation non préhensile orientée saisie par apprentissage d'un champ de préhensibilité

35

1arXiv cs.RO

Manipulation non préhensile orientée saisie par apprentissage d'un champ de préhensibilité

Une équipe de chercheurs a publié le 30 juin 2026 un preprint (arXiv:2606.30474) présentant une nouvelle approche de la manipulation non-préhensile orientée vers la saisie robotique. La manipulation non-préhensile désigne l'ensemble des techniques qui repositionnent un objet sans le saisir directement (poussée, glissement, basculement), typiquement utilisées comme étape préparatoire avant une prise ferme. L'innovation centrale est un "champ de saisissabilité" (graspability field) : au lieu de cibler une pose précise prédéfinie, le système apprend à mesurer, pour chaque configuration de l'objet, dans quelle mesure cette configuration est propice à une saisie réussie. Cette mesure scalaire dense sert de signal d'apprentissage pour un algorithme de renforcement (RL), et détermine automatiquement quand arrêter la phase de manipulation pour passer à la prise. Les expériences ont été conduites à la fois en simulation et sur un robot physique réel, confirmant que la politique apprise reconfigure fiablement les objets en états saisissables sans planificateur externe ni condition d'arrêt définie manuellement. L'intérêt industriel de cette approche réside dans l'élimination d'une contrainte longtemps considérée comme incontournable : la nécessité de spécifier a priori une pose cible pour l'objet. En pratique, un intégrateur robotique sait qu'un objet doit être saisi, mais pas toujours dans quelle orientation exacte. En reformulant le problème comme optimisation d'un objectif de saisissabilité, les auteurs obtiennent un pipeline fermé piloté par une seule politique, sans recours à un planificateur de mouvement séparé. La corrélation mesurée entre la distance de saisissabilité prédite et le taux de succès de saisie réelle est un résultat notable : elle indique que la représentation apprise capture effectivement la faisabilité de la prise, et pas seulement un comportement émergent de la simulation. La manipulation non-préhensile est un domaine de recherche classique en robotique, mais le couplage direct avec un objectif de saisissabilité apprend est une contribution plus récente, rendue possible par la maturité des méthodes RL appliquées à la manipulation. Ce travail s'inscrit dans une tendance plus large qui cherche à réduire le fossé simulation-réalité (sim-to-real gap) pour des tâches de manipulation fine, aux côtés d'approches comme les politiques de diffusion ou les architectures vision-langage-action (VLA). Aucune entreprise partenaire ni timeline de déploiement n'est mentionnée dans ce preprint purement académique. Les suites logiques incluent l'intégration de ce champ de saisissabilité dans des pipelines de manipulation industrielle multi-étapes et son couplage avec des modèles de fondation capables de raisonner sur des catégories d'objets variées.

RecherchePaper

1 source

Ancrage physique des politiques génératives : diffusion guidée par l'optimisation pour le contrôle robotique

45

2arXiv cs.RO

Ancrage physique des politiques génératives : diffusion guidée par l'optimisation pour le contrôle robotique

Des chercheurs ont publié le 24 juin 2026 sur arXiv (référence 2606.24208) une méthode visant à corriger un angle mort des politiques robotiques génératives : les sorties produites par les modèles de diffusion peuvent être statistiquement valides mais physiquement infaisables. En pratique, un modèle génératif de haute qualité peut planifier une saisie (grasp), un waypoint ou une trajectoire qui viole des contraintes d'atteignabilité (reachability), d'évitement de collision ou d'exécutabilité en boucle fermée, rendant le déploiement direct sur robot impossible. Les auteurs proposent un cadre d'optimisation à l'inférence qui formule le guidage diffusionnel comme un problème d'optimisation sous contraintes. La clé : remplacer la perturbation d'échantillonnage dans le processus de débruitage (backward process) par une correction optimisée, ce qui permet d'imposer des contraintes dures ou souples lors du sampling sans ré-entraîner le modèle. Évalué sur la synthèse de saisies dextères avec contraintes de reachability et d'évitement de collision, et sur la manipulation dynamique avec contraintes de suivi au niveau contrôleur, la méthode améliore le taux de succès jusqu'à 20 points de pourcentage sur la saisie dextère et 23 points de pourcentage sur la manipulation visuomotrice par rapport à la meilleure baseline testée. L'enjeu est ce que les auteurs nomment l'"embodiment gap" : une politique entraînée dans un espace de tâches générique peut produire des comportements conceptuellement transférables, mais leur exécution sur un corps physique spécifique échoue faute de contraintes cinématiques ou dynamiques respectées. Pour les intégrateurs et les OEM robotiques, cela signifie que les modèles généralistes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ne peuvent pas être déployés tels quels sur n'importe quel bras ou manipulateur sans couche d'adaptation. L'approche proposée ici opère uniquement en temps d'inférence, sans modification des poids du modèle, ce qui réduit drastiquement le coût d'adaptation à un nouvel embodiment et la rend potentiellement intégrable dans des pipelines existants sans refonte de l'architecture. Le travail s'inscrit dans la dynamique des politiques de diffusion en robotique, initiée notamment par Diffusion Policy (Chi et al., 2023) et prolongée par les architectures VLA de nouvelle génération. Les méthodes concurrentes de guidage par gradient (gradient guidance) et de projection constituent les baselines, et la méthode proposée les surpasse en préservant mieux la qualité des saisies tout en augmentant l'exécutabilité au niveau contrôleur. Dans un secteur où Physical Intelligence, Covariant ou 1X Technologies misent sur des politiques génératives à grande échelle pour atteindre la généralisation inter-robots, cette approche d'optimisation à l'inférence offre un levier d'adaptation pragmatique sans nécessiter de nouvelles données d'entraînement ni de fine-tuning coûteux.

RechercheActu

1 source

HUGS : synthèse unifiée de préhension dextérique guidée par des priors humains, à travers modes et échelles

40

3arXiv cs.RO

HUGS : synthèse unifiée de préhension dextérique guidée par des priors humains, à travers modes et échelles

Le laboratoire à l'origine de ce travail de recherche présente HUGS (Human-prior-guided Unified Dexterous Grasp Synthesis), une méthode qui unifie la synthèse de prises dextres robotiques à travers différentes échelles d'objets et différents modes de contact, de la pince à deux doigts à la prise bimanuelle. Plutôt que de recopier directement des démonstrations humaines, le système apprend un a priori conditionné par l'objet à partir d'un jeu de données compact de 1,8K prises collectées sur 304 objets réels, couvrant une large gamme de tailles et de modes de contact. Cet a priori guide ensuite une optimisation qui privilégie la fermeture de force (force-closure), en proposant de façon adaptative les modes de contact et les initialisations de poignet les plus pertinents. Résultat concret : les chercheurs ont synthétisé 3,2 millions de prises robotiques réparties sur 157 000 scènes, avec des objets dont la demi-diagonale varie de 2 à 30 centimètres, allant d'une vis à un grand carton. Cette approche s'attaque à un problème récurrent en robotique dextre : les méthodes existantes s'appuient sur des contacts attendus et des heuristiques d'initialisation conçues manuellement, ce qui limite soit le taux de réussite, soit la diversité des prises générées. En démontrant que des modèles entraînés sur ce jeu de données synthétique choisissent de façon autonome le mode de contact adapté à chaque objet dans le monde réel, HUGS apporte un élément de preuve supplémentaire que l'apprentissage à partir de données synthétiques à grande échelle peut réduire l'écart entre simulation et réalité, un point de friction classique pour les intégrateurs qui cherchent à déployer des mains robotiques polyvalentes en entrepôt ou en usine. Ce travail s'inscrit dans une tendance plus large de la recherche en manipulation robotique, où la génération de données synthétiques massives sert à contourner la rareté des démonstrations humaines réelles, coûteuses à collecter à cette échelle. En s'appuyant sur des préférences de préhension humaines plutôt que sur un simple retargeting geste par geste, les auteurs se positionnent face aux approches purement heuristiques ou purement basées sur l'imitation. Les prochaines étapes attendues concernent le passage à l'échelle sur des mains robotiques physiques variées et l'intégration de ces prises synthétiques dans des pipelines d'apprentissage bout-en-bout pour la manipulation générale.

RecherchePaper

1 source

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes

42

4arXiv cs.RO

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08725) une méthode de planification de trajectoire en temps réel pour la téleopération sans collision de bras manipulateurs. Le problème central : en téleopération, l'opérateur ne contrôle que la pose de l'effecteur terminal (position et orientation de l'outil), sans piloter individuellement les articulations. Cela provoque régulièrement des auto-collisions du bras sur lui-même ou des collisions avec les obstacles de l'environnement de travail. L'approche proposée reformule les contraintes d'évitement de collision en les rendant différentiables via la dualité en optimisation convexe, une formulation récente adaptée ici au contexte de la téleopération. Le robot est représenté géométriquement par des capsules (cylindres à extrémités hémisphériques), l'environnement par des polytopes. La méthode a été validée en simulation sur des scénarios à nombre variable d'obstacles, puis testée physiquement sur un bras UR5e de Universal Robots dans une session de téleopération réelle. Les résultats indiquent des temps de calcul inférieurs aux méthodes de référence, tout en autorisant une modélisation géométrique plus fidèle, produisant des trajectoires plus lisses et garantissant l'absence de collision. L'enjeu industriel est direct : les approches existantes contraignent les développeurs à choisir entre précision géométrique et performance de calcul. Approximer robot et obstacles par des sphères simplifie la différentiabilité mais introduit des marges de sécurité artificiellement larges, restreignant l'espace de travail utile. À l'inverse, approximer les dérivées dégrade la convergence du solveur et augmente la latence, incompatible avec les exigences temps réel de la téleopération. En utilisant la dualité convexe, ce travail contourne les deux compromis simultanément. Pour un intégrateur déployant des cellules robotisées téléopérées, cela représente potentiellement moins de zones interdites inutiles et une meilleure réactivité du système. La téleopération connaît un regain d'intérêt important depuis 2023, portée par les besoins en collecte de données pour l'apprentissage par imitation dans les robots humanoïdes et par les applications en environnements dangereux ou médicaux. Les méthodes concurrentes incluent les contrôleurs réactifs basés sur des champs de potentiel, les planificateurs par échantillonnage (RRT, CHOMP) et les approches de contrôle optimal à horizon glissant avec modèles en sphères. L'approche ici, fondée sur la programmation différentiable et les contraintes duales convexes, s'inscrit dans une tendance plus large d'intégration des outils d'optimisation différentiable dans la robotique de manipulation. Le travail est un preprint non encore évalué par les pairs ; les prochaines étapes probables concernent l'extension à des configurations à plus grand nombre de degrés de liberté et à des environnements dynamiques.

UEApplicable aux intégrateurs européens déployant des cellules téléopérées (chirurgie, environnements dangereux), mais aucun acteur FR/EU n'est directement impliqué dans ce preprint.

RecherchePaper

1 source

NDPP-Grasp : préhension dextérique orientée tâche guidée par contraintes de plausibilité physique non-différentiables

À lire aussi

Manipulation non préhensile orientée saisie par apprentissage d'un champ de préhensibilité

Ancrage physique des politiques génératives : diffusion guidée par l'optimisation pour le contrôle robotique

HUGS : synthèse unifiée de préhension dextérique guidée par des priors humains, à travers modes et échelles

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes