Aller au contenu principal
Manipulation riche en contacts certifiée par gradient via tubes d'accessibilité à erreur de lissage
RecherchearXiv cs.RO6sem

Manipulation riche en contacts certifiée par gradient via tubes d'accessibilité à erreur de lissage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie sur arXiv (2602.09368v2) une méthode certifiée pour la manipulation robotique de contact riche, testée sur la poussée planaire, la rotation d'objets et la manipulation dextère en main. Le coeur du problème : les méthodes à gradient exploitant la simulation différentiable échouent face aux dynamiques hybrides du contact, qui produisent des gradients discontinus ou nuls. Lisser ces dynamiques restaure les gradients mais introduit un écart de modèle qui invalide les contrôleurs en déploiement réel. La méthode proposée, fondée sur un simulateur différentiable basé sur l'optimisation convexe, quantifie explicitement cet écart comme un ensemble de valeurs puis l'intègre dans l'optimisation via des tubes d'atteignabilité analytiques (smoothing-error reachable tubes). Elle produit des politiques de retour d'état affines, variant dans le temps, formellement certifiées pour satisfaire les contraintes de sécurité sous les dynamiques non-lissées originales, avec moins de violations de contraintes et de meilleures précisions de position finale que les approches de référence.

La manipulation de contact riche reste l'un des verrous centraux de la robotique industrielle : l'assemblage et le picking dextère se heurtent à l'impossibilité de garantir formellement la robustesse en présence de contact discontinu. Ce travail démontre qu'il est possible de combiner simulation différentiable et certifiabilité formelle, deux objectifs longtemps considérés comme antagonistes. Pour les intégrateurs et équipementiers déployant des cobots ou des bras manipulateurs, cela ouvre la voie à des contrôleurs optimisés par simulation avec des garanties de sécurité exploitables industriellement, sans recalage sur données réelles.

Ce travail s'inscrit dans l'essor de la simulation différentiable appliquée au contact, aux côtés d'outils comme Drake (Toyota Research Institute), MuJoCo (DeepMind/Google) ou Dojo. Les approches concurrentes, dont le lissage aléatoire et la relaxation de complémentarité, offrent des gradients continus mais sans garanties formelles de robustesse. Le manuscrit reste en préprint (arXiv v2), sans acceptation dans une conférence majeure ni partenariat industriel annoncé ; les résultats sont exclusivement en simulation, ce qui limite la portée des conclusions avant validation hardware. Les suites logiques portent sur l'extension à des mains dextères multi-doigts et à des tâches en boucle fermée sur robot physique avec des objets de géométrie complexe.

À lire aussi

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS
1arXiv cs.RO 

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS

Un groupe de chercheurs a publié le 27 avril 2026 sur arXiv (arXiv:2604.27175) une méthode d'optimisation de trajectoires baptisée Global-MPPI, dédiée aux tâches de manipulation dites "contact-rich", des scénarios où le robot entre en contact répété avec son environnement, comme pousser, assembler ou manipuler des objets en main. Le cadre combine deux niveaux : une exploration globale via optimisation kernel sum-of-squares (KernelSOS), suivie d'un raffinement local par la méthode MPPI (Model-Predictive Path Integral). Pour gérer la non-régularité des paysages d'optimisation liée aux dynamiques de contact hybrides, les auteurs introduisent un lissage progressif par log-sum-exp, qui fait évoluer le problème d'un objectif régularisé vers l'objectif non-lisse original. Les tests portent sur deux benchmarks haute dimension à horizon long : la tâche PushT et la manipulation dextère in-hand. Les résultats affichent une convergence plus rapide et des coûts finaux inférieurs aux méthodes de référence, mais uniquement en simulation. Le verrou résolu est structurel : sans mécanisme d'exploration globale, les méthodes par échantillonnage comme MPPI convergent facilement vers de mauvais minima locaux. Pour la manipulation contact-rich, composant critique des bras industriels, des mains robotiques et des humanoïdes, ce phénomène génère des trajectoires sous-optimales dans des environnements géométriquement complexes. L'approche KernelSOS apporte une garantie formelle de couverture de l'espace des solutions là où les variantes purement stochastiques de MPPI restent dépendantes de l'initialisation. La combinaison avec le lissage adaptatif traite directement les discontinuités de contact, qui rendent les méthodes de gradient classiques inapplicables. Le transfert sim-to-real n'est pas évalué dans ce travail, ce qui constitue la principale limite à ce stade. MPPI a été développé à Georgia Tech par Grady Williams et Evangelos Theodorou (2016-2018) et s'est imposé en MPC stochastique temps réel via des implémentations GPU massivement parallèles. L'optimisation sum-of-squares (SOS) est issue des travaux de Parrilo (MIT) et Lasserre (LAAS-CNRS, Toulouse). Global-MPPI constitue le premier cadre à combiner explicitement ces deux familles dans un pipeline de planification de manipulation. Sur le plan concurrentiel, l'approche se positionne face à la Cross-Entropy Method (CEM), aux planificateurs par diffusion comme Pi-0 de Physical Intelligence ou Diffusion Policy, ainsi qu'aux optimiseurs de trajectoires différentiables (Drake, trajopt). Ce preprint n'a pas encore été soumis à une conférence identifiée et aucun code public ni déploiement hardware n'est annoncé à ce stade.

UELes fondements SOS de cette méthode sont issus des travaux de Lasserre au LAAS-CNRS (Toulouse), mais le preprint n'implique aucune institution française ou européenne identifiée et reste sans impact opérationnel direct sur la France/UE à ce stade.

RecherchePaper
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
2arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
VibeCheck : détection tactile acoustique active pour la manipulation riche en contacts
3arXiv cs.RO 

VibeCheck : détection tactile acoustique active pour la manipulation riche en contacts

Des chercheurs du ROAM Lab présentent VibeCheck, un préhenseur de robot équipé de deux doigts piézoélectriques : l'un émet une vibration acoustique à travers l'objet saisi, l'autre la reçoit. Cette configuration de captation acoustique active permet d'extraire, en temps réel, des informations sur l'état de l'objet, ses propriétés matérielles, la position de saisie, la pose de structures internes, et la nature des contacts extrinsèques que l'objet entretient avec son environnement. Le système a été validé sur un bras UR5, en prenant le retour acoustique comme unique feedback sensoriel, sur la tâche d'insertion de goupille (peg insertion), un benchmark classique de manipulation dite contact-riche. Les travaux sont disponibles sur arXiv (2504.15535v2). L'intérêt principal de cette approche est d'offrir une modalité sensorielle tactile qui ne repose ni sur la vision (contrairement à GelSight ou DIGIT), ni sur un capteur force-couple classique, souvent coûteux et fragile. Le fait d'inférer le type de contact extrinsèque uniquement par signature acoustique, et d'en dériver une politique d'imitation learning robuste aux prédictions imparfaites du classificateur, suggère une voie sérieuse vers des manipulateurs capables de réagir à des contacts non planifiés sans percevoir explicitement la scène. La résilience de la politique à l'imperfection du signal est un point notable : elle a été entraînée sur un modèle de transition simulé calibré sur les performances réelles du capteur, ce qui réduit partiellement le sim-to-real gap habituel dans ce type de pipelines. L'acoustique active en robotique n'est pas nouvelle, des travaux comme SonicSense ou les approches vibrotactiles en exploration de matériaux existent depuis plusieurs années, mais son intégration dans un préhenseur commercialement plausible (doigts piézoélectriques standard) pour des tâches longue-durée reste rare. Côté concurrence, les capteurs vision-based (GelSight de MIT, DIGIT de Meta/CMU) dominent la recherche en tactile, tandis que des startups comme Touchlab ou Xela Robotics misent sur d'autres modalités. VibeCheck se distingue par sa capacité à fonctionner à travers l'objet, pas seulement à sa surface. Les prochaines étapes probables incluent l'extension à des géométries d'objets variées et l'intégration à des systèmes multi-modaux combinant acoustique et vision.

RecherchePaper
1 source
Combiner supervision manuelle et par téléopération pour la manipulation riche en contacts via des experts guidés par l'état
4arXiv cs.RO 

Combiner supervision manuelle et par téléopération pour la manipulation riche en contacts via des experts guidés par l'état

Une équipe de chercheurs publie sur arXiv (réf. 2606.26603) une méthode hybride de collecte de données pour la manipulation robotique en contact, baptisée BRIDGE (Bi-modal Routing for Imitation Data via Gated Experts). L'approche combine deux modalités d'apprentissage par imitation: les systèmes portables de type UMI (Universal Manipulation Interface), qui permettent une collecte à grande échelle mais ne capturent que des "actions observées" depuis le démonstrateur humain, et la téléopération, qui fournit des "actions désirées" directement exploitables par le contrôleur robot, mais dont la collecte est coûteuse en temps. Sur trois tâches de manipulation riche en contacts, BRIDGE améliore le taux de succès jusqu'à 36,7% par rapport à une politique entraînée uniquement sur données portables. L'architecture repose sur un mélange d'experts en diffusion policy, routés dynamiquement selon la phase de tâche courante détectée à partir de l'état du robot. Le résultat le plus contre-intuitif mérite attention: mélanger naïvement des données portables et des démonstrations de téléopération dégrade les performances par rapport aux données portables seules. Ce n'est qu'en ségréguant explicitement les deux sources via un routeur conditionné sur l'état robot que le gain émerge. Pour les ingénieurs et intégrateurs en robotique industrielle, cela pointe une réalité souvent ignorée: la qualité de la supervision varie selon la phase de tâche, et une augmentation de données mal calibrée peut nuire à la politique apprise. En phase libre, les trajectoires portables sont valides; en phase de contact, le suivi de trajectoires observées à haute rigidité génère des forces de contact importantes et potentiellement dangereuses. BRIDGE résout ce mismatch sans exiger une téléopération complète de la tâche, réduisant significativement le coût de collecte tout en ciblant les segments réellement critiques. Le système UMI, issu des travaux de Cheng Chi et al. (Stanford/Columbia), s'est imposé comme référence pour la collecte scalable en manipulation; les diffusion policies, popularisées par ces mêmes travaux en 2023, forment le socle algorithmique de BRIDGE. Dans le panorama actuel de l'imitation learning, cette recherche se positionne face à des approches à grande échelle comme les VLA (pi-0 de Physical Intelligence, OpenVLA, GR00T N2 de NVIDIA), qui misent sur des volumes massifs de données hétérogènes. BRIDGE fait un pari différent: la qualité ciblée plutôt que l'échelle brute. Il s'agit d'une prépublication arXiv, non encore évaluée par les pairs, et les trois tâches testées restent des benchmarks de laboratoire. La généralisation à des environnements industriels réels, avec variabilité de pièces et contraintes de cycle time, reste entièrement à démontrer.

RecherchePaper
1 source