Cinématique inverse corps entier par diffusion…

Exploration de la géométrie intrinsèque des modèles de diffusion par cinématique inverse contrainte

42

1arXiv cs.RO

Exploration de la géométrie intrinsèque des modèles de diffusion par cinématique inverse contrainte

Des chercheurs ont publié sur arXiv (2606.26408) une étude empirique sur la capacité des modèles de diffusion à récupérer la géométrie intrinsèque des données sur lesquelles ils sont entraînés, en utilisant la cinématique inverse contrainte comme terrain d'expérimentation contrôlé. L'équipe a entraîné un unique modèle de diffusion conditionnel sur sept familles de contraintes différentes, appliquées successivement au bras UR5 (6-DOF, Universal Robots) et au Franka Emika (7-DOF). Ces familles de contraintes couvrent un spectre allant des branches discrètes de cinématique inverse jusqu'aux variétés de self-motion (les configurations redondantes d'un bras à 7 DOF pour une même position d'effecteur). La principale mesure évaluée est la dimension intrinsèque récupérée à partir de la fonction score du modèle, comparée à la dimension analytique connue de chaque variété de contrainte. L'intérêt de ce travail pour la robotique tient à la rigueur du banc d'essai : contrairement aux études précédentes sur la géométrie des modèles de diffusion, menées sur des images naturelles dont la géométrie réelle est inconnue, la cinématique inverse fournit une vérité terrain analytique exacte. Les résultats montrent que la dimension intrinsèque estimée correspond à la dimension analytique des degrés de liberté de la variété correspondante, sur les deux robots. En outre, l'interpolation linéaire dans l'espace latent produit des solutions qui restent proches de la variété de contrainte, ce qui indique que le modèle ne capture pas seulement la dimensionnalité mais aussi la structure géométrique locale. Pour les équipes travaillant sur des politiques de diffusion (diffusion policies) pour la manipulation contrainte, cela suggère que ces modèles pourraient généraliser à des espaces de configurations complexes sans supervision géométrique explicite. Ce travail s'inscrit dans un mouvement plus large d'analyse théorique des modèles de diffusion appliqués à la robotique, porté notamment par les succès récents de politiques comme pi-0 (Physical Intelligence) ou des approches VLA (Vision-Language-Action). La question de savoir si ces modèles "comprennent" la géométrie des espaces de configuration est centrale pour évaluer leur capacité de généralisation hors distribution. Les concurrents directs de cette ligne de recherche incluent des approches par flow matching ou par représentations Riemanniennes explicites. Les prochaines étapes naturelles seraient d'étendre l'analyse à des contraintes dynamiques ou à des robots à plus haute redondance, et de valider si ces propriétés géométriques persistent sous des architectures de type Transformer diffusion.

UELes bras UR5 (Universal Robots, Danemark) et Franka Emika (Allemagne) servent de bancs d'essai, ancrant cette recherche dans l'écosystème robotique européen, mais l'impact opérationnel direct reste limité à court terme.

RecherchePaper

1 source

Suivi de main par vision pour la manipulation robotique via cinématique inverse

39

2arXiv cs.RO

Suivi de main par vision pour la manipulation robotique via cinématique inverse

Des chercheurs ont publié sur arXiv (réf. 2603.11383) une pipeline de télé-opération bas coût pour bras manipulateurs, baptisée hand-shadowing : une caméra RGB-D égocentrique montée sur des lunettes imprimées en 3D capte les mains de l'opérateur, MediaPipe Hands en extrait 21 points de repère par main, la profondeur les projette dans l'espace 3D, et un algorithme de cinématique inverse à moindres carrés atténués (damped least-squares IK) génère les commandes articulaires du robot SO-ARM101 (5 degrés de liberté + 1 préhenseur). Les actions sont d'abord validées dans un simulateur physique avant d'être rejouées sur le robot réel. Sur un benchmark structuré pick-and-place (grille 5 cases, 10 saisies par case, 3 runs indépendants), la pipeline atteint un taux de succès de 86,7 % ± 4,2 %, avec une erreur IK moyenne de 36,4 mm et une réduction du jerk de 57 à 68 % grâce à un lissage par moyenne mobile exponentielle (EMA). En environnements non structurés réels (supermarché, pharmacie), ce taux chute à 9,3 %, principalement à cause de l'occultation des mains par les objets environnants. Ce résultat illustre avec brutalité le reality gap qui sépare les conditions de laboratoire du déploiement industriel : une marge de 77 points entre les deux contextes n'est pas un détail d'intégration, c'est un défi de fond pour toute approche marker-free analytique. La comparaison directe avec quatre politiques VLA entraînées sur données leader-follower (ACT, SmolVLA, pi_0.5 de Physical Intelligence et GR00T N1.5 de NVIDIA) est méthodologiquement utile : elle positionne cette approche de retargeting pur face aux modèles appris, et quantifie l'écart sans se limiter à la démonstration sélective. Pour un COO ou un intégrateur, le message est clair : le bas coût matériel (lunettes imprimées, caméra grand public) ne compense pas encore l'insuffisance de robustesse à l'occlusion. La télé-opération reste un goulot d'étranglement majeur pour la collecte de données d'entraînement robotique, et les systèmes leader-follower filaires ou magnétiques restent chers et contraignants. Ce travail s'inscrit dans une vague de recherche qui cherche à démocratiser la capture de démonstrations avec du matériel grand public, aux côtés d'approches comme UMI (Columbia) ou AnyTeleop. Pour contourner la faiblesse de MediaPipe face à l'occlusion, les auteurs intègrent WiLoR comme détecteur alternatif et obtiennent 8 % de gain en taux de détection, une amélioration modeste qui confirme que le problème reste ouvert. La prochaine étape logique serait d'ajouter une gestion multi-vues ou un suivi temporel robuste pour traiter les environnements encombrés, conditions précisément où la télé-opération sans marqueur aurait le plus de valeur.

RecherchePaper

1 source

IKSPARK : cinématique inverse avec détection d'obstacles par optimisation convexe

38

3arXiv cs.RO

IKSPARK : cinématique inverse avec détection d'obstacles par optimisation convexe

IKSPARK (Inverse Kinematics using Semidefinite Programming And RanK minimization) est un solveur de cinématique inverse conscient des obstacles, présenté dans un preprint arXiv (2403.12235v2). Le système prend en charge des morphologies variées : chaînes cinématiques ouvertes et fermées, avec joints sphériques, rotoïdes et prismatiques. Sa formulation exprime le problème IK sous forme de programme semidéfini positif (SDP) avec des contraintes de rang 1 sur des matrices symétriques à traces fixes. Le solveur résout d'abord la relaxation SDP, dont l'infaisabilité certifie formellement l'impossibilité du problème original, avant de récupérer une solution de rang 1 via des méthodes itératives de minimisation de rang à convergence locale prouvée. L'évitement d'obstacles est traité par une formulation convexifiée de contraintes mixtes entières. Les expériences rapportées montrent des taux de succès sensiblement supérieurs aux solveurs non linéaires classiques dans des environnements encombrés, notamment des cellules de travail fixes, et ce sans post-traitement, bien que les benchmarks quantitatifs détaillés n'apparaissent pas dans le résumé public. L'apport central d'IKSPARK est sa capacité à certifier l'infaisabilité : contrairement aux solveurs basés sur la Jacobienne pseudo-inverse ou le gradient tels que TRAC-IK ou IKFAST, il peut garantir formellement qu'aucune configuration valide n'existe dans un environnement donné, évitant ainsi des cycles de replanification coûteux. Pour les intégrateurs déployant des manipulateurs en cellules industrielles fixes et encombrées, cette propriété améliore directement la robustesse des pipelines de planification de mouvement. L'absence de post-traitement, étape souvent nécessaire avec les approches SDP classiques, représente une avancée pratique non négligeable. La prise en charge native des chaînes cinématiques fermées, souvent mal gérées par les solveurs analytiques standard, élargit par ailleurs l'applicabilité aux robots parallèles et aux mécanismes à morphologie complexe. La cinématique inverse est un problème fondamental en robotique depuis plusieurs décennies, mais son caractère intrinsèquement non-convexe a longtemps cantonné les approches à garanties globales à des cas très contraints. Les relaxations SDP ont récemment émergé comme piste sérieuse, notamment dans les travaux sur la certification d'optimisation robotique issus de laboratoires comme le MIT ou ETH Zurich. IKSPARK s'inscrit dans cette tendance en l'étendant explicitement à l'évitement d'obstacles. Ses concurrents directs incluent TRAC-IK, BioIK et les méthodes de champ de potentiel, plus rapides en pratique mais dépourvus de garanties de complétude. L'intégration dans des planificateurs de mouvement établis comme MoveIt ou Drake, et la validation sur hardware réel, constitueraient les prochaines étapes logiques, non encore couvertes dans ce preprint.

RecherchePaper

1 source

44

4arXiv cs.RO

PAKE : apprentissage de la loco-manipulation du corps entier via des embeddings cinématiques partiels

Une équipe de recherche publie sur arXiv (arXiv:2607.11041, juillet 2026) un nouveau framework de contrôle corps entier baptisé PAKE, pour "Partial Kinematic Embeddings", destiné à la loco-manipulation des robots à haute redondance cinématique. Le système repose sur un modèle de flux de normalisation cinématique (Kinematic Normalizing Flow, KNF), entraîné sur un grand jeu de données de mouvements, qui génère des trajectoires de référence partielles à la fois variées et physiquement réalisables. Un contrôleur de haut niveau navigue dans l'espace latent du KNF pour exploiter la redondance du système, tandis qu'un contrôleur bas niveau garantit une exécution motrice précise. Les auteurs valident l'approche sur un robot quadrupède équipé d'un bras à six degrés de liberté (DoF). En déploiement matériel réel, sur 24 épisodes répartis en 8 tâches de manipulation mobile différentes, le système atteint une erreur de suivi de pose de l'organe terminal de 4,5 cm et 0,14 rad, avec des erreurs de vitesse linéaire et angulaire de locomotion de 0,1 m/s et 0,01 rad/s respectivement, des chiffres présentés comme supérieurs aux méthodes concurrentes testées en parallèle. Le résultat s'inscrit dans un problème central de la robotique humanoïde et quadrupède actuelle : contrôler des systèmes à très haut nombre de degrés de liberté sans sacrifier la précision, un point sur lequel de nombreuses démonstrations commerciales restent floues ou s'appuient sur des vidéos sélectionnées. Ici, les métriques proviennent d'essais matériels documentés et non de simulation seule, ce qui renforce leur crédibilité, même si le volume d'épisodes (24) reste modeste pour parler de robustesse à grande échelle. Pour les intégrateurs travaillant sur des tâches de manipulation mobile (entrepôts, inspection, logistique), cela illustre une voie alternative aux approches VLA de bout en bout comme Pi-0 ou GR00T N2, en découplant génération de mouvement de référence et exécution bas niveau. Le travail se positionne dans la lignée des recherches en apprentissage par imitation et en génération de mouvement pour la robotique redondante, un domaine où rivalisent notamment les laboratoires travaillant sur les modèles de flux et les politiques de contrôle hiérarchique. Les auteurs évoquent un potentiel d'extension à d'autres tâches robotiques en aval, sans toutefois annoncer de calendrier de déploiement industriel ni de partenaire commercial à ce stade.

RecherchePaper

1 source

Cinématique inverse corps entier par diffusion sur graphe

À lire aussi

Exploration de la géométrie intrinsèque des modèles de diffusion par cinématique inverse contrainte

Suivi de main par vision pour la manipulation robotique via cinématique inverse

IKSPARK : cinématique inverse avec détection d'obstacles par optimisation convexe

PAKE : apprentissage de la loco-manipulation du corps entier via des embeddings cinématiques partiels