Optimisation paramétrique co-conception de mains dextér…

IKSPARK : cinématique inverse avec détection d'obstacles par optimisation convexe

51

1arXiv cs.RO

IKSPARK : cinématique inverse avec détection d'obstacles par optimisation convexe

IKSPARK (Inverse Kinematics using Semidefinite Programming And RanK minimization) est un solveur de cinématique inverse conscient des obstacles, présenté dans un preprint arXiv (2403.12235v2). Le système prend en charge des morphologies variées : chaînes cinématiques ouvertes et fermées, avec joints sphériques, rotoïdes et prismatiques. Sa formulation exprime le problème IK sous forme de programme semidéfini positif (SDP) avec des contraintes de rang 1 sur des matrices symétriques à traces fixes. Le solveur résout d'abord la relaxation SDP, dont l'infaisabilité certifie formellement l'impossibilité du problème original, avant de récupérer une solution de rang 1 via des méthodes itératives de minimisation de rang à convergence locale prouvée. L'évitement d'obstacles est traité par une formulation convexifiée de contraintes mixtes entières. Les expériences rapportées montrent des taux de succès sensiblement supérieurs aux solveurs non linéaires classiques dans des environnements encombrés, notamment des cellules de travail fixes, et ce sans post-traitement, bien que les benchmarks quantitatifs détaillés n'apparaissent pas dans le résumé public. L'apport central d'IKSPARK est sa capacité à certifier l'infaisabilité : contrairement aux solveurs basés sur la Jacobienne pseudo-inverse ou le gradient tels que TRAC-IK ou IKFAST, il peut garantir formellement qu'aucune configuration valide n'existe dans un environnement donné, évitant ainsi des cycles de replanification coûteux. Pour les intégrateurs déployant des manipulateurs en cellules industrielles fixes et encombrées, cette propriété améliore directement la robustesse des pipelines de planification de mouvement. L'absence de post-traitement, étape souvent nécessaire avec les approches SDP classiques, représente une avancée pratique non négligeable. La prise en charge native des chaînes cinématiques fermées, souvent mal gérées par les solveurs analytiques standard, élargit par ailleurs l'applicabilité aux robots parallèles et aux mécanismes à morphologie complexe. La cinématique inverse est un problème fondamental en robotique depuis plusieurs décennies, mais son caractère intrinsèquement non-convexe a longtemps cantonné les approches à garanties globales à des cas très contraints. Les relaxations SDP ont récemment émergé comme piste sérieuse, notamment dans les travaux sur la certification d'optimisation robotique issus de laboratoires comme le MIT ou ETH Zurich. IKSPARK s'inscrit dans cette tendance en l'étendant explicitement à l'évitement d'obstacles. Ses concurrents directs incluent TRAC-IK, BioIK et les méthodes de champ de potentiel, plus rapides en pratique mais dépourvus de garanties de complétude. L'intégration dans des planificateurs de mouvement établis comme MoveIt ou Drake, et la validation sur hardware réel, constitueraient les prochaines étapes logiques, non encore couvertes dans ce preprint.

RecherchePaper

1 source

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

38

2arXiv cs.RO

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

Des chercheurs présentent sur arXiv (réf. 2604.21693, avril 2026) un cadre théorique qui reformule le SLAM actif comme un problème de contrôle stochastique optimal sous information partielle. Le SLAM (Simultaneous Localization and Mapping) désigne la capacité d'un robot à construire une carte de son environnement tout en s'y localisant simultanément, un problème fondamental en robotique mobile. Dans sa version "active", le robot doit en plus décider quels mouvements effectuer pour maximiser la qualité de sa carte et la précision de sa pose. Les auteurs formalisent ce problème sous la forme d'un processus de décision markovien partiellement observable (POMDP) non standard, intégrant de façon rigoureuse les modèles de mouvement, de perception et de représentation de la carte. Ils introduisent une nouvelle fonction de coût d'exploration qui encode explicitement la géométrie de l'état du robot au moment d'évaluer les actions de collecte d'information. À partir de cette formulation, ils dérivent des solutions approchées quasi-optimales avec garanties formelles. Une étude numérique extensive valide l'approche en utilisant des algorithmes d'apprentissage par renforcement standards pour apprendre ces politiques. L'intérêt principal de ce travail réside dans la rigueur théorique qu'il apporte à un domaine dominé par des heuristiques empiriques. La plupart des approches d'exploration autonome actuelles, qu'elles reposent sur les frontières d'exploration (frontier-based), la maximisation d'information mutuelle, ou des métriques ad hoc, manquent de garanties formelles sur la qualité des solutions produites. En reformulant le problème dans le cadre du contrôle stochastique optimal et des POMDPs, les auteurs fournissent des conditions de régularité et des bornes d'approximation qui permettent de certifier la quasi-optimalité des politiques apprises. Pour les équipes R&D travaillant sur des AMR (robots mobiles autonomes), des drones cartographiques ou des robots d'inspection industrielle, cette approche ouvre la voie à des algorithmes d'exploration dont le comportement est formellement auditable, ce qui est non trivial dans les contextes de certification. Le SLAM est un problème étudié depuis les années 1990, avec des approches classiques basées sur les filtres de Kalman étendus (EKF-SLAM) ou les filtres particulaires (FastSLAM), puis des méthodes graphiques comme ORB-SLAM3 ou RTAB-Map qui dominent aujourd'hui les implémentations industrielles. Les approches neuronales, comme les NeRF et Gaussian Splatting adaptés au SLAM temps réel, émergent en parallèle. Ce papier, encore préprint non évalué par les pairs, ne remplace pas ces implémentations mais propose un cadre décisionnel qui les surplombe. Les laboratoires actifs sur ces questions incluent MIT CSAIL, ETH Zurich (Autonomous Systems Lab) et l'équipe de Joan Solà. Les prochaines étapes naturelles seraient une validation expérimentale sur robot réel et une extension vers les environnements dynamiques, deux points non traités dans cette version arXiv.

RecherchePaper

1 source

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS

49

3arXiv cs.RO

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS

Un groupe de chercheurs a publié le 27 avril 2026 sur arXiv (arXiv:2604.27175) une méthode d'optimisation de trajectoires baptisée Global-MPPI, dédiée aux tâches de manipulation dites "contact-rich", des scénarios où le robot entre en contact répété avec son environnement, comme pousser, assembler ou manipuler des objets en main. Le cadre combine deux niveaux : une exploration globale via optimisation kernel sum-of-squares (KernelSOS), suivie d'un raffinement local par la méthode MPPI (Model-Predictive Path Integral). Pour gérer la non-régularité des paysages d'optimisation liée aux dynamiques de contact hybrides, les auteurs introduisent un lissage progressif par log-sum-exp, qui fait évoluer le problème d'un objectif régularisé vers l'objectif non-lisse original. Les tests portent sur deux benchmarks haute dimension à horizon long : la tâche PushT et la manipulation dextère in-hand. Les résultats affichent une convergence plus rapide et des coûts finaux inférieurs aux méthodes de référence, mais uniquement en simulation. Le verrou résolu est structurel : sans mécanisme d'exploration globale, les méthodes par échantillonnage comme MPPI convergent facilement vers de mauvais minima locaux. Pour la manipulation contact-rich, composant critique des bras industriels, des mains robotiques et des humanoïdes, ce phénomène génère des trajectoires sous-optimales dans des environnements géométriquement complexes. L'approche KernelSOS apporte une garantie formelle de couverture de l'espace des solutions là où les variantes purement stochastiques de MPPI restent dépendantes de l'initialisation. La combinaison avec le lissage adaptatif traite directement les discontinuités de contact, qui rendent les méthodes de gradient classiques inapplicables. Le transfert sim-to-real n'est pas évalué dans ce travail, ce qui constitue la principale limite à ce stade. MPPI a été développé à Georgia Tech par Grady Williams et Evangelos Theodorou (2016-2018) et s'est imposé en MPC stochastique temps réel via des implémentations GPU massivement parallèles. L'optimisation sum-of-squares (SOS) est issue des travaux de Parrilo (MIT) et Lasserre (LAAS-CNRS, Toulouse). Global-MPPI constitue le premier cadre à combiner explicitement ces deux familles dans un pipeline de planification de manipulation. Sur le plan concurrentiel, l'approche se positionne face à la Cross-Entropy Method (CEM), aux planificateurs par diffusion comme Pi-0 de Physical Intelligence ou Diffusion Policy, ainsi qu'aux optimiseurs de trajectoires différentiables (Drake, trajopt). Ce preprint n'a pas encore été soumis à une conférence identifiée et aucun code public ni déploiement hardware n'est annoncé à ce stade.

UELes fondements SOS de cette méthode sont issus des travaux de Lasserre au LAAS-CNRS (Toulouse), mais le preprint n'implique aucune institution française ou européenne identifiée et reste sans impact opérationnel direct sur la France/UE à ce stade.

RecherchePaper

1 source

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique

49

4arXiv cs.RO

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique

Une étude empirique de grande envergure, publiée sur arXiv (référence 2602.23408), apporte les premières réponses systématiques à une question restée sans réponse rigoureuse dans la communauté de la manipulation robotique : comment concevoir l'espace d'action d'une politique apprise par imitation ? Les chercheurs ont conduit plus de 13 000 déploiements réels sur un robot bimanuel, entraîné et évalué plus de 500 modèles sur quatre scénarios distincts, en examinant deux axes structurants : l'axe temporel (représentations absolues vs. incrémentales, dites "delta") et l'axe spatial (espace articulaire, ou joint-space, vs. espace opérationnel, ou task-space). Le résultat principal est sans ambiguïté : les représentations delta, qui encodent des variations de position plutôt que des positions cibles absolues, améliorent systématiquement les performances d'apprentissage. Sur l'axe spatial, joint-space et task-space révèlent des forces complémentaires : le premier favorise la stabilité du contrôle, le second facilite la généralisation à de nouveaux scénarios. Ces résultats ont une portée directe pour les équipes qui développent des politiques robotiques en production. Jusqu'ici, le choix de l'espace d'action relevait d'heuristiques héritées ou de conventions propres à chaque laboratoire, sans base empirique solide. L'étude montre que ce choix n'est pas accessoire : il conditionne fondamentalement le paysage d'optimisation de l'apprentissage par imitation, bien davantage que ce que supposait la littérature. Pour un intégrateur ou un ingénieur concevant un système de manipulation industrielle, la recommandation est désormais claire : préférer les delta actions par défaut, et arbitrer entre joint-space et task-space selon que la priorité est la stabilité du suivi de trajectoire ou la robustesse face à la variabilité des tâches. Ces conclusions sont directement applicables aux architectures VLA (Vision-Language-Action), qui dominent actuellement la recherche en politiques généralisables. Ce travail intervient dans un contexte où la course à la mise à l'échelle des données et des modèles concentre la majorité des ressources de recherche. Des systèmes comme pi-0 (Physical Intelligence), ACT ou Diffusion Policy ont popularisé l'imitation learning comme voie principale vers la manipulation généraliste, et des acteurs comme Figure AI, 1X ou Apptronik misent sur ces architectures pour leurs déploiements industriels. Pourtant, la conception de l'espace d'action restait guidée par des choix hérités des années 2010, faute d'étude comparative à grande échelle. En comblant ce manque avec une rigueur rare, les auteurs posent une base méthodologique qui devrait informer la prochaine génération de politiques bimanuelle et les benchmarks de comparaison entre systèmes.

RechercheOpinion

1 source

Optimisation paramétrique co-conception de mains dextériques par approche fonctionnelle

À lire aussi

IKSPARK : cinématique inverse avec détection d'obstacles par optimisation convexe

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique