RecherchearXiv cs.RO2h

IKSPARK : cinématique inverse avec détection d'obstacles par optimisation convexe

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

IKSPARK (Inverse Kinematics using Semidefinite Programming And RanK minimization) est un solveur de cinématique inverse conscient des obstacles, présenté dans un preprint arXiv (2403.12235v2). Le système prend en charge des morphologies variées : chaînes cinématiques ouvertes et fermées, avec joints sphériques, rotoïdes et prismatiques. Sa formulation exprime le problème IK sous forme de programme semidéfini positif (SDP) avec des contraintes de rang 1 sur des matrices symétriques à traces fixes. Le solveur résout d'abord la relaxation SDP, dont l'infaisabilité certifie formellement l'impossibilité du problème original, avant de récupérer une solution de rang 1 via des méthodes itératives de minimisation de rang à convergence locale prouvée. L'évitement d'obstacles est traité par une formulation convexifiée de contraintes mixtes entières. Les expériences rapportées montrent des taux de succès sensiblement supérieurs aux solveurs non linéaires classiques dans des environnements encombrés, notamment des cellules de travail fixes, et ce sans post-traitement, bien que les benchmarks quantitatifs détaillés n'apparaissent pas dans le résumé public.

L'apport central d'IKSPARK est sa capacité à certifier l'infaisabilité : contrairement aux solveurs basés sur la Jacobienne pseudo-inverse ou le gradient tels que TRAC-IK ou IKFAST, il peut garantir formellement qu'aucune configuration valide n'existe dans un environnement donné, évitant ainsi des cycles de replanification coûteux. Pour les intégrateurs déployant des manipulateurs en cellules industrielles fixes et encombrées, cette propriété améliore directement la robustesse des pipelines de planification de mouvement. L'absence de post-traitement, étape souvent nécessaire avec les approches SDP classiques, représente une avancée pratique non négligeable. La prise en charge native des chaînes cinématiques fermées, souvent mal gérées par les solveurs analytiques standard, élargit par ailleurs l'applicabilité aux robots parallèles et aux mécanismes à morphologie complexe.

La cinématique inverse est un problème fondamental en robotique depuis plusieurs décennies, mais son caractère intrinsèquement non-convexe a longtemps cantonné les approches à garanties globales à des cas très contraints. Les relaxations SDP ont récemment émergé comme piste sérieuse, notamment dans les travaux sur la certification d'optimisation robotique issus de laboratoires comme le MIT ou ETH Zurich. IKSPARK s'inscrit dans cette tendance en l'étendant explicitement à l'évitement d'obstacles. Ses concurrents directs incluent TRAC-IK, BioIK et les méthodes de champ de potentiel, plus rapides en pratique mais dépourvus de garanties de complétude. L'intégration dans des planificateurs de mouvement établis comme MoveIt ou Drake, et la validation sur hardware réel, constitueraient les prochaines étapes logiques, non encore couvertes dans ce preprint.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Optimisation paramétrique co-conception de mains dextériques par approche fonctionnelle

Une équipe de chercheurs a publié fin avril 2025 sur arXiv (arXiv:2504.27557) un cadre paramétrique unifié pour la co-optimisation de mains robotiques dextères. L'approche couvre simultanément la structure de la paume, la cinématique des doigts, la géométrie des bouts de doigts et les courbures de surface à fine échelle, l'ensemble étant intégré dans un espace de conception unique. Les caractéristiques géométriques fines sont introduites via des noyaux de déformation de surface paramétriques qui agissent directement sur les interactions de contact. Le framework génère des modèles prêts pour la simulation et pour la fabrication physique, et sera publié en open-source. Les auteurs l'ont validé sur des tâches d'optimisation de la stabilité de préhension en simulation et dans des scénarios dynamiques réels, sans toutefois préciser les configurations exactes de tests ni le nombre de cycles d'évaluation dans le preprint. L'intérêt principal pour les équipes de R&D en robotique est de sortir du paradigme dominant où la conception mécanique de la main et la politique de contrôle sont développées en silos. En co-optimisant la morphologie et le comportement de préhension dans un même espace de paramètres, le framework permet d'explorer systématiquement des compromis que les approches découplées ratent structurellement, notamment l'influence directe de la courbure de surface sur la qualité du contact. L'ouverture en open-source vise à accélérer l'itération rapide pour les intégrateurs et les laboratoires travaillant sur le transfert sim-to-real et l'entraînement de politiques cross-embodiment, un problème central pour les VLA (Vision-Language-Action models) déployés sur des morphologies variées. La co-conception robotique (co-design) est un champ en plein essor, notamment depuis les travaux de MIT et Stanford sur les robots morphologiquement adaptatifs et les approches de differentiable simulation. Ce preprint s'inscrit dans une tendance plus large visant à rendre la conception mécanique différentiable et optimisable par gradient, aux côtés d'acteurs comme Dexterous Robotics, Shadow Robot ou les équipes internes de Figure AI et 1X Technologies qui développent leurs propres mains multi-doigts. Aucun partenariat industriel ni timeline de déploiement n'est mentionné ; il s'agit à ce stade d'une contribution académique avec promesse d'open-source, dont la valeur pratique dépendra de la qualité de l'outillage livré avec le code.

RecherchePaper

1 source

2arXiv cs.RO

HeiSD : décodage spéculatif hybride pour modèles vision-langage-action incarnés avec prise en compte de la cinématique

Des chercheurs ont publié HeiSD, un nouveau cadre d'accélération pour les modèles Vision-Langage-Action (VLA) utilisés en robotique, présenté dans un article arXiv (2603.17573). Les modèles VLA sont devenus la solution dominante pour le contrôle de robots : ils combinent vision, compréhension du langage naturel et génération d'actions motrices. Leur principal talon d'Achille reste une vitesse d'inférence trop lente pour de nombreuses applications temps réel. HeiSD s'appuie sur une approche hybride du décodage spéculatif, une technique qui anticipe les tokens suivants pour accélérer la génération, en fusionnant deux familles de méthodes complémentaires : le décodage basé sur un modèle brouillon et le décodage par récupération en mémoire. Les résultats annoncés atteignent un facteur d'accélération de 2,45x sur des benchmarks en simulation, et de 2,06x à 2,41x dans des scénarios réels, tout en maintenant un taux de succès élevé sur les tâches testées. Cet gain de vitesse est significatif pour l'industrie de la robotique, où la latence entre la perception et l'action conditionne directement la sécurité et l'utilisabilité des robots. Un robot qui doit attendre plusieurs secondes entre chaque décision est inutilisable dans un entrepôt logistique ou une salle d'opération. En doublant approximativement la vitesse d'inférence sans dégrader les performances, HeiSD rapproche les VLA d'un déploiement industriel viable, sans nécessiter de matériel supplémentaire ni de réentraînement des modèles sous-jacents. Le décodage spéculatif est une piste de recherche active depuis l'explosion des grands modèles de langage, mais son application aux modèles robotiques posait des défis spécifiques : les erreurs en cascade lors du rejet de tokens et la difficulté à calibrer automatiquement la frontière entre les deux stratégies hybrides. HeiSD résout ces problèmes via un mécanisme de vérification sélective, une stratégie d'acceptation assouplie au niveau des séquences, et une métrique de fusion basée sur la cinématique du robot pour piloter automatiquement le découpage hybride. Ce travail s'inscrit dans une course plus large à l'efficacité des VLA, où des acteurs comme Google DeepMind (RT-2) et Physical Intelligence cherchent eux aussi à rendre ces modèles suffisamment rapides pour un usage en production.

RechercheActu

1 source

3arXiv cs.RO

Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants

Une équipe de chercheurs a publié sur arXiv (ref. 2504.16670) un cadre d'optimisation par diffusion pour résoudre le problème du temps minimum de déplacement sur un robot à double bras redondant. L'objectif est de minimiser le temps nécessaire pour qu'une configuration dual-arm suive un chemin cartésien relatif défini, tout en respectant les contraintes articulaires et l'erreur cartésienne. Les résultats annoncés sont significatifs : réduction de 35x du temps de calcul et diminution de 34 % de l'erreur cartésienne par rapport à la méthode précédente des mêmes auteurs, qui reposait sur une approche bi-niveaux avec résolution primal-dual. Ce gain de performance est important pour la robotique industrielle collaborative, où les bras doubles, typiquement utilisés en assemblage, en manipulation d'objets encombrants ou en chirurgie assistée, doivent exécuter des trajectoires précises dans des temps de cycle serrés. La méthode antérieure, basée sur le gradient, souffrait de deux limitations structurelles : une charge de calcul élevée rendant la planification en quasi-temps-réel difficile, et une incapacité à imposer directement une contrainte d'erreur cartésienne en norme infinie (L∞) le long de la trajectoire, en raison de la sparsité du gradient. Le passage à un échantillonnage probabiliste via un algorithme de diffusion permet de contourner ces deux problèmes simultanément, ce qui constitue une avancée méthodologique réelle, même si les benchmarks restent pour l'instant sur simulation. Le contexte est celui de l'essor des planificateurs de mouvement basés sur l'apprentissage et les méthodes probabilistes pour les robots à haute redondance cinématique. Les approches par diffusion, popularisées dans la génération d'images puis étendues à la robotique via des travaux comme pi0 (Physical Intelligence) ou des planificateurs de trajectoire neuronaux, gagnent du terrain face aux solveurs classiques (CHOMP, TrajOpt) sur des critères de vitesse et de généralisation. Ce travail s'inscrit dans cette tendance en restant ancré dans un cadre d'optimisation formelle (contrôle optimal), ce qui lui confère une interprétabilité que les approches purement end-to-end n'offrent pas encore. La prochaine étape naturelle serait une validation sur hardware physique avec contraintes temps-réel.

RecherchePaper

1 source

4arXiv cs.RO

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

Des chercheurs présentent sur arXiv (réf. 2604.21693, avril 2026) un cadre théorique qui reformule le SLAM actif comme un problème de contrôle stochastique optimal sous information partielle. Le SLAM (Simultaneous Localization and Mapping) désigne la capacité d'un robot à construire une carte de son environnement tout en s'y localisant simultanément, un problème fondamental en robotique mobile. Dans sa version "active", le robot doit en plus décider quels mouvements effectuer pour maximiser la qualité de sa carte et la précision de sa pose. Les auteurs formalisent ce problème sous la forme d'un processus de décision markovien partiellement observable (POMDP) non standard, intégrant de façon rigoureuse les modèles de mouvement, de perception et de représentation de la carte. Ils introduisent une nouvelle fonction de coût d'exploration qui encode explicitement la géométrie de l'état du robot au moment d'évaluer les actions de collecte d'information. À partir de cette formulation, ils dérivent des solutions approchées quasi-optimales avec garanties formelles. Une étude numérique extensive valide l'approche en utilisant des algorithmes d'apprentissage par renforcement standards pour apprendre ces politiques. L'intérêt principal de ce travail réside dans la rigueur théorique qu'il apporte à un domaine dominé par des heuristiques empiriques. La plupart des approches d'exploration autonome actuelles, qu'elles reposent sur les frontières d'exploration (frontier-based), la maximisation d'information mutuelle, ou des métriques ad hoc, manquent de garanties formelles sur la qualité des solutions produites. En reformulant le problème dans le cadre du contrôle stochastique optimal et des POMDPs, les auteurs fournissent des conditions de régularité et des bornes d'approximation qui permettent de certifier la quasi-optimalité des politiques apprises. Pour les équipes R&D travaillant sur des AMR (robots mobiles autonomes), des drones cartographiques ou des robots d'inspection industrielle, cette approche ouvre la voie à des algorithmes d'exploration dont le comportement est formellement auditable, ce qui est non trivial dans les contextes de certification. Le SLAM est un problème étudié depuis les années 1990, avec des approches classiques basées sur les filtres de Kalman étendus (EKF-SLAM) ou les filtres particulaires (FastSLAM), puis des méthodes graphiques comme ORB-SLAM3 ou RTAB-Map qui dominent aujourd'hui les implémentations industrielles. Les approches neuronales, comme les NeRF et Gaussian Splatting adaptés au SLAM temps réel, émergent en parallèle. Ce papier, encore préprint non évalué par les pairs, ne remplace pas ces implémentations mais propose un cadre décisionnel qui les surplombe. Les laboratoires actifs sur ces questions incluent MIT CSAIL, ETH Zurich (Autonomous Systems Lab) et l'équipe de Joan Solà. Les prochaines étapes naturelles seraient une validation expérimentale sur robot réel et une extension vers les environnements dynamiques, deux points non traités dans cette version arXiv.

RecherchePaper

1 source