Aller au contenu principal
SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses
RecherchearXiv cs.RO6sem

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent sur arXiv (réf. 2604.21693, avril 2026) un cadre théorique qui reformule le SLAM actif comme un problème de contrôle stochastique optimal sous information partielle. Le SLAM (Simultaneous Localization and Mapping) désigne la capacité d'un robot à construire une carte de son environnement tout en s'y localisant simultanément, un problème fondamental en robotique mobile. Dans sa version "active", le robot doit en plus décider quels mouvements effectuer pour maximiser la qualité de sa carte et la précision de sa pose. Les auteurs formalisent ce problème sous la forme d'un processus de décision markovien partiellement observable (POMDP) non standard, intégrant de façon rigoureuse les modèles de mouvement, de perception et de représentation de la carte. Ils introduisent une nouvelle fonction de coût d'exploration qui encode explicitement la géométrie de l'état du robot au moment d'évaluer les actions de collecte d'information. À partir de cette formulation, ils dérivent des solutions approchées quasi-optimales avec garanties formelles. Une étude numérique extensive valide l'approche en utilisant des algorithmes d'apprentissage par renforcement standards pour apprendre ces politiques.

L'intérêt principal de ce travail réside dans la rigueur théorique qu'il apporte à un domaine dominé par des heuristiques empiriques. La plupart des approches d'exploration autonome actuelles, qu'elles reposent sur les frontières d'exploration (frontier-based), la maximisation d'information mutuelle, ou des métriques ad hoc, manquent de garanties formelles sur la qualité des solutions produites. En reformulant le problème dans le cadre du contrôle stochastique optimal et des POMDPs, les auteurs fournissent des conditions de régularité et des bornes d'approximation qui permettent de certifier la quasi-optimalité des politiques apprises. Pour les équipes R&D travaillant sur des AMR (robots mobiles autonomes), des drones cartographiques ou des robots d'inspection industrielle, cette approche ouvre la voie à des algorithmes d'exploration dont le comportement est formellement auditable, ce qui est non trivial dans les contextes de certification.

Le SLAM est un problème étudié depuis les années 1990, avec des approches classiques basées sur les filtres de Kalman étendus (EKF-SLAM) ou les filtres particulaires (FastSLAM), puis des méthodes graphiques comme ORB-SLAM3 ou RTAB-Map qui dominent aujourd'hui les implémentations industrielles. Les approches neuronales, comme les NeRF et Gaussian Splatting adaptés au SLAM temps réel, émergent en parallèle. Ce papier, encore préprint non évalué par les pairs, ne remplace pas ces implémentations mais propose un cadre décisionnel qui les surplombe. Les laboratoires actifs sur ces questions incluent MIT CSAIL, ETH Zurich (Autonomous Systems Lab) et l'équipe de Joan Solà. Les prochaines étapes naturelles seraient une validation expérimentale sur robot réel et une extension vers les environnements dynamiques, deux points non traités dans cette version arXiv.

Dans nos dossiers

À lire aussi

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires
1arXiv cs.RO 

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires

Des chercheurs ont publié sur arXiv (arXiv:2605.07215) un algorithme de planification de trajectoires robotiques appelé PISTO (Proximal Inference for Stochastic Trajectory Optimization). Leur contribution centrale est de démontrer que STOMP, méthode stochastique classique, minimise implicitement une divergence KL par rapport à une distribution de trajectoires de Boltzmann, révélant une structure d'inférence variationnelle (VI) sous-jacente. PISTO exploite cette observation en ajoutant une régularisation KL entre propositions gaussiennes successives, ce qui stabilise les mises à jour et produit une interprétation de type trust-region. L'algorithme reste entièrement sans dérivées et s'appuie sur un échantillonnage Monte Carlo à pondération d'importance. Sur les benchmarks de planification de bras robotiques, PISTO atteint 89 % de taux de succès contre 63 % pour CHOMP et 68 % pour STOMP, tout en générant des trajectoires plus courtes et plus lisses, à deux fois la vitesse des méthodes stochastiques concurrentes. Des validations complémentaires sur des tâches de locomotion et manipulation contact-rich en simulation MuJoCo montrent des performances supérieures aux baselines CEM et MPPI en termes de récompense cumulée. Pour les intégrateurs et ingénieurs en planification de mouvement, l'absence totale de dérivées est une caractéristique décisive : elle permet de traiter des fonctions de coût non-différentiables ou discontinues, fréquentes dans les environnements industriels réels (détection de collisions, zones interdites, contraintes non paramétriques). Le gain de vitesse d'un facteur deux par rapport aux méthodes stochastiques existantes réduit directement les temps de cycle dans les applications de planification en ligne, point critique pour la robotique collaborative et les systèmes pick-and-place haute cadence. La validation sur MuJoCo avec contacts ouvre des perspectives vers la locomotion humanoïde et la manipulation dextre, bien que ces résultats restent pour l'instant entièrement simulés, sans validation sur matériel physique. PISTO s'inscrit dans la lignée de STOMP (développé chez Willow Garage et présenté à l'ICRA 2011) et de ses concurrents gradient-based tels que CHOMP, ainsi que des méthodes stochastiques modernes MPPI (popularisé par NVIDIA en 2017) et CEM. Soumis comme preprint arXiv sans révision par les pairs à ce stade, l'article n'annonce ni déploiement industriel ni partenariat commercial. Son impact pratique dépendra de la mise à disposition du code source et de validations expérimentales sur robot réel, étapes absentes de la publication actuelle.

RecherchePaper
1 source
Calibration optimale tenant compte de l'incertitude pour le problème AX=YB
2arXiv cs.RO 

Calibration optimale tenant compte de l'incertitude pour le problème AX=YB

Une équipe de chercheurs a publié le 7 mai 2026 sur arXiv (identifiant 2605.04809) une méthode d'optimisation pour la calibration main-oeil, problème dit AX=YB, qui consiste à déterminer la transformation géométrique rigide entre un capteur (caméra ou lidar) et l'effecteur d'un robot. L'algorithme proposé est itératif, formulé en algèbre de Lie, et respecte strictement les contraintes structurelles du groupe SE(3) tout en synchronisant les mises à jour des paramètres de calibration. Plutôt que de modéliser explicitement l'incertitude des données, approche jugée trop difficile à généraliser, les auteurs introduisent une métrique d'incertitude relative entre sources de mesure, utilisée pour pondérer dynamiquement chaque observation pendant l'optimisation. Sur jeux de données synthétiques à forte incertitude, la méthode améliore la précision d'estimation d'au moins 67 % par rapport aux approches existantes, selon des simulations numériques et des expériences réelles présentées dans l'article. L'enjeu industriel est concret : la calibration main-oeil conditionne toute application robotique guidée par vision, qu'il s'agisse de soudure, d'assemblage, de palettisation ou de contrôle qualité. Dans les scénarios à grande plage de travail ou en surcharge mécanique, typiques des robots 6-DOF à payload supérieur à 50 kg, les données de calibration sont contaminées par des incertitudes difficiles à quantifier : flexions structurelles, jeux mécaniques, dérive thermique. Les méthodes classiques comme Tsai-Lenz ou Shah traitent ces perturbations de façon uniforme, sans pondération adaptative. L'approche proposée ajuste au contraire l'influence de chaque paire de mesures pendant l'optimisation, ce qui peut réduire les temps de recalibration en production et améliorer la répétabilité sur cellules robotisées existantes sans changer de matériel. Le problème AX=YB est étudié en robotique depuis les travaux fondateurs de Shiu et Ahmad (1987) et Tsai et Lenz (1989). Les approches concurrentes exploitent les quaternions duaux (Daniilidis, 1999), les décompositions de Kronecker, ou plus récemment l'apprentissage automatique avec données visuelles denses. L'article positionne son apport principal sur deux points de friction récurrents dans les déploiements réels : la qualité de l'initialisation et la robustesse aux incertitudes non modélisées. Aucun code source ni partenaire industriel ne sont mentionnés dans le préprint disponible. Une intégration dans des frameworks de calibration open-source comme Kalibr ou easy_handeye constituerait la prochaine étape naturelle vers une adoption pratique.

UELes intégrateurs robotiques européens déployant des cellules 6-DOF à forte charge (KUKA, ABB) pourraient bénéficier d'une meilleure répétabilité de calibration sans changement matériel, sous réserve d'une publication du code dans des frameworks open-source comme Kalibr ou easy_handeye.

RecherchePaper
1 source
Comment atténuer le problème de décalage de distribution dans le contrôle robotique : une approche robuste et adaptative par apprentissage par imitation hors ligne vers en ligne
3arXiv cs.RO 

Comment atténuer le problème de décalage de distribution dans le contrôle robotique : une approche robuste et adaptative par apprentissage par imitation hors ligne vers en ligne

Une équipe de recherche a déposé le 25 mai 2026 sur arXiv (réf. 2605.25414) un cadre d'apprentissage par imitation en deux phases pour traiter le décalage de distribution dans le contrôle robotique. Ce problème survient lorsqu'un agent entraîné sur des démonstrations expertes rencontre, au déploiement, des états non couverts pendant l'entraînement, sa couverture état-action étant structurellement limitée par la portée des démonstrations fournies. La méthode articule une phase hors ligne utilisant des démonstrations complémentaires filtrées par un discriminateur pour élargir cette couverture, et une phase en ligne qui détecte le décalage en temps réel et déclenche un apprentissage auto-supervisé à partir des expériences collectées. Les évaluations ont été conduites uniquement dans des environnements MuJoCo ; aucun test sur robot physique n'est rapporté. L'intérêt réside dans la nature lifelong du mécanisme : au lieu d'une politique figée après entraînement, le système s'adapte en continu lorsqu'il dérive hors de sa distribution. Pour un ingénieur robotique ou un intégrateur industriel, cela ouvre la perspective d'un robot capable de se recalibrer automatiquement en production sans re-collecte manuelle de données ni réentraînement complet. L'utilisation d'un discriminateur évoque les architectures GAIL (Generative Adversarial Imitation Learning), mais la contribution revendiquée tient à la détection en ligne du shift couplée à l'auto-supervision. Les auteurs rapportent de meilleures performances que les baselines sur robustesse et adaptation, bien que les métriques issues de MuJoCo restent éloignées des contraintes du monde réel. Le décalage de distribution est un problème structurel de l'apprentissage par imitation depuis DAgger (Ross et al., 2011) et GAIL (Ho & Ermon, 2016). Les approches concurrentes, comme l'offline RL à haute couverture de données, les politiques de diffusion de type pi-0 (Physical Intelligence) ou les VLA généralistes, traitent le problème principalement par la diversité des données d'entraînement, non par adaptation en ligne. Ce preprint n'a pas encore été soumis à évaluation par les pairs, et le vrai test restera le transfert sim-to-real : la validation sur robots physiques amplifierait précisément les écarts de distribution que ce cadre cherche à combler.

RecherchePaper
1 source
PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes
4arXiv cs.RO 

PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes

Une équipe de chercheurs a présenté PRIME (Physically-consistent Robotic Inertial and Motion Estimation), une méthode d'estimation de mouvement pour robots à pattes et humanoïdes publiée sur arXiv en mai 2026 (arXiv:2605.17681). Là où les pipelines conventionnels basés sur des filtres de Kalman étendus (EKF) ou la capture de mouvement externe ne reconstruisent que la cinématique, PRIME formule le problème comme une estimation MAP (Maximum A Posteriori) qui raffine simultanément les données proprioceptives brutes et les commandes des actionneurs pour produire une trajectoire dynamiquement cohérente. L'algorithme estime conjointement les forces de contact frictionnelles et les paramètres inertiels du robot (masses, centres de masse, moments d'inertie), via une modélisation différentiable de la dynamique de contact avec contraintes de complémentarité lissées et un modèle de friction d'Anitescu. Les validations ont été conduites sur des robots quadrupèdes et sur l'humanoïde Unitree G1, lors de séquences de locomotion à contacts multiples en déploiement réel. Le problème abordé est structurel : les pipelines de perception robotique actuels ignorent les forces de contact et les paramètres inertiels effectifs du système, ce qui entraîne des reconstructions qui violent régulièrement la dynamique des corps rigides, en particulier lors des phases de contact. Cette incohérence dégrade la qualité des données d'entraînement et limite la robustesse des contrôleurs en boucle fermée. PRIME produit des reconstructions de mouvement annotées en forces et contacts directement depuis des robots en déploiement terrain, sans infrastructure de laboratoire. Pour les équipes qui développent des modèles de fondation robotiques ou des architectures Visual-Language-Action (VLA), cette capacité représente une source de données haute qualité exploitable à grande échelle, là où la rareté d'annotations dynamiques fiables reste un goulot d'étranglement reconnu. L'estimation d'état pour robots à pattes est un problème ancien, historiquement traité par EKF couplés à la proprioception, la capture de mouvement restant cantonnée aux laboratoires. PRIME se distingue en proposant une solution embarquée et déployable en conditions réelles, sans dépendance à une infrastructure externe. L'humanoïde Unitree G1, commercialisé autour de 16 000 dollars et très présent dans la recherche académique mondiale, sert de banc de validation représentatif. Dans un contexte où Boston Dynamics, Figure AI, Agility Robotics, 1X et Unitree accumulent des données de déploiement pour alimenter leurs pipelines d'apprentissage, PRIME propose une brique méthodologique transversale pour enrichir ces corpus avec des annotations dynamiques fiables. Les applications naturelles incluent l'imitation learning, le transfert sim-to-real et l'entraînement de modèles de fondation à partir de données terrain.

UELes équipes de recherche européennes en locomotion robotique (INRIA, LAAS-CNRS) pourraient exploiter PRIME pour enrichir leurs pipelines d'entraînement sans infrastructure de laboratoire, mais aucun acteur ou institution européen n'est directement impliqué.

RecherchePaper
1 source