RecherchearXiv cs.RO 21 avril 2026

Un cadre de recherche guidé par l'accessibilité de Hamilton-Jacobi pour la navigation intérieure planaire sûre et efficace des robots

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2504.17679) un framework de navigation intérieure combinant deux familles d'algorithmes jusqu'ici utilisées séparément : la reachability hamiltonienne-jacobienne (HJ), calculée hors-ligne, et la recherche sur graphe, exécutée en ligne. Le principe : les fonctions de valeur HJ, précomputées sur la géométrie de l'environnement, servent à la fois d'heuristiques informatives et de contraintes de sécurité proactives pour guider la recherche sur graphe en temps réel. Le système a été validé en simulation extensive et dans des expériences en conditions réelles, incluant des environnements avec présence humaine. Aucun modèle de robot spécifique ni aucune entreprise commerciale ne sont mentionnés dans la publication, qui s'inscrit dans un cadre académique pur.

L'intérêt principal de cette approche réside dans la gestion du compromis entre sécurité garantie et efficacité computationnelle, un point de friction classique pour les robots mobiles en intérieur (AMR, plateformes logistiques). La reachability HJ offre des garanties théoriques solides sur l'évitement d'obstacles, mais elle souffre d'une limitation structurelle : elle suppose une connaissance complète de l'environnement, ce qui la rend difficilement applicable à des espaces dynamiques ou partiellement inconnus. En intégrant la reachability comme heuristique plutôt que comme planificateur principal, les auteurs contournent cette contrainte tout en amortissant le coût de calcul en ligne. Les résultats annoncés montrent une amélioration consistante face aux méthodes de référence, tant en efficacité de planification qu'en sécurité, mais les métriques précises (temps de cycle, taux de collision) ne sont pas détaillées dans le résumé disponible.

La reachability HJ est un outil issu de la théorie du contrôle optimal, historiquement utilisé pour la vérification formelle de systèmes cyber-physiques. Son application à la robotique mobile n'est pas nouvelle, mais son couplage avec des algorithmes de recherche sur graphe type A* pour surmonter la contrainte de connaissance globale de l'environnement représente une direction de recherche active. Ce travail se positionne face aux approches purement apprentissage (VLA, politiques end-to-end) en revendiquant des garanties formelles absentes des méthodes neuronales. Les prochaines étapes naturelles incluent l'extension à des espaces 3D ou à des robots non-holonomes, ainsi qu'une validation sur des plateformes industrielles réelles.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Robots à bras multiples : apprentissage neuronal de l'accessibilité Hamilton-Jacobi pour la planification décentralisée de trajectoires sûres

Une équipe de chercheurs propose NeHMO, une méthode d'apprentissage par réseau de neurones basée sur la réductibilité de Hamilton-Jacobi (HJR) pour la planification de mouvement multi-bras en sécurité et de façon décentralisée. Le papier, publié sur arXiv (arXiv:2507.13940, version 2), s'attaque au problème de la coordination de plusieurs bras robotiques évoluant dans un espace de configuration couplé et de haute dimension. Plutôt que de s'appuyer sur un planificateur centralisé qui coordonne tous les bras mais peine à passer à l'échelle en temps réel, ou sur des méthodes décentralisées existantes qui supposent un comportement prévisible des autres bras, les auteurs entraînent une fonction de valeur de sécurité qui capture les contraintes de collision inter-bras dans le pire des cas. Cette représentation apprise alimente ensuite un module d'optimisation de trajectoire décentralisé, exécutable en temps réel sur chaque bras indépendamment. L'enjeu dépasse l'exercice académique: la planification multi-bras sûre est un goulot d'étranglement concret pour les cellules de fabrication et les postes d'assemblage où plusieurs manipulateurs partagent un espace de travail restreint. Les approches centralisées classiques deviennent impraticables dès que le nombre de bras augmente, tandis que les méthodes décentralisées à base d'apprentissage profond échouent dès qu'un bras voisin dévie d'un comportement anticipé, c'est à dire exactement le scénario que redoutent les intégrateurs industriels en environnement non coopératif. En garantissant une sécurité dans le pire des cas plutôt qu'une prédiction probable de comportement, NeHMO répond à une limite reconnue des architectures actuelles: la fragilité face à l'imprévisibilité, sans sacrifier le passage à l'échelle. La réductibilité de Hamilton-Jacobi est un outil classique de la théorie du contrôle pour la vérification formelle de sécurité, historiquement trop coûteux en calcul pour des systèmes multi-bras à haute dimension. L'apport ici est de le rendre tractable via une approximation neuronale, généralisable à différentes configurations de manipulateurs sans réentraînement complet. Selon les auteurs, la méthode surpasse les références de l'état de l'art sur des tâches de planification multi-bras jugées difficiles. Il s'agit toutefois d'un résultat de recherche publié en preprint, sans partenaire industriel ni déploiement annoncé à ce stade.

RecherchePaper

1 source

2arXiv cs.RO

PIER-Flow : un flux rectifié efficace et informé par la physique pour la navigation en temps réel des robots mobiles

Des chercheurs présentent PIER-Flow (Physics-Informed Efficient Rectified Flow), une politique de navigation légère pour robots mobiles, décrite dans un preprint arXiv publié le 14 juillet 2026 (arXiv:2607.10288v1). La méthode distille un expert MPC (Model Predictive Control) dans une équation différentielle ordinaire à temps continu, ce qui permet de générer une action en une seule étape grâce à un échantillonnage latent parallèle et une sélection de faisabilité allégée. Un objectif d'entraînement intégrant la physique impose la cohérence cinématique du robot, couplé à une architecture de "chunking" d'actions asynchrone pensée pour le transfert simulation vers réel. En simulation, PIER-Flow atteint un taux de réussite de 98,85% sans aucune collision, avec un temps d'inférence moyen d'environ 1,29 ms, soit une planification 37,2 fois plus rapide que le MPC classique et plus de 800 fois plus rapide que les modèles de diffusion standards. Déployé sur un calculateur embarqué à ressources limitées, le système conserve une latence d'inférence stable d'environ 5,3 ms. Ces chiffres, s'ils se confirment au-delà du cadre expérimental, répondent à une tension centrale de la navigation robotique autonome: les méthodes d'optimisation comme le MPC gèrent explicitement les contraintes de sécurité et de cinématique mais souffrent d'une optimisation non linéaire répétée coûteuse en temps réel, tandis que les politiques de clonage comportemental déterministes sont rapides mais peinent à représenter des comportements d'évitement multimodaux, et les politiques de diffusion capturent cette multimodalité au prix d'un débruitage itératif lent. En combinant la rapidité d'inférence d'un modèle distillé avec la robustesse théorique d'un expert MPC, PIER-Flow illustre une piste concrète pour rapprocher performance temps réel et sécurité formelle chez les robots mobiles évoluant en environnements denses et dynamiques, un enjeu direct pour les intégrateurs d'AMR (robots mobiles autonomes) en entrepôt ou en usine où les pics de latence et les gels de planification restent un point de friction opérationnel majeur. L'approche s'inscrit dans une lignée de travaux cherchant à accélérer les politiques génératives pour la robotique, où les modèles de diffusion classiques, malgré leur expressivité, imposent un coût d'inférence incompatible avec le contrôle temps réel embarqué. Le recours au "rectified flow" comme alternative plus rapide au débruitage itératif fait écho à des développements récents dans la littérature sur les modèles génératifs accélérés. Aucun acteur industriel n'est nommé dans ce travail, qui reste à ce stade une contribution académique validée uniquement en simulation et sur un déploiement limité en conditions réelles sur matériel edge; les auteurs ne précisent pas de calendrier de transfert vers des plateformes robotiques commerciales ni de comparaison directe avec des politiques VLA (Vision-Language-Action) comme Pi-0 ou GR00T N2, ce qui invite à la prudence sur la portée exacte des gains annoncés hors du cadre testé.

RecherchePaper

1 source

3arXiv cs.RO

Navigation par apprentissage pour robots mobiles en intérieur

Des chercheurs ont publié sur arXiv (référence 2605.30468) un framework de navigation hybride pour robots mobiles intérieurs, combinant un planificateur global neuronal et un planificateur local affiné par apprentissage par renforcement. Le planificateur global est un réseau de neurones supervisé, entraîné à partir de trajectoires générées par un algorithme A* pondéré par les coûts, ce qui lui permet de produire des routes globalement cohérentes et évitant les zones dangereuses. Le planificateur local, baptisé Learning-Based DWA, reformule l'approche classique Dynamic Window Approach (DWA) comme un problème de sélection discrète sur une grille d'actions prédéfinies. La politique locale est d'abord initialisée par clonage comportemental (imitation d'un expert), puis optimisée par Proximal Policy Optimization (PPO) avec un masquage de faisabilité, un mécanisme éliminant les actions physiquement irréalisables ou à risque de collision avant même l'exploration. Les résultats expérimentaux, conduits en simulation et en environnement réel intérieur, montrent une navigation sûre et fiable vers des objectifs en présence d'obstacles. L'intérêt de cette contribution réside dans son positionnement hybride : plutôt que d'abandonner DWA au profit d'une approche entièrement apprise, les auteurs l'utilisent comme squelette structurant pour contraindre le problème d'apprentissage. Ce choix de conception présente deux avantages pour les intégrateurs. D'abord, le masquage de faisabilité réduit l'espace d'exploration du policy gradient aux seules actions physiquement admissibles, limitant les comportements dangereux en phase d'apprentissage et facilitant le transfert sim-to-réel. Ensuite, conserver la logique DWA comme substrat rend la politique plus interprétable qu'un réseau boîte noire, un critère non négligeable pour les déploiements industriels soumis à certification. La méthode démontre qu'un classique de la robotique réactive, largement jugé dépassé par les approches end-to-end, peut encore être un socle pertinent pour des pipelines d'apprentissage modernes. Le DWA a été introduit par Fox, Burgard et Thrun en 1997 et reste une brique fondamentale des stacks de navigation ROS et Nav2, déployés sur une large partie des flottes d'AMR (robots mobiles autonomes) industriels actuels. C'est dans cet écosystème très installé que s'inscrit ce travail, face à des approches concurrentes plus radicales : navigation end-to-end par apprentissage (ETH Zurich, MIT CSAIL), planificateurs à modèle comme TEB ou MPPI, et méthodes VLA émergentes pour la navigation en langage naturel. Les auteurs annoncent la mise à disposition du code source sur leur page projet. Aucun partenaire industriel ni déploiement commercial n'est mentionné : il s'agit d'une contribution de recherche académique, pas d'un produit commercialisé.

RecherchePaper

1 source

4arXiv cs.RO

Accessibilité de Hamilton-Jacobi contrainte par variété pour planification de mouvement multi-agents décentralisée

Des chercheurs en robotique publient une nouvelle version (v2) d'un article arXiv intitulé "Manifold-constrained Hamilton-Jacobi Reachability Learning for Decentralized Multi-Agent Motion Planning" (arXiv:2511.03591), qui propose une méthode pour planifier les mouvements de plusieurs robots de façon sûre et décentralisée tout en respectant des contraintes géométriques imposées par la tâche elle-même. L'exemple donné par les auteurs est celui d'un robot de service qui doit porter une tasse bien droite, sans la renverser, tout en évitant des collisions avec des humains ou d'autres robots présents dans la même zone. Pour résoudre ce problème, l'équipe combine l'apprentissage par accessibilité de Hamilton-Jacobi, une technique mathématique servant à calculer les zones qu'un système peut atteindre en toute sécurité, avec des contraintes dites de variété (manifold), qui formalisent les gestes ou postures que la tâche impose. Ce calcul de sécurité contrainte est ensuite intégré dans un planificateur de trajectoires décentralisé, c'est-à-dire que chaque robot planifie ses propres mouvements sans connaître à l'avance la stratégie des autres agents. Pour l'industrie robotique, l'enjeu dépasse la simple prouesse académique: la plupart des planificateurs multi-agents actuels garantissent soit la sécurité, soit le respect d'une contrainte de tâche, rarement les deux simultanément à haute vitesse et en environnement dynamique. Une méthode capable de tenir les deux à la fois, tout en restant assez rapide pour un usage temps réel, intéresse directement les concepteurs de flottes de robots mobiles autonomes (AMR) en entrepôt, les fabricants de robots de service et les équipes qui développent des bras manipulateurs coopératifs, où un geste manqué ou une collision a un coût opérationnel direct. L'article s'inscrit dans la lignée des travaux récents sur la planification de mouvement multi-agents décentralisée pour systèmes à haute dimension, un domaine qui peine historiquement à intégrer des contraintes de tâche complexes sans hypothèses fortes sur le comportement des autres agents. Les auteurs affirment que leur approche généralise à des tâches variées et passe à l'échelle sur des problèmes de manipulation multi-agents en haute dimension, en dépassant les planificateurs contraints existants sur des bancs d'essai internes, une performance à nuancer puisqu'elle repose sur des comparaisons choisies par l'équipe elle-même. Une démonstration vidéo accompagne la publication.

RecherchePaper

1 source