Aller au contenu principal
HiPAN : navigation hiérarchique adaptative à la posture pour robots quadrupèdes en environnements 3D non structurés
RecherchearXiv cs.RO6sem

HiPAN : navigation hiérarchique adaptative à la posture pour robots quadrupèdes en environnements 3D non structurés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs proposent HiPAN (Hierarchical Posture-Adaptive Navigation), un framework de navigation pour robots quadrupèdes en environnements tridimensionnels non structurés, publié en préprint sur arXiv en avril 2026 (arXiv:2604.26504). L'architecture est hiérarchique : une politique de haut niveau génère des commandes de navigation (vitesse planaire et posture du corps), exécutées par un contrôleur de locomotion adaptatif de bas niveau. Le système opère directement sur des images de profondeur embarquées, sans pipeline de cartographie-planification préalable. Pour contrer les comportements myopes et étendre l'horizon de navigation, les auteurs introduisent le Path-Guided Curriculum Learning, qui entraîne progressivement la politique de l'évitement réactif jusqu'à la navigation stratégique longue distance. Les expériences couvrent simulations et environnements réels, incluant passages étroits et espaces à faible hauteur libre.

Les résultats affichent des taux de réussite et une efficacité de trajectoire supérieurs aux planificateurs réactifs classiques et aux baselines end-to-end. L'intérêt pratique est double : le système tourne sur des plateformes à ressources contraintes, rendant la navigation autonome accessible sans GPU dédié sur des quadrupèdes comme l'Unitree B2 ou l'ANYmal C d'ANYbotics ; l'adaptation dynamique de posture ouvre par ailleurs des cas d'usage concrets en inspection industrielle, gestion de sinistres et exploration de bâtiments dégradés. L'approche contourne l'accumulation d'erreurs de perception inhérente aux pipelines SLAM-planification, un point de friction persistant dans les déploiements réels de quadrupèdes autonomes.

La navigation sans carte dans des espaces tridimensionnels contraints reste l'un des verrous majeurs du secteur. Les approches dominantes s'appuient sur SLAM (simultaneous localization and mapping) couplé à un planificateur de trajectoire, au prix d'une latence élevée et d'une sensibilité aux erreurs cumulées. HiPAN s'inscrit dans un courant de recherche qui substitue des politiques apprises par renforcement hiérarchique à ces pipelines, en parallèle de travaux issus du groupe Hutter à ETH Zurich (ANYbotics) ou des laboratoires de locomotion de Carnegie Mellon et UC Berkeley. Il s'agit d'un préprint non encore soumis à peer review, sans partenaire industriel ni calendrier de déploiement annoncé. La prochaine étape critique sera de valider la robustesse hors distribution sur terrains déformables et face à des obstructions dynamiques, conditions que les benchmarks en simulation ne couvrent qu'imparfaitement.

Dans nos dossiers

À lire aussi

De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés
1arXiv cs.RO 

De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés

Une équipe de chercheurs propose, dans un préprint arXiv (réf. 2509.12516 v2, septembre 2025), une méthode d'adaptation en ligne des dynamiques robotiques capable de passer de zéro connaissance préalable à un contrôle sûr en quelques secondes. L'algorithme combine des encodeurs de fonctions ("function encoders") avec les moindres carrés récursifs (RLS) : les coefficients de l'encodeur sont traités comme des états latents mis à jour en continu depuis l'odométrie du robot en streaming. L'estimation s'effectue en temps constant, sans boucle interne à base de gradients, ce qui la distingue structurellement des approches de méta-apprentissage. Les expériences portent sur trois configurations : un système de Van der Pol pour valider le comportement algorithmique, un simulateur Unity pour la navigation tout-terrain haute fidélité, et un robot Clearpath Jackal en conditions réelles, notamment sur la glace d'une patinoire locale. Dans toutes ces configurations, la méthode réduit le nombre de collisions par rapport aux baselines statiques et de méta-apprentissage. L'enjeu opérationnel est direct : les transitions abruptes de terrain, comme du bitume vers de la glace ou du gravier vers de la boue, déstabilisent les planificateurs de trajectoire si le modèle dynamique ne se met pas à jour assez vite. Là où des approches comme MAML nécessitent de nombreux pas de gradient pour converger vers un nouveau régime dynamique, ce système extrait une représentation exploitable à partir de quelques secondes de données odométriques. La validation sur glace physique, environnement à très faible coefficient de frottement, renforce la crédibilité de la démonstration au-delà du seul simulateur et constitue un argument sérieux contre le "dynamics gap" souvent reproché aux méthodes d'adaptation sim-to-real. Cette recherche s'inscrit dans un courant actif autour de l'adaptation rapide pour robots mobiles, en concurrence directe avec RMA (Rapid Motor Adaptation, ETH Zürich) pour les quadrupèdes et les travaux de Berkeley sur l'adaptation contextuelle via réseaux d'encodage. Le Clearpath Jackal, plateforme différentielle de référence dans la recherche académique, facilite la reproductibilité des résultats. L'article ne mentionne aucun déploiement industriel ni partenariat commercial, mais la complexité temporelle constante de l'algorithme le rend compatible avec des contraintes embarquées réelles. La prochaine étape logique serait une validation sur flottes AMR en environnement logistique ou sur des quadrupèdes exposés à des changements de surface similaires.

RecherchePaper
1 source
REACT : Architecture adaptative pour la navigation en formation continue de robots mobiles à roues
2arXiv cs.RO 

REACT : Architecture adaptative pour la navigation en formation continue de robots mobiles à roues

Des chercheurs ont déposé sur arXiv (réf. 2605.18441, mai 2026) un article décrivant REACT (Real-time Environment-Adaptive architecture for Continuous formation navigaTion), une architecture hiérarchique pour la navigation en formation de robots mobiles à roues (WMR). L'architecture se divise en deux couches : une couche supérieure qui génère des formations adaptées à l'environnement en temps réel et calcule des affectations robot-cible sans conflits via l'algorithme TCF-R2T (Trajectory-Conflict-Free Robot-to-Target assignment), dont la complexité est garantie polynomiale ; et une couche inférieure où chaque robot exécute JSTP (Joint Spatio-Temporal trajectory Planning), une méthode qui optimise simultanément positions spatiales et durées temporelles pour maintenir la formation en continu. L'ensemble a été validé en simulation et lors d'expériences en conditions réelles, dont les séquences vidéo sont publiées sur le site du projet. La contribution principale de REACT face à l'existant est son adaptabilité dynamique : la grande majorité des travaux publiés sur la navigation en formation impose des configurations prédéfinies, incapables de réagir aux obstacles dynamiques ou à des environnements non balisés. Pour les applications industrielles visées (logistique de transport, surveillance environnementale, opérations de secours), cette rigidité constitue le principal frein au déploiement réel. La garantie polynomiale de TCF-R2T est particulièrement significative sur le plan de la scalabilité : elle indique que le calcul des affectations reste tractable à mesure que la taille de la flotte augmente, contrairement aux approches combinatoires qui deviennent rapidement inextricables. La coordination spatio-temporelle de JSTP réduit par ailleurs les risques de collisions inter-agents lors des transitions de formation, un point de friction classique dans les systèmes multi-robots. La commande de formation de robots mobiles est un champ de recherche actif depuis les années 2000, avec des approches classiques basées sur le suivi de leader, les structures virtuelles ou les champs de potentiel. REACT s'inscrit dans une tendance plus récente vers des architectures hybrides centralisé/distribué, une direction explorée tant dans les milieux académiques que par des éditeurs de flottes AMR tels qu'Exotec ou Balyo côté européen. L'article reste toutefois au stade de la preuve de concept : aucune entreprise partenaire ni timeline de commercialisation n'est mentionnée, et la taille des flottes testées en conditions réelles n'est pas précisée dans le résumé. La prochaine étape logique serait un pilote à plus grande échelle en entrepôt ou en environnement de secours structuré, pour valider le passage à des flottes de taille industrielle.

UELes acteurs européens de flottes AMR comme Exotec et Balyo pourraient bénéficier de cette architecture adaptative si elle est validée à l'échelle industrielle, réduisant un frein clé au déploiement réel de flottes multi-robots.

RecherchePaper
1 source
Q-SpiRL : apprentissage par renforcement quantique à impulsions pour la navigation adaptative des robots
3arXiv cs.RO 

Q-SpiRL : apprentissage par renforcement quantique à impulsions pour la navigation adaptative des robots

Une équipe de chercheurs présente Q-SpiRL (arXiv:2605.20801), un cadre d'apprentissage par renforcement combinant calcul neuromorphique et circuit quantique pour la navigation robotique en environnements dynamiques. Cinq familles d'agents sont comparées : Q-learning tabulaire, MLP classique, réseau à impulsions (SNN) classique, MLP à couche quantique (QMLP), et SNN à couche quantique (QSNN). L'architecture centrale est le QSNN, qui couple un traitement temporel basé sur les impulsions neuronales à une transformation de features par circuit quantique variationnel. Les expériences portent sur trois grilles de navigation de tailles croissantes (20x20, 30x30 et 40x40 cellules), avec obstacles statiques et dynamiques. Le QSNN atteint jusqu'à 99 % de taux de succès dans la configuration la plus exigeante, avec un SPL (success-weighted path length) élevé et un faible taux de rotation, surpassant les quatre autres architectures sur l'ensemble des métriques. L'exécution du framework sur matériel quantique réel via IBM Quantum confirme la faisabilité opérationnelle d'une politique hybride hors simulation pure. L'intérêt principal pour la robotique industrielle et mobile réside dans la combinaison des propriétés des SNNs et du quantum computing : les réseaux à impulsions traitent l'information de manière éparse et asynchrone, ce qui les rend naturellement économes en énergie par rapport aux MLP denses, avantage réel pour les plateformes embarquées. L'ajout d'une couche quantique variationnelle enrichit la représentation d'état sans faire exploser le coût de calcul classique. Les résultats valident empiriquement cette complémentarité, mais il convient de nuancer : les environnements testés sont des grilles 2D abstraites, très éloignées d'un entrepôt logistique ou d'une cellule de production. Aucun résultat sur robot physique n'est présenté, et les métriques de consommation énergétique effective ne sont pas mesurées. Cette publication s'inscrit dans la convergence de deux courants de recherche : le quantum machine learning appliqué au contrôle, et la robotique neuromorphique utilisant des puces comme Intel Loihi. Les approches classiques de navigation par reinforcement learning (PPO, SAC) restent dominantes dans les AMR commerciaux et les flottes d'entrepôt, mais la pression énergétique sur les systèmes embarqués alimente l'intérêt pour les alternatives neuromorphiques. La validation suivante naturelle serait des tests en simulation physique réaliste (Isaac Sim, Gazebo) puis sur plateforme robotique réelle, avec des benchmarks de consommation et de temps de cycle. Aucun partenariat industriel ni calendrier de transfert technologique n'est annoncé dans la publication.

RecherchePaper
1 source
HCLM : un cadre hiérarchique pour la loco-manipulation coopérative avec deux quadrupèdes
4arXiv cs.RO 

HCLM : un cadre hiérarchique pour la loco-manipulation coopérative avec deux quadrupèdes

Des chercheurs présentent HCLM (Hierarchical Cooperative Loco-Manipulation), un framework de contrôle pour deux robots quadrupèdes réalisant des tâches de manipulation d'objets en coopération, publié sur arXiv (2605.17300) en mai 2025. L'architecture combine une Joint Diffusion Policy centralisée au niveau supérieur, exploitant une représentation SE(3)-invariante de l'espace de tâche pour apprendre des patterns de coordination indépendants du référentiel géométrique des robots, et un Whole-Body Controller hybride au niveau inférieur. Ce WBC associe un MPC cinématique proactif pour distribuer les vitesses sans collision à une couche réactive assurant le suivi précis de l'effecteur terminal. Un schéma d'admittance coopérative régule les forces internes lors des interactions en chaîne fermée, c'est-à-dire quand les deux robots portent simultanément le même objet. Le framework est validé en simulation sur trois tâches de difficulté croissante (transport coopératif, conditionnement, transfert d'objet) et déployé physiquement pour la tâche de transfert uniquement. Ce travail adresse un verrou technique de la manipulation multi-robots sur bases flottantes : concilier coordination spatiale, locomotion robuste et contraintes physiques imposées par les interactions en chaîne fermée, où deux robots tenant le même objet génèrent des stresses internes potentiellement destructeurs. La décomposition hiérarchique découple le raisonnement collaboratif de haut niveau de l'exécution motrice, isolant les problèmes pour les résoudre indépendamment. L'invariance SE(3) de la politique de diffusion est le résultat le plus structurant, permettant une généralisation à des configurations géométriques non vues lors de l'entraînement. Les expériences reportent une robustesse aux perturbations physiques sévères, bien que les benchmarks restent limités à des scénarios de laboratoire soigneusement sélectionnés, sans mesures comparatives tierces. La manipulation coopérative sur quadrupèdes mobiles demeure un sous-domaine académique sans déploiement industriel annoncé. Les quadrupèdes à bras embarqués, ANYmal d'ANYbotics ou Spot de Boston Dynamics instrumentés en labo, constituent le banc de test dominant pour ces recherches. Les approches concurrentes traitent généralement locomotion et manipulation séparément, ou se limitent à un seul agent mobile. HCLM se distingue par la gestion explicite des interactions en chaîne fermée entre deux robots mobiles simultanément en contact avec l'objet, un scénario sous-traité dans la littérature existante. Le papier ne mentionne aucun partenariat industriel ni timeline de commercialisation, et reste une contribution académique avec déploiement physique partiel.

RecherchePaper
1 source