Optimisation bayésienne pour l'apprentissage du…

Navigation agile pour robots quadrupèdes dans des environnements encombrés par apprentissage

40

1arXiv cs.RO

Navigation agile pour robots quadrupèdes dans des environnements encombrés par apprentissage

Des chercheurs présentent VOP-Nav, un système de navigation pour robots quadrupèdes conçu pour évoluer dans des environnements denses et dynamiques, où l'occlusion des capteurs et l'imprévisibilité des déplacements humains posent des défis majeurs. Le cœur du système est un réseau baptisé VOP-Net, qui traite des données LiDAR multi-frames captées en local pour encoder implicitement les contraintes dynamiques de l'environnement et prédire une zone de vitesse sûre, dérivée de la théorie des Velocity Obstacles (VO). Fait notable, cette prédiction VO sert un double rôle : elle alimente la politique de navigation en inférence, et sert de signal de récompense pendant l'entraînement pour favoriser des trajectoires sûres. Le système a été évalué dans le simulateur Isaac Gym, puis déployé en conditions réelles sur un robot quadrupède Unitree Go2, en intérieur comme en extérieur, sans pipeline explicite de détection et de suivi d'obstacles. L'enjeu dépassé ici est un compromis classique en robotique mobile : les méthodes à base de modèle comme les Velocity Obstacles garantissent la sécurité en théorie, mais s'effondrent en environnement dense car elles dépendent d'estimations précises du mouvement des obstacles, difficiles à obtenir dans une foule. À l'inverse, les approches d'apprentissage de bout en bout sont plus robustes mais manquent de capacité de prédiction, ce qui produit soit des collisions, soit des comportements trop prudents. En hybridant les deux, VOP-Nav vise directement le goulot d'étranglement qui freine le déploiement de quadrupèdes et, plus largement, de plateformes mobiles autonomes dans des espaces partagés avec des humains, entrepôts, hôpitaux, bureaux, un enjeu suivi de près par les intégrateurs travaillant avec des plateformes comme Go2 ou Spot. Le papier s'inscrit dans la lignée des travaux sur la navigation sociale et l'évitement d'obstacles dynamiques, où les méthodes géométriques classiques (VO, ORCA) et l'apprentissage par renforcement coexistent sans avoir jusqu'ici bien fusionné. Publié comme preprint arXiv (2607.15036), le travail n'a pas encore fait l'objet de revue par les pairs ; les auteurs revendiquent des taux de réussite supérieurs à leurs bases de comparaison en simulation, sans toutefois préciser de chiffres exacts ni le protocole complet d'évaluation, un point à surveiller avant toute extrapolation vers un déploiement industriel à grande échelle.

RecherchePaper

1 source

Préhension optimisée dans les robots à pattes : une approche par apprentissage profond pour la loco-manipulation

37

2arXiv cs.RO

Préhension optimisée dans les robots à pattes : une approche par apprentissage profond pour la loco-manipulation

Des chercheurs ont publié sur arXiv (référence 2508.17466v3) un framework de deep learning destiné à améliorer les capacités de préhension des robots quadrupèdes équipés d'un bras manipulateur, une configuration connue sous le nom de loco-manipulation. L'approche repose sur une méthodologie sim-to-real développée dans l'environnement de simulation Genesis, où des milliers d'interactions synthétiques ont été générées sur des objets courants pour produire des cartes annotées pixel par pixel de qualité de préhension. Ces données ont servi à entraîner un réseau de neurones convolutif inspiré de l'architecture U-Net, qui fusionne en entrée des flux multi-modaux issus de caméras embarquées : images RGB, cartes de profondeur, masques de segmentation et cartes de normales de surface. En sortie, le modèle produit une heatmap identifiant le point de préhension optimal. Le système complet a été validé sur un vrai robot quadrupède, qui a exécuté de façon autonome la séquence complète : navigation vers l'objet cible, perception, prédiction de la pose de préhension, puis saisie effective. Le principal intérêt de ce travail est de montrer qu'un pipeline sim-to-real bien conçu peut substituer la collecte de données physiques, historiquement le goulet d'étranglement du développement en manipulation robotique. Pour les intégrateurs et décideurs industriels, cela suggère qu'il devient possible de déployer des capacités de manipulation sur robots mobiles sans investissement massif en démonstrations réelles. Cela dit, l'abstract ne fournit aucun taux de succès quantifié, aucune comparaison avec une baseline, et aucun détail sur le nombre d'objets testés ou la robustesse aux variations d'éclairage et de pose : des lacunes habituelles dans les preprints mais qui freinent l'évaluation sérieuse de la transférabilité industrielle. Ce travail s'inscrit dans un champ académique très actif autour des robots quadrupèdes à bras, popularisé par des plateformes comme l'ANYmal de ANYbotics (Suisse) ou le Spot d'Boston Dynamics, tous deux cibles régulières de recherches en loco-manipulation. L'environnement Genesis, relativement récent, se positionne comme alternative à Isaac Sim (NVIDIA) et MuJoCo pour la génération de données synthétiques. L'architecture U-Net, initialement conçue pour la segmentation médicale, est ici réutilisée pour un problème de régression spatiale, une transposition qui gagne du terrain en robotique de manipulation. Ce papier, en version 3 de révision, reste un travail de recherche en laboratoire : aucun déploiement opérationnel ni partenariat industriel n'est mentionné.

UEImpact indirect limité : ANYbotics (Suisse) est citée comme plateforme cible type, mais le travail est un preprint académique sans affiliation institutionnelle européenne identifiée ni déploiement opérationnel.

RecherchePaper

1 source

Navigation par apprentissage pour robots mobiles en intérieur

38

3arXiv cs.RO

Navigation par apprentissage pour robots mobiles en intérieur

Des chercheurs ont publié sur arXiv (référence 2605.30468) un framework de navigation hybride pour robots mobiles intérieurs, combinant un planificateur global neuronal et un planificateur local affiné par apprentissage par renforcement. Le planificateur global est un réseau de neurones supervisé, entraîné à partir de trajectoires générées par un algorithme A* pondéré par les coûts, ce qui lui permet de produire des routes globalement cohérentes et évitant les zones dangereuses. Le planificateur local, baptisé Learning-Based DWA, reformule l'approche classique Dynamic Window Approach (DWA) comme un problème de sélection discrète sur une grille d'actions prédéfinies. La politique locale est d'abord initialisée par clonage comportemental (imitation d'un expert), puis optimisée par Proximal Policy Optimization (PPO) avec un masquage de faisabilité, un mécanisme éliminant les actions physiquement irréalisables ou à risque de collision avant même l'exploration. Les résultats expérimentaux, conduits en simulation et en environnement réel intérieur, montrent une navigation sûre et fiable vers des objectifs en présence d'obstacles. L'intérêt de cette contribution réside dans son positionnement hybride : plutôt que d'abandonner DWA au profit d'une approche entièrement apprise, les auteurs l'utilisent comme squelette structurant pour contraindre le problème d'apprentissage. Ce choix de conception présente deux avantages pour les intégrateurs. D'abord, le masquage de faisabilité réduit l'espace d'exploration du policy gradient aux seules actions physiquement admissibles, limitant les comportements dangereux en phase d'apprentissage et facilitant le transfert sim-to-réel. Ensuite, conserver la logique DWA comme substrat rend la politique plus interprétable qu'un réseau boîte noire, un critère non négligeable pour les déploiements industriels soumis à certification. La méthode démontre qu'un classique de la robotique réactive, largement jugé dépassé par les approches end-to-end, peut encore être un socle pertinent pour des pipelines d'apprentissage modernes. Le DWA a été introduit par Fox, Burgard et Thrun en 1997 et reste une brique fondamentale des stacks de navigation ROS et Nav2, déployés sur une large partie des flottes d'AMR (robots mobiles autonomes) industriels actuels. C'est dans cet écosystème très installé que s'inscrit ce travail, face à des approches concurrentes plus radicales : navigation end-to-end par apprentissage (ETH Zurich, MIT CSAIL), planificateurs à modèle comme TEB ou MPPI, et méthodes VLA émergentes pour la navigation en langage naturel. Les auteurs annoncent la mise à disposition du code source sur leur page projet. Aucun partenaire industriel ni déploiement commercial n'est mentionné : il s'agit d'une contribution de recherche académique, pas d'un produit commercialisé.

RecherchePaper

1 source

Apprentissage de marges de sécurité adaptatives pour la navigation visuelle

41

4arXiv cs.RO

Apprentissage de marges de sécurité adaptatives pour la navigation visuelle

Des chercheurs présentent un nouveau système de sélection de trajectoires pour la navigation robotique en intérieur encombré, détaillé dans un preprint arXiv (2607.18200v1). Le problème ciblé : les marges de sécurité fixes utilisées par les robots mobiles sont mal calibrées, trop conservatrices elles provoquent détours et dépassements de temps, trop permissives elles autorisent des trajectoires limites dangereuses en cas de biais de perception. Les auteurs proposent un "safety critic" conditionné par le contexte qui apprend une préférence de dégagement adaptative pour classer les propositions générées par un planificateur par diffusion à partir d'images RGB-D égocentriques. Le critique combine trois composantes : un terme de sécurité avec pénalité de budget de dégagement et résidu de fonction barrière de contrôle, un terme d'efficacité mêlant lissage et pénalité de détour conditionnée à la sécurité, et un terme d'ancrage aux clearances ESDF réelles pour éviter l'effondrement de la marge apprise. L'entraînement s'appuie sur une géométrie ESDF privilégiée en simulation, puis le modèle est distillé en un sélecteur ne nécessitant que la perception, via une procédure enseignant-élève en deux temps. Sur les benchmarks PointGoal HM3D et MP3D, y compris en transfert cross-dataset, la méthode obtient les meilleurs taux de réussite et scores SPL face à des références par diffusion, par optimisation et par apprentissage par renforcement. Pour l'industrie robotique, ce travail s'attaque à un goulot d'étranglement concret : la plupart des planificateurs par diffusion génèrent déjà des trajectoires diverses et valables, mais peinent à choisir laquelle exécuter en toute sécurité. Une marge de sécurité apprise et adaptative plutôt que codée en dur pourrait réduire les échecs de navigation des robots déployés en environnements réels, entrepôts, usines, intérieurs domestiques, sans réglage manuel site par site. Le transfert direct vers un humanoïde Unitree G1, entraîné uniquement en simulation et sans ajustement spécifique à la tâche, illustre une réduction crédible de l'écart simulation-réel, un point sensible pour les intégrateurs qui restent souvent méfiants face aux démonstrations purement simulées. Ce travail s'inscrit dans la lignée des planificateurs par diffusion pour la navigation, une approche récente qui a gagné du terrain face aux méthodes d'optimisation classiques et au RL, en s'appuyant sur les fonctions barrière de contrôle et les champs de distance signée (ESDF) pour formaliser la sécurité. Le papier reste à ce stade une publication de recherche non revue par les pairs, sans lien annoncé avec un acteur industriel ; aucune date de déploiement produit ni partenariat n'est mentionné.

RecherchePaper

1 source

Optimisation bayésienne pour l'apprentissage du MPC non linéaire dans la navigation d'agents autonomes

À lire aussi

Navigation agile pour robots quadrupèdes dans des environnements encombrés par apprentissage

Préhension optimisée dans les robots à pattes : une approche par apprentissage profond pour la loco-manipulation

Navigation par apprentissage pour robots mobiles en intérieur

Apprentissage de marges de sécurité adaptatives pour la navigation visuelle