Perception 3D monoculaire pour robots piétons par…

Navigation par apprentissage pour robots mobiles en intérieur

38

1arXiv cs.RO

Navigation par apprentissage pour robots mobiles en intérieur

Des chercheurs ont publié sur arXiv (référence 2605.30468) un framework de navigation hybride pour robots mobiles intérieurs, combinant un planificateur global neuronal et un planificateur local affiné par apprentissage par renforcement. Le planificateur global est un réseau de neurones supervisé, entraîné à partir de trajectoires générées par un algorithme A* pondéré par les coûts, ce qui lui permet de produire des routes globalement cohérentes et évitant les zones dangereuses. Le planificateur local, baptisé Learning-Based DWA, reformule l'approche classique Dynamic Window Approach (DWA) comme un problème de sélection discrète sur une grille d'actions prédéfinies. La politique locale est d'abord initialisée par clonage comportemental (imitation d'un expert), puis optimisée par Proximal Policy Optimization (PPO) avec un masquage de faisabilité, un mécanisme éliminant les actions physiquement irréalisables ou à risque de collision avant même l'exploration. Les résultats expérimentaux, conduits en simulation et en environnement réel intérieur, montrent une navigation sûre et fiable vers des objectifs en présence d'obstacles. L'intérêt de cette contribution réside dans son positionnement hybride : plutôt que d'abandonner DWA au profit d'une approche entièrement apprise, les auteurs l'utilisent comme squelette structurant pour contraindre le problème d'apprentissage. Ce choix de conception présente deux avantages pour les intégrateurs. D'abord, le masquage de faisabilité réduit l'espace d'exploration du policy gradient aux seules actions physiquement admissibles, limitant les comportements dangereux en phase d'apprentissage et facilitant le transfert sim-to-réel. Ensuite, conserver la logique DWA comme substrat rend la politique plus interprétable qu'un réseau boîte noire, un critère non négligeable pour les déploiements industriels soumis à certification. La méthode démontre qu'un classique de la robotique réactive, largement jugé dépassé par les approches end-to-end, peut encore être un socle pertinent pour des pipelines d'apprentissage modernes. Le DWA a été introduit par Fox, Burgard et Thrun en 1997 et reste une brique fondamentale des stacks de navigation ROS et Nav2, déployés sur une large partie des flottes d'AMR (robots mobiles autonomes) industriels actuels. C'est dans cet écosystème très installé que s'inscrit ce travail, face à des approches concurrentes plus radicales : navigation end-to-end par apprentissage (ETH Zurich, MIT CSAIL), planificateurs à modèle comme TEB ou MPPI, et méthodes VLA émergentes pour la navigation en langage naturel. Les auteurs annoncent la mise à disposition du code source sur leur page projet. Aucun partenaire industriel ni déploiement commercial n'est mentionné : il s'agit d'une contribution de recherche académique, pas d'un produit commercialisé.

RecherchePaper

1 source

OctoSense : apprentissage auto-supervisé pour la perception multimodale des robots

44

2arXiv cs.RO

OctoSense : apprentissage auto-supervisé pour la perception multimodale des robots

Une équipe de recherche a publié sur arXiv (arXiv:2606.17317) OctoSense, une plateforme matérielle open-source de perception multimodale accompagnée d'un dataset de 59 heures de données embarquées synchronisées. Le rig intègre une paire de caméras RGB stéréo, une caméra à événements, un LiDAR, une caméra thermique, une centrale inertielle (IMU), un GPS RTK et des données de proprioception issues d'un bus CAN automobile et d'un robot quadrupède. Les données ont été collectées dans des environnements variés, à différentes heures du jour et de la nuit, y compris en conditions de dégradation sensorielle sévère. Sur ce dataset, les auteurs démontrent une architecture de foundation model baptisée "late-fusion masked autoencoder" : des tokeniseurs spécifiques par modalité gèrent les différences de résolution spatiotemporelle, de fréquence et de latence entre capteurs, puis les tokens sont mis en cache à l'inférence pour traiter les nouvelles mesures au fil de leur arrivée. Le temps de calcul de représentation atteint 6,68 ms sur GPU NVIDIA RTX 5090 et 112 ms sur module embarqué Jetson Orin NX. Ce résultat est notable pour les intégrateurs robotiques car il démontre qu'un modèle auto-supervisé entraîné sur des données réelles hétérogènes surpasse les foundation models vision-only (entraînés sur images seules) sur quatre tâches critiques : estimation du flot optique, reconstruction de profondeur, segmentation sémantique et estimation de l'ego-motion (translation, rotation, angle de braquage). L'absence de labels supervisés dans le pipeline d'entraînement réduit significativement le coût de constitution des datasets pour les équipes qui déploient sur des plateformes mobiles. La robustesse nocturne et en conditions dégradées adresse directement un point de friction récurrent dans les déploiements AMR en entrepôts logistiques et en robotique outdoor. OctoSense s'inscrit dans la tendance des foundation models perceptifs pour la robotique, un espace très actif depuis les travaux de type CLIP/DINOv2 et plus récemment les VLA (Vision-Language-Action models) poussés par Physical Intelligence (Pi-0) et NVIDIA (GR00T). Contrairement à ces approches centrées sur la manipulation ou la navigation en langage naturel, OctoSense cible la représentation sensorielle bas-niveau sur plateforme embarquée contrainte. Le projet est entièrement open-source (code, dataset et vidéos supplémentaires disponibles), ce qui le distingue des stacks propriétaires des acteurs commerciaux. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade ; il s'agit d'un preprint de recherche sans validation externe. La prochaine étape naturelle serait une évaluation sur des benchmarks robotiques standardisés (OpenX-Embodiment, CARLA) pour confirmer la généralisation hors-distribution.

RecherchePaper

1 source

Perception artificielle fovéale pour réduire l'apprentissage par raccourcis dans les modèles fondation robotiques

41

3arXiv cs.RO

Perception artificielle fovéale pour réduire l'apprentissage par raccourcis dans les modèles fondation robotiques

Le laboratoire de recherche présente Artificial Foveated Perception (AFP), un module léger et agnostique à l'architecture destiné à corriger un défaut structurel des modèles fondamentaux robotiques actuels. Le problème identifié est le "shortcut learning" : les politiques de contrôle apprennent à exploiter des corrélations statistiques présentes dans les données d'entraînement (couleur du fond, position d'un objet non pertinent) plutôt que les indices visuels réellement déterminants pour réussir la tâche. AFP prend en entrée les mêmes flux vision et langage que les pipelines Vision-Language-Action (VLA) et World Action Model, et génère des masques conditionnés par la tâche qui isolent les objets pertinents, le robot lui-même, et les zones critiques pour l'action. Ces masques servent de signal de supervision auxiliaire pendant le fine-tuning, sans modifier l'architecture du modèle. Une fois l'entraînement terminé, la politique fonctionne directement sur le flux d'observation brut, sans qu'AFP intervienne dans la boucle de contrôle en production. Cette approche s'attaque à un angle mort largement documenté en vision par ordinateur mais peu exploré jusqu'ici dans la robotique fondationnelle : la différence entre une performance en démonstration et une robustesse réelle en déploiement. Les résultats rapportés montrent que le foveated perception réduit le temps de fine-tuning, limite le surapprentissage, et améliore la généralisation face aux perturbations environnementales, un problème récurrent quand des VLA entraînés sur des scènes contrôlées se retrouvent face à des variations d'éclairage, de fond ou d'agencement en conditions réelles. Pour les intégrateurs et équipes robotique qui déploient des modèles génératifs de contrôle à l'échelle industrielle, ce type de méthode répond directement à une inquiétude concrète : un modèle qui semble fonctionner en vidéo de démonstration peut échouer dès que le contexte visuel change légèrement, précisément parce qu'il a appris les mauvais indices plutôt que la logique causale de la tâche. Le travail s'inscrit dans la lignée des efforts récents autour des VLA généralistes (dans la famille de Pi-0, GR00T N2 ou Helix), où la question du passage à l'échelle et de la robustesse reste ouverte malgré les progrès en transfert cross-embodiment et en contrôle conditionné par le langage. Les auteurs testent AFP sur plusieurs modèles fondamentaux robotiques de référence et mènent des ablations sur la qualité des masques et la conception de la fonction de perte de grounding, montrant que les gains proviennent bien de la redirection de l'attention du modèle vers les preuves visuelles pertinentes, et non d'un effet secondaire indirect. La méthode reste pour l'instant au stade de la recherche publiée sur arXiv, sans indication de déploiement industriel ni de partenariat annoncé, mais elle propose une piste concrète et peu coûteuse en calcul pour rendre les futurs modèles VLA plus fiables avant leur mise en production.

RecherchePaper

1 source

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

42

4arXiv cs.RO

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper

1 source

Perception 3D monoculaire pour robots piétons par apprentissage hybride 2D-3D

À lire aussi

Navigation par apprentissage pour robots mobiles en intérieur

OctoSense : apprentissage auto-supervisé pour la perception multimodale des robots

Perception artificielle fovéale pour réduire l'apprentissage par raccourcis dans les modèles fondation robotiques

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes