HiCrowd : alignement hiérarchique du flux de…

HiPAN : navigation hiérarchique adaptative à la posture pour robots quadrupèdes en environnements 3D non structurés

39

1arXiv cs.RO

HiPAN : navigation hiérarchique adaptative à la posture pour robots quadrupèdes en environnements 3D non structurés

Des chercheurs proposent HiPAN (Hierarchical Posture-Adaptive Navigation), un framework de navigation pour robots quadrupèdes en environnements tridimensionnels non structurés, publié en préprint sur arXiv en avril 2026 (arXiv:2604.26504). L'architecture est hiérarchique : une politique de haut niveau génère des commandes de navigation (vitesse planaire et posture du corps), exécutées par un contrôleur de locomotion adaptatif de bas niveau. Le système opère directement sur des images de profondeur embarquées, sans pipeline de cartographie-planification préalable. Pour contrer les comportements myopes et étendre l'horizon de navigation, les auteurs introduisent le Path-Guided Curriculum Learning, qui entraîne progressivement la politique de l'évitement réactif jusqu'à la navigation stratégique longue distance. Les expériences couvrent simulations et environnements réels, incluant passages étroits et espaces à faible hauteur libre. Les résultats affichent des taux de réussite et une efficacité de trajectoire supérieurs aux planificateurs réactifs classiques et aux baselines end-to-end. L'intérêt pratique est double : le système tourne sur des plateformes à ressources contraintes, rendant la navigation autonome accessible sans GPU dédié sur des quadrupèdes comme l'Unitree B2 ou l'ANYmal C d'ANYbotics ; l'adaptation dynamique de posture ouvre par ailleurs des cas d'usage concrets en inspection industrielle, gestion de sinistres et exploration de bâtiments dégradés. L'approche contourne l'accumulation d'erreurs de perception inhérente aux pipelines SLAM-planification, un point de friction persistant dans les déploiements réels de quadrupèdes autonomes. La navigation sans carte dans des espaces tridimensionnels contraints reste l'un des verrous majeurs du secteur. Les approches dominantes s'appuient sur SLAM (simultaneous localization and mapping) couplé à un planificateur de trajectoire, au prix d'une latence élevée et d'une sensibilité aux erreurs cumulées. HiPAN s'inscrit dans un courant de recherche qui substitue des politiques apprises par renforcement hiérarchique à ces pipelines, en parallèle de travaux issus du groupe Hutter à ETH Zurich (ANYbotics) ou des laboratoires de locomotion de Carnegie Mellon et UC Berkeley. Il s'agit d'un préprint non encore soumis à peer review, sans partenaire industriel ni calendrier de déploiement annoncé. La prochaine étape critique sera de valider la robustesse hors distribution sur terrains déformables et face à des obstructions dynamiques, conditions que les benchmarks en simulation ne couvrent qu'imparfaitement.

RecherchePaper

1 source

FADA : adaptation de domaine few-shot par alignement des dynamiques pour le contrôle humanoïde

42

2arXiv cs.RO

FADA : adaptation de domaine few-shot par alignement des dynamiques pour le contrôle humanoïde

Des chercheurs du LECAR Lab (Learning, Computing and Autonomous Robots) ont publié le 30 juin 2026 sur arXiv (référence 2506.28476) un préprint décrivant FADA, un cadre d'adaptation en quelques exemples pour le contrôle de robots humanoïdes. L'architecture, baptisée Planner-IDM (Planner–Inverse Dynamics Model), fonctionne en trois étapes : entraînement d'une politique oracle avec accès à des informations privilégiées (état complet du simulateur), distillation de ce comportement dans un modèle étudiant déployable via DAgger, puis fine-tuning ciblé du seul module IDM à partir d'environ deux minutes de données collectées dans l'environnement réel. La supervision ne requiert ni démonstrations expertes ni signal de récompense : uniquement les paires (actions, observations) enregistrées lors de ces brefs rollouts. Les expériences montrent que FADA surpasse les baselines d'adaptation in-context et d'adaptation end-to-end sur des tâches whole-body à haute précision exécutées sur robot physique. L'enjeu pratique est réel : le "dynamics mismatch", écart entre les dynamiques simulées et celles du domaine cible dues aux variations de terrain, de charge utile ou de réponse actionneur, reste l'un des principaux freins au déploiement industriel des humanoïdes. Les approches actuelles forcent un compromis inconfortable entre la randomisation de domaine (zero-shot, mais sous-spécialisée) et le recalibrage complet du modèle ou le ré-entraînement de politique (précis, mais coûteux en données et en temps). Deux minutes de rollouts pour aligner un IDM représentent un point d'équilibre opérationnellement crédible pour des intégrateurs qui ne peuvent pas interrompre une ligne de production plusieurs heures. Cela dit, les vidéos hardware présentées sur le site du projet sont sélectionnées par les auteurs ; aucune évaluation statistique robuste sur variété de terrains ou charges n'est encore disponible dans ce préprint non relu par les pairs. Le sim-to-real gap est un problème structurel que l'ensemble de l'écosystème humanoïde, Figure (02/03), Tesla Optimus, Boston Dynamics Atlas, Physical Intelligence (pi-zero), tente de résoudre, principalement par randomisation massive en simulation ou par apprentissage en contexte (in-context RL). FADA s'inscrit dans une troisième voie, plus proche des travaux sur l'adaptation rapide de politiques (MAML, RMA) mais appliquée à l'architecture Planner-IDM. Le LECAR Lab, affilié à l'Université de Californie San Diego, capitalise ici sur des travaux antérieurs en locomotion et manipulation whole-body. Prochaine étape attendue : validation sur une plus large variété de dynamiques et de morphologies robotiques, ainsi qu'une soumission à conférence (ICRA ou CoRL) pour passer le filtre de la revue par les pairs.

RecherchePaper

1 source

Conscience contextuelle robotique pour la collaboration humain-robot et la compréhension de l'environnement

32

3arXiv cs.RO

Conscience contextuelle robotique pour la collaboration humain-robot et la compréhension de l'environnement

Une thèse de doctorat publiée sur arXiv (référence 2607.10372v1) s'attaque à un problème central pour les robots mobiles autonomes appelés à quitter les usines cloisonnées pour des environnements partagés avec des humains, comme la logistique, la santé ou les lignes de production mixtes. Les travaux se structurent autour de deux axes complémentaires. Le premier porte sur la ré-identification et le suivi d'une personne spécifique par un robot mobile, permettant à la machine de cibler sa collaboration sur un opérateur donné tout en ignorant les autres personnes présentes dans la scène, un prérequis pour des tâches de collaboration homme-robot ciblées plutôt que génériques. Le second axe vise à enrichir la perception géométrique et sémantique de l'environnement par le robot, combinant compréhension spatiale (utile à la planification de trajectoire et à l'évitement de collision) et compréhension sémantique des objets et acteurs présents, pour des interactions plus adaptées au contexte. L'enjeu dépassé ici est celui, bien identifié dans la littérature robotique, du fossé entre perception basique et véritable conscience contextuelle: un robot peut cartographier une pièce sans comprendre qui s'y trouve ni pourquoi, ce qui limite sa capacité à adapter son comportement en temps réel. Pour les intégrateurs industriels, ce type de brique logicielle conditionne directement la sécurité et la fluidité des déploiements en environnement humain dense, notamment en logistique et en santé où la coexistence homme-machine est quotidienne. Il s'agit toutefois de travaux de recherche académique et non d'un produit ou d'un système commercialisé; aucun chiffre de performance (précision de ré-identification, latence, taux de succès) n'est donné dans le résumé, ce qui invite à la prudence avant toute extrapolation vers un cas d'usage industriel concret. Cette thèse s'inscrit dans un courant de recherche plus large sur la perception sémantique embarquée, alimenté par les progrès récents des modèles de vision et de langage appliqués à la robotique. Elle ne mentionne pas de partenariat industriel ni de plateforme robotique spécifique, et ne fournit pas de calendrier de transfert vers un produit. Les prochaines étapes attendues pour ce type de travaux sont généralement une validation expérimentale plus poussée sur robot réel, puis une éventuelle intégration dans des piles logicielles commerciales de navigation et d'interaction homme-robot.

RecherchePaper

1 source

RoboAlign-R1 : alignement multimodal des récompenses pour les modèles du monde vidéo robotique

39

4arXiv cs.RO

RoboAlign-R1 : alignement multimodal des récompenses pour les modèles du monde vidéo robotique

Des chercheurs ont publié le 6 mai 2026 sur arXiv (arXiv:2605.03821) un framework baptisé RoboAlign-R1, conçu pour améliorer l'alignement des modèles vidéo du monde robotique avec les objectifs réels de prise de décision. Le coeur du travail repose sur un benchmark inédit, RobotWorldBench, qui rassemble 10 000 paires vidéo-instruction annotées issues de quatre sources de données robotiques, et sur un juge multimodal, RoboAlign-Judge, capable d'évaluer les vidéos générées selon six dimensions distinctes (instruction following, manipulation accuracy, plausibilité physique, entre autres). Ce juge enseignant est ensuite distillé en un modèle récompense léger pour un post-entraînement par renforcement. En parallèle, les auteurs introduisent une stratégie d'inférence sans entraînement supplémentaire, le Sliding Window Re-encoding (SWR), qui rafraichit périodiquement le contexte de génération pour limiter la dérive lors des prédictions à long horizon. Les gains mesurés sont de 10,1 % sur le score agrégé à six dimensions par rapport au meilleur baseline, dont 7,5 % en précision de manipulation et 4,6 % en suivi d'instructions. Le SWR apporte quant à lui une réduction de 9,8 % en LPIPS et une hausse de 2,8 % en SSIM, avec seulement environ 1 % de latence additionnelle. Ce travail pointe un problème structurel rarement nommé aussi clairement dans la littérature : les modèles vidéo robotiques sont généralement optimisés pour des métriques visuelles basses (reconstruction pixel, SSIM) qui ne corrèlent pas avec la performance réelle en manipulation ou en suivi d'instructions. Autrement dit, un modèle peut produire des vidéos visuellement cohérentes tout en étant inutilisable pour le contrôle d'un bras robotique. En transposant la logique du post-entraînement par récompense, inspirée du RLHF appliqué aux LLM, aux world models vidéo, RoboAlign-R1 propose une voie pour aligner simulation et tâche réelle. Pour les équipes qui utilisent ces modèles comme simulateurs de planification ou générateurs de données synthétiques, l'évaluation multi-dimensionnelle de RoboAlign-Judge pourrait devenir un protocole de référence, à condition que le benchmark soit publié et reproductible. Cette publication s'inscrit dans une dynamique plus large d'application des techniques d'alignement (post-training, distillation, RL) à la robotique incarnée, un domaine où des travaux comme UniSim, GROOT de NVIDIA ou IRASim ont posé les bases des world models vidéo. Le code et les données ne sont pas encore disponibles publiquement au moment de la publication, ce qui limite l'évaluation indépendante des résultats. La prochaine étape naturelle serait une validation sur robot physique en dehors du protocole in-domain utilisé ici, car les gains mesurés en simulation n'impliquent pas directement un transfert sim-to-real amélioré.

RechercheOpinion

1 source

HiCrowd : alignement hiérarchique du flux de foule pour les environnements humains denses

À lire aussi

HiPAN : navigation hiérarchique adaptative à la posture pour robots quadrupèdes en environnements 3D non structurés

FADA : adaptation de domaine few-shot par alignement des dynamiques pour le contrôle humanoïde

Conscience contextuelle robotique pour la collaboration humain-robot et la compréhension de l'environnement

RoboAlign-R1 : alignement multimodal des récompenses pour les modèles du monde vidéo robotique