Aller au contenu principal
HiCrowd : alignement hiérarchique du flux de foule pour les environnements humains denses
RecherchearXiv cs.RO4h

HiCrowd : alignement hiérarchique du flux de foule pour les environnements humains denses

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié HiCrowd (arXiv:2602.05608, troisième révision), un framework hiérarchique conçu pour permettre aux robots mobiles de naviguer dans des foules piétonnes denses sans se bloquer. L'architecture combine une politique d'apprentissage par renforcement (RL) à haut niveau, qui génère un "follow point" vers un groupe de piétons compatible, et un contrôleur prédictif par modèle (MPC) à bas niveau chargé du suivi sécurisé à horizon court. La méthode a été évaluée en mode offline (rejeu de trajectoires humaines enregistrées) et en mode online (simulation où les piétons réagissent au robot), puis déployée dans un musée public et sur le site de l'Expo 2025 Osaka, sans réentraînement spécifique à ces environnements.

Le résultat central est la réduction substantielle du "freezing robot problem", phénomène où le robot, incapable de trouver un couloir sécurisé, se retrouve immobile au milieu de la foule. Ce blocage est l'un des principaux obstacles au déploiement d'AMR (autonomous mobile robots) en milieu public. HiCrowd surpasse les baselines réactives classiques et les approches purement par apprentissage sur deux métriques clés : efficacité de navigation et sécurité. Le déploiement à l'Expo 2025 Osaka sans réentraînement apporte un argument de robustesse sim-to-real qui mérite d'être noté, même si les auteurs ne publient pas de métriques quantitatives de terrain. La contribution conceptuelle est un changement de paradigme : traiter les piétons comme un flux à aligner plutôt que comme des obstacles dynamiques à esquiver ouvre une voie différente des approches ORCA ou CADRL dominantes.

La navigation sociale robotique est un domaine compétitif depuis une décennie, avec des méthodes allant de Dynamic Window Approach aux réseaux de graphes attentionnels (SARL, CrowdNav) et aux approches POMDP. HiCrowd se positionne dans la lignée des hybrides RL+MPC, qui cherchent à concilier la prise de décision à long terme et la sécurité temps-réel. Le code et les démonstrations sont disponibles sur GitHub. La v3 de l'article suggère une soumission en cours vers une conférence de robotique majeure (ICRA ou IROS). Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (Boston Dynamics Spot, Clearpath) et des métriques de confort social mesurées auprès des piétons réels.

À lire aussi

HiPAN : navigation hiérarchique adaptative à la posture pour robots quadrupèdes en environnements 3D non structurés
1arXiv cs.RO 

HiPAN : navigation hiérarchique adaptative à la posture pour robots quadrupèdes en environnements 3D non structurés

Des chercheurs proposent HiPAN (Hierarchical Posture-Adaptive Navigation), un framework de navigation pour robots quadrupèdes en environnements tridimensionnels non structurés, publié en préprint sur arXiv en avril 2026 (arXiv:2604.26504). L'architecture est hiérarchique : une politique de haut niveau génère des commandes de navigation (vitesse planaire et posture du corps), exécutées par un contrôleur de locomotion adaptatif de bas niveau. Le système opère directement sur des images de profondeur embarquées, sans pipeline de cartographie-planification préalable. Pour contrer les comportements myopes et étendre l'horizon de navigation, les auteurs introduisent le Path-Guided Curriculum Learning, qui entraîne progressivement la politique de l'évitement réactif jusqu'à la navigation stratégique longue distance. Les expériences couvrent simulations et environnements réels, incluant passages étroits et espaces à faible hauteur libre. Les résultats affichent des taux de réussite et une efficacité de trajectoire supérieurs aux planificateurs réactifs classiques et aux baselines end-to-end. L'intérêt pratique est double : le système tourne sur des plateformes à ressources contraintes, rendant la navigation autonome accessible sans GPU dédié sur des quadrupèdes comme l'Unitree B2 ou l'ANYmal C d'ANYbotics ; l'adaptation dynamique de posture ouvre par ailleurs des cas d'usage concrets en inspection industrielle, gestion de sinistres et exploration de bâtiments dégradés. L'approche contourne l'accumulation d'erreurs de perception inhérente aux pipelines SLAM-planification, un point de friction persistant dans les déploiements réels de quadrupèdes autonomes. La navigation sans carte dans des espaces tridimensionnels contraints reste l'un des verrous majeurs du secteur. Les approches dominantes s'appuient sur SLAM (simultaneous localization and mapping) couplé à un planificateur de trajectoire, au prix d'une latence élevée et d'une sensibilité aux erreurs cumulées. HiPAN s'inscrit dans un courant de recherche qui substitue des politiques apprises par renforcement hiérarchique à ces pipelines, en parallèle de travaux issus du groupe Hutter à ETH Zurich (ANYbotics) ou des laboratoires de locomotion de Carnegie Mellon et UC Berkeley. Il s'agit d'un préprint non encore soumis à peer review, sans partenaire industriel ni calendrier de déploiement annoncé. La prochaine étape critique sera de valider la robustesse hors distribution sur terrains déformables et face à des obstructions dynamiques, conditions que les benchmarks en simulation ne couvrent qu'imparfaitement.

RecherchePaper
1 source
RoboAlign-R1 : alignement multimodal des récompenses pour les modèles du monde vidéo robotique
2arXiv cs.RO 

RoboAlign-R1 : alignement multimodal des récompenses pour les modèles du monde vidéo robotique

Des chercheurs ont publié le 6 mai 2026 sur arXiv (arXiv:2605.03821) un framework baptisé RoboAlign-R1, conçu pour améliorer l'alignement des modèles vidéo du monde robotique avec les objectifs réels de prise de décision. Le coeur du travail repose sur un benchmark inédit, RobotWorldBench, qui rassemble 10 000 paires vidéo-instruction annotées issues de quatre sources de données robotiques, et sur un juge multimodal, RoboAlign-Judge, capable d'évaluer les vidéos générées selon six dimensions distinctes (instruction following, manipulation accuracy, plausibilité physique, entre autres). Ce juge enseignant est ensuite distillé en un modèle récompense léger pour un post-entraînement par renforcement. En parallèle, les auteurs introduisent une stratégie d'inférence sans entraînement supplémentaire, le Sliding Window Re-encoding (SWR), qui rafraichit périodiquement le contexte de génération pour limiter la dérive lors des prédictions à long horizon. Les gains mesurés sont de 10,1 % sur le score agrégé à six dimensions par rapport au meilleur baseline, dont 7,5 % en précision de manipulation et 4,6 % en suivi d'instructions. Le SWR apporte quant à lui une réduction de 9,8 % en LPIPS et une hausse de 2,8 % en SSIM, avec seulement environ 1 % de latence additionnelle. Ce travail pointe un problème structurel rarement nommé aussi clairement dans la littérature : les modèles vidéo robotiques sont généralement optimisés pour des métriques visuelles basses (reconstruction pixel, SSIM) qui ne corrèlent pas avec la performance réelle en manipulation ou en suivi d'instructions. Autrement dit, un modèle peut produire des vidéos visuellement cohérentes tout en étant inutilisable pour le contrôle d'un bras robotique. En transposant la logique du post-entraînement par récompense, inspirée du RLHF appliqué aux LLM, aux world models vidéo, RoboAlign-R1 propose une voie pour aligner simulation et tâche réelle. Pour les équipes qui utilisent ces modèles comme simulateurs de planification ou générateurs de données synthétiques, l'évaluation multi-dimensionnelle de RoboAlign-Judge pourrait devenir un protocole de référence, à condition que le benchmark soit publié et reproductible. Cette publication s'inscrit dans une dynamique plus large d'application des techniques d'alignement (post-training, distillation, RL) à la robotique incarnée, un domaine où des travaux comme UniSim, GROOT de NVIDIA ou IRASim ont posé les bases des world models vidéo. Le code et les données ne sont pas encore disponibles publiquement au moment de la publication, ce qui limite l'évaluation indépendante des résultats. La prochaine étape naturelle serait une validation sur robot physique en dehors du protocole in-domain utilisé ici, car les gains mesurés en simulation n'impliquent pas directement un transfert sim-to-real amélioré.

RechercheOpinion
1 source
Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques
3arXiv cs.RO 

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

Des chercheurs proposent ORCHID, un cadre d'auto-entraînement présenté sur arXiv (2603.05291) qui s'attaque à un problème structurel de la manipulation robotique longue durée : la désynchronisation entre planificateur haut niveau et contrôleur bas niveau au sein des politiques hiérarchiques. Dans ces architectures, un planificateur décompose une instruction en langage naturel en sous-objectifs intermédiaires, que le contrôleur exécute physiquement. La difficulté est que les deux modules, entraînés séparément, opèrent sur des distributions de sous-objectifs incompatibles. ORCHID corrige cela en ligne : le système génère des trajectoires, les filtre selon le feedback de l'environnement (réussite ou échec de la tâche complète), puis distille les trajectoires conjointement réussies dans les deux modules via apprentissage supervisé. Il en résulte une co-adaptation bidirectionnelle : le planificateur ancre ses sous-objectifs dans les capacités réelles du contrôleur, tandis que le contrôleur se spécialise dans les structures de trajectoire que produit le planificateur. Sur le benchmark CALVIN, référence pour la manipulation séquentielle guidée par le langage, un modèle léger entraîné avec ORCHID surpasse les méthodes purement offline, y compris un modèle Vision-Language-Action (VLA) deux fois plus grand en paramètres. L'impact est notable sur deux points. En termes d'efficacité paramétrique, qu'un modèle léger dépasse un VLA deux fois plus lourd remet en question l'hypothèse courante que l'échelle seule suffit pour les tâches complexes. En termes de stabilité d'entraînement, combiner RL hiérarchique et modèles de diffusion est notoirement instable à cause de la propagation des gradients. ORCHID contourne ce problème en substituant la distillation supervisée sur échantillons filtrés au RL gradient classique, une voie potentiellement plus praticable dans les contextes industriels où la reproductibilité de l'entraînement est critique. Le mécanisme de co-adaptation proposé constitue un principe architectural plus général, transférable à d'autres familles de politiques hiérarchiques au-delà des modèles de diffusion. Le travail s'inscrit dans la dynamique actuelle autour des politiques de diffusion pour la robotique, portée par des frameworks comme Diffusion Policy (Chi et al., 2023) et π₀ de Physical Intelligence. ORCHID se distingue en ciblant non l'architecture mais la coordination inter-niveaux, un aspect souvent sous-traité par les approches VLA end-to-end qui fusionnent planification et contrôle dans un seul réseau. Le benchmark CALVIN, développé à l'Université de Freiburg, est la référence principale pour évaluer la généralisation en manipulation séquentielle sur des tâches à horizon long. Les prochaines étapes naturelles incluent une validation sur robots physiques et une extension à des horizons temporels plus longs, deux points que cet article n'aborde pas encore.

RechercheOpinion
1 source
IA hybride logique temporelle pour une collaboration humain-essaim fiable en environnements complexes
4arXiv cs.RO 

IA hybride logique temporelle pour une collaboration humain-essaim fiable en environnements complexes

Une équipe de recherche a publié le 12 mai 2026 sur arXiv (identifiant 2605.07877) un cadre neuro-symbolique destiné à la collaboration entre un opérateur humain et un essaim de robots hétérogènes dans des missions longue durée. Le système, baptisé dans le papier comme un framework de planification hybride, formalise les objectifs de mission et les règles opérationnelles sous forme de formules de logique temporelle, et encode les ordres de tâches admissibles comme des automates de tâches. Un LLM conditionné par ces contraintes formelles et par le contexte perceptuel en direct génère alors des séquences de sous-tâches exécutables, vérifiées a priori pour leur faisabilité. Un ordonnanceur sensible à l'incertitude redistribue ensuite ces sous-tâches au sein de la flotte pour maximiser le parallélisme, tandis qu'un protocole d'interaction déclenché par événement réduit l'implication de l'opérateur à des confirmations de haut niveau, rares et ciblées. Les expériences ont été menées sur une flotte robotique hétérogène réelle, sans que les auteurs ne précisent la composition exacte ni les environnements de test, ce qui limite l'interprétation des métriques de performance présentées. L'intérêt principal de ce travail est d'adresser un angle mort connu des approches LLM pures pour la planification robotique : la génération de plans syntaxiquement plausibles mais sémantiquement invalides, produisant des ordres de tâches impossibles ou des actions hors des capacités physiques du robot. En ancrant le LLM dans un formalisme de logique temporelle vérifiable, le framework réduit le taux de corrections manuelles et maintient la cohérence du plan face aux événements dynamiques, ce qui est critique pour des missions en environnements dangereux comme la recherche en zone sinistrée ou l'inspection industrielle. La réduction de la charge cognitive opérateur via le protocole événementiel est également pertinente pour des contextes de supervision à distance avec faible bande passante humaine. Ce type d'approche neuro-symbolique s'inscrit dans un courant de recherche en pleine expansion qui cherche à corriger les hallucinations et les échecs de planification des grands modèles de langage par des garde-fous formels, une direction explorée en parallèle par des laboratoires comme MIT CSAIL, ETH Zurich et le laboratoire LAAS-CNRS en France. Les travaux sur la vérification formelle de plans LLM se multiplient depuis 2024, portés notamment par les besoins de sûreté dans la robotique de service et la logistique autonome. Ce papier reste au stade de preprint arXiv et n'annonce pas de déploiement commercial ou de partenariat industriel ; les prochaines étapes naturelles seraient une validation à plus grande échelle et une publication en conférence (ICRA, IROS) avec benchmarks standardisés.

UELe LAAS-CNRS (Toulouse) travaille en parallèle sur des approches neuro-symboliques similaires, ce qui positionne la France comme acteur de ce courant de recherche ; une validation à grande échelle pourrait alimenter des projets EU sur la robotique d'inspection industrielle et de sécurité civile.

RecherchePaper
1 source