Aller au contenu principal
Follow Everything : suivi de leader et évitement d'obstacles avec adaptation orientée objectif
RecherchearXiv cs.RO20h

Follow Everything : suivi de leader et évitement d'obstacles avec adaptation orientée objectif

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs propose "Follow Everything", un framework de suivi de leader pour robots mobiles à pattes, décrit dans un preprint arXiv (2504.19399, avril 2025). L'approche abandonne les modèles de détection classiques au profit d'un modèle de segmentation, ce qui permet au robot de suivre n'importe quelle entité sans contrainte préalable : humain, robot terrestre, drone, robot à pattes ou simple panneau "stop". Un "distance frame buffer" stocke les embeddings visuels du leader à plusieurs échelles pour maintenir la reconnaissance lors des pertes de vue temporaires. Un mécanisme de "goal-aware adaptation" détermine ensuite les états de planification selon la visibilité et le mouvement du leader, relayé par un planificateur à graphe qui génère des trajectoires candidates tout en assurant l'évitement d'obstacles. Les tests en simulation et en conditions réelles, en intérieur comme en extérieur, montrent des améliorations mesurées sur le taux de succès de suivi, la durée de perte visuelle, le taux de collision et la distance robot-leader.

L'enjeu est direct pour les intégrateurs de robots mobiles en environnements non structurés. Les solutions actuelles de suivi, qu'il s'agisse de plateformes AMR logistiques ou de quadrupèdes d'inspection, reposent sur des détecteurs entraînés pour un type de leader précis, les rendant fragiles dès que le contexte change. La généralisation par segmentation ouvre la voie à des déploiements multi-contextes sans retraining, et la gestion explicite des états de visibilité résout un angle mort fréquent : la plupart des systèmes existants échouent silencieusement lors d'une occlusion prolongée.

Ces travaux s'inscrivent dans un courant actif sur la navigation sociale et l'interaction humain-robot. Les plateformes testées sont des robots à pattes, segment porté en industrie par Boston Dynamics, Unitree ou ANYbotics. Des approches concurrentes basées sur des VLAs (visual-language-action models) adressent des problèmes adjacents mais couvrent rarement à la fois la généralisation à des leaders arbitraires et la robustesse à l'occlusion. Il s'agit pour l'instant d'une contribution académique sans partenariat industriel annoncé, à distinguer d'un produit commercialisé ; les prochaines étapes naturelles seraient une validation sur des AMR différentiels ou des plateformes commerciales comme le Spot de Boston Dynamics.

À lire aussi

Remise d'objet robot-humain : étude comparative sur l'orientation et la direction d'approche adaptatives
1arXiv cs.RO 

Remise d'objet robot-humain : étude comparative sur l'orientation et la direction d'approche adaptatives

Des chercheurs ont publié sur arXiv (référence 2604.22378) un framework adaptatif de remise d'objet robot-à-humain qui ajuste dynamiquement la pose de livraison en temps réel, en fonction de la posture de la main de l'opérateur et de la tâche à effectuer ensuite. Contrairement aux systèmes à boucle ouverte qui imposent une orientation fixe, ce système couple une estimation de pose de la main par IA à des trajectoires cinématiquement contraintes, garantissant une approche sécurisée et une orientation optimale à la prise. Une étude utilisateur comparative a été menée sur plusieurs tâches, mesurant à la fois des métriques subjectives (NASA-TLX pour la charge cognitive, Human-Robot Trust Scale pour la confiance perçue) et des données physiologiques objectives via des eye-trackers portables mesurant le taux de clignement des yeux, indicateur validé de stress cognitif. Les résultats montrent que l'alignement dynamique réduit significativement la charge cognitive et le stress physiologique des opérateurs, tout en augmentant leur confiance dans la fiabilité du robot. C'est un résultat concret pour les intégrateurs industriels : la majorité des bras collaboratifs déployés aujourd'hui livrent les objets avec une orientation arbitraire ou prédéfinie, contraignant le worker à corriger la prise, ce qui génère de la fatigue et allonge les temps de cycle. Un système capable d'adapter la pose de remise à l'intention de l'opérateur pourrait réduire les TMS et améliorer le débit sur les lignes d'assemblage à forte interaction humain-robot. Ce travail s'inscrit dans un champ de recherche actif en HRI (Human-Robot Interaction) où la plupart des travaux antérieurs adaptaient seulement la position de livraison, sans tenir compte de l'orientation ni de la tâche aval. Le preprint ne mentionne pas d'industriel partenaire ni de robot commercial spécifique, et les tests restent en environnement contrôlé, le gap lab-to-floor n'est pas encore adressé. Les prochaines étapes naturelles seraient une validation sur plateforme réelle (UR, Franka, ou bras intégré à un humanoïde), et une extension aux environnements bruités où l'estimation de pose de main est moins robuste. Aucun acteur français n'est cité dans ce travail.

RecherchePaper
1 source
HumanFlow : navigation de drone MAV parmi les humains par diffusion, avec suivi, prévision et contrôle du mouvement
2arXiv cs.RO 

HumanFlow : navigation de drone MAV parmi les humains par diffusion, avec suivi, prévision et contrôle du mouvement

Des chercheurs ont publié en mai 2026 un préprint arXiv (arXiv:2605.25685) présentant HumanFlow, un modèle de diffusion latente conçu pour la navigation de drones autonomes (MAVs, Micro Aerial Vehicles) dans des espaces peuplés. L'architecture unifie deux tâches habituellement traitées séparément : le suivi de la position 3D des personnes en temps réel (tracking) et la prédiction de leurs trajectoires futures (forecasting), le tout conditionné sur le contexte 3D de la scène environnante. La politique de contrôle associée repose sur un MPC (Model Predictive Control) approché par correspondance de flux (flow-matching), couplé directement à l'espace latent du modèle de perception. Les validations ont été conduites en simulation, en rejouant des trajectoires humaines réelles. Les auteurs annoncent de meilleures performances de tracking que les méthodes de référence, avec une efficacité computationnelle supérieure, et une navigation sans collision maintenue même en cas de visibilité partielle ou d'occultations sévères. L'apport central de HumanFlow est ce couplage serré (tight coupling) entre la perception humaine et la commande du robot, une intégration rarement réalisée dans la littérature de navigation sociale. Les systèmes existants échouent fréquemment lorsque des personnes sont partiellement masquées, produisant des estimations incohérentes avec la scène qui dégradent la sécurité et l'efficacité opérationnelle. En générant des prédictions de mouvement lisses et physiquement plausibles y compris sous occultation forte, le modèle réduit ce point de défaillance critique. Pour les intégrateurs de drones en environnement industriel, logistique ou public, c'est l'une des principales barrières à la certification : garantir la détection fiable des humains dans les angles morts. La démonstration que l'espace latent d'un modèle de diffusion peut directement piloter un contrôleur MPC ouvre une voie architecturale potentiellement transposable à des robots au sol ou des bras manipulateurs évoluant aux côtés d'opérateurs. HumanFlow s'inscrit dans un courant de recherche actif sur la navigation sociale robotique, dominé jusque-là par des approches basées sur des estimateurs déterministes ou des réseaux de prédiction de trajectoires tels que les architectures LSTM et Transformer. L'utilisation de modèles de diffusion pour la prédiction de mouvements humains est récente, apparue au milieu des années 2020, et HumanFlow en est l'une des premières applications directement couplées au contrôle. Ses concurrents directs incluent des pipelines séparant explicitement perception, prédiction et planification. Il faut noter que les validations restent entièrement en simulation : aucun déploiement physique sur drone réel n'est rapporté dans ce préprint, ce qui laisse ouverte la question du sim-to-real gap pour cette classe de modèles génératifs. Les prochaines étapes logiques seraient des essais sur MAV réel en environnement semi-contrôlé.

RecherchePaper
1 source
Diffusion de carte d'étiquettes plug-and-play pour la navigation universelle orientée objectif
3arXiv cs.RO 

Diffusion de carte d'étiquettes plug-and-play pour la navigation universelle orientée objectif

Une équipe de chercheurs a publié le 8 mai 2026 sur arXiv (référence 2605.05960) une méthode baptisée PLMD (Plug-and-Play Label Map Diffusion) pour la navigation robotique orientée objectif, dite GON (Goal-Oriented Navigation). Le défi central de cette classe de problèmes est le suivant : un robot doit localiser un objet cible dans un environnement qu'il n'a pas encore exploré, en construisant simultanément une carte en vue du dessus (BEV, Bird's-Eye-View). PLMD mobilise les modèles de diffusion probabiliste par débruitage (DDPM), popularisés en génération d'images, pour compléter ces cartes partielles à la volée : le système génère des étiquettes d'obstacles et des labels sémantiques pour les zones non encore visitées, permettant au robot de raisonner sur des régions qu'il n'a pas encore traversées. Les auteurs annoncent des performances état de l'art sur trois tâches GON distinctes, sans détailler les benchmarks ni les marges dans le seul abstract disponible. L'intérêt de l'approche tient à deux corrections apportées aux limites des méthodes existantes. Les cartes sémantiques auto-centrées échouent fréquemment en exploration partielle, précisément le cas réel, car elles supposent une connaissance complète de l'environnement. PLMD contourne ce verrou en extrapolant les zones inconnues de façon structurée, en exploitant la cohérence géométrique entre obstacles connus et inconnus pour guider le débruitage sémantique. Parallèlement, l'incohérence d'association sémantique, un même objet catégorisé différemment selon le point de vue du robot, est atténuée en intégrant des priors d'obstacles dans ce processus. Le qualificatif "plug-and-play" n'est pas qu'un argument marketing : la méthode est architecturée pour se greffer sur des pipelines de navigation sémantique existants sans réentraînement complet des modules sous-jacents, ce qui facilite son adoption dans des systèmes déjà déployés. La navigation orientée objectif dans des environnements non cartographiés est un problème de référence de l'embodied AI, évalué classiquement sur des benchmarks comme HM3D, MP3D ou RoboTHOR. Les approches concurrentes vont de l'exploration par frontières (frontier-based) aux modèles de langage visuels (VLM) comme EmbCLIP ou ESC, qui contournent la carte explicite en s'appuyant sur des embeddings pré-entraînés. PLMD se positionne dans le segment "map-based" en cherchant à corriger ses faiblesses structurelles plutôt qu'à les éviter. L'application des modèles de diffusion à la complétion de cartes topologiques est une direction de recherche émergente, distincte de leur usage en synthèse d'images ou de trajectoires. À ce stade, la contribution reste une validation en simulation, une évaluation sur robots physiques constituerait la prochaine étape décisive.

RecherchePaper
1 source
Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique
4arXiv cs.RO 

Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique

Une équipe de chercheurs a publié en mai 2025 sur arXiv (référence 2605.12084) une méthode appelée Quasi-Optimal Experimental Design, ou QOED, visant à résoudre un problème fondamental de l'exploration robotique : comment guider un robot vers les expériences qui lui apprendront réellement quelque chose d'utile ? La méthode repose sur une analyse de l'espace propre de la matrice d'information de Fisher pour identifier les directions de paramètres réellement observables, puis modifie l'objectif d'exploration pour concentrer l'effort sur ces directions tout en atténuant l'influence des paramètres secondaires ("nuisance"). Évaluée sur des tâches de navigation et de manipulation en simulation et en conditions réelles, QOED génère un gain de performance de 35,23 % grâce à la sélection des directions identifiables, et de 21,98 % supplémentaires via la suppression des effets parasites. Intégrée comme objectif d'exploration dans une boucle d'optimisation de politique model-based, elle surpasse les baselines classiques de RL. Ce résultat compte parce qu'il attaque directement le goulot d'étranglement de l'apprentissage actif en robotique : dans les systèmes haute dimension (bras articulés, manipulation dextre, navigation en environnement non structuré), une large fraction des paramètres du modèle est faiblement observable, voire non identifiable. Les méthodes classiques de curiosité ou d'information gain mesurent une incertitude globale sans distinguer ce qui peut être réduit par l'expérience de ce qui ne le peut pas. QOED fournit une approximation à facteur constant de l'objectif idéal théorique, une garantie formelle rare dans ce champ, ce qui lui confère une légitimité au-delà de la démonstration empirique seule. La méthode s'inscrit dans une longue tradition de théorie du design expérimental optimal (OED) issue des statistiques, ici adaptée au cadre RL avec optimisation en ligne. Sur le plan concurrentiel, les approches voisines incluent les méthodes de curiosité bayésienne (type DIAYN ou LEXA) et les objectifs d'information mutuelle comme VIME ou Plan2Explore. QOED se distingue par son ancrage théorique rigoureux et l'explicitation du sous-espace identifiable, deux points que les méthodes heuristiques négligent. Aucun déploiement industriel ni partenaire n'est mentionné : il s'agit à ce stade d'un résultat académique, dont l'intégration dans des pipelines de calibration ou de sim-to-real reste à valider à plus grande échelle.

RecherchePaper
1 source