Follow Everything : suivi de leader et évitement…

Remise d'objet robot-humain : étude comparative sur l'orientation et la direction d'approche adaptatives

38

1arXiv cs.RO

Remise d'objet robot-humain : étude comparative sur l'orientation et la direction d'approche adaptatives

Des chercheurs ont publié sur arXiv (référence 2604.22378) un framework adaptatif de remise d'objet robot-à-humain qui ajuste dynamiquement la pose de livraison en temps réel, en fonction de la posture de la main de l'opérateur et de la tâche à effectuer ensuite. Contrairement aux systèmes à boucle ouverte qui imposent une orientation fixe, ce système couple une estimation de pose de la main par IA à des trajectoires cinématiquement contraintes, garantissant une approche sécurisée et une orientation optimale à la prise. Une étude utilisateur comparative a été menée sur plusieurs tâches, mesurant à la fois des métriques subjectives (NASA-TLX pour la charge cognitive, Human-Robot Trust Scale pour la confiance perçue) et des données physiologiques objectives via des eye-trackers portables mesurant le taux de clignement des yeux, indicateur validé de stress cognitif. Les résultats montrent que l'alignement dynamique réduit significativement la charge cognitive et le stress physiologique des opérateurs, tout en augmentant leur confiance dans la fiabilité du robot. C'est un résultat concret pour les intégrateurs industriels : la majorité des bras collaboratifs déployés aujourd'hui livrent les objets avec une orientation arbitraire ou prédéfinie, contraignant le worker à corriger la prise, ce qui génère de la fatigue et allonge les temps de cycle. Un système capable d'adapter la pose de remise à l'intention de l'opérateur pourrait réduire les TMS et améliorer le débit sur les lignes d'assemblage à forte interaction humain-robot. Ce travail s'inscrit dans un champ de recherche actif en HRI (Human-Robot Interaction) où la plupart des travaux antérieurs adaptaient seulement la position de livraison, sans tenir compte de l'orientation ni de la tâche aval. Le preprint ne mentionne pas d'industriel partenaire ni de robot commercial spécifique, et les tests restent en environnement contrôlé, le gap lab-to-floor n'est pas encore adressé. Les prochaines étapes naturelles seraient une validation sur plateforme réelle (UR, Franka, ou bras intégré à un humanoïde), et une extension aux environnements bruités où l'estimation de pose de main est moins robuste. Aucun acteur français n'est cité dans ce travail.

RecherchePaper

1 source

HumanFlow : navigation de drone MAV parmi les humains par diffusion, avec suivi, prévision et contrôle du mouvement

35

2arXiv cs.RO

HumanFlow : navigation de drone MAV parmi les humains par diffusion, avec suivi, prévision et contrôle du mouvement

Des chercheurs ont publié en mai 2026 un préprint arXiv (arXiv:2605.25685) présentant HumanFlow, un modèle de diffusion latente conçu pour la navigation de drones autonomes (MAVs, Micro Aerial Vehicles) dans des espaces peuplés. L'architecture unifie deux tâches habituellement traitées séparément : le suivi de la position 3D des personnes en temps réel (tracking) et la prédiction de leurs trajectoires futures (forecasting), le tout conditionné sur le contexte 3D de la scène environnante. La politique de contrôle associée repose sur un MPC (Model Predictive Control) approché par correspondance de flux (flow-matching), couplé directement à l'espace latent du modèle de perception. Les validations ont été conduites en simulation, en rejouant des trajectoires humaines réelles. Les auteurs annoncent de meilleures performances de tracking que les méthodes de référence, avec une efficacité computationnelle supérieure, et une navigation sans collision maintenue même en cas de visibilité partielle ou d'occultations sévères. L'apport central de HumanFlow est ce couplage serré (tight coupling) entre la perception humaine et la commande du robot, une intégration rarement réalisée dans la littérature de navigation sociale. Les systèmes existants échouent fréquemment lorsque des personnes sont partiellement masquées, produisant des estimations incohérentes avec la scène qui dégradent la sécurité et l'efficacité opérationnelle. En générant des prédictions de mouvement lisses et physiquement plausibles y compris sous occultation forte, le modèle réduit ce point de défaillance critique. Pour les intégrateurs de drones en environnement industriel, logistique ou public, c'est l'une des principales barrières à la certification : garantir la détection fiable des humains dans les angles morts. La démonstration que l'espace latent d'un modèle de diffusion peut directement piloter un contrôleur MPC ouvre une voie architecturale potentiellement transposable à des robots au sol ou des bras manipulateurs évoluant aux côtés d'opérateurs. HumanFlow s'inscrit dans un courant de recherche actif sur la navigation sociale robotique, dominé jusque-là par des approches basées sur des estimateurs déterministes ou des réseaux de prédiction de trajectoires tels que les architectures LSTM et Transformer. L'utilisation de modèles de diffusion pour la prédiction de mouvements humains est récente, apparue au milieu des années 2020, et HumanFlow en est l'une des premières applications directement couplées au contrôle. Ses concurrents directs incluent des pipelines séparant explicitement perception, prédiction et planification. Il faut noter que les validations restent entièrement en simulation : aucun déploiement physique sur drone réel n'est rapporté dans ce préprint, ce qui laisse ouverte la question du sim-to-real gap pour cette classe de modèles génératifs. Les prochaines étapes logiques seraient des essais sur MAV réel en environnement semi-contrôlé.

RecherchePaper

1 source

ConTrack : suivi du mouvement des mains sous contraintes avec contrôle adaptatif des compromis

38

3arXiv cs.RO

ConTrack : suivi du mouvement des mains sous contraintes avec contrôle adaptatif des compromis

ConTrack, un cadre d'apprentissage par renforcement (RL) publié sur arXiv en juin 2026 (arXiv:2606.03177), s'attaque à l'un des verrous les plus persistants de la manipulation dextère robotique : transférer fidèlement des démonstrations humaines vers un robot réel, en particulier dans des séquences longues impliquant de nombreux contacts. Le problème central, dit "kinematic gap", tient au fait qu'une politique de suivi doit simultanément maintenir les objets sur leurs trajectoires cibles, respecter la cinématique articulaire démontrée et reproduire les timings de contact, le tout sans pouvoir ajuster ses paramètres séquence par séquence. ConTrack résout cela en reformulant le suivi d'objet comme une contrainte plutôt que comme un terme de récompense : l'autorité de contrôle résiduelle est allouée à la fidélité du mouvement, et un mécanisme de mise à jour de variable duale permet d'ajuster dynamiquement le compromis tâche/style en ligne. Le système intègre également une bibliothèque de réinitialisations adaptatives en milieu de trajectoire, qui réutilise les états du simulateur atteignables par la politique courante pour stabiliser l'apprentissage sur des horizons longs. Les auteurs rapportent des améliorations significatives du taux de succès et de la précision de pose des objets par rapport aux approches existantes, validées à la fois en simulation et sur robot réel. L'intérêt de ConTrack pour les équipes de recherche et les intégrateurs robotiques tient à son passage à l'échelle : là où les méthodes précédentes nécessitaient un tuning manuel de la fonction de récompense pour chaque nouvelle séquence, l'approche par contraintes s'affranchit de ce goulot d'étranglement. C'est précisément ce type de réglage par séquence qui rendait les pipelines de manipulation dextère difficilement industrialisables. En séparant l'objectif de suivi d'objet de la préservation du style moteur, ConTrack offre une architecture plus modulaire, potentiellement applicable à des datasets de démonstrations humaines à grande échelle, un axe central dans les travaux récents sur les Visual Language Action (VLA) policies. Ce travail s'inscrit dans un courant très actif du sim-to-real pour la manipulation fine, aux côtés de travaux comme DexMimic, AnyTeleop ou les pipelines de l'équipe Stanford IRIS. L'absence d'affiliation institutionnelle explicite dans le résumé arXiv rend difficile le positionnement compétitif précis, mais la problématique rejoint directement les défis que rencontrent des acteurs comme Physical Intelligence (pi0), Dexterous AI ou les équipes manipulation de Boston Dynamics et Figure. La prochaine étape naturelle serait une évaluation sur des benchmarks standards comme DexArt ou TACO, et une validation sur une plus grande diversité de morphologies de mains robotiques. Il s'agit pour l'instant d'un preprint académique, sans déploiement industriel annoncé.

RecherchePaper

1 source

Évaluation de l'adaptation zéro-shot et one-shot des petits modèles de langage pour l'interaction leader-suiveur

38

4arXiv cs.RO

Évaluation de l'adaptation zéro-shot et one-shot des petits modèles de langage pour l'interaction leader-suiveur

Une équipe de chercheurs a publié une évaluation comparative de petits modèles de langage (SLMs) pour la classification de rôles en interaction humain-robot, avec un focus sur le paradigme leader-suiveur. L'étude, diffusée sur arXiv (2602.23312v3), porte sur Qwen2.5-0.5B, un modèle de seulement 500 millions de paramètres. Les chercheurs ont construit un benchmark original à partir d'une base de données existante, enrichie d'échantillons synthétiques pour capturer les dynamiques propres aux échanges leader-suiveur. Deux stratégies d'adaptation ont été testées, prompt engineering et fine-tuning, évaluées en modes zero-shot et one-shot, comparées à un modèle non entraîné. Le résultat le plus notable : le fine-tuning zero-shot atteint 86,66 % de précision en classification, avec une latence de 22,2 ms par échantillon. En revanche, les modes one-shot dégradent les performances, la longueur de contexte accrue dépassant la capacité architecturale du modèle. Ces résultats ont une portée directe pour les intégrateurs de robots mobiles et assistifs fonctionnant à la périphérie du réseau, là où le déploiement de LLMs complets (70B+) est hors de portée en raison des contraintes de mémoire, de puissance et de latence. La démonstration qu'un SLM fine-tuné peut assigner des rôles conversationnels en temps réel avec moins de 25 ms de délai est un argument concret contre le réflexe "plus grand est meilleur". Elle valide aussi l'approche par fine-tuning ciblé plutôt que par ingénierie de prompt pour des tâches de classification embarquées, ce qui simplifie le pipeline de déploiement sans dépendre d'un serveur distant. Le paradigme leader-suiveur est fondamental dans les applications HRI : robots de guidage, assistance à la mobilité, plateformes collaboratives. Les LLMs comme LLaMA ou Mistral ont démontré des capacités de dialogue naturel, mais leur taille les confine au cloud. L'essor des SLMs optimisés, Qwen2.5, Phi-3, Gemma-2B, ouvre une nouvelle piste pour l'embarqué. L'étude identifie cependant une limite critique : la gestion du contexte long reste un goulot d'étranglement pour les modèles sous le milliard de paramètres, ce qui restreint les interactions multi-tours. Les prochaines étapes naturelles sont l'évaluation sur matériel embarqué réel (Jetson, Raspberry Pi 5) et l'extension à des architectures légèrement plus larges pour tester si le compromis contexte-précision se déplace.

RecherchePaper

1 source

Follow Everything : suivi de leader et évitement d'obstacles avec adaptation orientée objectif

À lire aussi

Remise d'objet robot-humain : étude comparative sur l'orientation et la direction d'approche adaptatives

HumanFlow : navigation de drone MAV parmi les humains par diffusion, avec suivi, prévision et contrôle du mouvement

ConTrack : suivi du mouvement des mains sous contraintes avec contrôle adaptatif des compromis

Évaluation de l'adaptation zéro-shot et one-shot des petits modèles de langage pour l'interaction leader-suiveur