L-Learning : une approche basée sur Lyapunov exploitant…

TAGA : une approche réactive basée sur les tangentes pour la navigation socialement acceptable des robots autour des groupes humains

38

1arXiv cs.RO

TAGA : une approche réactive basée sur les tangentes pour la navigation socialement acceptable des robots autour des groupes humains

Des chercheurs ont publié sur arXiv (réf. 2503.21168) TAGA (Tangent Action for Group Avoidance), une couche de navigation modulaire conçue pour que les robots mobiles contournent non seulement les individus, mais aussi les groupes sociaux constitués dans les espaces publics. L'algorithme détecte les limites implicites d'un groupe humain via des manœuvres tangentielles et les transmet à un contrôleur hiérarchique qui coordonne l'évitement de groupe avec la prévention classique des collisions individuelles, sans modifier la politique de navigation sous-jacente. Pour évaluer la conformité sociale au-delà des métriques terminales binaires (succès/échec), les auteurs introduisent le Group Crossing Rate (GCR), une métrique continue mesurant la fraction de pas de temps pendant lesquels le robot se trouve à l'intérieur du hull convexe d'un groupe. Les tests se basent sur un benchmark de simulation reproduisant cinq comportements empiriquement documentés : hétérogénéité des vitesses individuelles, couplage de vitesse intra-groupe, formations en F statiques, dynamiques leader-suiveur, et limites de hulls convexes, le tout évalué sous les modèles piétons ORCA et Social Force. Les résultats révèlent une asymétrie entre approches réactives classiques et politiques apprises : TAGA apporte jusqu'à 8 points de pourcentage de gain en taux de succès et divise par deux le GCR pour les baselines réactives type ORCA et Social Force, avec un surcoût quasi nul pour les politiques apprises comme DS-RNN ou Intention-RL. Ce résultat est actionnable pour les intégrateurs : il indique précisément quand ajouter un module de conscience de groupe par-dessus un planificateur existant est rentable, versus quand un entraînement end-to-end intégrant les groupes dès le départ est préférable. Pour les déploiements en milieu hospitalier, aéroportuaire ou retail, où la perception de la robotique par les usagers pèse autant que la performance brute, réduire les intrusions dans les bulles sociales représente un levier opérationnel concret. La navigation socialement conforme (socially-aware navigation) est un axe de recherche actif depuis les travaux fondateurs sur le Social Force Model de Helbing et Molnár (1995) et les travaux ORCA de Van Den Berg. TAGA s'inscrit dans une tendance récente qui vise à séparer les préoccupations sociales et cinématiques plutôt qu'à tout fusionner dans un unique réseau de bout en bout. Des approches concurrentes incluent les travaux de Crowd-Nav, SARL, et les politiques RLSS. L'absence de validation sur robot réel reste la limite principale de cette publication académique. Les prochaines étapes logiques seront un test sur plateforme physique (AMR de type Clearpath ou Boston Dynamics Spot) et une intégration avec des stacks ROS2 standard.

RecherchePaper

1 source

Contrôle PI basé sur Lyapunov pour le suivi robuste de trajectoire d'un robot à quatre roues indépendantes : conception et validation expérimentale

38

2arXiv cs.RO

Contrôle PI basé sur Lyapunov pour le suivi robuste de trajectoire d'un robot à quatre roues indépendantes : conception et validation expérimentale

Des chercheurs ont publié sur arXiv (référence 2602.15424v2) une loi de commande de type PI synthétisée par méthode de Lyapunov pour le suivi robuste de trajectoire d'un robot mobile à quatre roues indépendamment motorisées et directrices (4WID-4WIS, pour four-wheel independently driven and steered). Le modèle mathématique du robot est structurellement vérifié, ce qui permet une conception systématique avec des garanties formelles de stabilité, adaptées à l'implémentation temps réel. La loi de commande combine une structure PI classique avec une compensation anticipatrice fondée sur le modèle (feedforward model-based). Elle a été validée expérimentalement sur une plateforme 4WID-4WIS physique dans des conditions d'opération horizontales et verticales, et comparée à un régulateur PI standard ainsi qu'à un contrôleur en mode glissant (SMC, sliding-mode controller). L'apport principal de ces travaux est la combinaison de garanties formelles de stabilité et d'une architecture légère, déployable sur des microcontrôleurs embarqués standard. L'analyse de stabilité pratique augmentée fournit des bornes explicites sur les dynamiques d'erreur de vitesse et d'erreur intégrale, ce qui permet à un intégrateur de dimensionner les marges opérationnelles sans simulation extensive. La loi de commande proposée surpasse le PI classique et l'approche par mode glissant en robustesse face aux dynamiques résiduelles dépendantes de la configuration et aux effets non modélisés. Pour un industriel ou un intégrateur de robots mobiles autonomes (AMR), cela signifie un contrôleur implémentable sur matériel embarqué standard, avec des garanties prouvables et sans la complexité d'ajustement propre au mode glissant. Les robots 4WID-4WIS offrent une maniabilité omnidirectionnelle que les architectures différentielles ou Ackermann n'atteignent pas, mais leur dynamique couplée complique la synthèse de régulateurs performants et stables. Ces travaux s'inscrivent dans un courant visant à rendre rigoureusement prouvables des lois de commande déjà utilisées empiriquement en industrie. Côté positionnement concurrentiel, les contrôleurs en mode glissant garantissent une robustesse comparable mais souffrent du chattering et d'un réglage plus délicat; les approches MPC (Model Predictive Control) offrent une optimalité supérieure au prix d'une charge de calcul souvent incompatible avec les plateformes embarquées légères. Aucun partenaire industriel ni déploiement commercial n'est annoncé dans cette publication purement académique, dont la suite logique serait une validation sur des cycles opérationnels réels en environnement logistique ou de service.

RecherchePaper

1 source

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

42

3arXiv cs.RO

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper

1 source

E²DT : Decision Transformer efficace avec échantillonnage guidé par l'expérience pour la manipulation robotique

38

4arXiv cs.RO

E²DT : Decision Transformer efficace avec échantillonnage guidé par l'expérience pour la manipulation robotique

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.00159) un nouveau cadre d'apprentissage par renforcement pour la manipulation robotique, baptisé E²DT (Efficient and Effective Decision Transformer). Le système s'appuie sur l'architecture Decision Transformer (DT), qui traite l'apprentissage par renforcement comme un problème de modélisation de séquences, et y intègre un mécanisme de sélection d'expériences fondé sur un k-Processus Ponctuel Déterminantal (k-DPP). Concrètement, E²DT remplace le replay uniforme standard par un échantillonnage guidé combinant trois critères : le retour cumulatif attendu (return-to-go, RTG), l'incertitude prédictive du modèle, et la représentativité des phases de la tâche via une fréquence inverse. La méthode est évaluée sur des benchmarks de manipulation robotique en simulation et sur robot réel, et surpasse systématiquement les approches antérieures, selon les auteurs. Le problème adressé est concret et bien connu des équipes de R&D : le Decision Transformer standard tire ses trajectoires d'entraînement de façon uniforme depuis le replay buffer, ce qui aboutit à une mauvaise efficacité d'échantillonnage, une exploration limitée et une convergence sous-optimale, particulièrement pénalisant sur des tâches à long horizon où les transitions rares sont décisives. E²DT propose un noyau joint qualité-diversité qui force le modèle à sélectionner activement les expériences les plus informatives, en mesurant la diversité via les embeddings latents internes du DT lui-même. Pour les intégrateurs industriels travaillant sur des bras manipulateurs ou des cellules robotisées, cela ouvre un chemin vers des politiques robustes avec moins de données de démonstration, réduisant potentiellement les cycles de mise en production. Le Decision Transformer, introduit par Chen et al. en 2021, a rapidement été adopté comme référence dans de nombreux travaux de manipulation. Ses faiblesses liées au replay passif ont déjà motivé des variantes comme l'Online Decision Transformer ou des approches à experience replay prioritaire (PER). E²DT s'inscrit dans cette lignée en combinant diversité et qualité composite dans un unique cadre d'échantillonnage. Aucune affiliation industrielle ni timeline de déploiement n'est mentionnée dans le preprint : il s'agit d'une contribution académique, sans produit ni partenariat annoncé à ce stade.

RecherchePaper

1 source

L-Learning : une approche basée sur Lyapunov exploitant la mécanique lagrangienne pour un suivi robotique efficace et stable

À lire aussi

TAGA : une approche réactive basée sur les tangentes pour la navigation socialement acceptable des robots autour des groupes humains

Contrôle PI basé sur Lyapunov pour le suivi robuste de trajectoire d'un robot à quatre roues indépendantes : conception et validation expérimentale

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

E²DT : Decision Transformer efficace avec échantillonnage guidé par l'expérience pour la manipulation robotique