Aller au contenu principal

Dossier arXiv cs.RO — page 33

1607 articles · page 33 sur 33

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Modélisation d'actions généralement covariante : construction de variétés généralisées par découplage spatio-temporel
1601arXiv cs.RO RechercheOpinion

Modélisation d'actions généralement covariante : construction de variétés généralisées par découplage spatio-temporel

Un préprint soumis sur arXiv le 2 juin 2026 (identifiant 2606.00110) introduit le cadre GAM (Generalized Action Manifold), une approche architecturale pour améliorer la généralisation des politiques robotiques en intelligence incarnée. Le problème ciblé est précis : les méthodes actuelles de Vision-Language-Action (VLA) entraînent les robots à régresser des coordonnées absolues, liant la politique à un style de mouvement et une vitesse d'exécution fixes. GAM résout cela via deux mécanismes orthogonaux. Le premier, l'Arc-Length Parameterizer, sépare la géométrie spatiale d'une trajectoire de sa dynamique temporelle, rendant la politique insensible aux variations de vitesse. Le second, le Schema-Affine-Factorization, projette les trajectoires dans un repère normalisé (pose-normalized coordinate frame), distinguant les schémas géométriques invariants des modulations affines locales. Intégré dans une architecture VLA structurée, GAM permet à un faible nombre de démonstrations de peupler densément un manifold d'actions continu et valide. Les auteurs rapportent des performances supérieures aux baselines geometry-agnostic sur des benchmarks empiriques, sans préciser les robots ou plateformes testés. L'enjeu industriel est direct : la généralisation depuis un nombre limité de démonstrations reste l'un des verrous les plus coûteux du déploiement robotique. Dans les usines où les intégrateurs doivent collecter des milliers de trajectoires par variante de tâche, réduire ce volume a un impact économique concret. Le principe de covariance générale, emprunté à la physique relativiste, stipule qu'une loi ne doit pas dépendre du système de coordonnées choisi. Appliqué à la robotique, cela signifie apprendre la structure géométrique intrinsèque d'une tâche plutôt que les habitudes motrices d'un démonstrateur humain. Si validée à l'échelle, cette approche s'attaquerait directement au demo-to-reality gap et au sim-to-real transfer, deux obstacles persistants pour des systèmes VLA commerciaux comme Pi-0 de Physical Intelligence ou OpenVLA. La recherche VLA s'est accélérée depuis 2024 avec Pi-0, RDT-1B, Octo, et les travaux de NVIDIA sur GR00T N2. GAM se positionne comme une couche d'invariance structurelle compatible avec ces architectures existantes plutôt que comme un modèle concurrent. Ce papier reste à ce stade un preprint non relu par des pairs, sans validation sur des robots physiques identifiés ni données de déploiement réel. Aucun auteur, institution ou partenaire industriel n'est mentionné dans l'abstract disponible, ce qui limite l'évaluation de la crédibilité et de la roadmap concrète. La prochaine étape naturelle serait une soumission à CoRL, ICRA ou RSS avec des expériences sur manipulateurs physiques dans des environnements semi-structurés.

1 source
Contrôle par planification réactive pour robots mobiles en environnements encombrés d'obstacles
1602arXiv cs.RO 

Contrôle par planification réactive pour robots mobiles en environnements encombrés d'obstacles

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.14232v1) une méthode de contrôle de mouvement pour robots mobiles évoluant dans des environnements encombrés d'obstacles. L'approche, baptisée RPCS (Reactive Planning based Control Strategy), s'attaque à un problème classique de la robotique mobile : déplacer un robot d'un point de départ à une cible sans collision, en ne disposant que d'une information partielle sur l'environnement, c'est-à-dire sans carte globale préalable. Le système fonctionne en deux couches combinées : une trajectoire de référence est d'abord tracée en ligne droite entre les deux points, puis un module de planification réactive (RPS) la modifie localement à la volée lorsque des obstacles sont détectés. Un contrôleur de suivi adaptatif (ATCS), basé sur des techniques de discrétisation, assure ensuite l'exécution effective de cette trajectoire potentiellement modifiée. Les résultats présentés s'appuient uniquement sur des simulations numériques, sans validation hardware reportée. L'intérêt de cette architecture réside dans la séparation claire entre planification réactive et contrôle de suivi, ce qui permet théoriquement d'adapter chaque couche indépendamment selon le robot cible. Pour les intégrateurs travaillant sur des AGV ou AMR dans des entrepôts à géométrie variable, la capacité à opérer sans carte globale complète reste un enjeu réel, les approches purement réactives souffrent souvent de blocages locaux, et les approches globales peinent face aux environnements dynamiques. L'ATCS adaptatif suggère une robustesse potentielle aux perturbations de modèle, mais l'absence d'expérimentation physique limite la portée des conclusions à ce stade. Ce travail s'inscrit dans une longue tradition de recherche sur la navigation réactive, depuis les champs de potentiel de Khatib (1986) jusqu'aux approches VFH et DWA largement déployées dans ROS. Les chercheurs ne positionnent pas explicitement leur méthode face aux planificateurs modernes appris (RL, imitation learning) qui commencent à équiper des plateformes commerciales comme Spot de Boston Dynamics ou les AMR de MiR. La prochaine étape naturelle serait une validation sur robot réel en environnement semi-structuré, condition sine qua non pour que la méthode pèse dans le débat industriel.

RecherchePaper
1 source
Patrouille multi-robots : algorithme distribué, partitionnement émergent des zones et conscience situationnelle de la base
1603arXiv cs.RO 

Patrouille multi-robots : algorithme distribué, partitionnement émergent des zones et conscience situationnelle de la base

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.01501) un algorithme distribué baptisé LR-PT (Local Reactive and Partition) destiné à la patrouille multi-robots. Le principe central : chaque robot sélectionne sa cible de patrouille de manière autonome, à partir d'informations locales uniquement, en combinant dans une fonction d'utilité unifiée deux critères -- la fréquence de couverture des zones d'intérêt et l'urgence de remonter l'état de mission à la station de base. En simulation, LR-PT surpasse les algorithmes de référence existants sur deux métriques clés : la fréquence de visite de l'ensemble des points surveillés et la qualité de la "situation awareness" de l'opérateur à la base, c'est-à-dire sa capacité à prédire les comportements des robots, soutenir la prise de décision et déclencher des interventions d'urgence. L'intérêt technique tient à deux propriétés émergentes. Premièrement, la partition spatiale se forme spontanément sans coordinateur central, ce qui évite les pièges des optima locaux classiques dans les algorithmes de couverture. Deuxièmement, l'architecture entièrement locale confère une robustesse démontrée aux contraintes de communication et aux pannes de robots individuels -- un point critique pour les déploiements industriels en entrepôt, site industriel ou périmètre de sécurité. Pour les décideurs B2B, cela signifie une flotte de robots de surveillance qui continue de fonctionner de façon dégradée plutôt que de s'effondrer complètement en cas de défaillance partielle. La mise en avant explicite de la situation awareness opérateur est aussi notable : c'est un angle souvent négligé dans la littérature sur les essaims robotiques, davantage focalisée sur les métriques de couverture. La patrouille multi-robots est un domaine de recherche actif depuis les années 2000, avec des approches concurrentes comme les algorithmes à base de cartes d'idleness (Chevaleyre, Portugal & Rocha) ou les méthodes par apprentissage par renforcement. LR-PT se positionne dans la famille des algorithmes réactifs locaux, plus simples à déployer sur matériel contraint. Limite importante à noter : les résultats sont exclusivement issus de simulation, le fossé sim-to-real n'est pas adressé. Aucun déploiement réel ni partenariat industriel n'est mentionné, et aucune timeline vers une validation terrain n'est annoncée dans le papier.

RecherchePaper
1 source
RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde
1604arXiv cs.RO 

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde

Une équipe de chercheurs a publié le 21 avril 2026 sur arXiv (2604.21355) un framework baptisé RPG (Robust Policy Gating), conçu pour permettre à des robots humanoïdes d'enchaîner plusieurs compétences de combat dynamique sans instabilité. L'approche repose sur une politique unifiée entraînée avec deux mécanismes de randomisation : la randomisation des transitions de mouvement, qui expose la politique à des états initiaux et terminaux variés entre compétences, et la randomisation temporelle, qui rend l'agent robuste aux coupures imprévises dans la séquence de mouvements. La pipeline de contrôle intègre la locomotion (marche, course) avec les compétences de combat, permettant théoriquement des séquences de durée arbitraire. Le système a été validé en simulation extensive, puis déployé sur le robot humanoïde Unitree G1, la plateforme à 23 DDL du constructeur chinois Unitree Robotics. Le problème central que RPG adresse est connu dans le domaine sous le nom de "skill transition gap" : lorsqu'un agent bascule d'une politique spécialisée à une autre, les états terminaux de la première ne correspondent pas aux états initiaux supposés de la seconde, produisant des comportements hors domaine, des chutes ou des mouvements saccadés. Les approches concurrentes utilisent soit une commutation entre politiques mono-compétence, soit une politique généraliste qui imite des motion clips de référence -- les deux souffrent de ce décalage. RPG propose une solution d'entraînement plutôt que d'architecture, ce qui est notable : la robustesse aux transitions est injectée pendant la phase d'apprentissage, pas via un mécanisme de gating à l'inférence. L'absence de métriques quantitatives dans la publication (temps de cycle, taux de chute, nombre de transitions testées) limite cependant la comparaison directe avec d'autres travaux. RPG s'inscrit dans une vague active de recherche sur le contrôle corps entier des humanoïdes pour des tâches hautement dynamiques, un domaine où les laboratoires UCB, CMU et Stanford publient régulièrement depuis 2023. L'utilisation du G1 comme plateforme de validation est cohérente avec sa popularité croissante en recherche académique, notamment grâce à son coût inférieur à celui des plateformes concurrentes (Boston Dynamics Atlas, Agility Digit). Sur le plan commercial, des acteurs comme Figure AI, 1X Technologies ou Apptronik ciblent des tâches répétitives en entrepôt plutôt que le combat, mais les techniques de transition de compétences développées ici sont directement transposables aux scénarios industriels nécessitant des enchaînements fluides de manipulation et de locomotion. La prochaine étape naturelle serait une évaluation quantitative en conditions adversariales réelles, ainsi qu'un transfert vers des tâches moins "spectaculaires" mais plus proches du déploiement B2B.

RecherchePaper
1 source
Vers une fluidité d'interaction dans un système robotique Wizard-of-Oz : un prototype pour la correction d'erreurs fluide
1605arXiv cs.RO 

Vers une fluidité d'interaction dans un système robotique Wizard-of-Oz : un prototype pour la correction d'erreurs fluide

Un préprint déposé sur arXiv en avril 2026 (identifiant 2604.19374) propose un cadre formel pour concevoir des plateformes de type Wizard-of-Oz (WoZ) dédiées à l'interaction homme-robot, et présente un environnement de simulation en réalité virtuelle destiné aux manipulateurs mobiles. Le principe WoZ, emprunté à la psychologie expérimentale, consiste à faire opérer un robot par un opérateur humain caché pendant que l'utilisateur croit interagir avec un système autonome, méthode couramment utilisée pour collecter des données et prototyper des interfaces avant déploiement réel. Les auteurs identifient quatre propriétés clés qu'une telle plateforme doit satisfaire pour permettre une correction d'erreur fluide : l'interruptibilité et la correction (IaC), la pollabilité (capacité à interroger l'état du système à tout instant), la mesure et l'optimisation de la latence perçue, et la reproductibilité temporellement précise des actions à partir des journaux de logs. L'importance de ce travail réside dans le diagnostic qu'il pose : l'interaction vocale avec les robots reste laborieuse et frustrante dans l'état de l'art actuel, en partie faute de plateformes de développement WoZ suffisamment outillées pour itérer sur la fluidité conversationnelle. Sans mécanisme pour mesurer la latence, simuler les interruptions ou rejouer fidèlement des séquences d'interaction depuis des données enregistrées, il est difficile de progresser méthodiquement vers des interfaces robustes. Ce cadre outille potentiellement les équipes qui développent des interfaces vocales pour cobots industriels ou robots d'assistance, en leur fournissant des critères quantifiables pour évaluer leurs prototypes. Ce travail s'inscrit dans une littérature en HRI qui cherche à combler le fossé entre les démonstrations en laboratoire et les déploiements réels. L'utilisation de la réalité virtuelle comme environnement de simulation pour manipulateurs mobiles gagne du terrain pour réduire les coûts de prototypage physique. Les auteurs s'appuient explicitement sur des systèmes WoZ antérieurs pour formaliser leurs critères, sans toutefois citer de plateforme concurrente nommément. À ce stade, il s'agit d'un prototype de recherche et d'un cadre théorique, sans déploiement industriel ni partenariat commercial annoncé. Les prochaines étapes naturelles impliqueraient des études utilisateurs validant que ces critères améliorent effectivement la fluidité perçue dans des scénarios opérationnels.

RecherchePaper
1 source
Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football
1606arXiv cs.RO 

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs. Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique. Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

RecherchePaper
1 source
Modélisation du contact améliorée pour lier extéroception et proprioception dans les robots à croissance progressive
1607arXiv cs.RO 

Modélisation du contact améliorée pour lier extéroception et proprioception dans les robots à croissance progressive

Une équipe de chercheurs présente dans un preprint arXiv (réf. 2507.10694v2) une approche permettant d'utiliser des robots souples "croissants" (soft growing robots) comme outils de cartographie autonome dans des environnements inconnus. Ces robots progressent en longueur depuis leur base sans déplacer leur corps, ce qui leur confère une aptitude naturelle aux espaces confinés et non structurés. Le coeur du travail consiste d'abord à caractériser précisément le comportement de collision lors des virages discrets, puis à construire un simulateur géométrique reproduisant les trajectoires en 2D. Le modèle est ensuite validé en situation réelle : un algorithme d'échantillonnage Monte Carlo sélectionne à chaque étape le prochain déploiement optimal en fonction de la carte déjà construite, sur des environnements aussi bien uniformes que non uniformes. L'apport conceptuel est de convertir la déformation passive, habituellement perçue comme une limitation à compenser, en source d'information tactile exploitable. En couplant extéroception (perception de la géométrie externe) et proprioception (état interne du robot), le système peut inférer la structure de son environnement à partir des seules déformations de contact, sans capteurs actifs de type LiDAR ou caméra. La convergence rapide de la sélection Monte Carlo vers des actions quasi-optimales, même dans des configurations irrégulières, suggère qu'une mécanique délibérément simple peut suffire à conduire une exploration utile. Pour des intégrateurs ciblant l'inspection de conduites, de tunnels ou de zones sinistrées, cette voie sans électronique embarquée complexe présente un intérêt opérationnel réel, même si les démonstrations restent limitées à la simulation 2D. Les soft growing robots ont été largement popularisés par les travaux du groupe Hawkes à l'UC Santa Barbara, dont plusieurs publications ont démontré la pénétration de milieux encombrés et l'évitement d'obstacles par déformation passive. Ce nouveau travail prolonge cet effort vers l'autonomie décisionnelle, jusqu'ici absente faute de modèles de contact fiables. Face aux approches classiques de cartographie (AMR à roues, drones miniatures), le robot souple reste marginal en termes de vitesse et de charge utile, mais occupe un créneau distinct pour les espaces très étroits. Les auteurs n'annoncent pas de timeline de commercialisation ni de partenariat industriel ; les prochaines étapes logiques porteront sur l'extension à des environnements 3D et l'intégration de boucles de contrôle temps réel.

RecherchePaper
1 source