Aller au contenu principal

Dossier arXiv cs.RO — page 31

1514 articles · page 31 sur 31

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Modélisation d'actions généralement covariante : construction de variétés généralisées par découplage spatio-temporel
1501arXiv cs.RO RechercheOpinion

Modélisation d'actions généralement covariante : construction de variétés généralisées par découplage spatio-temporel

Un préprint soumis sur arXiv le 2 juin 2026 (identifiant 2606.00110) introduit le cadre GAM (Generalized Action Manifold), une approche architecturale pour améliorer la généralisation des politiques robotiques en intelligence incarnée. Le problème ciblé est précis : les méthodes actuelles de Vision-Language-Action (VLA) entraînent les robots à régresser des coordonnées absolues, liant la politique à un style de mouvement et une vitesse d'exécution fixes. GAM résout cela via deux mécanismes orthogonaux. Le premier, l'Arc-Length Parameterizer, sépare la géométrie spatiale d'une trajectoire de sa dynamique temporelle, rendant la politique insensible aux variations de vitesse. Le second, le Schema-Affine-Factorization, projette les trajectoires dans un repère normalisé (pose-normalized coordinate frame), distinguant les schémas géométriques invariants des modulations affines locales. Intégré dans une architecture VLA structurée, GAM permet à un faible nombre de démonstrations de peupler densément un manifold d'actions continu et valide. Les auteurs rapportent des performances supérieures aux baselines geometry-agnostic sur des benchmarks empiriques, sans préciser les robots ou plateformes testés. L'enjeu industriel est direct : la généralisation depuis un nombre limité de démonstrations reste l'un des verrous les plus coûteux du déploiement robotique. Dans les usines où les intégrateurs doivent collecter des milliers de trajectoires par variante de tâche, réduire ce volume a un impact économique concret. Le principe de covariance générale, emprunté à la physique relativiste, stipule qu'une loi ne doit pas dépendre du système de coordonnées choisi. Appliqué à la robotique, cela signifie apprendre la structure géométrique intrinsèque d'une tâche plutôt que les habitudes motrices d'un démonstrateur humain. Si validée à l'échelle, cette approche s'attaquerait directement au demo-to-reality gap et au sim-to-real transfer, deux obstacles persistants pour des systèmes VLA commerciaux comme Pi-0 de Physical Intelligence ou OpenVLA. La recherche VLA s'est accélérée depuis 2024 avec Pi-0, RDT-1B, Octo, et les travaux de NVIDIA sur GR00T N2. GAM se positionne comme une couche d'invariance structurelle compatible avec ces architectures existantes plutôt que comme un modèle concurrent. Ce papier reste à ce stade un preprint non relu par des pairs, sans validation sur des robots physiques identifiés ni données de déploiement réel. Aucun auteur, institution ou partenaire industriel n'est mentionné dans l'abstract disponible, ce qui limite l'évaluation de la crédibilité et de la roadmap concrète. La prochaine étape naturelle serait une soumission à CoRL, ICRA ou RSS avec des expériences sur manipulateurs physiques dans des environnements semi-structurés.

1 source
Contrôle par planification réactive pour robots mobiles en environnements encombrés d'obstacles
1502arXiv cs.RO 

Contrôle par planification réactive pour robots mobiles en environnements encombrés d'obstacles

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.14232v1) une méthode de contrôle de mouvement pour robots mobiles évoluant dans des environnements encombrés d'obstacles. L'approche, baptisée RPCS (Reactive Planning based Control Strategy), s'attaque à un problème classique de la robotique mobile : déplacer un robot d'un point de départ à une cible sans collision, en ne disposant que d'une information partielle sur l'environnement, c'est-à-dire sans carte globale préalable. Le système fonctionne en deux couches combinées : une trajectoire de référence est d'abord tracée en ligne droite entre les deux points, puis un module de planification réactive (RPS) la modifie localement à la volée lorsque des obstacles sont détectés. Un contrôleur de suivi adaptatif (ATCS), basé sur des techniques de discrétisation, assure ensuite l'exécution effective de cette trajectoire potentiellement modifiée. Les résultats présentés s'appuient uniquement sur des simulations numériques, sans validation hardware reportée. L'intérêt de cette architecture réside dans la séparation claire entre planification réactive et contrôle de suivi, ce qui permet théoriquement d'adapter chaque couche indépendamment selon le robot cible. Pour les intégrateurs travaillant sur des AGV ou AMR dans des entrepôts à géométrie variable, la capacité à opérer sans carte globale complète reste un enjeu réel, les approches purement réactives souffrent souvent de blocages locaux, et les approches globales peinent face aux environnements dynamiques. L'ATCS adaptatif suggère une robustesse potentielle aux perturbations de modèle, mais l'absence d'expérimentation physique limite la portée des conclusions à ce stade. Ce travail s'inscrit dans une longue tradition de recherche sur la navigation réactive, depuis les champs de potentiel de Khatib (1986) jusqu'aux approches VFH et DWA largement déployées dans ROS. Les chercheurs ne positionnent pas explicitement leur méthode face aux planificateurs modernes appris (RL, imitation learning) qui commencent à équiper des plateformes commerciales comme Spot de Boston Dynamics ou les AMR de MiR. La prochaine étape naturelle serait une validation sur robot réel en environnement semi-structuré, condition sine qua non pour que la méthode pèse dans le débat industriel.

RecherchePaper
1 source
Politiques de diffusion multi-agents extensibles pour le contrôle de couverture
1503arXiv cs.RO 

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Des chercheurs ont publié sur arXiv (identifiant 2509.17244) MADP (Multi-Agent Diffusion Policy), une approche basée sur les modèles de diffusion pour la coordination décentralisée de nuées de robots. Le principe : chaque robot génère ses actions en échantillonnant depuis une distribution jointe haute dimension, en conditionnant sa politique sur une représentation fusionnée de ses propres observations et des embeddings perceptuels reçus de ses pairs via communication locale. L'équipe évalue MADP sur le problème de couverture de terrain (coverage control), un benchmark canonique en robotique multi-agent où un groupe de robots holonomes doit couvrir efficacement un espace selon des fonctions de densité d'importance variables. La politique est entraînée par imitation learning à partir d'un expert omniscient (dit "clairvoyant"), et le processus de diffusion est paramétré par une architecture de transformer spatial permettant l'inférence décentralisée, sans coordinateur central. Les résultats présentés sont exclusivement issus de simulations. L'intérêt technique principal tient à la nature des modèles de diffusion : contrairement aux politiques classiques qui produisent une action déterministe ou une distribution gaussienne unimodale, MADP peut capturer les interdépendances entre les actions de plusieurs agents dans une distribution multi-modale complexe. Les expériences montrent que le modèle généralise à travers des densités d'agents variables et des environnements non vus à l'entraînement, surpassant les baselines état de l'art. Pour un intégrateur ou un décideur industriel, cela signifie en théorie des essaims plus robustes aux variations de flotte, aux défaillances partielles et aux reconfiguration dynamiques, sans retraining complet. La robustesse au nombre d'agents est particulièrement notable : c'est un verrou historique des approches d'apprentissage multi-agent. Le problème de couverture de terrain occupe les équipes de robotique multi-agent depuis les années 2000, avec des solutions allant de l'optimisation par diagrammes de Voronoï aux algorithmes de reinforcement learning décentralisé. L'application des modèles de diffusion aux politiques robotiques est un domaine en essor depuis les travaux sur les diffusion policies (Pearce et al., 2023) et leur extension dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures ACT. MADP en étend la logique au cas multi-agent, encore peu exploré dans la littérature. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce preprint ; les prochaines étapes naturelles seraient une validation sur hardware réel et l'extension à des tâches au-delà de la couverture pure.

RecherchePaper
1 source
LineRides : apprentissage par renforcement guidé par trajectoire pour les cascades d'un robot vélo
1504arXiv cs.RO 

LineRides : apprentissage par renforcement guidé par trajectoire pour les cascades d'un robot vélo

Des chercheurs ont publié le 7 mai 2026 sur arXiv (identifiant 2605.05110) un cadre d'apprentissage par renforcement baptisé LineRides, conçu pour permettre à un robot-vélo custom baptisé Ultra Mobility Vehicle (UMV) d'exécuter des cascades acrobatiques commandables sans recours à des démonstrations humaines ni à des séquences de référence prédéfinies. LineRides s'appuie sur une ligne spatiale fournie par l'utilisateur, complétée par de rares orientations-clés positionnelles ou séquentielles : le système apprend seul à réaliser cinq manœuvres distinctes sur commande, à savoir le MiniHop (petit saut), le LargeHop (grand saut), le ThreePointTurn (demi-tour en trois points), le Backflip (saut arrière complet) et le DriftTurn (virage en dérapage). Pour gérer les guides spatialement infaisables, c'est-à-dire les lignes que le robot ne peut pas suivre à la lettre, le cadre introduit un "tracking margin", une tolérance de déviation contrôlée qui évite l'échec de la politique sans relâcher l'objectif global. La progression le long de la ligne est mesurée en distance parcourue plutôt qu'en temps, ce qui résout l'ambiguïté temporelle inhérente aux trajectoires acrobatiques complexes. L'apport principal est méthodologique : LineRides supprime la dépendance aux motion captures et aux trajectoires de référence, deux obstacles majeurs pour les plateformes non-standard ou pour les manœuvres extrêmes pour lesquelles aucune démonstration préalable n'existe. Pour les laboratoires travaillant sur la robotique agile et les concepteurs de véhicules à équilibre dynamique (monoroues, bicycles, exosquelettes), cette approche ouvre la voie à l'apprentissage de comportements complexes sur des engins dont la dynamique est difficile à capturer en MoCap. La transition fluide démontrée entre conduite normale et exécution de cascade sur l'UMV suggère une politique suffisamment robuste pour une intégration dans un système de contrôle réel. Il convient toutefois de noter que les performances en conditions non contrôlées, hors environnement de laboratoire, restent à valider de manière indépendante. LineRides s'inscrit dans un courant de travaux sur l'apprentissage par renforcement pour la locomotion agile, aux côtés de méthodes comme AMP (Adversarial Motion Priors) ou CALM, qui s'appuient sur des données de référence pour guider l'exploration. L'abandon explicite de ces références au profit de contraintes géométriques légères constitue le marqueur distinctif de l'approche. L'UMV reste une plateforme custom dont les caractéristiques exactes (masse, empattement, actionneurs) ne sont pas détaillées dans l'article, ce qui limite la comparaison directe avec d'autres travaux sur les robots à deux roues. Dans l'écosystème de la robotique agile, ETH Zurich, Stanford et le MIT progressent sur des plateformes quadrupèdes et aériennes, mais le champ des robots bicycles dynamiquement équilibrés reste peu peuplé, ce qui place LineRides en position de précurseur. Les étapes suivantes naturelles incluent une validation sur terrain non structuré, une extension à d'autres plateformes sous-actionnées, et une comparaison quantitative avec les méthodes de l'état de l'art.

RecherchePaper
1 source
Contrôle hybride intégrant la faisabilité pour la planification de mouvement sous logiques temporelles à signaux
1505arXiv cs.RO 

Contrôle hybride intégrant la faisabilité pour la planification de mouvement sous logiques temporelles à signaux

Une équipe de chercheurs publie sur arXiv (2605.03662v1) une méthode de planification hybride pour robots planaires opérant sous contraintes de Signal Temporal Logic (STL). L'approche introduit une variable discrète qui modélise la satisfaction locale des contraintes et permet une analyse de faisabilité à l'échelle locale, unifiant planification de tâches et synthèse de commande en une architecture unique. Des fonctions de barrière de contrôle (Control Barrier Functions, CBF) sont définies sur une version transformée en disque de l'espace de travail robotique, initialement non-convexe et géométriquement complexe, pour lever le problème des blocages (deadlocks) classiques dans ces formulations. Des simulations démontrent la gestion simultanée de plusieurs tâches spatio-temporelles superposées, y compris en présence de saturation des actionneurs. L'intérêt de cette contribution réside dans le couplage direct entre faisabilité locale et boucle de contrôle, plutôt qu'en post-traitement. Dans les architectures de Task and Motion Planning (TAMP) conventionnelles, le planificateur propose fréquemment des trajectoires irréalisables par le contrôleur bas niveau : intégrer l'analyse de faisabilité en amont réduit structurellement cet écart. La gestion de la saturation des actionneurs, contrainte réaliste rarement traitée dans les formulations STL existantes, renforce la crédibilité industrielle de l'approche pour des robots à ressources limitées. Les STL constituent depuis une dizaine d'années un cadre de spécification formelle prisé pour exprimer des contraintes temporisées du type "atteindre la zone A entre t=2s et t=5s", mais leur intégration avec des garanties de sûreté temps-réel reste un problème ouvert. Les CBF, popularisées notamment par les travaux d'Aaron Ames (Caltech), offrent de telles garanties mais peinent sur les espaces non-convexes ; la transformation géométrique en disque proposée ici adresse directement ce couplage. Les résultats restent pour l'instant limités à des simulations planaires 2D ; une validation sur plateforme physique constitue la prochaine étape naturelle.

RecherchePaper
1 source
Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples
1506arXiv cs.RO 

Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples

Des chercheurs ont publié en mai 2026 une étude préliminaire (arXiv:2605.03290) sur les effets de la randomisation de domaine sensible au risque appliquée au contrôle prédictif par échantillonnage (SPC) dans des tâches à contacts physiques denses. La randomisation de domaine (DR) consiste à entraîner un planificateur sur des variantes aléatoires des paramètres physiques, masse, friction, rigidité, pour le rendre robuste aux erreurs de modélisation. Très utilisée en apprentissage par renforcement, elle restait quasiment inexploriée dans le SPC, où la qualité des trajectoires simulées est particulièrement sensible à l'incertitude. Les auteurs comparent trois stratégies d'agrégation de rollouts sous instances de modèles randomisés : moyenne, optimiste (meilleur cas) et pessimiste (pire cas), sur la tâche Push-T, un benchmark de manipulation où un robot pousse un objet en T vers une pose cible. Les résultats révèlent un effet inattendu : la DR ne se contente pas d'améliorer la robustesse aux erreurs de modèle, elle modifie structurellement le paysage de coût perçu par l'optimiseur d'échantillonnage. Selon le profil de risque retenu, le bassin d'attraction autour des actions produisant des contacts physiques est reconfiguré différemment, ce qui influe directement sur la propension de l'optimiseur à explorer ou à éviter les configurations de contact. Pour des applications industrielles, assemblage, manipulation fine ou tri, où les contacts sont inévitables, ce couplage entre incertitude de modèle et stratégie de risque est critique : un mauvais calibrage peut rendre le SPC soit trop conservateur, soit instable face aux contacts non planifiés. La DR a été systématisée dans les simulateurs physiques comme Isaac Sim de NVIDIA et popularisée par les travaux d'OpenAI sur la manipulation dextre (projet Dactyl, 2019). Le SPC, notamment via l'algorithme MPPI (Model Predictive Path Integral), connaît un regain d'intérêt pour la robotique temps réel, en locomotion et manipulation. Cette étude constitue un premier jalon formel à l'intersection des deux approches, jusqu'ici traitées séparément. Elle s'inscrit dans un contexte plus large où les modèles VLA (Vision-Language-Action) et les approches sim-to-real de Google DeepMind ou Physical Intelligence (Pi-0) cherchent à réduire l'écart entre simulation et réalité. Les auteurs ne publient que des résultats initiaux sur une tâche simple et ne proposent pas encore de généralisation ni de calendrier applicatif, ce qui limite la portée immédiate mais ouvre un axe de recherche prometteur pour le contrôle robuste aux contacts.

RecherchePaper
1 source
LLMs pour le comportement de recherche dans les essaims de robots décentralisés
1507arXiv cs.RO 

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.01461) LLM-Foraging, un contrôleur décentralisé pour essaims de robots conçu pour la collecte de ressources. L'approche intègre un large modèle de langage (LLM) comme décideur tactique dans la machine d'états du CPFA (central-place foraging algorithm), à trois points précis : après un dépôt de ressource, à l'arrivée en zone centrale, et lors d'un blocage de recherche (search starvation). Chaque robot embarque son propre client LLM et l'interroge sur la base de ses seules observations locales, sans communication centralisée. Les tests ont été conduits dans le simulateur Gazebo avec des robots TurtleBot3 virtuels, sur 36 configurations couvrant des équipes de 4 à 10 robots, des arènes de 6x6 à 10x10 mètres et trois distributions de ressources (groupée, loi de puissance, aléatoire). LLM-Foraging surpasse la baseline CPFA optimisée par algorithme génétique sur l'ensemble des configurations testées, avec une consistance que les auteurs jugent supérieure. L'enjeu principal est l'absence de phase d'entraînement au déploiement. Un CPFA calibré par algorithme génétique produit des politiques figées sur une configuration donnée : tout changement de taille d'équipe, d'arène ou de distribution de ressources impose un recalcul coûteux. En substituant un LLM comme politique générale de décision, l'architecture se transfère à de nouvelles conditions sans ré-optimisation. Pour les intégrateurs de systèmes robotiques distribués, c'est une promesse de reconfigurabilité opérationnelle notable. Limite importante à retenir : l'évaluation reste entièrement en simulation, et le sim-to-real gap pour des décisions LLM dans des essaims physiques reste entièrement à démontrer. Le CPFA est un algorithme de référence en robotique d'essaim depuis les années 2010, inspiré des stratégies de fourragement des insectes sociaux. LLM-Foraging s'inscrit dans la tendance d'intégration des modèles fondationnels en robotique, aux côtés d'architectures vision-langage-action (VLA) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais appliquée pour la première fois aux essaims décentralisés, un domaine où les approches évolutionnaires et par apprentissage par renforcement dominaient sans alternative crédible. Aucun acteur européen n'est impliqué dans ces travaux académiques. Les prochaines étapes naturelles incluent la validation sur robots physiques, le passage à des essaims dépassant la dizaine d'unités, et l'évaluation dans des environnements dynamiques où les ressources se déplacent ou disparaissent.

RechercheActu
1 source
Patrouille multi-robots : algorithme distribué, partitionnement émergent des zones et conscience situationnelle de la base
1508arXiv cs.RO 

Patrouille multi-robots : algorithme distribué, partitionnement émergent des zones et conscience situationnelle de la base

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.01501) un algorithme distribué baptisé LR-PT (Local Reactive and Partition) destiné à la patrouille multi-robots. Le principe central : chaque robot sélectionne sa cible de patrouille de manière autonome, à partir d'informations locales uniquement, en combinant dans une fonction d'utilité unifiée deux critères -- la fréquence de couverture des zones d'intérêt et l'urgence de remonter l'état de mission à la station de base. En simulation, LR-PT surpasse les algorithmes de référence existants sur deux métriques clés : la fréquence de visite de l'ensemble des points surveillés et la qualité de la "situation awareness" de l'opérateur à la base, c'est-à-dire sa capacité à prédire les comportements des robots, soutenir la prise de décision et déclencher des interventions d'urgence. L'intérêt technique tient à deux propriétés émergentes. Premièrement, la partition spatiale se forme spontanément sans coordinateur central, ce qui évite les pièges des optima locaux classiques dans les algorithmes de couverture. Deuxièmement, l'architecture entièrement locale confère une robustesse démontrée aux contraintes de communication et aux pannes de robots individuels -- un point critique pour les déploiements industriels en entrepôt, site industriel ou périmètre de sécurité. Pour les décideurs B2B, cela signifie une flotte de robots de surveillance qui continue de fonctionner de façon dégradée plutôt que de s'effondrer complètement en cas de défaillance partielle. La mise en avant explicite de la situation awareness opérateur est aussi notable : c'est un angle souvent négligé dans la littérature sur les essaims robotiques, davantage focalisée sur les métriques de couverture. La patrouille multi-robots est un domaine de recherche actif depuis les années 2000, avec des approches concurrentes comme les algorithmes à base de cartes d'idleness (Chevaleyre, Portugal & Rocha) ou les méthodes par apprentissage par renforcement. LR-PT se positionne dans la famille des algorithmes réactifs locaux, plus simples à déployer sur matériel contraint. Limite importante à noter : les résultats sont exclusivement issus de simulation, le fossé sim-to-real n'est pas adressé. Aucun déploiement réel ni partenariat industriel n'est mentionné, et aucune timeline vers une validation terrain n'est annoncée dans le papier.

RecherchePaper
1 source
Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?
1509arXiv cs.RO 

Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?

Une équipe de chercheurs a publié sur arXiv (référence 2604.27667) une méthode hybride dénommée TFM-S3, conçue pour améliorer l'exploration globale dans l'apprentissage de politiques robotiques tout en limitant le nombre de simulations nécessaires. L'approche alterne des mises à jour locales à haute fréquence avec des rondes de recherche globale intermittentes. À chaque ronde, TFM-S3 construit dynamiquement un sous-espace de politique de faible dimension via une décomposition en valeurs singulières (SVD), puis effectue un raffinement itératif guidé par un modèle de substitution (surrogate model). Ce modèle de fondation tabulaire pré-entraîné prédit les retours candidats à partir d'un petit ensemble de contextes, permettant un criblage à grande échelle sans multiplier les rollouts coûteux. Sur des benchmarks de contrôle continu standards, TFM-S3 accélère la convergence en phase initiale et améliore les performances finales par rapport à TD3 (Twin Delayed Deep Deterministic Policy Gradient) et des baselines à population, à budget de rollouts identique. L'enjeu central est le coût d'exploration. En robotique, l'apprentissage par renforcement dans des espaces d'action continus à haute dimension souffre d'un dilemme structurel : les méthodes locales convergent vite mais restent piégées dans des optima locaux, tandis que les méthodes globales sont plus robustes à l'initialisation mais très gourmandes en évaluations. TFM-S3 propose un compromis crédible en déléguant le criblage des candidats à un modèle tabulaire pré-entraîné. Si ces résultats se confirment sur des environnements physiques réels et pas seulement en simulation, ce serait un levier direct pour accélérer l'entraînement de politiques sur des robots industriels où chaque essai a un coût mécanique et temporel non négligeable. Cette publication s'inscrit dans une tendance croissante qui cherche à transférer les bénéfices des modèles de fondation (pré-entraînement massif, généralisation) au problème classique de l'optimisation de politique. Des approches concurrentes comme les VLA (Vision-Language-Action models) Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA misent sur l'apprentissage multimodal et l'imitation à grande échelle plutôt que sur le renforcement pur. TFM-S3 se positionne comme un outil orthogonal, compatible avec des pipelines RL existants. Il reste pour l'instant un preprint non relu par des pairs, et ses expériences se limitent aux benchmarks de contrôle continu standards de type MuJoCo, sans validation sur hardware physique annoncée à ce stade.

RecherchePaper
1 source
Pince fluidique bistable sans source pour préhension sélective par taille et rigidité adaptative
1510arXiv cs.RO 

Pince fluidique bistable sans source pour préhension sélective par taille et rigidité adaptative

Des chercheurs ont présenté en novembre 2025, via la prépublication arXiv:2511.03691 (v2), un préhenseur souple hydraulique entièrement autonome capable de saisir des objets sans source externe de pression ni énergie continue. Le système repose sur trois chambres bistables à claquage (snap-through) interconnectées et remplies de liquide. Lorsque la chambre supérieure de détection entre en contact avec un objet et se déforme mécaniquement, le liquide déplacé déclenche automatiquement l'expansion par claquage des chambres de préhension inférieures, immobilisant l'objet par simple redistribution interne du fluide. Ce mécanisme passif permet une saisie sélective par taille (size-selective grasping) et une adaptation automatique de la pression de préhension à la rigidité de l'objet, sans capteur de force ni actionneur supplémentaire. La conception reste compacte et de gabarit fixe, ce qui la distingue des architectures gonflables classiques. L'enjeu opérationnel est tangible: jusqu'ici, les préhenseurs souples pneumatiques ou hydrauliques dépendaient d'un compresseur ou d'une pompe externe, ce qui bridait leur déploiement sur plateformes mobiles, sous-marines ou embarquées. L'approche source-free proposée ici supprime cette liaison énergétique permanente avec l'infrastructure. L'adaptation passive à la rigidité représente également un avantage système notable: elle évite d'embarquer une boucle de contrôle force-couple, réduisant la complexité pour des applications de terrain. Cela dit, l'abstract ne publie aucune métrique de charge utile (payload), de cadence de cycle ni de durabilité sur longue période, ce qui rend difficile toute évaluation de maturité industrielle à ce stade. Ce travail s'inscrit dans la dynamique de la soft robotics autonome, champ en consolidation après des années de démonstrateurs dépendants de laboratoire. Les préhenseurs souples à pression restent dominés par des acteurs comme Festo, dont les grippers bioinspirés équipent des lignes industrielles, ou SoftRobotics, intégré dans l'agroalimentaire. La prépublication n'indique pas d'affiliation institutionnelle explicite ni de partenariat industriel annoncé. Les auteurs ciblent explicitement les environnements sous-marins et de terrain comme débouchés prioritaires; la prochaine étape naturelle serait une validation sur robot mobile ou drone sous-marin, mais aucune timeline n'est communiquée.

RecherchePaper
1 source
RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde
1511arXiv cs.RO 

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde

Une équipe de chercheurs a publié le 21 avril 2026 sur arXiv (2604.21355) un framework baptisé RPG (Robust Policy Gating), conçu pour permettre à des robots humanoïdes d'enchaîner plusieurs compétences de combat dynamique sans instabilité. L'approche repose sur une politique unifiée entraînée avec deux mécanismes de randomisation : la randomisation des transitions de mouvement, qui expose la politique à des états initiaux et terminaux variés entre compétences, et la randomisation temporelle, qui rend l'agent robuste aux coupures imprévises dans la séquence de mouvements. La pipeline de contrôle intègre la locomotion (marche, course) avec les compétences de combat, permettant théoriquement des séquences de durée arbitraire. Le système a été validé en simulation extensive, puis déployé sur le robot humanoïde Unitree G1, la plateforme à 23 DDL du constructeur chinois Unitree Robotics. Le problème central que RPG adresse est connu dans le domaine sous le nom de "skill transition gap" : lorsqu'un agent bascule d'une politique spécialisée à une autre, les états terminaux de la première ne correspondent pas aux états initiaux supposés de la seconde, produisant des comportements hors domaine, des chutes ou des mouvements saccadés. Les approches concurrentes utilisent soit une commutation entre politiques mono-compétence, soit une politique généraliste qui imite des motion clips de référence -- les deux souffrent de ce décalage. RPG propose une solution d'entraînement plutôt que d'architecture, ce qui est notable : la robustesse aux transitions est injectée pendant la phase d'apprentissage, pas via un mécanisme de gating à l'inférence. L'absence de métriques quantitatives dans la publication (temps de cycle, taux de chute, nombre de transitions testées) limite cependant la comparaison directe avec d'autres travaux. RPG s'inscrit dans une vague active de recherche sur le contrôle corps entier des humanoïdes pour des tâches hautement dynamiques, un domaine où les laboratoires UCB, CMU et Stanford publient régulièrement depuis 2023. L'utilisation du G1 comme plateforme de validation est cohérente avec sa popularité croissante en recherche académique, notamment grâce à son coût inférieur à celui des plateformes concurrentes (Boston Dynamics Atlas, Agility Digit). Sur le plan commercial, des acteurs comme Figure AI, 1X Technologies ou Apptronik ciblent des tâches répétitives en entrepôt plutôt que le combat, mais les techniques de transition de compétences développées ici sont directement transposables aux scénarios industriels nécessitant des enchaînements fluides de manipulation et de locomotion. La prochaine étape naturelle serait une évaluation quantitative en conditions adversariales réelles, ainsi qu'un transfert vers des tâches moins "spectaculaires" mais plus proches du déploiement B2B.

RecherchePaper
1 source
Vers une fluidité d'interaction dans un système robotique Wizard-of-Oz : un prototype pour la correction d'erreurs fluide
1512arXiv cs.RO 

Vers une fluidité d'interaction dans un système robotique Wizard-of-Oz : un prototype pour la correction d'erreurs fluide

Un préprint déposé sur arXiv en avril 2026 (identifiant 2604.19374) propose un cadre formel pour concevoir des plateformes de type Wizard-of-Oz (WoZ) dédiées à l'interaction homme-robot, et présente un environnement de simulation en réalité virtuelle destiné aux manipulateurs mobiles. Le principe WoZ, emprunté à la psychologie expérimentale, consiste à faire opérer un robot par un opérateur humain caché pendant que l'utilisateur croit interagir avec un système autonome, méthode couramment utilisée pour collecter des données et prototyper des interfaces avant déploiement réel. Les auteurs identifient quatre propriétés clés qu'une telle plateforme doit satisfaire pour permettre une correction d'erreur fluide : l'interruptibilité et la correction (IaC), la pollabilité (capacité à interroger l'état du système à tout instant), la mesure et l'optimisation de la latence perçue, et la reproductibilité temporellement précise des actions à partir des journaux de logs. L'importance de ce travail réside dans le diagnostic qu'il pose : l'interaction vocale avec les robots reste laborieuse et frustrante dans l'état de l'art actuel, en partie faute de plateformes de développement WoZ suffisamment outillées pour itérer sur la fluidité conversationnelle. Sans mécanisme pour mesurer la latence, simuler les interruptions ou rejouer fidèlement des séquences d'interaction depuis des données enregistrées, il est difficile de progresser méthodiquement vers des interfaces robustes. Ce cadre outille potentiellement les équipes qui développent des interfaces vocales pour cobots industriels ou robots d'assistance, en leur fournissant des critères quantifiables pour évaluer leurs prototypes. Ce travail s'inscrit dans une littérature en HRI qui cherche à combler le fossé entre les démonstrations en laboratoire et les déploiements réels. L'utilisation de la réalité virtuelle comme environnement de simulation pour manipulateurs mobiles gagne du terrain pour réduire les coûts de prototypage physique. Les auteurs s'appuient explicitement sur des systèmes WoZ antérieurs pour formaliser leurs critères, sans toutefois citer de plateforme concurrente nommément. À ce stade, il s'agit d'un prototype de recherche et d'un cadre théorique, sans déploiement industriel ni partenariat commercial annoncé. Les prochaines étapes naturelles impliqueraient des études utilisateurs validant que ces critères améliorent effectivement la fluidité perçue dans des scénarios opérationnels.

RecherchePaper
1 source
Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football
1513arXiv cs.RO 

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs. Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique. Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

RecherchePaper
1 source
Modélisation du contact améliorée pour lier extéroception et proprioception dans les robots à croissance progressive
1514arXiv cs.RO 

Modélisation du contact améliorée pour lier extéroception et proprioception dans les robots à croissance progressive

Une équipe de chercheurs présente dans un preprint arXiv (réf. 2507.10694v2) une approche permettant d'utiliser des robots souples "croissants" (soft growing robots) comme outils de cartographie autonome dans des environnements inconnus. Ces robots progressent en longueur depuis leur base sans déplacer leur corps, ce qui leur confère une aptitude naturelle aux espaces confinés et non structurés. Le coeur du travail consiste d'abord à caractériser précisément le comportement de collision lors des virages discrets, puis à construire un simulateur géométrique reproduisant les trajectoires en 2D. Le modèle est ensuite validé en situation réelle : un algorithme d'échantillonnage Monte Carlo sélectionne à chaque étape le prochain déploiement optimal en fonction de la carte déjà construite, sur des environnements aussi bien uniformes que non uniformes. L'apport conceptuel est de convertir la déformation passive, habituellement perçue comme une limitation à compenser, en source d'information tactile exploitable. En couplant extéroception (perception de la géométrie externe) et proprioception (état interne du robot), le système peut inférer la structure de son environnement à partir des seules déformations de contact, sans capteurs actifs de type LiDAR ou caméra. La convergence rapide de la sélection Monte Carlo vers des actions quasi-optimales, même dans des configurations irrégulières, suggère qu'une mécanique délibérément simple peut suffire à conduire une exploration utile. Pour des intégrateurs ciblant l'inspection de conduites, de tunnels ou de zones sinistrées, cette voie sans électronique embarquée complexe présente un intérêt opérationnel réel, même si les démonstrations restent limitées à la simulation 2D. Les soft growing robots ont été largement popularisés par les travaux du groupe Hawkes à l'UC Santa Barbara, dont plusieurs publications ont démontré la pénétration de milieux encombrés et l'évitement d'obstacles par déformation passive. Ce nouveau travail prolonge cet effort vers l'autonomie décisionnelle, jusqu'ici absente faute de modèles de contact fiables. Face aux approches classiques de cartographie (AMR à roues, drones miniatures), le robot souple reste marginal en termes de vitesse et de charge utile, mais occupe un créneau distinct pour les espaces très étroits. Les auteurs n'annoncent pas de timeline de commercialisation ni de partenariat industriel ; les prochaines étapes logiques porteront sur l'extension à des environnements 3D et l'intégration de boucles de contrôle temps réel.

RecherchePaper
1 source