Aller au contenu principal

Dossier arXiv cs.RO — page 20

969 articles · page 20 sur 20

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel
951arXiv cs.RO RechercheOpinion

RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel

Des chercheurs ont publié le 22 mai 2026 sur arXiv (référence 2605.17522) les travaux autour de RoboFlow4D, un modèle de planification en flux 3D destiné à la manipulation robotique temps réel. L'approche repose sur ce que les auteurs appellent un "flow world model" : plutôt que d'empiler plusieurs sous-modèles spécialisés dans un pipeline modulaire classique, RoboFlow4D prédit directement des flux de mouvement 3D sur plusieurs trames temporelles à partir d'observations visuelles et d'instructions textuelles. Ce flux explicite sert de plan intermédiaire pour guider la génération d'actions motrices, bouclant ainsi un cycle perception-planification-exécution en une seule architecture de bout en bout. L'exécution repose sur une collaboration dite "slow-fast" entre le prédicteur de flux et le contrôleur d'action, visant à réduire la latence globale. Les résultats présentés couvrent des benchmarks en simulation et des expériences en environnement réel, avec des gains annoncés sur les taux de succès de manipulation et sur l'efficacité computationnelle, sans que les chiffres précis soient détaillés dans l'abstract. L'intérêt de cette direction de recherche réside dans la réduction de la charge de calcul associée aux pipelines VLA (Vision-Language-Action) contemporains. Les architectures modulaires dominantes, comme celles utilisées dans Pi-0 (Physical Intelligence) ou les variantes de GR00T N2 (NVIDIA), impliquent des inférences en cascade coûteuses qui limitent la réactivité en conditions industrielles. RoboFlow4D tente de consolider perception et planification dans un seul modèle léger, ce qui, si les performances se confirment à l'échelle, pourrait abaisser les exigences matérielles pour déployer des politiques de manipulation dextres sur des robots à ressources contraintes. Du côté du contexte compétitif, le domaine des planificateurs par flux optique 3D est actif depuis les travaux sur UniFlow et Flowbot3D, mais leur intégration dans des boucles temps réel reste un défi ouvert. RoboFlow4D se positionne comme une réponse légère à ces limitations. Il s'agit pour l'instant d'un preprint non évalué par les pairs, sans code ni modèle publiés, ce qui invite à la prudence avant tout benchmark indépendant. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés type RLBench ou LIBERO, et une comparaison directe avec les baselines modulaires qu'il prétend dépasser.

1 source
Contrôle par planification réactive pour robots mobiles en environnements encombrés d'obstacles
952arXiv cs.RO 

Contrôle par planification réactive pour robots mobiles en environnements encombrés d'obstacles

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.14232v1) une méthode de contrôle de mouvement pour robots mobiles évoluant dans des environnements encombrés d'obstacles. L'approche, baptisée RPCS (Reactive Planning based Control Strategy), s'attaque à un problème classique de la robotique mobile : déplacer un robot d'un point de départ à une cible sans collision, en ne disposant que d'une information partielle sur l'environnement, c'est-à-dire sans carte globale préalable. Le système fonctionne en deux couches combinées : une trajectoire de référence est d'abord tracée en ligne droite entre les deux points, puis un module de planification réactive (RPS) la modifie localement à la volée lorsque des obstacles sont détectés. Un contrôleur de suivi adaptatif (ATCS), basé sur des techniques de discrétisation, assure ensuite l'exécution effective de cette trajectoire potentiellement modifiée. Les résultats présentés s'appuient uniquement sur des simulations numériques, sans validation hardware reportée. L'intérêt de cette architecture réside dans la séparation claire entre planification réactive et contrôle de suivi, ce qui permet théoriquement d'adapter chaque couche indépendamment selon le robot cible. Pour les intégrateurs travaillant sur des AGV ou AMR dans des entrepôts à géométrie variable, la capacité à opérer sans carte globale complète reste un enjeu réel, les approches purement réactives souffrent souvent de blocages locaux, et les approches globales peinent face aux environnements dynamiques. L'ATCS adaptatif suggère une robustesse potentielle aux perturbations de modèle, mais l'absence d'expérimentation physique limite la portée des conclusions à ce stade. Ce travail s'inscrit dans une longue tradition de recherche sur la navigation réactive, depuis les champs de potentiel de Khatib (1986) jusqu'aux approches VFH et DWA largement déployées dans ROS. Les chercheurs ne positionnent pas explicitement leur méthode face aux planificateurs modernes appris (RL, imitation learning) qui commencent à équiper des plateformes commerciales comme Spot de Boston Dynamics ou les AMR de MiR. La prochaine étape naturelle serait une validation sur robot réel en environnement semi-structuré, condition sine qua non pour que la méthode pèse dans le débat industriel.

RecherchePaper
1 source
Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM
953arXiv cs.RO 

Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM

Des chercheurs ont publié le 12 mai 2026 sur arXiv (référence 2605.08330) un framework de planification tâche-et-mouvement pour robots de service, reposant sur deux modules LLM distincts organisés en hiérarchie. Le premier module, dit "agent de haut niveau", interprète des commandes en langage naturel et génère des séquences d'actions via un prompt de style ReAct, en s'appuyant sur des outils de perception et de manipulation (pick, place, release). Le second module, dédié au raisonnement spatial de bas niveau, prend en charge les instructions de placement précis, par exemple "pose la tasse à côté de l'assiette", en calculant les positions 3D à partir de la géométrie des objets et de la configuration de la scène. La détection d'objets et l'estimation de pose sont assurées par YOLOX-GDRNet. Sur 24 scénarios de test couvrant des commandes spatiales simples, des instructions de haut niveau et des requêtes infaisables, le système affiche un taux de succès global de 86 %. Cette architecture en deux étages répond à un problème bien connu en robotique de service : un LLM généraliste gère mal simultanément la logique séquentielle des tâches et le raisonnement géométrique fin. Séparer ces deux fonctions réduit la surface d'erreur et rend le système plus robuste aux ambiguïtés spatiales, un point de friction majeur dans les scénarios d'assistance à domicile ou hospitaliers. Le taux de 86 % est encourageant, mais il convient de nuancer : 24 scénarios constituent une base d'évaluation très réduite, et les conditions de test en laboratoire restent éloignées de la variabilité d'un environnement réel non structuré. Aucun robot physique n'est mentionné, le module d'exécution motrice étant décrit comme un "stub", ce qui signifie que les résultats restent pour l'instant purement simulés ou partiellement maquettés. Ce travail s'inscrit dans le prolongement des approches LLM-to-robot popularisées par SayCan de Google (2022) et les travaux RT-2 et OpenVLA, qui ont démontré qu'un modèle de langage peut servir de planificateur de haut niveau pour un robot. La spécificité ici est le découplage explicite du raisonnement spatial dans un sous-module dédié, plutôt que de tout faire porter au modèle principal, une direction cohérente avec les limites documentées des VLA (Vision-Language-Action models) sur les tâches de placement précis. Aucun partenaire industriel ni calendrier de déploiement n'est communiqué ; l'étape suivante logique serait une validation sur robot réel dans un contexte de service structuré.

RechercheOpinion
1 source
Politiques de diffusion multi-agents extensibles pour le contrôle de couverture
954arXiv cs.RO 

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Des chercheurs ont publié sur arXiv (identifiant 2509.17244) MADP (Multi-Agent Diffusion Policy), une approche basée sur les modèles de diffusion pour la coordination décentralisée de nuées de robots. Le principe : chaque robot génère ses actions en échantillonnant depuis une distribution jointe haute dimension, en conditionnant sa politique sur une représentation fusionnée de ses propres observations et des embeddings perceptuels reçus de ses pairs via communication locale. L'équipe évalue MADP sur le problème de couverture de terrain (coverage control), un benchmark canonique en robotique multi-agent où un groupe de robots holonomes doit couvrir efficacement un espace selon des fonctions de densité d'importance variables. La politique est entraînée par imitation learning à partir d'un expert omniscient (dit "clairvoyant"), et le processus de diffusion est paramétré par une architecture de transformer spatial permettant l'inférence décentralisée, sans coordinateur central. Les résultats présentés sont exclusivement issus de simulations. L'intérêt technique principal tient à la nature des modèles de diffusion : contrairement aux politiques classiques qui produisent une action déterministe ou une distribution gaussienne unimodale, MADP peut capturer les interdépendances entre les actions de plusieurs agents dans une distribution multi-modale complexe. Les expériences montrent que le modèle généralise à travers des densités d'agents variables et des environnements non vus à l'entraînement, surpassant les baselines état de l'art. Pour un intégrateur ou un décideur industriel, cela signifie en théorie des essaims plus robustes aux variations de flotte, aux défaillances partielles et aux reconfiguration dynamiques, sans retraining complet. La robustesse au nombre d'agents est particulièrement notable : c'est un verrou historique des approches d'apprentissage multi-agent. Le problème de couverture de terrain occupe les équipes de robotique multi-agent depuis les années 2000, avec des solutions allant de l'optimisation par diagrammes de Voronoï aux algorithmes de reinforcement learning décentralisé. L'application des modèles de diffusion aux politiques robotiques est un domaine en essor depuis les travaux sur les diffusion policies (Pearce et al., 2023) et leur extension dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures ACT. MADP en étend la logique au cas multi-agent, encore peu exploré dans la littérature. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce preprint ; les prochaines étapes naturelles seraient une validation sur hardware réel et l'extension à des tâches au-delà de la couverture pure.

RecherchePaper
1 source
LineRides : apprentissage par renforcement guidé par trajectoire pour les cascades d'un robot vélo
955arXiv cs.RO 

LineRides : apprentissage par renforcement guidé par trajectoire pour les cascades d'un robot vélo

Des chercheurs ont publié le 7 mai 2026 sur arXiv (identifiant 2605.05110) un cadre d'apprentissage par renforcement baptisé LineRides, conçu pour permettre à un robot-vélo custom baptisé Ultra Mobility Vehicle (UMV) d'exécuter des cascades acrobatiques commandables sans recours à des démonstrations humaines ni à des séquences de référence prédéfinies. LineRides s'appuie sur une ligne spatiale fournie par l'utilisateur, complétée par de rares orientations-clés positionnelles ou séquentielles : le système apprend seul à réaliser cinq manœuvres distinctes sur commande, à savoir le MiniHop (petit saut), le LargeHop (grand saut), le ThreePointTurn (demi-tour en trois points), le Backflip (saut arrière complet) et le DriftTurn (virage en dérapage). Pour gérer les guides spatialement infaisables, c'est-à-dire les lignes que le robot ne peut pas suivre à la lettre, le cadre introduit un "tracking margin", une tolérance de déviation contrôlée qui évite l'échec de la politique sans relâcher l'objectif global. La progression le long de la ligne est mesurée en distance parcourue plutôt qu'en temps, ce qui résout l'ambiguïté temporelle inhérente aux trajectoires acrobatiques complexes. L'apport principal est méthodologique : LineRides supprime la dépendance aux motion captures et aux trajectoires de référence, deux obstacles majeurs pour les plateformes non-standard ou pour les manœuvres extrêmes pour lesquelles aucune démonstration préalable n'existe. Pour les laboratoires travaillant sur la robotique agile et les concepteurs de véhicules à équilibre dynamique (monoroues, bicycles, exosquelettes), cette approche ouvre la voie à l'apprentissage de comportements complexes sur des engins dont la dynamique est difficile à capturer en MoCap. La transition fluide démontrée entre conduite normale et exécution de cascade sur l'UMV suggère une politique suffisamment robuste pour une intégration dans un système de contrôle réel. Il convient toutefois de noter que les performances en conditions non contrôlées, hors environnement de laboratoire, restent à valider de manière indépendante. LineRides s'inscrit dans un courant de travaux sur l'apprentissage par renforcement pour la locomotion agile, aux côtés de méthodes comme AMP (Adversarial Motion Priors) ou CALM, qui s'appuient sur des données de référence pour guider l'exploration. L'abandon explicite de ces références au profit de contraintes géométriques légères constitue le marqueur distinctif de l'approche. L'UMV reste une plateforme custom dont les caractéristiques exactes (masse, empattement, actionneurs) ne sont pas détaillées dans l'article, ce qui limite la comparaison directe avec d'autres travaux sur les robots à deux roues. Dans l'écosystème de la robotique agile, ETH Zurich, Stanford et le MIT progressent sur des plateformes quadrupèdes et aériennes, mais le champ des robots bicycles dynamiquement équilibrés reste peu peuplé, ce qui place LineRides en position de précurseur. Les étapes suivantes naturelles incluent une validation sur terrain non structuré, une extension à d'autres plateformes sous-actionnées, et une comparaison quantitative avec les méthodes de l'état de l'art.

RecherchePaper
1 source
Contrôle hybride intégrant la faisabilité pour la planification de mouvement sous logiques temporelles à signaux
956arXiv cs.RO 

Contrôle hybride intégrant la faisabilité pour la planification de mouvement sous logiques temporelles à signaux

Une équipe de chercheurs publie sur arXiv (2605.03662v1) une méthode de planification hybride pour robots planaires opérant sous contraintes de Signal Temporal Logic (STL). L'approche introduit une variable discrète qui modélise la satisfaction locale des contraintes et permet une analyse de faisabilité à l'échelle locale, unifiant planification de tâches et synthèse de commande en une architecture unique. Des fonctions de barrière de contrôle (Control Barrier Functions, CBF) sont définies sur une version transformée en disque de l'espace de travail robotique, initialement non-convexe et géométriquement complexe, pour lever le problème des blocages (deadlocks) classiques dans ces formulations. Des simulations démontrent la gestion simultanée de plusieurs tâches spatio-temporelles superposées, y compris en présence de saturation des actionneurs. L'intérêt de cette contribution réside dans le couplage direct entre faisabilité locale et boucle de contrôle, plutôt qu'en post-traitement. Dans les architectures de Task and Motion Planning (TAMP) conventionnelles, le planificateur propose fréquemment des trajectoires irréalisables par le contrôleur bas niveau : intégrer l'analyse de faisabilité en amont réduit structurellement cet écart. La gestion de la saturation des actionneurs, contrainte réaliste rarement traitée dans les formulations STL existantes, renforce la crédibilité industrielle de l'approche pour des robots à ressources limitées. Les STL constituent depuis une dizaine d'années un cadre de spécification formelle prisé pour exprimer des contraintes temporisées du type "atteindre la zone A entre t=2s et t=5s", mais leur intégration avec des garanties de sûreté temps-réel reste un problème ouvert. Les CBF, popularisées notamment par les travaux d'Aaron Ames (Caltech), offrent de telles garanties mais peinent sur les espaces non-convexes ; la transformation géométrique en disque proposée ici adresse directement ce couplage. Les résultats restent pour l'instant limités à des simulations planaires 2D ; une validation sur plateforme physique constitue la prochaine étape naturelle.

RecherchePaper
1 source
LLMs pour le comportement de recherche dans les essaims de robots décentralisés
957arXiv cs.RO 

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.01461) LLM-Foraging, un contrôleur décentralisé pour essaims de robots conçu pour la collecte de ressources. L'approche intègre un large modèle de langage (LLM) comme décideur tactique dans la machine d'états du CPFA (central-place foraging algorithm), à trois points précis : après un dépôt de ressource, à l'arrivée en zone centrale, et lors d'un blocage de recherche (search starvation). Chaque robot embarque son propre client LLM et l'interroge sur la base de ses seules observations locales, sans communication centralisée. Les tests ont été conduits dans le simulateur Gazebo avec des robots TurtleBot3 virtuels, sur 36 configurations couvrant des équipes de 4 à 10 robots, des arènes de 6x6 à 10x10 mètres et trois distributions de ressources (groupée, loi de puissance, aléatoire). LLM-Foraging surpasse la baseline CPFA optimisée par algorithme génétique sur l'ensemble des configurations testées, avec une consistance que les auteurs jugent supérieure. L'enjeu principal est l'absence de phase d'entraînement au déploiement. Un CPFA calibré par algorithme génétique produit des politiques figées sur une configuration donnée : tout changement de taille d'équipe, d'arène ou de distribution de ressources impose un recalcul coûteux. En substituant un LLM comme politique générale de décision, l'architecture se transfère à de nouvelles conditions sans ré-optimisation. Pour les intégrateurs de systèmes robotiques distribués, c'est une promesse de reconfigurabilité opérationnelle notable. Limite importante à retenir : l'évaluation reste entièrement en simulation, et le sim-to-real gap pour des décisions LLM dans des essaims physiques reste entièrement à démontrer. Le CPFA est un algorithme de référence en robotique d'essaim depuis les années 2010, inspiré des stratégies de fourragement des insectes sociaux. LLM-Foraging s'inscrit dans la tendance d'intégration des modèles fondationnels en robotique, aux côtés d'architectures vision-langage-action (VLA) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais appliquée pour la première fois aux essaims décentralisés, un domaine où les approches évolutionnaires et par apprentissage par renforcement dominaient sans alternative crédible. Aucun acteur européen n'est impliqué dans ces travaux académiques. Les prochaines étapes naturelles incluent la validation sur robots physiques, le passage à des essaims dépassant la dizaine d'unités, et l'évaluation dans des environnements dynamiques où les ressources se déplacent ou disparaissent.

RechercheActu
1 source
Patrouille multi-robots : algorithme distribué, partitionnement émergent des zones et conscience situationnelle de la base
958arXiv cs.RO 

Patrouille multi-robots : algorithme distribué, partitionnement émergent des zones et conscience situationnelle de la base

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.01501) un algorithme distribué baptisé LR-PT (Local Reactive and Partition) destiné à la patrouille multi-robots. Le principe central : chaque robot sélectionne sa cible de patrouille de manière autonome, à partir d'informations locales uniquement, en combinant dans une fonction d'utilité unifiée deux critères -- la fréquence de couverture des zones d'intérêt et l'urgence de remonter l'état de mission à la station de base. En simulation, LR-PT surpasse les algorithmes de référence existants sur deux métriques clés : la fréquence de visite de l'ensemble des points surveillés et la qualité de la "situation awareness" de l'opérateur à la base, c'est-à-dire sa capacité à prédire les comportements des robots, soutenir la prise de décision et déclencher des interventions d'urgence. L'intérêt technique tient à deux propriétés émergentes. Premièrement, la partition spatiale se forme spontanément sans coordinateur central, ce qui évite les pièges des optima locaux classiques dans les algorithmes de couverture. Deuxièmement, l'architecture entièrement locale confère une robustesse démontrée aux contraintes de communication et aux pannes de robots individuels -- un point critique pour les déploiements industriels en entrepôt, site industriel ou périmètre de sécurité. Pour les décideurs B2B, cela signifie une flotte de robots de surveillance qui continue de fonctionner de façon dégradée plutôt que de s'effondrer complètement en cas de défaillance partielle. La mise en avant explicite de la situation awareness opérateur est aussi notable : c'est un angle souvent négligé dans la littérature sur les essaims robotiques, davantage focalisée sur les métriques de couverture. La patrouille multi-robots est un domaine de recherche actif depuis les années 2000, avec des approches concurrentes comme les algorithmes à base de cartes d'idleness (Chevaleyre, Portugal & Rocha) ou les méthodes par apprentissage par renforcement. LR-PT se positionne dans la famille des algorithmes réactifs locaux, plus simples à déployer sur matériel contraint. Limite importante à noter : les résultats sont exclusivement issus de simulation, le fossé sim-to-real n'est pas adressé. Aucun déploiement réel ni partenariat industriel n'est mentionné, et aucune timeline vers une validation terrain n'est annoncée dans le papier.

RecherchePaper
1 source
Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?
959arXiv cs.RO 

Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?

Une équipe de chercheurs a publié sur arXiv (référence 2604.27667) une méthode hybride dénommée TFM-S3, conçue pour améliorer l'exploration globale dans l'apprentissage de politiques robotiques tout en limitant le nombre de simulations nécessaires. L'approche alterne des mises à jour locales à haute fréquence avec des rondes de recherche globale intermittentes. À chaque ronde, TFM-S3 construit dynamiquement un sous-espace de politique de faible dimension via une décomposition en valeurs singulières (SVD), puis effectue un raffinement itératif guidé par un modèle de substitution (surrogate model). Ce modèle de fondation tabulaire pré-entraîné prédit les retours candidats à partir d'un petit ensemble de contextes, permettant un criblage à grande échelle sans multiplier les rollouts coûteux. Sur des benchmarks de contrôle continu standards, TFM-S3 accélère la convergence en phase initiale et améliore les performances finales par rapport à TD3 (Twin Delayed Deep Deterministic Policy Gradient) et des baselines à population, à budget de rollouts identique. L'enjeu central est le coût d'exploration. En robotique, l'apprentissage par renforcement dans des espaces d'action continus à haute dimension souffre d'un dilemme structurel : les méthodes locales convergent vite mais restent piégées dans des optima locaux, tandis que les méthodes globales sont plus robustes à l'initialisation mais très gourmandes en évaluations. TFM-S3 propose un compromis crédible en déléguant le criblage des candidats à un modèle tabulaire pré-entraîné. Si ces résultats se confirment sur des environnements physiques réels et pas seulement en simulation, ce serait un levier direct pour accélérer l'entraînement de politiques sur des robots industriels où chaque essai a un coût mécanique et temporel non négligeable. Cette publication s'inscrit dans une tendance croissante qui cherche à transférer les bénéfices des modèles de fondation (pré-entraînement massif, généralisation) au problème classique de l'optimisation de politique. Des approches concurrentes comme les VLA (Vision-Language-Action models) Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA misent sur l'apprentissage multimodal et l'imitation à grande échelle plutôt que sur le renforcement pur. TFM-S3 se positionne comme un outil orthogonal, compatible avec des pipelines RL existants. Il reste pour l'instant un preprint non relu par des pairs, et ses expériences se limitent aux benchmarks de contrôle continu standards de type MuJoCo, sans validation sur hardware physique annoncée à ce stade.

RecherchePaper
1 source
Pince fluidique bistable sans source pour préhension sélective par taille et rigidité adaptative
960arXiv cs.RO 

Pince fluidique bistable sans source pour préhension sélective par taille et rigidité adaptative

Des chercheurs ont présenté en novembre 2025, via la prépublication arXiv:2511.03691 (v2), un préhenseur souple hydraulique entièrement autonome capable de saisir des objets sans source externe de pression ni énergie continue. Le système repose sur trois chambres bistables à claquage (snap-through) interconnectées et remplies de liquide. Lorsque la chambre supérieure de détection entre en contact avec un objet et se déforme mécaniquement, le liquide déplacé déclenche automatiquement l'expansion par claquage des chambres de préhension inférieures, immobilisant l'objet par simple redistribution interne du fluide. Ce mécanisme passif permet une saisie sélective par taille (size-selective grasping) et une adaptation automatique de la pression de préhension à la rigidité de l'objet, sans capteur de force ni actionneur supplémentaire. La conception reste compacte et de gabarit fixe, ce qui la distingue des architectures gonflables classiques. L'enjeu opérationnel est tangible: jusqu'ici, les préhenseurs souples pneumatiques ou hydrauliques dépendaient d'un compresseur ou d'une pompe externe, ce qui bridait leur déploiement sur plateformes mobiles, sous-marines ou embarquées. L'approche source-free proposée ici supprime cette liaison énergétique permanente avec l'infrastructure. L'adaptation passive à la rigidité représente également un avantage système notable: elle évite d'embarquer une boucle de contrôle force-couple, réduisant la complexité pour des applications de terrain. Cela dit, l'abstract ne publie aucune métrique de charge utile (payload), de cadence de cycle ni de durabilité sur longue période, ce qui rend difficile toute évaluation de maturité industrielle à ce stade. Ce travail s'inscrit dans la dynamique de la soft robotics autonome, champ en consolidation après des années de démonstrateurs dépendants de laboratoire. Les préhenseurs souples à pression restent dominés par des acteurs comme Festo, dont les grippers bioinspirés équipent des lignes industrielles, ou SoftRobotics, intégré dans l'agroalimentaire. La prépublication n'indique pas d'affiliation institutionnelle explicite ni de partenariat industriel annoncé. Les auteurs ciblent explicitement les environnements sous-marins et de terrain comme débouchés prioritaires; la prochaine étape naturelle serait une validation sur robot mobile ou drone sous-marin, mais aucune timeline n'est communiquée.

RecherchePaper
1 source
RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde
961arXiv cs.RO 

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde

Une équipe de chercheurs a publié le 21 avril 2026 sur arXiv (2604.21355) un framework baptisé RPG (Robust Policy Gating), conçu pour permettre à des robots humanoïdes d'enchaîner plusieurs compétences de combat dynamique sans instabilité. L'approche repose sur une politique unifiée entraînée avec deux mécanismes de randomisation : la randomisation des transitions de mouvement, qui expose la politique à des états initiaux et terminaux variés entre compétences, et la randomisation temporelle, qui rend l'agent robuste aux coupures imprévises dans la séquence de mouvements. La pipeline de contrôle intègre la locomotion (marche, course) avec les compétences de combat, permettant théoriquement des séquences de durée arbitraire. Le système a été validé en simulation extensive, puis déployé sur le robot humanoïde Unitree G1, la plateforme à 23 DDL du constructeur chinois Unitree Robotics. Le problème central que RPG adresse est connu dans le domaine sous le nom de "skill transition gap" : lorsqu'un agent bascule d'une politique spécialisée à une autre, les états terminaux de la première ne correspondent pas aux états initiaux supposés de la seconde, produisant des comportements hors domaine, des chutes ou des mouvements saccadés. Les approches concurrentes utilisent soit une commutation entre politiques mono-compétence, soit une politique généraliste qui imite des motion clips de référence -- les deux souffrent de ce décalage. RPG propose une solution d'entraînement plutôt que d'architecture, ce qui est notable : la robustesse aux transitions est injectée pendant la phase d'apprentissage, pas via un mécanisme de gating à l'inférence. L'absence de métriques quantitatives dans la publication (temps de cycle, taux de chute, nombre de transitions testées) limite cependant la comparaison directe avec d'autres travaux. RPG s'inscrit dans une vague active de recherche sur le contrôle corps entier des humanoïdes pour des tâches hautement dynamiques, un domaine où les laboratoires UCB, CMU et Stanford publient régulièrement depuis 2023. L'utilisation du G1 comme plateforme de validation est cohérente avec sa popularité croissante en recherche académique, notamment grâce à son coût inférieur à celui des plateformes concurrentes (Boston Dynamics Atlas, Agility Digit). Sur le plan commercial, des acteurs comme Figure AI, 1X Technologies ou Apptronik ciblent des tâches répétitives en entrepôt plutôt que le combat, mais les techniques de transition de compétences développées ici sont directement transposables aux scénarios industriels nécessitant des enchaînements fluides de manipulation et de locomotion. La prochaine étape naturelle serait une évaluation quantitative en conditions adversariales réelles, ainsi qu'un transfert vers des tâches moins "spectaculaires" mais plus proches du déploiement B2B.

RecherchePaper
1 source
Impédance variable passive pour le contrôle partagé
962arXiv cs.RO 

Impédance variable passive pour le contrôle partagé

Des chercheurs ont publié un nouveau travail, référencé arXiv:2604.20557, portant sur la stabilisation des systèmes de contrôle partagé en robotique. L'approche proposée s'attaque à un problème précis : lorsqu'un bras robotique est guidé simultanément vers plusieurs objectifs de position avec des priorités variables, les forces générées par chaque objectif doivent être combinées de façon cohérente. Les auteurs reformulent ce problème dans un cadre unifié, couvrant à la fois le contrôle d'impédance à raideur variable et l'arbitrage entre plusieurs contrôleurs par sommation pondérée de leurs sorties en couple et en force. Le cœur de la contribution réside dans l'identification de violations de passivité dans le système en boucle fermée, un phénomène qui peut rendre le système instable lorsque les gains de raideur ou les pondérations changent au fil du temps. La passivité est une propriété physique fondamentale garantissant qu'un système ne génère pas d'énergie de lui-même, condition nécessaire à la stabilité dans les interactions physiques homme-robot. Les méthodes proposées corrigent ces violations sans imposer de contraintes sur la forme des matrices de raideur : celles-ci peuvent inclure des termes hors diagonale et évoluer arbitrairement dans le temps, ce qui offre une flexibilité inédite pour concevoir des comportements de guidage complexes et adaptatifs. Les expériences menées en simulation et sur des robots réels sur plusieurs plateformes confirment l'efficacité de l'approche. Le contrôle partagé, qui consiste à partager la commande d'un robot entre une intention humaine et une assistance automatique, est un enjeu central en robotique collaborative, en assistance médicale et en téléopération. Les approches actuelles peinent à combiner robustesse et flexibilité dès que le contexte évolue dynamiquement. En proposant un cadre générique qui stabilise les contrôleurs d'impédance standards tout en autorisant des arbitrages fluides entre plusieurs objectifs concurrents, ce travail ouvre la voie à des assistants robotiques capables de s'adapter en temps réel aux besoins de l'utilisateur sans compromettre la sécurité de l'interaction physique.

RechercheOpinion
1 source
CubeDAgger : apprentissage par imitation interactif pour systèmes dynamiques, avec une interaction efficace et à faible risque
963arXiv cs.RO 

CubeDAgger : apprentissage par imitation interactif pour systèmes dynamiques, avec une interaction efficace et à faible risque

Des chercheurs ont publié CubeDAgger, une nouvelle méthode d'apprentissage par imitation interactive conçue pour les systèmes robotiques dynamiques. Présentée dans un article soumis à arXiv (identifiant 2505.04897), elle s'appuie sur un cadre existant appelé EnsembleDAgger et y apporte trois améliorations distinctes : une régularisation explicite du seuil de déclenchement des corrections humaines, un mécanisme de consensus entre plusieurs candidats d'action en lieu et place du simple basculement entre expert et agent, et enfin l'injection d'un bruit coloré autorégressif dans les actions du robot pour garantir une exploration cohérente dans le temps. Les expériences réelles ont été conduites sur une tâche de ramassage avec une cuillère, un robot apprenant à exécuter ce geste correctement à partir de zéro en seulement 30 minutes d'interaction avec un expert humain. L'enjeu central que CubeDAgger cherche à résoudre est la stabilité dynamique, un problème négligé par la majorité des méthodes actuelles. Les algorithmes d'apprentissage par imitation interactive existants fonctionnent bien pour des tâches statiques, où l'expert peut intervenir ponctuellement sans perturber le comportement du robot. Mais dès que la tâche implique du mouvement continu, ramasser un objet, stabiliser une trajectoire, un basculement brutal entre le mode expert et le mode autonome provoque des à-coups mécaniques qui compromettent la sécurité et la fiabilité. CubeDAgger réduit ces discontinuités, ce qui le rend pertinent pour des applications industrielles ou médicales où la précision du geste est critique. L'apprentissage par imitation interactive, dont DAgger est le pionnier depuis 2011, reste une approche de référence pour entraîner des politiques robotiques robustes sans nécessiter des millions d'exemples. Le défi a toujours été de minimiser la charge imposée à l'expert humain tout en conservant la qualité de l'apprentissage. Les variantes récentes comme EnsembleDAgger avaient progressé sur ce point, mais butaient sur les tâches dynamiques. CubeDAgger s'inscrit dans une tendance plus large visant à rendre la robotique apprenante opérationnelle en dehors des environnements contrôlés de laboratoire, avec des horizons d'application dans la logistique, la chirurgie assistée, ou encore les robots d'assistance domestique.

RechercheOpinion
1 source
Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football
964arXiv cs.RO 

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs. Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique. Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

RecherchePaper
1 source
Vers une fluidité d'interaction dans un système robotique Wizard-of-Oz : un prototype pour la correction d'erreurs fluide
965arXiv cs.RO 

Vers une fluidité d'interaction dans un système robotique Wizard-of-Oz : un prototype pour la correction d'erreurs fluide

Un préprint déposé sur arXiv en avril 2026 (identifiant 2604.19374) propose un cadre formel pour concevoir des plateformes de type Wizard-of-Oz (WoZ) dédiées à l'interaction homme-robot, et présente un environnement de simulation en réalité virtuelle destiné aux manipulateurs mobiles. Le principe WoZ, emprunté à la psychologie expérimentale, consiste à faire opérer un robot par un opérateur humain caché pendant que l'utilisateur croit interagir avec un système autonome, méthode couramment utilisée pour collecter des données et prototyper des interfaces avant déploiement réel. Les auteurs identifient quatre propriétés clés qu'une telle plateforme doit satisfaire pour permettre une correction d'erreur fluide : l'interruptibilité et la correction (IaC), la pollabilité (capacité à interroger l'état du système à tout instant), la mesure et l'optimisation de la latence perçue, et la reproductibilité temporellement précise des actions à partir des journaux de logs. L'importance de ce travail réside dans le diagnostic qu'il pose : l'interaction vocale avec les robots reste laborieuse et frustrante dans l'état de l'art actuel, en partie faute de plateformes de développement WoZ suffisamment outillées pour itérer sur la fluidité conversationnelle. Sans mécanisme pour mesurer la latence, simuler les interruptions ou rejouer fidèlement des séquences d'interaction depuis des données enregistrées, il est difficile de progresser méthodiquement vers des interfaces robustes. Ce cadre outille potentiellement les équipes qui développent des interfaces vocales pour cobots industriels ou robots d'assistance, en leur fournissant des critères quantifiables pour évaluer leurs prototypes. Ce travail s'inscrit dans une littérature en HRI qui cherche à combler le fossé entre les démonstrations en laboratoire et les déploiements réels. L'utilisation de la réalité virtuelle comme environnement de simulation pour manipulateurs mobiles gagne du terrain pour réduire les coûts de prototypage physique. Les auteurs s'appuient explicitement sur des systèmes WoZ antérieurs pour formaliser leurs critères, sans toutefois citer de plateforme concurrente nommément. À ce stade, il s'agit d'un prototype de recherche et d'un cadre théorique, sans déploiement industriel ni partenariat commercial annoncé. Les prochaines étapes naturelles impliqueraient des études utilisateurs validant que ces critères améliorent effectivement la fluidité perçue dans des scénarios opérationnels.

RecherchePaper
1 source
IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions
966arXiv cs.RO 

IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17810) un travail portant sur la question-réponse incarnée multi-agents (MA-EQA), un paradigme où plusieurs robots coopèrent pour répondre à des requêtes sur ce qu'ils ont collectivement observé sur un horizon temporel long. Le problème central est l'allocation de puissance de transmission entre agents : quand les ressources radio sont limitées, quels robots doivent avoir la priorité pour transmettre leurs souvenirs ? Les auteurs proposent deux contributions : un modèle de qualité de mémoire (QoM) basé sur un examen génératif adversarial (GAE), et un algorithme d'allocation de puissance centré sur la mémoire (MCPA). Le GAE fonctionne par simulation prospective : il génère des questions-tests, évalue la capacité de chaque agent à y répondre correctement à partir de sa mémoire locale, puis convertit les scores obtenus en valeurs QoM. Le MCPA maximise ensuite la fonction QoM globale sous contraintes de ressources de communication. L'analyse asymptotique montre que la puissance allouée à chaque robot est proportionnelle à sa probabilité d'erreur GAE, ce qui revient à prioriser les agents dont la mémoire est la plus riche et la plus fiable. L'intérêt concret pour les architectes de systèmes multi-robots est de déplacer le critère d'optimisation réseau des métriques classiques (débit, latence, taux d'erreur paquet) vers une métrique applicative directement liée à la tâche cognitive. Dans les déploiements d'inspection industrielle, de surveillance ou d'exploration, les robots ne transmettent pas pour transmettre : ils transmettent pour que le système réponde correctement à des requêtes. Traiter la qualité de mémoire comme une ressource à optimiser, au même titre que la bande passante, est une rupture de cadre qui pourrait influencer la conception des protocoles MAC dans les flottes d'agents embarqués. Les expériences montrent des gains significatifs sur plusieurs benchmarks et scénarios, bien que les conditions exactes de déploiement (nombre d'agents, topologie réseau, type de mémoire) ne soient pas détaillées dans le résumé. Ce travail s'inscrit dans la convergence entre vision-langage-action (VLA), robotique incarnée et gestion des ressources sans-fil, un champ en forte expansion depuis 2023 avec les architectures de type RT-2 (Google DeepMind), GR00T (NVIDIA) et les travaux sur les mémoires épisodiques longue durée pour robots mobiles. Sur le plan académique, le GAE adversarial rappelle les techniques d'évaluation automatique utilisées dans les LLM, ici transposées à l'évaluation de mémoire sensorimotrice. Les prochaines étapes logiques seraient une validation sur flotte physique réelle et une intégration avec des architectures mémoire de type VectorDB embarqué. Aucun acteur industriel ni partenaire de déploiement n'est mentionné dans la publication.

RecherchePaper
1 source
Modélisation du contact améliorée pour lier extéroception et proprioception dans les robots à croissance progressive
967arXiv cs.RO 

Modélisation du contact améliorée pour lier extéroception et proprioception dans les robots à croissance progressive

Une équipe de chercheurs présente dans un preprint arXiv (réf. 2507.10694v2) une approche permettant d'utiliser des robots souples "croissants" (soft growing robots) comme outils de cartographie autonome dans des environnements inconnus. Ces robots progressent en longueur depuis leur base sans déplacer leur corps, ce qui leur confère une aptitude naturelle aux espaces confinés et non structurés. Le coeur du travail consiste d'abord à caractériser précisément le comportement de collision lors des virages discrets, puis à construire un simulateur géométrique reproduisant les trajectoires en 2D. Le modèle est ensuite validé en situation réelle : un algorithme d'échantillonnage Monte Carlo sélectionne à chaque étape le prochain déploiement optimal en fonction de la carte déjà construite, sur des environnements aussi bien uniformes que non uniformes. L'apport conceptuel est de convertir la déformation passive, habituellement perçue comme une limitation à compenser, en source d'information tactile exploitable. En couplant extéroception (perception de la géométrie externe) et proprioception (état interne du robot), le système peut inférer la structure de son environnement à partir des seules déformations de contact, sans capteurs actifs de type LiDAR ou caméra. La convergence rapide de la sélection Monte Carlo vers des actions quasi-optimales, même dans des configurations irrégulières, suggère qu'une mécanique délibérément simple peut suffire à conduire une exploration utile. Pour des intégrateurs ciblant l'inspection de conduites, de tunnels ou de zones sinistrées, cette voie sans électronique embarquée complexe présente un intérêt opérationnel réel, même si les démonstrations restent limitées à la simulation 2D. Les soft growing robots ont été largement popularisés par les travaux du groupe Hawkes à l'UC Santa Barbara, dont plusieurs publications ont démontré la pénétration de milieux encombrés et l'évitement d'obstacles par déformation passive. Ce nouveau travail prolonge cet effort vers l'autonomie décisionnelle, jusqu'ici absente faute de modèles de contact fiables. Face aux approches classiques de cartographie (AMR à roues, drones miniatures), le robot souple reste marginal en termes de vitesse et de charge utile, mais occupe un créneau distinct pour les espaces très étroits. Les auteurs n'annoncent pas de timeline de commercialisation ni de partenariat industriel ; les prochaines étapes logiques porteront sur l'extension à des environnements 3D et l'intégration de boucles de contrôle temps réel.

RecherchePaper
1 source
Localisation par angle et contrôle de rigidité pour réseaux multi-robots
968arXiv cs.RO 

Localisation par angle et contrôle de rigidité pour réseaux multi-robots

Des chercheurs ont publié sur arXiv (référence 2604.11754v2) une contribution théorique et algorithmique portant sur la localisation par mesures d'angles et le maintien de rigidité dans les réseaux multi-robots, en 2D et en 3D. Le résultat central établit une équivalence formelle entre rigidité angulaire et rigidité de type "bearing" (orientation relative) pour des graphes de détection dirigés avec mesures en référentiel embarqué : un système dans SE(d) est infinitésimalement rigide au sens bearing si et seulement s'il est infinitésimalement rigide au sens angulaire et que chaque robot acquiert au moins d-1 mesures de bearing (d valant 2 ou 3). À partir de cette base, les auteurs proposent un schéma de localisation distribué et démontrent sa stabilité exponentielle locale sous des topologies de détection commutantes, avec comme seule hypothèse la rigidité angulaire infinitésimale sur l'ensemble des topologies visitées. Une nouvelle métrique, la valeur propre de rigidité angulaire, est introduite pour quantifier le degré de rigidité du réseau, et un contrôleur décentralisé par gradient est proposé pour maintenir cette rigidité tout en exécutant des commandes de mission. Les résultats sont validés par simulation. L'intérêt pratique de ce travail réside dans le choix des mesures angulaires plutôt que des distances ou des orientations absolues : les angles entre vecteurs de direction peuvent être extraits directement depuis des caméras embarquées à bas coût, sans capteur de distance actif ni accès GPS. Pour les intégrateurs de systèmes multi-robots, notamment en essaims de drones ou en robotique entrepôt avec coordination décentralisée, la robustesse sous topologies commutantes est critique, car les lignes de vue entre agents changent constamment. Le contrôleur proposé adresse ce problème en maintenant activement une configuration spatiale suffisamment rigide pour garantir l'observabilité du réseau, ce qui évite les dégradations silencieuses de localisation que l'on observe dans les déploiements réels. C'est une avancée sur le problème dit du "rigidity maintenance", encore peu traité dans la littérature avec des garanties formelles en 3D. La rigidité de réseau comme fondation pour la localisation distribuée est un domaine actif depuis les travaux fondateurs sur la formation control et les frameworks d'Henneberg dans les années 2010. Les approches concurrentes incluent la localisation par distances (nécessitant UWB ou radar), par bearings seuls (plus sensible aux ambiguïtés), ou par fusion IMU/SLAM embarqué par robot, chacune avec ses propres hypothèses de connectivité et de coût matériel. Ce papier se positionne dans le créneau "caméra seule, pas de métadonnées globales", pertinent pour les petits drones ou les robots à budget capteur contraint. Aucun déploiement ni partenaire industriel n'est mentionné, il s'agit d'une contribution académique pure. Les suites naturelles incluraient une validation sur plateforme physique (type Crazyflie ou quadrupèdes en formation) et l'extension aux perturbations de mesures bruitées en environnement non contrôlé.

RecherchePaper
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
969arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source