Aller au contenu principal

Dossier arXiv cs.RO — page 24

1230 articles · page 24 sur 25

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Combler les lacunes : couverture ergodique multi-robot guidée par rétroaction en environnements inconnus
1151arXiv cs.RO RecherchePaper

Combler les lacunes : couverture ergodique multi-robot guidée par rétroaction en environnements inconnus

Des chercheurs ont soumis fin mai 2026 sur arXiv (2605.21719) un framework de couverture adaptative multi-robot intitulé "Mind the Gaps", conçu pour des environnements dont la distribution d'information est inconnue a priori. La méthode repose sur la recherche ergodique : les trajectoires des robots sont optimisées pour que leur distribution spatiale temporelle soit proportionnelle à la densité d'information perçue dans l'environnement. La nouveauté consiste à intégrer un retour en temps réel depuis un modèle paramétrique mis à jour en ligne, permettant de recalculer dynamiquement les zones cibles et de réallouer les agents vers les régions d'intérêt prioritaires. Les validations présentées sont exclusivement en simulation, sans déploiement sur hardware réel. L'obstacle classique des méthodes ergodiques est qu'elles supposent une distribution d'information connue a priori -- une hypothèse irréaliste pour l'inspection industrielle, la surveillance environnementale ou le search-and-rescue. Ce framework élimine ce prérequis en construisant la carte d'intérêt à la volée, concentrant les ressources là où l'incertitude est la plus élevée. Pour un intégrateur déployant des AMR sur un site diffus -- détection de fuites, cartographie de polluants, inspection de grandes surfaces -- cela réduit le nombre d'agents nécessaires et évite les cycles gaspillés sur des zones déjà bien caractérisées. La méthode suppose toutefois un environnement statique ou à évolution lente par rapport à la dynamique des robots, ce qui en limite l'applicabilité aux environnements hautement dynamiques. La recherche ergodique multi-robot s'appuie sur les travaux fondateurs de Mathew et Mezić (2011) et les développements de l'équipe Murphey à Northwestern. Les approches concurrentes -- exploration par frontières et processus gaussiens (GP-UCB) -- offrent une quantification d'incertitude plus explicite mais souffrent d'une complexité de calcul cubique avec le nombre d'observations. Ce papier positionne les méthodes ergodiques comme plus scalables pour de grandes flottes, sans toutefois proposer de comparaison quantitative directe. La validation limitée à la simulation laisse ouverte la question du sim-to-real gap, notamment pour les dynamiques de communication inter-agents à faible bande passante. Aucun partenariat industriel ni timeline de transfert technologique n'est mentionné.

1 source
Perception active et contrôle tenant compte des conflits dans les champs de Gaussian Splatting 3D via des fonctions barrière de contrôle
1152arXiv cs.RO 

Perception active et contrôle tenant compte des conflits dans les champs de Gaussian Splatting 3D via des fonctions barrière de contrôle

Des chercheurs ont publié sur arXiv (référence 2605.20566) un cadre algorithmique baptisé "conflict-aware active perception and control" pour robots évoluant dans des environnements modélisés par 3D Gaussian Splatting (3DGS). L'approche repose sur un programme quadratique unifié qui traite simultanément deux objectifs antagonistes : la sécurité, imposée comme contrainte dure via une Control Barrier Function (CBF), et l'acquisition d'information, traitée comme contrainte souple assouplie par des variables de relâchement (slack variables). La CBF est dérivée d'une métrique de risque de collision dite Average Value-at-Risk (AV@R), qui intègre l'incertitude géométrique de la carte et garantit mathématiquement l'invariance avant d'un ensemble sûr. Pour maximiser la perception, le système sélectionne la prochaine meilleure vue (next-best-view) via une formulation risk-aware de l'Expected Information Gain (EIG), et oriente la caméra vers la direction de montée d'information locale grâce à des "perception barrier functions". Les résultats présentés sont issus de simulations uniquement, sans validation sur plateforme physique. Le problème central que ce travail adresse est structurel : dans un environnement partiellement inconnu, les vues les plus informatives se trouvent précisément dans les zones les moins cartographiées, donc les plus à risque de collision. Les approches existantes basées sur 3DGS traitaient ces deux objectifs séparément ou par simple pondération, sans garanties formelles. Formuler la sécurité comme contrainte inviolable tout en relaxant la perception permet aux décideurs B2B et aux intégrateurs robotiques d'envisager des robots d'exploration actifs qui cartographient des environnements industriels non balisés sans compromis ad hoc entre productivité et sécurité. L'amélioration simultanée de la sécurité et du gain d'information, comparée aux méthodes 3DGS concurrentes, constitue un signal technique intéressant, même si l'absence d'expériences réelles limite pour l'instant la portée de la validation. Le 3DGS s'est imposé comme représentation de référence pour les champs de radiance neuronaux depuis 2023, supplantant progressivement le NeRF grâce à sa vitesse de rendu et sa différentiabilité. Les CBF sont un outil établi en commande sûre, mais leur intégration dans des champs neuronaux pour la perception active reste un axe de recherche émergent. Aucune institution ni entreprise n'est explicitement nommée dans l'abstract, et aucun déploiement industriel n'est annoncé. Les concurrents directs sont les méthodes d'exploration active basées NeRF et les planificateurs next-best-view classiques. Les prochaines étapes naturelles seraient une validation sim-to-real sur plateforme physique et des tests dans des scènes plus complexes.

RecherchePaper
1 source
Planification par réseau de neurones en graphe et contrôle prédictif pour la planification de mouvement multi-robots sans étiquettes sous contraintes de communication
1153arXiv cs.RO 

Planification par réseau de neurones en graphe et contrôle prédictif pour la planification de mouvement multi-robots sans étiquettes sous contraintes de communication

Une équipe de chercheurs propose, dans un preprint déposé sur arXiv le 25 mai 2026 (arXiv:2605.19209), un framework hiérarchique pour résoudre le problème de planification de mouvement multi-robots sans étiquetage, c'est-à-dire l'assignation simultanée de robots à des objectifs et la génération de trajectoires sûres dans des environnements partagés. Le système combine deux composants : un Graph ATtention Planner (GATP), fondé sur des réseaux de neurones à graphes avec mécanisme d'attention, qui génère des sous-objectifs intermédiaires par coopération entre agents, et un contrôleur NMPC (Nonlinear Model Predictive Controller) décentralisé, exécuté en embarqué sur chaque robot, qui garantit la faisabilité des trajectoires sous dynamiques non-linéaires et contraintes d'actuation réelles. Le framework a été évalué à la fois en simulation et sur des quadrotors physiques. Les auteurs rapportent une tolérance aux délais de communication allant jusqu'à 200 ms, une inférence entièrement décentralisée à bord, et une meilleure généralisation à des équipes de taille croissante. Ce travail s'attaque directement au gouffre sim-to-real qui mine la plupart des approches GNN appliquées à la robotique multi-agents : les méthodes existantes supposent des dynamiques simplifiées et un environnement de simulation idéalisé, ce qui les rend fragiles en conditions réelles. En couplant un planificateur neuronal décentralisé à un contrôleur à modèle prédictif, le framework maintient les propriétés de scalabilité des GNN tout en imposant des garanties de sécurité physiques que les approches purement apprises ne fournissent pas. La robustesse aux délais de communication est particulièrement significative pour les déploiements en entrepôts ou en milieu industriel, où les réseaux sans fil ne sont jamais idéaux. Cette contribution s'inscrit dans un corpus actif de recherche sur les GNN pour la coordination multi-robots, aux côtés de travaux comme MAGAT ou DAN, qui visent à remplacer les solveurs centralisés classiques (MILP, CBS) par des approches distribuées passant à l'échelle. Le preprint n'est pas encore soumis à une revue avec comité de lecture, et aucun déploiement industriel ni partenariat n'est annoncé : il s'agit d'une validation expérimentale académique sur quadrotors, prometteuse mais à consolider. Les prochaines étapes naturelles seraient des expériences sur flottes plus larges et des robots à dynamiques plus complexes, comme des manipulateurs mobiles ou des AMR en environnement entrepôt.

RecherchePaper
1 source
Robots qui apprennent à évaluer des modèles de comportement collectif
1154arXiv cs.RO 

Robots qui apprennent à évaluer des modèles de comportement collectif

Des chercheurs ont publié sur arXiv (référence 2604.07303) un cadre méthodologique inédit permettant d'évaluer la fidélité de modèles comportementaux animaux via un robot biomimétique en interaction fermée. L'équipe a utilisé un poisson robot, baptisé RoboFish, contrôlé par des politiques d'apprentissage par renforcement entraînées en simulation sur quatre modèles de comportement de poissons réels : une baseline constante de suivi simple, deux modèles à règles explicites, et un modèle neuronal convolutif (CNN) ancré biologiquement. Ces politiques entraînées en simulation ont ensuite été transférées au RoboFish physique, qui a interagi en temps réel avec de vrais poissons. L'écart sim-to-real a été quantifié via la distance de Wasserstein entre les distributions simulées et réelles de métriques comportementales : performance d'atteinte de cible, distances inter-individuelles, interactions avec les parois de l'aquarium, et alignement de nage. Le modèle CNN s'est révélé le plus fidèle, affichant le plus faible écart sim-to-real sur la majorité des métriques mesurées. Ce travail résout un problème méthodologique persistant en robotique bio-inspirée et en éthologie computationnelle : jusqu'ici, les modèles comportementaux étaient validés uniquement par comparaison offline sur des trajectoires enregistrées, sans confrontation dynamique avec les animaux réels. En introduisant une évaluation en boucle fermée, les auteurs montrent que le classement des modèles change lorsqu'on passe d'une comparaison statique à une interaction incarnée, ce qui implique que de nombreux modèles publiés ont pu être surévalués. Pour la robotique de swarm et les systèmes multi-agents bio-inspirés, ce type de benchmark incarné constitue un outil de validation bien plus discriminant que les métriques classiques. Ce travail s'inscrit dans un courant de recherche croissant sur le sim-to-real en robotique comportementale, porté par des laboratoires comme celui de Maurizio Porfiri (NYU) qui travaille depuis plusieurs années sur RoboFish comme outil d'étude du comportement collectif animal. Le cadre proposé est explicitement généraliste : les auteurs suggèrent qu'il peut s'appliquer à d'autres espèces et d'autres plateformes robotiques. Les prochaines étapes naturelles incluent des tests sur des comportements collectifs plus complexes (bancs de plusieurs individus) et l'extension à d'autres espèces sociales. Aucun partenaire industriel ni financement spécifique n'est mentionné dans le préprint.

RecherchePaper
1 source
CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles
1155arXiv cs.RO 

CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles

Des chercheurs ont publié sur arXiv (référence 2605.19206) un framework de navigation baptisé CLUE, conçu pour résoudre le problème de la navigation vers des objets cibles sans entraînement préalable sur ces objets, un défi connu sous le nom de zero-shot object-goal navigation (ZSON). L'idée centrale : un agent robotique doit localiser un objet donné dans un environnement inconnu en exploitant deux types d'indices contextuels, les pièces (un réfrigérateur se trouve presque toujours dans une cuisine) et les objets voisins co-localisés (des ciseaux peuvent se trouver partout, mais souvent près d'un bureau ou d'un plan de travail). CLUE extrait des connaissances de bon sens à partir d'un grand modèle de langage (LLM) utilisé hors ligne, calcule un score d'association entre la cible et les types de pièces, puis construit une carte sémantique unifiée pondérant dynamiquement ces deux sources d'information selon l'ambiguïté de la cible. Un mécanisme de vérification multi-points de vue complète le système. Les expériences menées en simulation et dans des environnements réels montrent que CLUE dépasse les baselines de l'état de l'art sur les métriques de taux de succès (SR) et de succès pondéré par la longueur du chemin (SPL), sans que des chiffres absolus ne soient communiqués dans l'abstract. L'intérêt pratique de cette approche tient à une critique implicite des méthodes existantes : traiter tous les indices contextuels avec le même poids conduit à une exploration inefficace. Pour un intégrateur de robots de service, cela signifie des trajectoires plus courtes et une meilleure résilience dans des environnements non cartographiés, comme les hôpitaux, les entrepôts ou les environnements domestiques. L'utilisation d'un LLM hors ligne, plutôt qu'en inférence temps réel, réduit la latence et les dépendances cloud, un avantage concret pour le déploiement industriel. La démonstration en environnement réel, même si ses conditions exactes ne sont pas précisées, distingue CLUE de nombreux travaux restés en simulation pure. Ce travail s'inscrit dans un champ de recherche actif sur la navigation sémantique, aux côtés de méthodes comme ESC, VLFM ou SemEXP, issues principalement de laboratoires américains (CMU, Georgia Tech, Berkeley). CLUE se positionne comme une couche d'arbitrage contextuel au-dessus de ces approches plutôt que comme une refonte complète de l'architecture. Le papier est une prépublication arXiv, non encore évalué par les pairs, ce qui invite à la prudence sur la généralisabilité des résultats. Aucune affiliation industrielle ni plateforme matérielle spécifique n'est mentionnée. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (AMR de type Boston Dynamics Spot, Hello Robot Stretch ou plateformes mobiles ROS2-compatibles) et une comparaison sur les benchmarks standardisés HM3D ou Gibson.

RecherchePaper
1 source
SEDualVLN : un système dual à représentation spatiale enrichie pour la navigation vision-langage
1156arXiv cs.RO 

SEDualVLN : un système dual à représentation spatiale enrichie pour la navigation vision-langage

Une équipe a publié sur arXiv (2605.17249) SEDualVLN, un cadre de navigation visuo-langagière (VLN) à double système pour guider un agent autonome à partir d'instructions en langage naturel. Le Système 1 est un modèle VLM affiné sur des trajectoires de navigation, enrichi d'une conscience spatiale globale et locale, chargé de générer les actions immédiates. Le Système 2 intègre un MLLM généraliste et un module de cartographie 3D temps réel : il planifie des points de passage à partir de vues aériennes de la carte construite à la volée et d'un flux d'images de chemin rendues. Ce schéma rapide-lent coordonné atteint des performances état-de-l'art sur les benchmarks VLN-CE (VLN in Continuous Environments). L'intérêt de SEDualVLN est de réconcilier deux paradigmes aux défauts complémentaires. Les approches end-to-end peinent sur les trajectoires longues et manquent de raisonnement dynamique : fine-tunées sur des données de navigation, elles mémorisent des comportements sans réellement planifier. Les pipelines zero-shot exploitent des MLLM pré-entraînés sans ré-entraînement, ce qui offre une meilleure généralisation, mais souffre d'un ancrage spatial insuffisant et d'un temps d'inférence élevé. SEDualVLN hybride les deux : le Système 1 conserve la réactivité end-to-end, le Système 2 apporte la planification raisonnée du modulaire. Pour des robots mobiles de service ou des assistants de livraison intérieure, ce type d'architecture ouvre une voie vers des agents capables de suivre des instructions complexes dans des espaces jamais vus à l'entraînement. Le VLN est un sous-domaine actif de l'IA incarnée, avec des benchmarks comme R2R (Room-to-Room) et VLN-CE sur des environnements Matterport3D et Habitat. SEDualVLN s'inscrit dans une tendance à combiner LLM généralistes et modules de cartographie explicites, direction déjà explorée par NavGPT ou MapGPT. Le papier reste un preprint non évalué par les pairs, sans code ni démo publique, ce qui rend la reproduction indépendante difficile à ce stade. La prochaine étape naturelle est une validation sur robot physique : toutes les expériences rapportées restent pour l'instant confinées à la simulation.

RechercheOpinion
1 source
Filtrage hybride variationnel stable pour la récupération de modes de contact et de lois creuses
1157arXiv cs.RO 

Filtrage hybride variationnel stable pour la récupération de modes de contact et de lois creuses

Une équipe de recherche a publié sur arXiv (référence 2605.16398) VHYDRO, un filtre variationnel hybride conçu pour apprendre la dynamique de contact des robots manipulateurs. Le problème ciblé est précis : dans les systèmes à contact riche, une seule observation peut correspondre à plusieurs régimes latents distincts (mouvement libre, impact, stick-slip). Un filtre amortized classique qui n'affecte aucune probabilité à une transition de contact faisable perd définitivement la branche que le robot suit réellement, sans possibilité de récupération. VHYDRO empêche cette perte de branche en mélangeant la loi de proposition apprise avec une loi de transition physiquement faisable avant l'échantillonnage et la pondération d'importance, garantissant ainsi que chaque transition conservée par le support du modèle reste couverte. Le système infère conjointement un état latent continu et un mode de contact discret, puis ajuste une loi port-Hamiltonienne sparse à chaque régime récupéré. Les résultats empiriques portent sur des démonstrations ManiSkill et sur quatre familles de tâches Sawyer/BridgeData, où VHYDRO surpasse les baselines post-hoc et sans mode sur trois métriques : ARI, change-point F1 et pureté de segment. L'enjeu pour l'industrie robotique est direct : la manipulation à contact riche, préhension, assemblage, insertion de pièces, reste l'un des points durs non résolus pour le déploiement des bras industriels apprenants. La capacité à segmenter temporellement les régimes de contact en segments cohérents est un prérequis pour toute politique de contrôle hybride robuste. Ce que prouve VHYDRO, c'est qu'un filtre défensif au sens du support peut stabiliser la reconstruction du mode discret et, de là, permettre une identification physique sparse des termes actifs dans chaque régime, là où les baselines purement prédictives échouent. Sous occlusion sévère, condition fréquente en atelier, le filtre classique s'effondre tandis que VHYDRO reste utilisable, ce qui est un argument concret pour les intégrateurs travaillant sur des cellules robotisées peu camérisées. La formalisation port-Hamiltonienne, héritée de la mécanique classique des systèmes conservatifs avec contraintes, est ici appliquée à un contexte d'apprentissage hybride, ce qui constitue une contribution méthodologique distincte des approches neurales purement prédictives. ManiSkill et BridgeData sont des benchmarks de référence pour la manipulation robotique apprise, largement utilisés par les laboratoires de la côte Ouest américaine. Le papier est une prépublication arXiv, sans affiliation institutionnelle ni déploiement annoncé. Les concurrents directs sont les méthodes de segmentation de mode post-hoc et les filtres mode-free à apprentissage end-to-end. Les suites naturelles seraient une validation sur robots réels à contact non structuré et une intégration dans des pipelines de contrôle en boucle fermée.

RecherchePaper
1 source
FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable
1158arXiv cs.RO 

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable

Des chercheurs ont publié FuncCanon sur arXiv (réf. 2509.19102, deuxième révision), un framework qui décompose les tâches de manipulation robotique à long horizon en séquences d'"action chunks", des triplets structurés (acteur, verbe, objet), pour apprendre des politiques généralisables à partir de démonstrations humaines. L'idée centrale est de centrer l'apprentissage sur les actions elles-mêmes, pas sur des tâches isolées, ce qui ouvre la voie à la composition et à la réutilisation de primitives. La brique technique originale est la "canonicalisation fonctionnelle d'objets" : les objets sont projetés dans des repères fonctionnels partagés en s'appuyant sur des cues d'affordance extraites de grands modèles vision-langage (VLM). Ce mapping automatique permet de transférer des trajectoires de manipulation entre instances d'une même catégorie sans nouvelles démonstrations. La politique apprise, FuncDiffuser, est une politique de diffusion centrée objet et action, entraînée sur ces données alignées et évaluée sur des benchmarks en simulation et en déploiement réel. L'abstract ne fournit pas de métriques précises (temps de cycle, taux de succès chiffré, nombre de DOF testés), ce qui limite l'évaluation indépendante à ce stade. Le problème que FuncCanon attaque directement est la généralisation hors distribution des politiques end-to-end issues de l'imitation learning, un obstacle bien documenté qui bloque le passage à l'échelle industrielle. En normalisant la pose et la fonctionnalité des objets avant l'apprentissage, FuncDiffuser n'a pas besoin de voir chaque instance d'une catégorie lors de l'entraînement, ce qui réduit structurellement le volume de démonstrations nécessaires par référence produit. Pour un intégrateur industriel, c'est un levier économique potentiellement significatif : le coût de télé-opération pour collecter des données reste l'un des principaux freins au déploiement de bras robotiques en production. Les auteurs revendiquent également une robustesse sim-to-real, mais sans chiffres publiés dans l'abstract, cette affirmation reste à vérifier sur les benchmarks complets disponibles sur le site du projet. FuncCanon s'inscrit dans une vague de travaux visant à dépasser les limites des politiques de diffusion pures (Diffusion Policy, Chi et al., 2023) en ajoutant des représentations sémantiques intermédiaires. Les approches concurrentes incluent Pi-0 de Physical Intelligence, qui exploite une architecture VLA (vision-language-action) pour la généralisation zéro-shot, et GR00T N2 de NVIDIA, qui mise sur un entraînement massif sur données synthétiques. ACT (Action Chunking with Transformers, Zhao et al., 2023) partage la logique de découpage en chunks mais sans canonicalisation fonctionnelle. L'utilisation des VLMs pour extraire des affordances plutôt qu'apprendre des représentations ad hoc est une tendance forte portée par RT-2 de Google DeepMind et OpenVLA. FuncCanon reste pour l'instant une contribution académique sans partenaire industriel ni timeline de commercialisation annoncée.

RechercheOpinion
1 source
Estimation de pose des parties d'objets avec une stratégie d'apprentissage sans annotation de symétrie
1159arXiv cs.RO 

Estimation de pose des parties d'objets avec une stratégie d'apprentissage sans annotation de symétrie

Des chercheurs ont déposé le 19 mai 2026 sur arXiv (référence 2605.17033) un nouveau cadre d'apprentissage baptisé SAFAG (Symmetry Annotation-Free framework for Generalizable and Actionable Parts), destiné à améliorer l'estimation de pose des parties fonctionnelles d'objets pour la manipulation robotique. Le problème central adressé est celui de la perception cross-catégorie : un robot doit être capable d'identifier et d'utiliser les parties actionnables d'objets inconnus (poignées de tiroirs, vannes, leviers) sans annotations de symétrie produites manuellement. SAFAG propose une architecture à deux étapes de type candidat-vers-final pour la régression de quaternions (représentation mathématique de l'orientation 3D en espace), couplée à un mécanisme d'apprentissage auto-supervisé qui traite la symétrie des objets comme un problème de distribution de probabilité, supprimant ainsi la dépendance aux annotations manuelles. L'enjeu industriel est concret : l'une des frictions majeures dans le déploiement de bras robotiques polyvalents en atelier ou en logistique est précisément la capacité à actionner des objets variés sans reprogrammation par référence. La symétrie géométrique des pièces (bouton rond, valve cylindrique) génère des ambiguïtés de pose qui font échouer les pipelines de perception classiques, contraignant les intégrateurs à constituer des datasets annotés par catégorie d'objet, une démarche coûteuse et non scalable. En automatisant la gestion de la symétrie via l'apprentissage auto-supervisé, SAFAG pourrait réduire significativement ce coût d'intégration pour des tâches pick-and-place sur objets non structurés, domaine où le sim-to-real reste un défi ouvert. Le concept de GAParts (Generalizable and Actionable Parts) sur lequel s'appuie SAFAG a émergé ces dernières années dans la communauté de l'embodied AI, notamment autour de travaux sur la segmentation sémantique des parties d'objets articulés. Le paysage concurrent inclut AnyGrasp, FoundationPose de NVIDIA et UniGraspTransfer, qui visent tous à généraliser la préhension sans supervision dense. SAFAG se distingue par son traitement explicite de la symétrie sans annotation. Il s'agit néanmoins d'un preprint arXiv sans code publié ni évaluation externe disponible à ce stade : les performances revendiquées restent à reproduire de façon indépendante avant toute considération d'intégration industrielle.

RecherchePaper
1 source
MUSE : quantification multimodale de l'incertitude dans l'estimation d'état
1160arXiv cs.RO 

MUSE : quantification multimodale de l'incertitude dans l'estimation d'état

Une équipe de chercheurs a déposé sur arXiv (référence 2605.17421, mai 2026) un cadre d'apprentissage automatique baptisé MUSE (Multimodal Uncertainty Quantification of State Estimation), conçu pour quantifier en temps réel l'incertitude dans l'estimation d'état visuel. La contribution centrale porte sur l'odométrie visuelle-inertielle (VIO), technique qui fusionne données de caméra et unité de mesure inertielle (IMU) pour localiser un robot sans GPS. MUSE exploite l'architecture Mamba, modèle séquentiel à état discret proposé en 2023 comme alternative efficace aux Transformers, pour traiter plusieurs flux de capteurs asynchrones simultanément. Les expériences ont été conduites sur des jeux de données publics et des données propriétaires ; les auteurs rapportent une fiabilité et une robustesse supérieures aux méthodes existantes, sans fournir dans l'abstract de métriques chiffrées précises permettant une comparaison directe avec l'état de l'art. L'enjeu dépasse la simple précision de localisation : savoir quand ne pas faire confiance à une estimation est aussi critique que l'estimation elle-même. En navigation autonome, en conduite sans conducteur et en vol autonome, une erreur non détectée peut provoquer une collision ou un abandon de mission. Le problème est particulièrement difficile en VIO car la distribution des erreurs est hétéroscédastique (la variance évolue selon les conditions lumineuses, les textures, la vitesse) et multimodale (plusieurs hypothèses de pose simultanément plausibles). Une quantification d'incertitude fiable ouvre la voie à des mécanismes embarqués de détection de défaillance et de dégradation gracieuse, deux capacités très recherchées par les intégrateurs de systèmes autonomes en industrie. L'estimation d'état visuel est un domaine très actif, où filtres de Kalman étendus, graphes de facteurs (GTSAM, g2o) et méthodes neuronales récentes (DPVO, DROID-SLAM) se concurrencent sur des benchmarks standard comme EuRoC ou TUM-VI. Mamba gagne du terrain dans les tâches de séquences longues, et MUSE s'inscrit dans cette tendance en l'appliquant à la fusion sensorielle multi-modale. Aucune affiliation institutionnelle ni partenariat industriel n'est mentionné dans l'abstract, et le papier n'a pas encore été soumis à une revue à comité de lecture confirmée. Les performances annoncées restent donc à valider indépendamment avant toute intégration dans un pipeline de production.

RecherchePaper
1 source
HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines
1161arXiv cs.RO 

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.03243v2) HoMMI, pour Whole-Body Mobile Manipulation Interface, un framework d'apprentissage par imitation permettant à un robot mobile de maîtriser la manipulation bimanuelle et la navigation à partir de démonstrations humaines réalisées sans robot. Le principe : un opérateur humain porte une interface portative héritée du projet UMI (Universal Manipulation Interface), enrichie d'une caméra égocentrique capturant le contexte global de la scène (position dans l'espace, état de l'environnement). Ces données brutes alimentent une politique apprise, transférée ensuite sur un robot à corps entier (bras, torse, base mobile) sans que celui-ci n'ait été présent lors de la collecte. La difficulté centrale que HoMMI cherche à résoudre est l'"embodiment gap" : la différence morphologique et sensorielle entre humain et robot rend le transfert de politique difficile, particulièrement en perception égocentrique où les champs de vue et hauteurs d'oeil divergent fortement. Les auteurs proposent trois briques techniques pour combler cet écart : une représentation visuelle agnostique à l'embodiment, une représentation d'action "head relaxed" qui neutralise les variations de mouvement de tête, et un contrôleur corps entier réalisant les trajectoires main-oeil sous contraintes physiques du robot. Ces choix permettent des tâches longue-séquence mobilisant navigation, perception active et coordination bimanuelle, le type de scénario que les architectures Vision-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent également à résoudre. Les résultats, présentés sous forme de vidéos sur hommi-robot.github.io, restent à valider en conditions non contrôlées et sur des benchmarks standardisés. HoMMI s'inscrit dans la continuité directe du projet UMI (Columbia/Stanford, 2024), qui avait popularisé la collecte portable de démonstrations pour la manipulation fixe sur table. L'extension au robot mobile ajoute la dimension navigation, saut de complexité majeur pour le sim-to-real et la généralisation hors laboratoire. Les approches concurrentes incluent Mobile ALOHA (Stanford), les pipelines de distillation de données de Physical Intelligence, et les travaux de manipulation bimanuelle ALOHA/ACT de Berkeley. HoMMI reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni métriques de taux de succès publiées, une limite habituelle des publications en robotique d'apprentissage avant revue par les pairs.

RecherchePaper
1 source
Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes
1162arXiv cs.RO 

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes

Une équipe de recherche publie sur arXiv (référence 2605.16056) un modèle VLA (Vision-Language-Action) capable d'adapter son comportement à la dégradation physique d'un robot, une problématique distincte des pannes de tâches habituellement ciblées par la littérature. L'approche repose sur l'injection d'un module "Health Projector" dans l'architecture VLA-Adapter : le modèle reçoit en entrée un vecteur de santé encodant l'amplitude articulaire et le couple disponible pour chaque joint. Entraîné sur 128 épisodes téléopérés collectés dans l'environnement de simulation LIBERO (benchmark Libero-Spatial), il parvient à compléter des tâches de manipulation spatiale avec des configurations de joints dégradés où le modèle de référence VLA-Adapter Libero-Spatial-Pro échoue systématiquement. Le code et le jeu de données seront prochainement disponibles sur GitHub (h-arslan/health-aware-vla). L'intérêt industriel est réel : dans les déploiements terrain, les robots accumulent des dégradations mécaniques progressives (usure articulaire, perte de couple, grippage de préhenseur) sans nécessairement déclencher d'alarme critique. Un contrôleur aveugle à cet état physique maintient ses consignes nominales et accumule les erreurs ; un modèle conditionné à la santé peut recalculer ses trajectoires à la volée. La modification proposée est présentée comme légère, ce qui suggère une intégration possible dans des pipelines VLA existants sans refonte complète. Cependant, les résultats restent limités à la simulation LIBERO avec 128 épisodes seulement, un jeu de données particulièrement restreint, et aucune validation sur robot physique n'est présentée, laissant le gap sim-to-real entièrement ouvert. Ce travail s'inscrit dans l'expansion rapide des VLA depuis 2023, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA ou la famille RoboVLMs. VLA-Adapter, utilisé comme base ici, est une variante qui réduit les coûts de fine-tuning en gelant le backbone visio-langagier pour n'entraîner qu'un adaptateur léger. La résilience robotique est jusqu'ici majoritairement traitée côté contrôle bas niveau (détection de fautes, compensation par redondance articulaire) plutôt qu'au niveau de la politique visuo-langagière, ce qui rend l'angle de cette recherche original. Aucun acteur européen n'est impliqué dans cette publication. La prochaine étape logique serait une validation sur hardware réel avec des dégradations induites mécaniquement et un dataset substantiellement élargi pour crédibiliser le passage à l'échelle.

RechercheOpinion
1 source
Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs
1163arXiv cs.RO 

Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.15753) une méthode pour construire des graphes de scènes 3D fonctionnels et hiérarchiques dans des espaces intérieurs, à vocabulaire ouvert. Ces graphes représentent l'environnement sous forme de noeuds objets, d'éléments interactifs et d'arêtes de relations fonctionnelles, permettant à un robot de comprendre non seulement ce qui est présent dans une pièce, mais comment les objets peuvent interagir entre eux. La contribution principale est l'extension des benchmarks existants en y intégrant des objets denses posés sur des surfaces planes (tabletop), ainsi que des relations fonctionnelles multi-niveaux explicites. Le pipeline proposé repose sur un ancrage visuel 2D (visual grounding) couplé à une optimisation de graphes 3D, combinant accumulation d'évidence, régularisation par entropie et lissage temporel pour résoudre l'association entre instances et déterminer les connexions fonctionnelles de chaque noeud. Une étape finale de structuration hiérarchique globale permet de récupérer la structure en niveaux du graphe complet. L'intérêt de cette approche pour la manipulation robotique est concret. Les travaux antérieurs sur les graphes de scènes se concentraient sur les meubles de grande taille, laissant de côté la granularité fine nécessaire pour les tâches impliquant des objets de bureau ou de cuisine. Introduire des objets petits, denses et visuellement similaires (tasses, stylos, boîtes) crée trois défis techniques distincts: confusion entre instances lors de la fusion inter-images, incertitude d'attribution sous des points de vue dynamiques, et absence d'ancrage visuel dans le raisonnement relationnel. Le pipeline open-vocabulary présenté aborde ces trois points sans catégories prédéfinies, ce qui représente un avantage pratique pour des déploiements en environnements variés. Les expériences reportées montrent une inférence fiable sur des scènes réelles exigeantes, bien que le résumé soumis ne détaille pas de métriques quantitatives précises, ce qui rend difficile toute comparaison directe avec l'état de l'art. Les graphes de scènes sémantiques pour la robotique sont étudiés depuis une dizaine d'années, mais leur adoption pratique a été freinée par des benchmarks limités aux grandes structures, peu représentatifs des scénarios de manipulation réelle. Ce travail s'inscrit dans une tendance plus large vers la perception embodied à vocabulaire ouvert, en concurrence directe avec les approches basées sur les champs de radiance neuronaux (NeRF, 3DGS) ou la segmentation 3D ouverte comme OpenMask3D et ConceptFusion. Ce type de représentation est fondamental pour les systèmes de planification de tâches et les robots de service opérant en environnement non structuré. Aucune timeline de déploiement industriel n'est mentionnée: il s'agit d'un preprint de recherche académique, pas d'un produit commercialisé ni d'un partenariat industriel annoncé.

RecherchePaper
1 source
Partager la charge : transport autonome de fret par flotte de rovers
1164arXiv cs.RO 

Partager la charge : transport autonome de fret par flotte de rovers

Dans le cadre du programme Artemis de la NASA, des chercheurs canadiens ont publié sur arXiv (arXiv:2510.18766v2) une étude portant sur le transport coopératif de charges lourdes par deux rovers autonomes sur la surface lunaire. Le scénario cible est celui d'un habitat lunaire permanent, où des modules d'assemblage devront être acheminés depuis la zone d'atterrissage jusqu'au site d'habitat, à des distances pouvant atteindre 5 km. Pour répondre à cette contrainte, l'équipe a développé un contrôleur prédictif distribué (MPC distribué) permettant à deux Lunar Utility Vehicles (LUV) de 800 kg chacun de transporter solidairement une charge de 475 kg. Un couplage mécanique sur mesure assure le support intégral de la masse tout en découplant la cinématique de chaque véhicule, leur laissant une liberté de mouvement relative. Lors des tests terrain, les rovers ont maintenu une erreur de séparation relative moyenne de 9,2 cm, avec une erreur maximale de 33,4 cm. Ce résultat est notable pour plusieurs raisons. D'abord, il valide l'approche "teach and repeat" par lidar dans un contexte multi-véhicule : chaque rover conserve individuellement la qualité de suivi de trajectoire propre à cette méthode, sans dégradation due à la coordination. Ensuite, l'architecture MPC distribuée évite un point de défaillance central, ce qui est critique pour des missions où la redondance est une exigence de sécurité non négociable. Enfin, le fait qu'un seul contrôleur puisse gérer des opérations variées (transport, repositionnement, manoeuvres) démontre une généricité utile au-delà du seul transport de fret, ouvrant la voie à des rovers multifonctions pour des missions à longue durée. Le Canada participe activement au programme Artemis via l'Agence spatiale canadienne, notamment à travers le projet de rover lunaire Canadarm3 et les études sur les véhicules utilitaires lunaires. Les LUV étudiés ici s'inscrivent dans cette feuille de route nationale. Sur le plan concurrentiel, la NASA développe en parallèle ses propres rovers de surface (MAPP, MGRU), tandis que des acteurs privés comme Astrobotic ou Intuitive Machines se positionnent sur la logistique de surface. La prochaine étape pour cette architecture sera son intégration dans des simulations de missions complètes et, potentiellement, des tests en environnement analogue lunaire (volcanique ou arctique), avant toute qualification vol.

RecherchePaper
1 source
COSMIC : optimisation simultanée de la structure, des matériaux et du contrôle intégré pour les systèmes robotiques
1165arXiv cs.RO 

COSMIC : optimisation simultanée de la structure, des matériaux et du contrôle intégré pour les systèmes robotiques

Des chercheurs ont publié sur arXiv (référence 2605.12654, mai 2026) COSMIC, un framework de co-conception par descente de gradient pour robots à treillis structurel (truss-lattice) qui optimise simultanément la topologie, la distribution des matériaux et la politique de contrôle. Contrairement aux approches classiques où structure, matériaux et contrôle sont conçus séquentiellement par des équipes distinctes, COSMIC intègre un contrôleur neuronal directement dans un simulateur différentiable, permettant le calcul automatique des gradients à travers l'ensemble du pipeline de conception. Les variables topologiques et matérielles, de nature mixte (discrètes et continues), sont encodées dans un espace continu, et une optimisation sous contraintes navigue un paysage de solutions hautement non-convexe. Les études de cas démontrent que le framework découvre systématiquement des stratégies de locomotion plus performantes que les approches à conception séparée, tout en s'adaptant à différentes conditions aux limites et exigences fonctionnelles. L'enjeu est fondamental : la quasi-totalité des systèmes robotiques actuels, des bras industriels aux humanoïdes, souffrent d'un déficit de co-conception hérité de la séparation des disciplines mécaniques, matériaux et contrôle. COSMIC s'attaque directement à ce que les biologistes observent depuis des décennies : dans la nature, morphologie et contrôle co-évoluent, et cette interaction produit des solutions inaccessibles à l'optimisation séparée. Pour les équipes R&D, l'approche par différentiation automatique ouvre la voie à des boucles de conception automatisées plutôt que manuelles, réduisant potentiellement les itérations de prototypage. La flexibilité annoncée vis-à-vis des conditions fonctionnelles suggère une applicabilité au-delà de la locomotion (reconfiguration, manipulation), mais ces affirmations restent à ce stade limitées à des validations en simulation. La co-conception robotique est un domaine actif depuis plusieurs années, avec des approches concurrentes issues de la robotique évolutionnaire (travaux de Josh Bongard, NEAT morphologique) et des frameworks différentiables comme DiffTaichi ou Brax de Google DeepMind. COSMIC se distingue par l'intégration simultanée des trois entités dans un cadre gradient unifié, là où la plupart des travaux existants n'en co-optimisent que deux. La lacune critique du papier est l'absence de validation hardware : les robots truss-lattice sont réputés difficiles à fabriquer et à contrôler physiquement, et le gap sim-to-real constitue l'obstacle majeur avant toute application industrielle. Les prochaines étapes annoncées concernent des comportements autonomes complexes, sans timeline ni partenaire industriel mentionnés.

RecherchePaper
1 source
CUBic : cadre unifié et coordonné de perception et contrôle bimanuels
1166arXiv cs.RO 

CUBic : cadre unifié et coordonné de perception et contrôle bimanuels

Des chercheurs ont publié CUBic (Coordinated and Unified framework for Bimanual perception and control), un cadre d'apprentissage visuomoteur pour robots à deux bras, déposé sur arXiv en mai 2025 (arXiv:2605.13452). L'objectif : résoudre un verrou classique de la manipulation bimanuelle, où chaque bras doit agir à la fois de façon indépendante et coordonnée avec l'autre. CUBic reformule ce problème comme un défi de modélisation perceptuelle unifiée, en apprenant une représentation tokenisée partagée à travers trois composants : une agrégation perceptuelle unidirectionnelle, une coordination bidirectionnelle via deux codebooks à mapping commun, et une politique de diffusion perception-vers-contrôle. Les expériences sur le benchmark RoboTwin montrent des améliorations nettes sur les métriques de précision de coordination et de taux de succès par rapport aux baselines de référence, sans que les chiffres précis soient disponibles dans l'abstract publié. Le verrou que CUBic adresse est structurel : les approches existantes forçaient un choix binaire, soit déconnecter les deux bras (chacun avec sa propre politique, au détriment de la coordination globale), soit imposer un couplage fort entre eux (risque d'interférences, manque de souplesse). CUBic démontre qu'une représentation partagée apprise de façon émergente, sans couplage codé à la main, suffit à générer simultanément indépendance et coordination. Pour un intégrateur ou un COO industriel, c'est un signal encourageant pour les tâches d'assemblage bimanuel complexes comme le vissage, le pliage ou le conditionnement, qui restent aujourd'hui difficiles à automatiser sans sur-ingénierie du système de contrôle. La manipulation bimanuelle est l'un des fronts les plus actifs de la recherche en robotique apprise. Des cadres comme ACT (Action Chunking with Transformers), Diffusion Policy ou Pi-0 de Physical Intelligence ont progressivement amélioré les performances à un seul bras ; l'extension bimanuelle reste un défi ouvert, notamment pour les robots humanoïdes tels que le Figure 03, l'Optimus Gen 3 ou l'Unitree G1, qui en ont besoin pour les tâches industrielles réelles. CUBic est pour l'instant une contribution fondationnelle validée uniquement en simulation sur RoboTwin, sans déploiement physique annoncé. La prochaine étape logique serait un transfert sim-to-real sur robot physique, qui constitue encore le principal goulot d'étranglement entre publications académiques et applications industrielles concrètes.

RecherchePaper
1 source
Manipulation d'objets par un système de treillis à topologie variable
1167arXiv cs.RO 

Manipulation d'objets par un système de treillis à topologie variable

Des chercheurs ont publié en mai 2025 sur arXiv (référence 2605.13086) une stratégie de manipulation d'objets pour le Variable Topology Truss (VTT), un robot truss composé de membres actionnés reliés entre eux par des joints sphériques passifs dont la topologie structurale peut être reconfigurée à la demande. Jusqu'ici, cette classe de robot était démontrée pour ses capacités cinématiques, sans méthode formalisée pour saisir ou déplacer des objets. Les auteurs proposent un cadre de contrôle hybride qui régule simultanément position et force, sans découplage explicite entre les deux objectifs. Au niveau de chaque actionneur, un contrôleur à rétroaction de force par capteur génère les forces axiales souhaitées malgré une friction mécanique élevée, problème récurrent dans ces mécanismes. Au niveau de la tâche, les forces appliquées aux noeuds effecteurs sont calculées à partir d'un modèle statique du VTT. Les expériences portent sur un module unitaire puis sur le système complet dans deux configurations de manipulation représentatives, avec évaluation quantitative du suivi combiné position-force. Cette contribution comble un écart méthodologique structurant: les robots truss avaient été identifiés comme des manipulateurs à déploiement rapide, notamment pour des environnements contraints (robotique spatiale, intervention d'urgence, infrastructure adaptative), mais l'absence de stratégie de manipulation fiable les maintenait au stade de démonstrateurs cinématiques. Traiter explicitement la friction élevée des actionneurs via la rétroaction de force rapproche la démarche des contraintes d'un déploiement réel. La validation expérimentale quantitative, plutôt qu'une démonstration vidéo qualitative, renforce la crédibilité des résultats. Il convient toutefois de noter que la publication reste un preprint, non encore soumis à évaluation par les pairs. Les robots truss reconfigurables constituent une voie distincte des manipulateurs sériels classiques (bras 6-DOF type KUKA, UR) et des architectures parallèles (Delta, Stewart): leur avantage théorique réside dans une reconfiguration structurale à la volée, potentiellement utile pour des tâches à géométrie variable. Le VTT s'inscrit dans une lignée de travaux sur les treillis actifs explorés depuis les années 1990 principalement pour la robotique spatiale et les structures adaptatives. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans l'article; les suites naturelles porteraient sur la généralisation à des topologies plus complexes, des charges utiles plus importantes et une validation en environnement non structuré.

RecherchePaper
1 source
Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique
1168arXiv cs.RO 

Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique

Une équipe de chercheurs a publié en mai 2025 sur arXiv (référence 2605.12084) une méthode appelée Quasi-Optimal Experimental Design, ou QOED, visant à résoudre un problème fondamental de l'exploration robotique : comment guider un robot vers les expériences qui lui apprendront réellement quelque chose d'utile ? La méthode repose sur une analyse de l'espace propre de la matrice d'information de Fisher pour identifier les directions de paramètres réellement observables, puis modifie l'objectif d'exploration pour concentrer l'effort sur ces directions tout en atténuant l'influence des paramètres secondaires ("nuisance"). Évaluée sur des tâches de navigation et de manipulation en simulation et en conditions réelles, QOED génère un gain de performance de 35,23 % grâce à la sélection des directions identifiables, et de 21,98 % supplémentaires via la suppression des effets parasites. Intégrée comme objectif d'exploration dans une boucle d'optimisation de politique model-based, elle surpasse les baselines classiques de RL. Ce résultat compte parce qu'il attaque directement le goulot d'étranglement de l'apprentissage actif en robotique : dans les systèmes haute dimension (bras articulés, manipulation dextre, navigation en environnement non structuré), une large fraction des paramètres du modèle est faiblement observable, voire non identifiable. Les méthodes classiques de curiosité ou d'information gain mesurent une incertitude globale sans distinguer ce qui peut être réduit par l'expérience de ce qui ne le peut pas. QOED fournit une approximation à facteur constant de l'objectif idéal théorique, une garantie formelle rare dans ce champ, ce qui lui confère une légitimité au-delà de la démonstration empirique seule. La méthode s'inscrit dans une longue tradition de théorie du design expérimental optimal (OED) issue des statistiques, ici adaptée au cadre RL avec optimisation en ligne. Sur le plan concurrentiel, les approches voisines incluent les méthodes de curiosité bayésienne (type DIAYN ou LEXA) et les objectifs d'information mutuelle comme VIME ou Plan2Explore. QOED se distingue par son ancrage théorique rigoureux et l'explicitation du sous-espace identifiable, deux points que les méthodes heuristiques négligent. Aucun déploiement industriel ni partenaire n'est mentionné : il s'agit à ce stade d'un résultat académique, dont l'intégration dans des pipelines de calibration ou de sim-to-real reste à valider à plus grande échelle.

RecherchePaper
1 source
Rollbot : un robot sphérique propulsé par un seul actionneur
1169arXiv cs.RO 

Rollbot : un robot sphérique propulsé par un seul actionneur

Rollbot, présenté dans un article de recherche déposé sur arXiv (réf. 2404.05120v2, révision 2024), est un robot sphérique prototype capable de se déplacer de façon contrôlée sur un plan 2D avec un seul actionneur. Le robot roule au sol en décrivant des arcs de cercle et ajuste la courbure de sa trajectoire en accélérant et décélérant son unique moteur ainsi que la masse solidaire attachée à celui-ci. Les auteurs ont dérivé des lois de contrôle fondées sur une dynamique dite "quasi-stable", et ont validé expérimentalement la capacité du système à suivre des waypoints successifs. Aucune institution ni source de financement n'est mentionnée dans l'abstract public. Ce travail remet en cause une contrainte de conception longtemps tenue pour acquise dans la robotique sphérique: l'obligation d'utiliser au minimum deux actionneurs pour obtenir un mouvement plan maîtrisé. Ramener ce seuil à un seul actionneur réduit mécaniquement la complexité structurelle, la consommation énergétique et le nombre de points de défaillance potentiels. Pour les concepteurs de robots d'inspection en espace confiné, de plateformes de surveillance ou de démonstrateurs éducatifs, cette approche peut ouvrir des architectures plus légères et moins coûteuses à produire. Il faut cependant noter que les résultats sont présentés en contexte laboratoire; aucune métrique de robustesse sur terrain non contrôlé ni de cycle de production n'est communiquée. Les robots sphériques à actionnement interne existent depuis les années 1990 dans la recherche académique, avec des prototypes issus de MIT, ETH Zurich ou Carnegie Mellon, et ont trouvé des applications limitées dans la surveillance et l'exploration. Côté produits grand public, Sphero a popularisé la forme, mais sans ambition de navigation autonome précise. Le créneau du robot sphérique à un seul actionneur reste un espace purement expérimental; la prochaine étape logique serait de démontrer la robustesse aux perturbations extérieures (surface irrégulière, contact), d'étendre le cadre théorique à la navigation 3D, et d'évaluer l'intégration de capteurs embarqués dans un volume aussi contraint.

RecherchePaper
1 source
BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux
1170arXiv cs.RO 

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

Une équipe de chercheurs a publié sur arXiv en mai 2026 (arXiv:2605.08571) un cadre théorique baptisé BEACON -- acronyme de Best-Effort Adaptation for Cross-Domain Co-Training -- destiné à entraîner des politiques robotiques génératives lorsque les données dans le domaine cible sont rares. L'approche repose sur un mécanisme de pondération par importance : plutôt que de mélanger naïvement des démonstrations provenant de domaines sources abondants (simulation, autres environnements) avec un faible nombre de démonstrations réelles, BEACON apprend simultanément une politique visuomotrice basée sur la diffusion et des poids par échantillon source qui minimisent une fonction objectif garantissant la généralisation sur le domaine cible. Pour rendre cela praticable sur des séquences de haute dimension, les auteurs développent des estimateurs de divergence à l'échelle de l'instance, des mises à jour alternées stochastiques, et une extension multi-sources capable de pondérer des domaines sources hétérogènes. L'enjeu est directement lié au problème du sim-to-real gap, l'un des verrous principaux de la robotique de manipulation : collecter des démonstrations téléopérées dans le monde réel reste coûteux et lent, tandis que la simulation génère des données à bas coût mais au prix d'un écart de distribution souvent fatal au déploiement. BEACON montrerait, selon les auteurs, des gains de robustesse et d'efficacité de données par rapport à trois baselines majeures -- entraînement sur cibles seules, co-entraînement à ratio fixe, et alignement de features explicite -- dans des configurations sim-to-sim, sim-to-real et manipulation multi-sources. Le résultat le plus contre-intuitif est qu'en l'absence de tout objectif d'alignement explicite, BEACON produit néanmoins un alignement de représentations comme effet émergent de la pondération par divergence. Les auteurs ne fournissent pas de taux de réussite précis dans l'abstract, ce qui limite la comparaison directe avec des benchmarks publiés. Ce travail s'inscrit dans une vague de recherches sur le transfert de politiques entre domaines, portée notamment par des méthodes comme RoboAgent, DROID, ou les approches VLA (vision-language-action) de Physical Intelligence (Pi-0) et Google DeepMind (GR00T N2), qui cherchent elles aussi à tirer parti de données hétérogènes à grande échelle. Là où ces dernières misent sur des architectures généralistes entraînées sur des corpus massifs, BEACON propose un angle complémentaire et plus frugal : exploiter intelligemment des sources existantes sans disposer de millions de démonstrations. Le code et les expériences n'étant pas encore publics, il reste à confirmer si les résultats tiennent sur des tâches de manipulation réelle complexes hors du cadre contrôlé des évaluations présentées.

RechercheOpinion
1 source
Prise de décision hiérarchique intégrée pour la planification et le contrôle en cinématique inverse
1171arXiv cs.RO 

Prise de décision hiérarchique intégrée pour la planification et le contrôle en cinématique inverse

Une équipe de chercheurs présente sur arXiv (2412.01324, v4) un solveur de programmation non linéaire hiérarchique et épars qui intègre simultanément prise de décision discrète et cinématique inverse (IK) corps entier. En un seul problème d'optimisation, le système résout des questions jusqu'ici traitées séparément : sélectionner le nombre minimal d'articulations à activer (contrôle IK épars), choisir parmi un large ensemble de positions candidates où poser un effecteur terminal, ou coordonner deux bras pour saisir un objet orienté aléatoirement. Le solveur s'appuie sur la norme ℓ₀, qui pénalise directement le nombre de variables non nulles, là où la littérature recourt habituellement à la norme ℓ₁, une approximation convexe plus facile à manipuler mais moins fidèle au problème réel. L'enjeu est la réduction du fossé entre planification et exécution dans les robots manipulateurs complexes. Les méthodes actuelles font appel à la programmation entière mixte non linéaire (MINLP), dont le coût de calcul est prohibitif en temps réel, ou à des heuristiques de faisabilité (cartes d'atteignabilité, workspace envelopes) qui simplifient le problème au détriment de la précision. Ce cadre traite le problème non linéaire directement, sans relaxation, en exploitant sa structure hiérarchique éparse. Pour un intégrateur travaillant sur des bras bi-manuels ou des plateformes humanoïdes, cela représente une piste concrète pour réduire la dépendance aux bibliothèques de mouvements pré-calculés et aux pipelines de sélection de prises hors ligne. Ce travail s'inscrit dans la lignée de la programmation quadratique hiérarchique (HQP), paradigme établi en commande de robots redondants depuis les travaux de Sentis et Khatib dans les années 2000. L'usage de la norme ℓ₀ dans des problèmes continus non convexes reste rare en robotique, ce qui constitue la principale originalité revendiquée. L'article ne présente toutefois pas de validation sur plateforme matérielle réelle, ni de benchmarks comparatifs en temps de calcul face à des solveurs de référence comme Drake (Toyota Research Institute) ou les pipelines MoveIt/TRAC-IK, une limite méthodologique à noter avant d'envisager un déploiement. Les suites naturelles seraient une intégration sur humanoïde et une comparaison avec les approches d'apprentissage par renforcement pour la sélection de prises.

RecherchePaper
1 source
Modélisation de robots continus par Flow Matching conditionné sur l'action
1172arXiv cs.RO 

Modélisation de robots continus par Flow Matching conditionné sur l'action

Une équipe de recherche a publié en mai 2026 (arXiv:2605.09216) une approche d'apprentissage automatique pour prédire la forme en régime stationnaire des robots continus à tendons (TDCRs, tendon-driven continuum robots). Le système combine une plateforme matérielle imprimée en 3D, un pipeline de collecte de données RGB-D multi-caméras, et un modèle de flow matching conditionné par l'état moteur, qui associe directement les commandes d'actionneurs à la géométrie 3D résultante sous forme de nuage de points. Les expériences couvrent des TDCRs simulés à 2, 3 et 5 modules sous MuJoCo, ainsi que des robots réels à 2 et 3 modules. Sur les métriques Chamfer Distance (CD) et Earth Mover's Distance (EMD), la méthode surpasse les approches antérieures de modélisation de déformables 3D et d'auto-modélisation robotique. Une extension en simulation montre que le même schéma conditionnel peut intégrer la charge utile en bout de bras comme variable d'entrée supplémentaire. Ce résultat est notable pour les intégrateurs de robots chirurgicaux, d'inspection en espace confiné ou de manipulation flexible, trois domaines où les TDCRs sont candidats naturels mais restent difficiles à contrôler précisément. Les méthodes analytiques classiques, basées sur la théorie des tiges de Cosserat, requièrent une caractérisation fine des paramètres de friction et de rigidité, souvent non reproductibles d'un exemplaire à l'autre en raison de la variabilité fabrication. L'approche présentée délègue cette complexité à la donnée : un échantillonnage de configurations quasi-statiques suffit à entraîner le modèle, sans connaissance du modèle physique. Le conditionnement par payload ouvre la voie à une planification adaptative en charge variable, ce que les modèles analytiques actuels gèrent mal en temps réel. Le flow matching, popularisé depuis 2022 comme alternative aux modèles de diffusion pour sa rapidité d'inférence, est ici appliqué pour la première fois à l'auto-modélisation cinématique de robots continus, selon les auteurs. Les approches concurrentes reposent soit sur des modèles physiques paramétriques, soit sur des réseaux neuronaux entraînés sur des représentations volumétriques ou de pose d'extrémité, sans géométrie complète. La plateforme 3D imprimée vise à rendre la méthode reproductible à faible coût. L'article reste un preprint sans déploiement annoncé ; les prochaines étapes naturelles incluent l'extension au contrôle en boucle fermée et la validation sur des robots à plus de 5 modules.

RecherchePaper
1 source
Modèle JODA : dynamique articulaire composable pour objets articulés
1173arXiv cs.RO 

Modèle JODA : dynamique articulaire composable pour objets articulés

Une équipe de chercheurs a déposé en mai 2026 sur arXiv (arXiv:2605.09954) JODA, un cadre de modélisation des dynamiques d'articulation pour objets articulés (composable Joint Dynamics for Articulated Objects), destiné à combler l'absence de comportements mécaniques fins dans les simulateurs robotiques et les environnements d'IA incarnée. La méthode encode la dynamique d'un joint sous la forme d'un champ à trois canaux couvrant son degré de liberté : forces conservatives (ressorts, butées de fin de course), frottement sec (holding friction, detents, snap-latching) et amortissement (soft-close). Ces composantes sont instanciées par interpolation cubique par morceaux avec contraintes de forme (PCHIP), produisant une représentation compacte, interprétable et compatible avec la simulation différentiable. Pour inférer ces paramètres depuis des observations visuelles, JODA utilise un modèle vision-langage (VLM) qui propose des primitives dynamiques structurées, composées en un champ unifié, éditable manuellement ou affiné par descente de gradient. Le problème que JODA adresse est central en robotique de manipulation : le fossé simulation-réalité (sim-to-real gap). Les environnements comme MuJoCo, Isaac Sim ou Habitat modélisent la géométrie et la cinématique des objets articulés, mais ignorent les effets mécaniques de second ordre qui conditionnent le comportement tactile réel : résistance variable selon la position, crans d'arrêt, fermeture amortie, encliquetage. Pour un robot manipulant un tiroir de cuisine ou une vanne industrielle, ces dynamiques sont déterminantes. Une simulation plus fidèle devrait améliorer le transfert de politiques entraînées sur données synthétiques vers l'environnement physique, un enjeu clé pour les architectures VLA (Vision-Language-Action) en cours de déploiement à grande échelle. Les approches existantes ignorent généralement ces dynamiques ou s'appuient sur des paramètres scalaires fixes (raideur constante, amortissement linéaire), sans capturer ni la non-linéarité du frottement ni les comportements multi-stables. JODA se distingue par sa représentation paramétrique interprétable couplée à un pipeline d'inférence fondé sur un VLM, ouvrant la voie à une annotation semi-automatique d'actifs 3D à grande échelle. Le code et les assets d'exemple seront publiés uniquement à la parution de l'article, ce qui place JODA au stade de preprint sans validation externe à ce jour. La méthode s'inscrit dans une dynamique plus large d'enrichissement des simulateurs robotiques par des propriétés physiques extraites de données multimodales, un axe de recherche actif chez Google DeepMind, Meta FAIR et dans le domaine des jumeaux numériques industriels.

RecherchePaper
1 source
Transformer de décision conditionné par objectif pour l'apprentissage par renforcement hors ligne multi-objectifs
1174arXiv cs.RO 

Transformer de décision conditionné par objectif pour l'apprentissage par renforcement hors ligne multi-objectifs

Des chercheurs ont publié en octobre 2024 sur arXiv (identifiant 2410.06347, version 2) une méthode baptisée Goal-Conditioned Decision Transformer (GCDT), conçue pour entraîner des robots à accomplir plusieurs tâches distinctes sans interaction en temps réel avec l'environnement. L'approche repose sur l'apprentissage par renforcement hors ligne (offline RL) : le modèle apprend uniquement à partir de données collectées au préalable, sans générer de nouvelles trajectoires coûteuses. La validation se fait sur le bras collaboratif Franka Emika Panda (7 degrés de liberté), à partir d'un jeu de données offline nouvellement publié pour cette plateforme. Les résultats annoncés montrent que GCDT surpasse des baselines en ligne considérées comme état de l'art sur des tâches complexes, et conserve ses performances dans des environnements à récompenses éparses, même avec un nombre limité de démonstrations expertes. L'enjeu technique est réel : le principal frein à l'industrialisation du RL en robotique reste le coût des interactions d'entraînement, chaque collision, chaque reset prend du temps physique et use les équipements. En découplant l'apprentissage de l'exécution grâce à des données hors ligne, GCDT réduit ce verrou. Ce qui est plus notable, c'est la capacité à gérer des objectifs multiples et variables dans un seul modèle, là où la plupart des politiques offline sont entraînées tâche par tâche. La reformulation sous forme de séquences (héritage du Decision Transformer) permet d'injecter explicitement l'état-cible dans le contexte du modèle, ce qui facilite la généralisation. Il faut toutefois rester prudent : il s'agit d'un preprint non encore publié en conférence majeure, et les résultats portent sur un dataset contrôlé, pas sur un déploiement industriel réel. Le Decision Transformer original (Chen et al., 2021, Google Brain / UC Berkeley) avait montré qu'un transformer entraîné sur des trajectoires étiquetées par leur retour cumulatif pouvait rivaliser avec des méthodes RL classiques. GCDT étend cette idée au cadre multi-objectifs, un problème que des travaux concurrents comme MTDIFF ou Goal-Conditioned IQL abordent différemment. Le bras Panda de Franka Robotics (acquis par Agile Robots en 2021) reste la plateforme de référence en robotique manipulation académique. La prochaine étape logique serait un transfert sim-to-real sur des tâches de manipulation industrielle, et une comparaison avec des approches VLA (Vision-Language-Action) comme Pi-0 ou OpenVLA, qui opèrent elles aussi en généralisation multi-tâches mais via des modèles de fondation beaucoup plus lourds.

UEImpact indirect uniquement : le bras Franka Panda, d'origine allemande, est la plateforme de manipulation de référence dans de nombreux labos académiques européens (INRIA, CEA-List inclus), mais l'étude n'implique directement aucune institution ou entreprise française ou européenne.

RecherchePaper
1 source
IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique
1175arXiv cs.RO 

IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.07496) PathPainter, un système de navigation autonome pour robots terrestres et aériens à basse altitude. Le principe central consiste à utiliser des images en vue aérienne (BEV, Bird's-Eye-View) comme prior global de l'environnement. Un modèle génératif d'images interprète une instruction en langage naturel, identifie la destination cible, puis génère automatiquement un masque de traversabilité indiquant les zones navigables. Pendant l'exécution, un module de localisation croisée (cross-view localization) aligne l'odométrie du robot sur la carte BEV pour compenser la dérive à long terme, défaut classique des systèmes odométriques conventionnels. Le système a été validé sur un drone UAV qui a complété une navigation extérieure de 160 mètres en environnement réel, en s'appuyant uniquement sur un planificateur de mouvement local standard. Ce travail illustre une tendance de fond dans la robotique : extraire la capacité de généralisation des grands modèles de fondation (ici un modèle de génération d'images) pour l'injecter dans des pipelines embarqués, sans les réentraîner de zéro. Le transfert de compréhension du monde vers la navigation incarnée (embodied navigation) est l'un des verrous techniques les plus discutés dans le secteur. PathPainter montre qu'un modèle génératif peut jouer le rôle de module de perception sémantique et de planification de haut niveau, réduisant la dépendance à des capteurs 3D coûteux ou à des cartes métriques préconstruites. La validation sur 160 mètres en extérieur reste modeste et les conditions précises du test ne sont pas détaillées dans l'abstract, ce qui invite à relativiser les conclusions avant une évaluation sur benchmarks standardisés. PathPainter s'inscrit dans l'essor des architectures VLA (Vision-Language-Action) appliquées à la navigation, un domaine où plusieurs groupes travaillent simultanément, notamment autour de modèles comme RT-2 (Google DeepMind), OpenVLA ou des travaux issus de Carnegie Mellon et Berkeley sur la navigation en langage naturel. L'usage de la vue aérienne comme prior global rappelle les approches de navigation par carte sémantique de haut niveau, mais ici la carte n'est pas fournie par un opérateur humain : elle est générée à la demande par le modèle. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks de navigation intérieure (Habitat, R2R) et une extension à des plateformes terrestres en environnement industriel ou logistique.

IA physiqueOpinion
1 source
BrickCraft : composition de compétences visuomotrices avec guidage manuel pour l'assemblage de briques emboîtables à long horizon
1176arXiv cs.RO 

BrickCraft : composition de compétences visuomotrices avec guidage manuel pour l'assemblage de briques emboîtables à long horizon

Des chercheurs de l'Intelligent Control Lab ont déposé sur arXiv en mai 2026 (réf. 2605.07605) BrickCraft, un framework compositionnel pour l'assemblage autonome de briques emboîtables par bras robotique. L'approche repose sur une formulation relative : chaque étape est ancrée à une brique de référence dans la structure partielle, ce qui décompose toute séquence longue en un ensemble fini de compétences primitives réutilisables. Pour piloter l'exécution physique, le système introduit les "situated manuals", des guides spatiaux projetés en temps réel dans les observations du robot, permettant à des politiques visuomotrices apprises de recevoir un ancrage spatial précis sans avoir à reprogrammer chaque primitive pour chaque nouvelle structure. L'abstract ne précise ni le robot utilisé, ni les métriques chiffrées (taux de succès, temps de cycle), des informations attendues dans la version complète de l'article. L'assemblage de briques emboîtables constitue un banc d'essai redoutable pour la manipulation fine : les tolérances d'emboîtement sont de l'ordre du dixième de millimètre, les séquences dépassent fréquemment plusieurs dizaines d'étapes, et une erreur de positionnement en amont propage des défauts irréversibles. BrickCraft s'attaque simultanément aux trois verrous classiques du domaine, à savoir le raisonnement sur horizon long, l'ancrage spatial (spatial grounding) et la manipulation fine, là où les approches end-to-end actuelles peinent à généraliser. La capacité à transférer des compétences apprises sur un nombre limité de démonstrations vers des structures inédites est particulièrement notable : elle indique que les primitives ne sont pas surajustées à une topologie spécifique, un écueil fréquent des méthodes par imitation en robotique d'assemblage. Du côté de la compétition académique et industrielle, l'assemblage de briques LEGO a déjà mobilisé le MIT CSAIL, l'ETH Zurich via des approches de planification de tâches et mouvements (TAMP), et plus récemment des équipes exploitant des Vision-Language-Action models (VLA) comme Pi-0 d'Embodied Intelligence ou GR00T N2 de NVIDIA pour la manipulation généraliste. BrickCraft choisit un inductive bias différent : exploiter la structure hiérarchique et répétitive propre aux assemblages par emboîtement plutôt que viser une généralité totale, un parti pris qui peut s'avérer payant pour des applications industrielles ciblées comme le montage de kits, le prototypage ou les lignes de petites séries. Le projet dispose d'un site dédié, mais aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

RecherchePaper
1 source
Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention
1177arXiv cs.RO 

Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention

Des chercheurs ont déposé sur arXiv en mai 2026 (arXiv:2605.07560) une méthode visant à exploiter les démonstrations d'échec dans l'apprentissage par imitation pour la robotique. La quasi-totalité des politiques d'imitation sont actuellement entraînées exclusivement sur des démonstrations réussies, bien que la collecte humaine produise inévitablement une proportion significative d'échecs. La méthode proposée apprend des représentations latentes des divergences succès-échec et les intègre dans le mécanisme d'attention du réseau, permettant au système de sélectionner au moment de l'inférence un mode latent adapté à partir de l'observation initiale. Les auteurs introduisent également une métrique post-entraînement qui quantifie la divergence d'attention entre chaque démonstration d'échec et le corpus de succès, afin de filtrer automatiquement les échantillons d'échec réellement bénéfiques à l'apprentissage. L'enjeu est considérable pour les pipelines industriels de collecte de données robotiques : une fraction structurelle des démonstrations humaines sont des échecs, jusqu'ici systématiquement écartés ou nécessitant un traitement manuel coûteux. Les approches existantes pour exploiter ces données s'appuient généralement sur des mises à jour itératives de la politique via des rollouts autonomes, ce qui complique leur intégration stable et directe dans un pipeline de production. Cette méthode opère en revanche directement sur les données brutes collectées sans itérations supplémentaires, ce qui la rend potentiellement plus accessible pour des équipes travaillant en conditions réelles de déploiement. Les résultats en simulation montrent une amélioration des taux de succès par rapport à un entraînement basé uniquement sur des démonstrations réussies, et la métrique proposée identifie correctement les échantillons d'échec dont l'ajout est bénéfique. L'apprentissage par imitation est devenu un paradigme central en robotique manipulatrice, porté par des architectures comme ACT, Diffusion Policy ou pi-0 de Physical Intelligence, et la gestion des données hors-distribution reste un défi ouvert du domaine. Que faire des trajectoires partiellement réussies ou des démonstrations ambiguës constitue une question de recherche active, d'autant que les coûts de re-collecte sur robot physique sont prohibitifs à grande échelle. Ce travail s'inscrit dans ce courant sans rupture radicale : les résultats sont limités à la simulation et aucun déploiement sur hardware réel n'est mentionné dans le preprint, ce qui appelle une validation expérimentale indépendante. La prochaine étape naturelle sera la validation sur robots physiques en manipulation dextère, contexte où le taux d'échec lors de la collecte humaine est structurellement élevé et où le gain potentiel d'un tel filtrage automatique serait le plus significatif.

RecherchePaper
1 source
TouchDrive : interface tactile sans électronique pour l'aide à la préhension
1178arXiv cs.RO 

TouchDrive : interface tactile sans électronique pour l'aide à la préhension

Des chercheurs ont publié sur arXiv (réf. 2605.06432) TouchDrive, une interface de retour tactile entièrement passive destinée à la préhension robotique assistive. Le système repose sur un clapet pneumatique normalement fermé, un réservoir d'air comprimé, un élément de captation mécanique et un actionneur haptique, sans aucun composant électronique. Le principe est direct : les forces de contact générées lors de la saisie sont converties en pression pneumatique qui actionne le retour haptique vers l'opérateur dans une boucle mécanique unique, sans microcontrôleur, sans firmware, sans couche logicielle intermédiaire. Le système a été validé sur plusieurs plateformes robotiques et testé sur un panel de 20 objets représentatifs, dont des fruits et des articles du quotidien, couvrant à la fois des objets compliants et des objets fragiles. L'intérêt industriel et médical de TouchDrive tient à sa rupture architecturale : là où les interfaces tactiles concurrentes empilent capteurs à résistance variable ou piézoélectriques, unités de traitement embarquées et buses d'actuation pilotées par microcontrôleur, TouchDrive condense sensing, génération de signal et retour haptique dans un seul circuit pneumatique passif. Cette compression de la chaîne de traitement réduit directement le coût de fabrication, la surface de défaillance et les contraintes réglementaires liées aux dispositifs électroniques en milieu médical. Pour un COO qui intègre des bras robotiques dans des environnements sensibles ou à budget contraint, l'absence d'électronique signifie aussi une maintenance simplifiée et une certification potentiellement plus rapide. La capacité à moduler la force de préhension en temps réel via retour tactile est ce qui permet la manipulation précise d'objets déformables, un problème non résolu par les systèmes de contrôle en position pure. Le champ de la manipulation assistive est actuellement dominé par des capteurs tactiles électroniques comme GelSight (MIT), DIGIT (Meta AI) ou les solutions embarquées de Touchlab et Contactile, tous dépendants de GPU ou de microcontrôleurs pour le traitement. TouchDrive se positionne explicitement à contre-courant, en ciblant l'accessibilité et la robustesse plutôt que la densité d'information. Il s'agit pour l'heure d'un prototype de laboratoire publié sous forme de preprint, sans partenaire industriel ni calendrier de commercialisation annoncé. La prochaine étape logique serait une validation sur des tâches à contraintes de force plus strictes et un test en conditions d'usage réelles avec des utilisateurs en situation de handicap moteur.

RecherchePaper
1 source
Génie logiciel pour la robotique auto-adaptative : un programme de recherche
1179arXiv cs.RO 

Génie logiciel pour la robotique auto-adaptative : un programme de recherche

Une équipe de chercheurs a soumis sur arXiv (réf. 2505.19629, troisième version) un agenda de recherche structuré pour le génie logiciel appliqué aux systèmes robotiques auto-adaptatifs. Contrairement aux robots industriels classiques dont le comportement est entièrement prédéfini au moment du déploiement, les systèmes auto-adaptatifs sont conçus pour modifier leur propre logique en cours d'exécution, en réponse à des environnements dynamiques et incertains. L'article organise cet agenda autour de deux axes : d'une part, le cycle de vie logiciel complet (spécification des exigences, conception, développement, test, opérations), adapté aux contraintes de l'auto-adaptation ; d'autre part, les technologies habilitantes telles que les jumeaux numériques (digital twins) et les mécanismes d'adaptation pilotés par l'IA, qui assurent la surveillance en temps réel, la détection de pannes et la prise de décision automatisée. L'enjeu central identifié par les auteurs est la vérifiabilité des comportements adaptatifs sous incertitude, un problème ouvert qui conditionne directement l'adoption industrielle. Les robots capables d'apprendre et de se reconfigurer en production posent en effet des questions radicalement différentes de celles que traitent les standards de sécurité fonctionnelle classiques comme l'IEC 61508 ou l'ISO 26262. L'article cible notamment la difficulté à équilibrer trois contraintes contradictoires : adaptabilité, performance et sécurité. Il propose d'intégrer des frameworks formels comme MAPE-K (Monitor, Analyze, Plan, Execute, Knowledge), boucle de contrôle réflexif issue de l'autonomic computing d'IBM, et sa variante étendue MAPLE-K, comme socles architecturaux unifiants pour l'ingénierie de ces systèmes. Ce travail s'inscrit dans une dynamique académique qui s'accélère depuis l'émergence des VLA (Vision-Language-Action models) et des approches sim-to-real à grande échelle. Des communautés concurrentes, notamment autour de ROS 2 Lifecycle, des architectures behavior trees, et du model-driven engineering for robotics (MDE4R), explorent des directions parallèles. Les auteurs formalisent une feuille de route vers 2030, visant des systèmes robotiques dits trustworthy, capables d'opérer sans supervision humaine continue dans des environnements industriels réels. Il convient de situer ce papier pour ce qu'il est : un agenda de recherche, pas un produit livré ni un déploiement annoncé. Il cartographie les problèmes à résoudre, pas les solutions disponibles.

UELes questions de vérifiabilité des comportements adaptatifs sous incertitude sont indirectement pertinentes pour les industries européennes soumises aux normes IEC 61508 et à l'AI Act, mais aucun acteur français ou européen n'est impliqué dans ce travail.

RecherchePaper
1 source
Emballage dans des contenants partiellement remplis par contact
1180arXiv cs.RO 

Emballage dans des contenants partiellement remplis par contact

Une équipe de chercheurs publie sur arXiv (référence 2602.12095, version 3, première soumission en février 2026) une approche de bin-packing robotique capable de placer des objets dans des conteneurs déjà partiellement remplis, contrairement aux méthodes existantes qui supposent des conteneurs vides. L'algorithme repose sur trois composants couplés: un optimiseur de trajectoire multi-objets basé sur les contacts, intégré dans un contrôleur prédictif (MPC); un système de perception physiquement informé qui estime les poses des objets même en présence d'occlusions inévitables; et un module de suggestion de positions d'empilement physiquement réalisables. La contribution centrale est l'exploitation délibérée des interactions de contact avec les objets déjà en place pour créer de l'espace libre et permettre l'insertion de nouveaux items, sans recourir à la stratégie collision-free qui prévaut dans la littérature. Dans les entrepôts réels, les bacs ne sont presque jamais vides: ils circulent entre zones de tri, postes de préparation et quais d'expédition, accumulant des configurations sous-optimales au fil des déplacements. Les approches sans contact dominantes échouent ou produisent des taux de remplissage médiocres face à ces conditions, creusant un écart persistant entre la recherche en laboratoire et les contraintes opérationnelles. Ce travail propose un changement de paradigme: traiter les contacts comme un levier d'organisation spatiale plutôt que comme un obstacle à éviter. Pour un intégrateur ou un opérateur logistique, l'impact potentiel est direct: densité de remplissage accrue, moins de passages en reprise manuelle, réduction des coûts de transport et de surface de stockage. L'absence de métriques quantitatives dans l'abstract (taux de succès, temps de cycle, payload) empêche toutefois d'évaluer les performances réelles à ce stade. Le bin-packing robotique reste un problème ouvert malgré les investissements d'Amazon Robotics, Ocado et Covariant, et la montée de spécialistes comme Nimble Robotics. Côté européen, Exotec (AMR de stockage, Lille) et Enchanted Tools évoluent dans des espaces adjacents sans cibler encore ce niveau de manipulation dense en conteneur partiellement rempli. Ce travail est un preprint en version 3, sans déploiement ni partenariat industriel annoncé: il s'agit d'une contribution académique, pas d'un produit expédié. Si les performances se confirment hors laboratoire, cette approche orientée contact pourrait s'intégrer à la prochaine génération de cellules de picking-packing autonomes, où la robustesse face au désordre constitue le vrai différenciateur commercial.

UEImpact indirect : si les performances se confirment hors laboratoire, des acteurs logistiques européens comme Exotec pourraient intégrer cette approche orientée contact dans leurs cellules de picking-packing, réduisant la dépendance aux reprises manuelles dans les entrepôts.

RecherchePaper
1 source
Faut-il vraiment réinitialiser immédiatement ? Repenser la gestion des collisions pour une navigation robotique efficace
1181arXiv cs.RO 

Faut-il vraiment réinitialiser immédiatement ? Repenser la gestion des collisions pour une navigation robotique efficace

Une équipe de chercheurs propose, dans un préprint déposé sur arXiv le 2 mai 2026 (référence 2605.02192), un nouveau cadre d'entraînement pour la navigation robotique par apprentissage par renforcement profond (DRL), baptisé Multi-Collision reset Budget (MCB). La convention actuelle dans la majorité des frameworks DRL est la suivante : toute collision déclenche immédiatement un reset global de l'épisode et est comptabilisée comme un échec total de la tâche. MCB rompt avec cette logique en découplant la terminaison locale sur collision du reset global de l'environnement, permettant à l'agent d'effectuer plusieurs tentatives au sein d'un même épisode sur une configuration d'obstacles difficile, jusqu'à épuisement d'un budget de collisions défini. Les expériences ont été conduites sur plusieurs plateformes robotiques simulées et réelles, et les auteurs rapportent des gains de taux de succès et d'efficacité de navigation supérieurs aux baselines à collision unique, avec un budget de collisions réduit produisant les meilleurs résultats. L'enjeu est directement lié à une limite connue du DRL appliqué à la navigation en environnements denses : en pénalisant durement chaque collision dès les premières étapes d'entraînement, les agents évitent les configurations complexes plutôt que de les apprendre, ce qui ralentit la convergence. MCB autorise une exploration plus agressive des zones difficiles sans pour autant sacrifier la sécurité en déploiement, où la politique apprise conserve un comportement zéro-collision. Cela adresse indirectement le "sim-to-real gap" en exposant l'agent à des scénarios d'entassement d'obstacles que les resets prématurés rendaient statistiquement rares durant la phase d'exploration précoce. L'approche n'est toutefois présentée que dans un contexte de résultats expérimentaux préliminaires, sans benchmark comparatif exhaustif sur des datasets standardisés. Cette publication s'inscrit dans un débat plus large sur la conception des fonctions de récompense et des conditions de terminaison en DRL pour la navigation mobile, un domaine où des travaux comme ceux de Berkeley (sur la navigation sociale) ou les approches curriculum learning d'OpenAI ont montré l'importance des dynamiques d'exploration en début d'entraînement. Côté robotique industrielle, les AMR (Autonomous Mobile Robots) de Exotec ou des intégrateurs logistiques européens utilisent majoritairement des planificateurs classiques, mais la pression vers des politiques apprises pour des environnements non-structurés rend ce type de recherche pertinent à moyen terme. La prochaine étape logique serait une validation sur des plateformes de référence (TurtleBot, Spot, ou robots humanoïdes à roues) et une comparaison directe avec des méthodes curriculum existantes.

UEImpact indirect à moyen terme : si l'approche MCB se confirme sur des benchmarks standardisés, des acteurs comme Exotec ou des intégrateurs AMR européens opérant en environnements non-structurés pourraient en tirer parti pour passer à des politiques de navigation apprises.

RecherchePaper
1 source
Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique
1182arXiv cs.RO 

Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique

Une équipe de chercheurs publie SocialLDG (Social Lexically-guided Dynamic Graph learning), un cadre d'apprentissage multi-tâches destiné à doter les robots d'intelligence sociale. Déposé sur arXiv (2604.10895v2), le travail vise un problème central de l'interaction humain-robot : inférer les états internes d'un utilisateur (émotions, intentions, états cognitifs non directement observables), prédire ses comportements futurs et y répondre de façon adaptée. Le cadre modélise six tâches distinctes représentant la relation dynamique entre états latents et actions observables, en intégrant un modèle de langage pour introduire des priors lexicaux par tâche, et un apprentissage par graphe dynamique pour suivre l'évolution temporelle des affinités entre tâches. Les auteurs rapportent des performances état de l'art sur deux jeux de données publics d'interaction sociale humain-robot, sans que le résumé disponible précise les benchmarks ni les marges de gain exactes. L'apport le plus concret pour les équipes de R&D en robotique sociale est la résistance au catastrophic forgetting : SocialLDG intègre de nouvelles tâches comportementales sans dégrader les capacités acquises, une propriété critique pour des déploiements réels où l'étendue des interactions croît progressivement. L'usage de priors linguistiques pour structurer le raisonnement sur graphe est également original : il permet d'exploiter la sémantique du langage naturel comme contrainte sur la modélisation sociale du robot, ouvrant la voie à une adaptation sans réentraînement complet. La lisibilité des affinités entre tâches offre en outre un levier d'interprétabilité utile pour le debug et la validation industrielle. La compréhension sociale en robotique est un chantier actif de longue date, avec des contributions notables de CMU, du MIT, et des travaux sur OpenFace ou EMOTIC. SocialLDG se distingue des approches actuelles qui traitent séparément reconnaissance d'émotion, détection d'intention et prédiction de geste, en proposant un cadre unifié inspiré des sciences cognitives. Les travaux récents sur les vision-language agents et les VLA adressent partiellement ce champ, mais restent centrés sur la manipulation physique plutôt que sur la dynamique socio-cognitive. En tant que prépublication non encore évaluée par les pairs, les performances annoncées restent à confirmer indépendamment avant toute intégration.

RecherchePaper
1 source
Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque
1183arXiv cs.RO 

Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque

Des chercheurs ont publié début mai 2026, via un preprint arXiv (2605.02862), un planificateur de navigation robotique baptisé SRAH (Semantic Risk-Aware Heuristic), conçu pour intégrer des principes de raisonnement issus des grands modèles de langage (LLM) dans le cadre classique de recherche de chemin A. L'algorithme encode des fonctions de coût sémantiques qui pénalisent les zones géométriquement encombrées ou identifiées comme à risque élevé, et déclenche un replanification en boucle fermée dès qu'un obstacle dynamique est détecté. Les auteurs l'ont évalué sur 200 essais randomisés dans un environnement grille 15x15 cases, avec 20% de densité d'obstacles statiques et des obstacles dynamiques stochastiques. SRAH atteint un taux de succès de 62,0%, contre 56,5% pour BFS avec replanification (soit +9,7% d'amélioration relative) et 4,0% pour une heuristique Greedy sans replanification. Une étude d'ablation sur la densité d'obstacles confirme que le façonnage sémantique des coûts améliore la navigation sur des environnements de difficulté variable. Ce travail s'inscrit dans un courant de recherche qui cherche à exploiter la capacité des LLM à encoder du raisonnement contextuel sans les déployer en inférence temps réel, ce qui réduirait la latence et les coûts de calcul embarqués. L'idée centrale, injecter une représentation sémantique du risque dans la fonction heuristique d'A, est pertinente pour les développeurs d'AMR (robots mobiles autonomes) industriels confrontés à des environnements semi-structurés changeants. Cela dit, les résultats doivent être nuancés : un taux de succès de 62% dans une grille 15x15 reste modeste pour une tâche de navigation, et la comparaison avec un Greedy sans replanification est méthodologiquement inégale. La valeur démontrée reste celle de principe, pas de déploiement à l'échelle. La navigation en environnement dynamique est un problème central depuis les travaux fondateurs sur A (Hart, Nilsson, Raphael, 1968) et les variantes D et D*-Lite des années 1990-2000. L'émergence des LLM a relancé l'intérêt pour des heuristiques fondées sur la sémantique plutôt que sur la pure géométrie, une piste explorée par des équipes comme celles de Stanford (SayCan, 2022) ou de Google DeepMind avec RT-2. Sur le segment de la navigation mobile, des acteurs comme Boston Dynamics, MiR ou Exotec (France) intègrent déjà des couches de replanification dynamique dans leurs flottes d'AMR industriels. Ce preprint n'annonce pas de produit ni de déploiement : c'est une contribution algorithmique à valider sur des benchmarks plus réalistes (ROS 2, Gazebo, environnements 3D) avant tout transfert industriel.

UECe preprint pourrait à terme informer les développeurs d'AMR industriels européens sur les heuristiques sémantiques LLM, mais les résultats restent trop préliminaires et le benchmark trop limité (grille 15x15) pour un transfert industriel immédiat.

RecherchePaper
1 source
Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative
1184arXiv cs.RO 

Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative

Une équipe de chercheurs a déposé début mai 2026 sur arXiv (référence 2605.00412v1) un article de position proposant un nouveau cadre théorique pour les modèles du monde en IA incarnée : les Hamiltonian World Models. L'idée centrale est d'encoder les observations d'un robot ou d'un agent autonome dans un espace de phase latent structuré, de faire évoluer cet état via une dynamique inspirée du formalisme hamiltonien de la mécanique classique (avec des termes de contrôle, de dissipation et des résidus appris), puis de décoder la trajectoire prédite en observations futures exploitables pour la planification. Il s'agit d'un preprint théorique sans résultats expérimentaux publiés à ce stade. L'argument principal avancé est que le véritable goulot d'étranglement des modèles du monde n'est plus leur capacité à générer des futurs visuellement réalistes, mais à produire des prédictions physiquement cohérentes et exploitables pour la décision sur un horizon long. Les trois courants dominants actuels peinent chacun à garantir cette stabilité physique : les modèles vidéo génératifs 2D (à la Sora ou Genie), les modèles 3D centrés sur la reconstruction de scènes, et les modèles latents prédictifs de type JEPA (portés notamment par Yann LeCun chez Meta) progressent en silo sans répondre aux exigences du contrôle robotique réel. Pour les équipes de reinforcement learning basé sur modèles (MBRL) et les intégrateurs robotiques, cela se traduit concrètement par des politiques qui dérivent lors des rollouts simulés, fragilisant le transfert sim-to-real. Ancrer la dynamique latente dans le formalisme hamiltonien promettrait une meilleure interprétabilité des représentations internes, une moindre consommation de données d'entraînement et une stabilité accrue en inférence longue. Les auteurs reconnaissent eux-mêmes les obstacles pratiques majeurs : friction, contacts discontinus, forces non-conservatives et objets déformables rendent l'application directe du hamiltonien aux scènes robotiques réelles particulièrement complexe. Ce travail s'inscrit dans un renouveau plus large des world models, porté par Dreamer (Google DeepMind), JEPA (Meta), Genie 2 (Google DeepMind) et les travaux de Physical Intelligence sur les Visual-Language-Action models, mais il se distingue par un ancrage explicite en physique analytique plutôt qu'en apprentissage purement statistique. Aucun déploiement ni partenariat industriel n'est annoncé : l'article reste pour l'instant une contribution théorique ouvrant une direction de recherche.

RecherchePaper
1 source
OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel
1185arXiv cs.RO 

OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel

Des chercheurs ont publié en avril 2026 sur arXiv (arXiv:2604.28197) les spécifications d'OmniRobotHome, une plateforme expérimentale résidentielle instrumentée avec 48 caméras RGB synchronisées au niveau matériel pour le suivi 3D temps réel, sans marqueurs, de plusieurs humains et objets simultanément. Le système est couplé à deux bras manipulateurs Franka, qui réagissent à l'état de la scène en temps réel dans un référentiel spatial partagé. La plateforme cible ce que les auteurs nomment la collaboration "multiadique" : plusieurs humains et robots qui partagent un même espace de travail domestique, agissent en parallèle sur des sous-tâches imbriquées avec des contraintes spatiales et temporelles serrées. Contrairement aux setups dyadiques classiques (un humain, un robot, une tâche), OmniRobotHome enregistre en continu pour constituer une mémoire comportementale long-horizon à partir des trajectoires accumulées. Le verrou technique que ce travail prétend lever est l'occlusion persistante : en environnement résidentiel réel, les interactions rapprochées entre humains, robots et objets génèrent des changements d'état rapides et des zones aveugles qui rendent le tracking 3D fiable en temps réel extrêmement difficile. Aucune plateforme existante ne combinait, selon les auteurs, la robustesse aux occlusions à l'échelle d'une pièce entière avec une actuation multi-robots coordonnée. Les deux problèmes ciblés, sécurité en environnement partagé et assistance robotique anticipatoire, montrent des gains mesurables grâce à la perception temps réel et à la mémoire comportementale accumulée, bien que les chiffres précis (taux de collision évités, latence, précision du suivi) ne soient pas détaillés dans l'abstract publié. Ce travail s'inscrit dans une tendance académique vers les plateformes de recherche domestique à grande échelle, aux côtés d'initiatives comme TidyBot (Stanford), HomeRobot (Meta/CMU) ou RoboCasa (UT Austin). L'utilisation de bras Franka, standard de facto en manipulation robotique, facilite la réplication dans d'autres laboratoires. En revanche, la nature preprint de la publication (pas encore soumise à évaluation par les pairs) et l'absence de métriques quantitatives publiées invitent à la prudence avant toute interprétation comme validation de terrain. La prochaine étape déterminante sera l'ouverture éventuelle du dataset ou du code : c'est ce qui distinguerait OmniRobotHome comme infrastructure de référence pour la communauté d'une contribution de laboratoire isolée.

RecherchePaper
1 source
Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain
1186arXiv cs.RO 

Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain

Des chercheurs ont publié sur arXiv (référence 2604.26839) un cadre de navigation sociale en extérieur baptisé "Walk with Me", conçu pour assister des humains dans des environnements ouverts à partir d'instructions en langage naturel. Le système fonctionne sans carte préétablie (map-free) : il s'appuie uniquement sur le GPS et des points d'intérêt légers issus d'une API cartographique publique pour identifier les destinations sémantiques et proposer des waypoints. L'architecture est hiérarchique à deux niveaux : un modèle vision-langage (VLM) de haut niveau traduit les intentions abstraites en séquences de waypoints, tandis qu'un modèle vision-langage-action (VLA) de bas niveau exécute la navigation au sol en temps réel. Lorsque des situations complexes surgissent, comme des traversées bondées ou des zones à risque, le système bascule automatiquement vers le raisonnement de sécurité du VLM, pouvant imposer un comportement "stop-and-wait" explicite. L'apport principal est l'élimination de la dépendance aux cartes HD préconstruites, qui représentent un coût d'infrastructure significatif pour tout déploiement de robots d'assistance en milieu urbain ou semi-public. Les approches classiques basées sur l'apprentissage restent majoritairement confinées aux intérieurs et aux trajets courts ; "Walk with Me" vise explicitement à combler ce fossé pour des scénarios extérieurs à longue portée. Le mécanisme de routage adaptatif, qui distingue les segments routiniers délégués au VLA des situations complexes renvoyées au VLM, constitue une piste crédible pour économiser les ressources de calcul tout en maintenant la conformité sociale. À noter cependant : le papier ne publie pas de métriques quantifiées sur des scénarios réels, ce qui rend difficile l'évaluation du reality gap et de la robustesse hors laboratoire. Cette recherche s'inscrit dans une effervescence autour des VLA pour la navigation sociale, aux côtés de travaux comme NaviLLM ou les systèmes piétons de Boston Dynamics Research. La navigation extérieure à longue portée reste un verrou non résolu pour les robots humanoïdes commerciaux actuels, Figure AI (Figure 03), Agility Robotics (Digit), Sanctuary AI, qui opèrent encore majoritairement dans des environnements contrôlés et cartographiés. En Europe, Enchanted Tools et Wandercraft travaillent sur des assistants mobiles, mais dans des contextes d'intérieur structuré. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans cette publication arXiv, la classant fermement dans la catégorie recherche académique. Les prochaines étapes attendues incluent une validation sur des benchmarks standardisés de navigation sociale et des tests urbains documentés en conditions non contrôlées.

RechercheOpinion
1 source
Liaisons de jambes robotiques extensibles et rétractables dynamiquement pour l'exécution de tâches multiples en recherche et sauvetage
1187arXiv cs.RO 

Liaisons de jambes robotiques extensibles et rétractables dynamiquement pour l'exécution de tâches multiples en recherche et sauvetage

Des chercheurs ont publié sur arXiv (identifiant 2511.10816, révision 3, avril 2026) les travaux autour d'un nouveau concept de jambe robotique à géométrie variable, baptisé DERRL (Dynamically Extensible and Retractable Robotic Leg Linkage). Le mécanisme repose sur un cinquième bras articulé (five-bar linkage) dont la géométrie peut être reconfigurée à la volée, basculant entre deux modes : une configuration "avantagée en hauteur" pour franchir rapidement des obstacles, et une configuration "avantagée en force" pour exercer des efforts élevés lors des phases d'extraction de victimes. Les expériences sur banc de test ont porté sur trois métriques principales : la longueur de foulée, l'amplitude de force en sortie, et la stabilité dynamique selon les différentes géométries de bras. Le point critique ici est que la robotique SAR (Search and Rescue) souffre d'un problème structurel non résolu : les robots à pattes excellent dans la traversée de terrain accidenté mais peinent à générer des forces d'extraction contrôlées, là où les transmissions à roues font l'inverse. Aucune plateforme existante ne réunit aujourd'hui ces deux capacités de façon satisfaisante. Ce travail propose une voie mécanique plutôt qu'algorithmique pour combler ce fossé, ce qui est notable : la transformation entre modes s'effectue par reconfiguration géométrique, sans changer l'actionneur. C'est un signal intéressant pour les intégrateurs industriels, car cela suggère une robustesse matérielle supérieure aux approches purement contrôle-logiciel. La recherche en robotique SAR connaît une dynamique soutenue depuis les années 2010, portée par des catastrophes comme Fukushima ou les séismes au Maroc et en Turquie. Des plateformes comme le Spot de Boston Dynamics ou l'ANYmal de ANYbotics (ETH Zürich) sont ponctuellement engagées dans ce contexte, mais sans capacité d'extraction lourde intégrée. Ce travail est purement académique à ce stade : aucun prototype complet, aucune démonstration en environnement réel, aucun partenaire industriel annoncé. La prochaine étape logique serait une intégration sur châssis quadrupède et un test en environnement dégradé simulé, avant toute validation opérationnelle.

RecherchePaper
1 source
Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal
1188arXiv cs.RO 

Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal

Une équipe de chercheurs propose, dans un preprint arXiv (2505.01380v2, version 2 publiée en mai 2025), un cadre de planification de trajectoires homotopiques pour essaims de robots naviguant dans des environnements à obstacles inconnus. La méthode repose sur un concept de "tube virtuel optimal" : un corridor topologique calculé de manière centralisée, dans lequel chaque robot se déplace de façon distribuée. En exploitant la programmation multiparamétrique pour approximer les trajectoires optimales par des fonctions affines, la complexité de calcul obtenue est en O(nt), où nt désigne le nombre de paramètres de trajectoire. Ce résultat permet une replanification haute fréquence sur des processeurs embarqués à ressources limitées. Les auteurs valident leur approche par simulations et expériences physiques, sans préciser les dimensions des essaims testés ni les conditions réelles de déploiement. Le verrou adressé est structurant pour la robotique en essaim : les planificateurs réactifs offrent une fréquence de replanification élevée mais convergent vers des minima locaux, tandis que les planificateurs multi-étapes réduisent les interblocages au prix d'un coût de calcul incompatible avec les plateformes embarquées. En combinant planification centralisée homotopique et contrôle distribué, le framework se positionne comme une solution hybride crédible. Si les résultats se confirment sur des essaims de plusieurs dizaines d'agents en environnement réel, les applications sont directes : exploration de zones dangereuses, logistique autonome en entrepôt, coordination de flottes d'AMR en espaces encombrés. Les intégrateurs industriels y trouveraient un algorithme de coordination à faible empreinte calculatoire. La planification d'essaims en milieu inconnu est un domaine actif depuis une décennie, avec des contributions majeures d'ETH Zurich, MIT CSAIL et CMU. Les approches par tubes homotopiques existent depuis les années 2010 dans la planification mono-robot ; leur extension aux essaims pose des problèmes de passage à l'échelle que ce travail tente de résoudre par approximation affine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : le stade actuel est celui d'une preuve de concept académique. Les étapes naturelles seraient la validation sur des essaims physiques de 20 à 50 robots et la mise à disposition du code, absente de la publication.

RecherchePaper
1 source
Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels
1189arXiv cs.RO 

Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels

Un préprint déposé le 24 avril 2026 sur arXiv (réf. 2604.21391) présente ResVLA, une nouvelle architecture de politique VLA (Vision-Language-Action) pour le contrôle robotique. Le problème ciblé est le décalage spatiotemporel entre compréhension sémantique de haut niveau et contrôle physique de bas niveau : les VLA actuels génèrent des actions directement "à partir du bruit" (paradigme Generation-from-Noise), produisant une inefficacité de représentation et un alignement faible avec les instructions. ResVLA bascule vers un paradigme "Refinement-from-Intent" : via une analyse spectrale, le mouvement robotique est décomposé en une composante déterministe basse fréquence (l'intention globale) et une composante stochastique haute fréquence (la dynamique locale). Un pont de diffusion résiduel affine ensuite uniquement cette dynamique locale, ancré sur l'intention prédite. Les résultats déclarés incluent une convergence plus rapide que les baselines génératives standards, une robustesse aux perturbations linguistiques et aux variations d'embodiment, et des performances validées en conditions réelles, bien que le papier ne précise pas les plateformes matérielles testées ni les métriques exactes de déploiement physique. Ce travail s'attaque à une limite structurelle des VLA génératifs : ignorer la hiérarchie naturelle du mouvement nuit à l'alignement entre instruction et action. La robustesse à l'embodiment est un point concret pour les intégrateurs travaillant sur des flottes robotiques hétérogènes, où réentraîner un modèle complet par plateforme représente un coût prohibitif. La validation partielle en conditions réelles renforce la crédibilité de l'approche, même si l'absence de métriques détaillées (taux de succès par tâche, temps de cycle, nombre de démos d'entraînement) invite à la prudence avant d'extrapoler les résultats de simulation vers des déploiements industriels. Ce préprint s'inscrit dans une dynamique de recherche intense autour des VLA généralistes. Pi-0 de Physical Intelligence, OpenVLA (UC Berkeley) et les travaux RT-2 de Google DeepMind constituent les références immédiates du domaine. L'approche par résidu spectral est conceptuellement distincte des architectures de diffusion uniformes, mais ResVLA reste une contribution académique sans code public ni produit annoncé. La prochaine étape sera de voir si l'approche se confirme sur des benchmarks partagés comme LIBERO ou BridgeData V2, et si elle influence des frameworks ouverts comme LeRobot de Hugging Face, qui fédère une partie importante de la communauté robotique open-source.

UEImpact indirect et spéculatif : si ResVLA est validé sur des benchmarks partagés, LeRobot (Hugging Face, France) pourrait intégrer cette approche résiduelle, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

RechercheOpinion
1 source
ZipFold : des actionneurs modulaires pour des robots adaptatifs à grande échelle
1190arXiv cs.RO 

ZipFold : des actionneurs modulaires pour des robots adaptatifs à grande échelle

Des chercheurs ont publié en avril 2026 un préprint arXiv (référence 2604.05260v2) présentant ZipFold, un actionneur modulaire capable de transformer simultanément sa taille et sa rigidité par plissage et verrouillage de bandelettes plastiques imprimées en 3D. Le principe repose sur l'enroulement de ces bandelettes flexibles en poutres à section carrée : en position compacte, la structure reste souple et peu encombrante ; en position déployée, elle atteint un état quasi-rigide. La transition est continue, réversible, et ne requiert ni mécanisme hydraulique ni pneumatique. Un prototype intégrant quatre de ces modules a été démontré sous la forme d'un robot marcheur adaptatif capable de modifier dynamiquement sa démarche en ajustant la rigidité de ses membres en temps réel. Le principal intérêt de ZipFold réside dans sa généricité : contrairement aux actionneurs à rigidité variable existants, généralement conçus sur-mesure pour un usage précis et difficilement réutilisables dans un autre contexte, cette brique modulaire peut être assemblée en configurations arbitraires. La fabrication par impression 3D de plastique flexible abaisse le seuil d'entrée pour les équipes de recherche et les petits intégrateurs, sans nécessiter de chaîne d'approvisionnement spécialisée. Pour des systèmes robotiques opérant dans des environnements changeants (logistique, inspection, rééducation), la capacité à modifier le comportement mécanique sans reconfiguration matérielle représente un avantage opérationnel concret. Il faut toutefois tempérer : le papier est un préprint académique sans benchmarks comparatifs publiés face aux alternatives existantes, et les performances annoncées (rigidité atteinte, charge utile, nombre de cycles) restent à valider sur des durées et des conditions représentatives. Le problème de la rigidité variable mobilise la communauté robotique depuis des décennies : les approches pneumatiques (jamming de particules, muscles McKibben), les alliages à mémoire de forme (SMA) et les câbles antagonistes dominent aujourd'hui, mais chacun achoppe sur des compromis entre vitesse de commutation, encombrement et complexité d'intégration. ZipFold se positionne sur le créneau de la modularité fabricatoire, un espace encore peu occupé par des solutions génériques et bas-coût. Le préprint ne mentionne ni partenaire industriel ni calendrier de transfert technologique ; les prochaines étapes attendues incluent des tests de charge, des essais en endurance cyclique, ainsi qu'une démonstration sur des morphologies plus complexes que le marcheur quadrimodulaire actuel.

RecherchePaper
1 source
SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses
1191arXiv cs.RO 

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

Des chercheurs présentent sur arXiv (réf. 2604.21693, avril 2026) un cadre théorique qui reformule le SLAM actif comme un problème de contrôle stochastique optimal sous information partielle. Le SLAM (Simultaneous Localization and Mapping) désigne la capacité d'un robot à construire une carte de son environnement tout en s'y localisant simultanément, un problème fondamental en robotique mobile. Dans sa version "active", le robot doit en plus décider quels mouvements effectuer pour maximiser la qualité de sa carte et la précision de sa pose. Les auteurs formalisent ce problème sous la forme d'un processus de décision markovien partiellement observable (POMDP) non standard, intégrant de façon rigoureuse les modèles de mouvement, de perception et de représentation de la carte. Ils introduisent une nouvelle fonction de coût d'exploration qui encode explicitement la géométrie de l'état du robot au moment d'évaluer les actions de collecte d'information. À partir de cette formulation, ils dérivent des solutions approchées quasi-optimales avec garanties formelles. Une étude numérique extensive valide l'approche en utilisant des algorithmes d'apprentissage par renforcement standards pour apprendre ces politiques. L'intérêt principal de ce travail réside dans la rigueur théorique qu'il apporte à un domaine dominé par des heuristiques empiriques. La plupart des approches d'exploration autonome actuelles, qu'elles reposent sur les frontières d'exploration (frontier-based), la maximisation d'information mutuelle, ou des métriques ad hoc, manquent de garanties formelles sur la qualité des solutions produites. En reformulant le problème dans le cadre du contrôle stochastique optimal et des POMDPs, les auteurs fournissent des conditions de régularité et des bornes d'approximation qui permettent de certifier la quasi-optimalité des politiques apprises. Pour les équipes R&D travaillant sur des AMR (robots mobiles autonomes), des drones cartographiques ou des robots d'inspection industrielle, cette approche ouvre la voie à des algorithmes d'exploration dont le comportement est formellement auditable, ce qui est non trivial dans les contextes de certification. Le SLAM est un problème étudié depuis les années 1990, avec des approches classiques basées sur les filtres de Kalman étendus (EKF-SLAM) ou les filtres particulaires (FastSLAM), puis des méthodes graphiques comme ORB-SLAM3 ou RTAB-Map qui dominent aujourd'hui les implémentations industrielles. Les approches neuronales, comme les NeRF et Gaussian Splatting adaptés au SLAM temps réel, émergent en parallèle. Ce papier, encore préprint non évalué par les pairs, ne remplace pas ces implémentations mais propose un cadre décisionnel qui les surplombe. Les laboratoires actifs sur ces questions incluent MIT CSAIL, ETH Zurich (Autonomous Systems Lab) et l'équipe de Joan Solà. Les prochaines étapes naturelles seraient une validation expérimentale sur robot réel et une extension vers les environnements dynamiques, deux points non traités dans cette version arXiv.

RecherchePaper
1 source
Cartographie sûre de champs scalaires par transformée de Hough et processus gaussiens
1192arXiv cs.RO 

Cartographie sûre de champs scalaires par transformée de Hough et processus gaussiens

Des chercheurs ont publié, le 29 avril 2026, un article présenté sur arXiv (référence 2604.20799) décrivant un système permettant à un robot autonome de cartographier des champs scalaires inconnus tout en évitant automatiquement les zones dangereuses. Le cadre proposé repose sur deux composants mathématiques combinés : les processus gaussiens (GP), qui modélisent la distribution spatiale du champ mesuré, et la transformée de Hough (HT), qui détecte en temps réel la géométrie des zones à haute intensité. Concrètement, un robot équipé de capteurs doit mesurer un champ physique, par exemple d'intensité lumineuse ou de radiation, sans jamais pénétrer dans les régions où la valeur dépasse un seuil de sécurité prédéfini. La validation repose sur deux études de simulation numérique et une expérience en intérieur impliquant un robot mobile à roues cartographiant un champ d'intensité lumineuse. L'enjeu concret est de permettre une exploration robuste et sécurisée dans des environnements potentiellement hostiles, tels que des zones de radiation, des champs électromagnétiques intenses ou des atmosphères chimiques, sans exposer le robot à des dommages irréversibles. L'approche bayésienne des processus gaussiens offre un double avantage : elle fournit non seulement une estimation de la valeur du champ en tout point, mais aussi une mesure d'incertitude associée, permettant au système de planifier ses déplacements avec des garanties probabilistes de sécurité. Cela dépasse les approches classiques qui traitent sécurité et cartographie comme deux problèmes séparés. Ce travail s'inscrit dans un champ de recherche actif sur la robotique d'exploration intelligente, où la demande croissante pour des robots capables d'opérer sans supervision humaine dans des environnements extrêmes, nucléaires, industriels ou de défense, pousse à intégrer des garanties formelles de sécurité directement dans la boucle de planification. La transformée de Hough, outil historiquement utilisé en vision par ordinateur pour détecter des formes géométriques, est ici réinterprétée comme un estimateur structurel de zones à risque à partir de données capteurs partielles. Les prochaines étapes naturelles de ce travail incluront des tests en environnements réels non contrôlés et l'extension à des champs vectoriels ou des robots multi-agents.

RecherchePaper
1 source
HALO : locomotion hybride auto-encodée avec dynamiques latentes apprises, cartes de Poincaré et régions d'attraction
1193arXiv cs.RO 

HALO : locomotion hybride auto-encodée avec dynamiques latentes apprises, cartes de Poincaré et régions d'attraction

HALO (Hybrid Auto-encoded Locomotion with Learned Latent Dynamics) est un framework académique publié en avril 2026 sur arXiv (2604.18887) autour d'un problème central de la robotique bipedale : construire des modèles d'ordre réduit qui représentent fidèlement la dynamique hybride des robots à jambes tout en offrant des garanties formelles de stabilité. L'approche combine un autoencodeur neuronal, qui apprend une représentation latente basse dimension depuis des trajectoires de locomotion périodique, avec une carte de Poincaré apprise dans cet espace latent. Cette carte modélise la dynamique pas-à-pas du cycle de marche ou de saut et permet de construire des régions d'attraction (RoA) via une analyse de Lyapunov, projetables ensuite vers l'espace d'état complet via le décodeur. Les validations sont conduites en simulation sur un robot sauteur et un humanoïde corps entier. Ce travail tente de combler un fossé persistant entre deux familles de méthodes. Les modèles analytiques classiques comme le Linear Inverted Pendulum (LIP) ou le Spring-Loaded Inverted Pendulum (SLIP) offrent des garanties de stabilité rigoureuses, mais approximent mal la dynamique réelle d'un humanoïde haute dimensionnalité. Les méthodes data-driven récentes capturent mieux la physique du système, mais sans transfert formel des propriétés de stabilité au système complet. HALO propose une voie hybride : apprendre la structure de l'espace d'état depuis les données, puis y appliquer les outils classiques de l'automatique. Pour les développeurs de contrôleurs de locomotion, borner formellement des zones de stabilité sans modèle analytique exact constitue un apport potentiellement significatif. L'approche s'ancre dans une littérature établie sur les systèmes dynamiques hybrides à contacts discontinus, notamment les hybrid zero dynamics et les Control Barrier Functions (CBF) développés par Aaron Ames à Caltech. La carte de Poincaré, outil classique pour analyser les orbites périodiques, est ici apprise depuis les données plutôt que dérivée analytiquement. La limite principale reste l'absence totale de validation sur robot physique : les résultats sont exclusivement en simulation, et le gap sim-to-real n'est pas adressé. Les acteurs industriels comme Boston Dynamics, Agility Robotics ou Figure, qui déploient des humanoïdes en environnement réel, resteront prudents avant d'intégrer des RoA apprises sans expérimentation hardware. Les suites logiques impliqueraient des tests sur plateforme physique et une intégration dans des pipelines MPC ou des frameworks comme Drake.

RecherchePaper
1 source
Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot
1194arXiv cs.RO 

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

Une équipe de chercheurs a publié sur arXiv (ref. 2404.19670) un framework baptisé RAPIDDS, conçu pour améliorer la collaboration entre humains et robots dans des environnements industriels répétitifs, typiquement les lignes de fabrication. Le système opère sur plusieurs cycles de travail successifs : à chaque cycle, il apprend les comportements spatiaux (trajectoires réelles empruntées par l'opérateur) et temporels (temps effectifs de réalisation de chaque tâche) propres à l'individu face à lui. Ces modèles personnalisés alimentent ensuite deux mécanismes couplés : un planificateur de tâches qui réorganise allocations et séquençages, et un modèle de diffusion qui steer les trajectoires du robot en temps réel pour éviter les zones de proximité critique. Les expériences ont été conduites en simulation, puis sur un bras robotique à 7 degrés de liberté (7-DOF) dans un scénario physique, et validées par une étude utilisateur portant sur 32 participants (n=32). Les résultats montrent une amélioration significative sur des indicateurs objectifs (efficacité, distance de proximité) et subjectifs (fluidité perçue, préférence utilisateur) par rapport à un système non adaptatif. L'apport central de RAPIDDS réside dans la jonction de deux niveaux d'adaptation longtemps traités séparément dans la littérature. Les méthodes de planification de tâches optimisaient l'allocation et le séquençage mais ignoraient les interférences spatiales en situation de proximité étroite ; les méthodes de niveau motion se concentraient sur l'évitement de collision sans tenir compte du contexte global de la tâche. Unifier les deux, en les calibrant sur un modèle individuel mis à jour cycle après cycle, représente un changement concret de posture pour les déploiements industriels : le robot ne s'adapte pas à un opérateur générique, mais à la personne précise qui travaille ce jour-là, avec ses rythmes et ses habitudes de déplacement. Ce travail s'inscrit dans un courant plus large d'utilisation des modèles de diffusion pour la génération de trajectoires robotiques, un terrain que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) exploitent côté manipulation généraliste. RAPIDDS se distingue par sa focalisation sur la couche adaptation humain-robot plutôt que sur la polyvalence du modèle de motion. Le papier reste pour l'instant un preprint arXiv non encore soumis à peer-review, et aucun déploiement industriel ni partenariat avec un intégrateur n'est mentionné. La prochaine étape naturelle serait une validation sur des opérateurs en conditions réelles de production, avec une diversité de profils moteurs, pour tester la robustesse de la personnalisation au-delà d'un environnement contrôlé.

RecherchePaper
1 source
Apprentissage de politique par phases pour la conduite de skateboard par des robots quadrupèdes via modulation linéaire par caractéristiques
1195arXiv cs.RO 

Apprentissage de politique par phases pour la conduite de skateboard par des robots quadrupèdes via modulation linéaire par caractéristiques

Des chercheurs ont publié sur arXiv (2602.09370v2) un cadre d'apprentissage par renforcement baptisé PAPL (Phase-Aware Policy Learning), conçu pour permettre à des robots quadrupèdes de se déplacer sur une planche de skateboard. Le défi central est la nature cyclique et multi-phasée de l'activité : pousser, glisser et freiner mobilisent des objectifs de contrôle distincts et des interactions fortement dépendantes de la perception. Pour y répondre, PAPL intègre des couches FiLM (Feature-wise Linear Modulation) conditionnées par phase dans les réseaux acteur et critique de l'agent, permettant à une politique unifiée de capturer les comportements propres à chaque phase tout en partageant la connaissance générale du robot entre elles. Les évaluations en simulation valident la précision du suivi de commande, des études d'ablation quantifient la contribution de chaque composant, et les auteurs comparent l'efficacité locomotrice à des baselines pattes seules et pattes-roues. Un transfert sim-to-real est également démontré sur plateforme physique, bien que l'abstract ne précise pas le modèle de robot utilisé ni les métriques de performance obtenues. L'intérêt principal de cette approche tient à sa capacité à gérer des comportements multi-modaux au sein d'une politique unique, sans multiplier les modules spécialisés par phase. Utiliser un skateboard comme vecteur de locomotion est économique en énergie et compact, ce qui ouvre des perspectives concrètes dans des environnements industriels ou logistiques où les robots doivent couvrir de longues distances sans recharger. La démonstration du transfert simulation-réel est l'élément le plus scruté par la communauté robotique : le sim-to-real gap reste l'obstacle central à la généralisation des politiques apprises par renforcement, et chaque validation hardware crédibilise un cadre. À noter toutefois que l'abstract ne fournit aucune métrique chiffrée précise (vitesse, taux de succès, distance), ce qui limite l'évaluation indépendante des performances avant lecture du papier complet. PAPL s'inscrit dans un courant de recherche plus large visant à doter les robots à pattes de modes de mobilité hybrides ou étendus. Les couches FiLM, initialement développées pour le raisonnement visuel conditionné en apprentissage automatique, trouvent ici une application originale dans le contrôle moteur cyclique. Sur le plan concurrentiel, les plateformes pattes-roues comme l'ANYmal WE d'ANYbotics ou les variantes hybrides de Unitree explorent une voie différente : l'intégration des roues y est mécanique, non comportementale. L'approche PAPL est donc structurellement distincte et potentiellement complémentaire à ces architectures. Ce travail reste à ce stade un preprint arXiv sans déploiement commercial annoncé ; les suites logiques seraient une validation sur plateforme standardisée et une soumission en conférence majeure comme ICRA ou IROS 2026.

RecherchePaper
1 source
Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants
1196arXiv cs.RO 

Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants

Une équipe de chercheurs a publié sur arXiv (ref. 2504.16670) un cadre d'optimisation par diffusion pour résoudre le problème du temps minimum de déplacement sur un robot à double bras redondant. L'objectif est de minimiser le temps nécessaire pour qu'une configuration dual-arm suive un chemin cartésien relatif défini, tout en respectant les contraintes articulaires et l'erreur cartésienne. Les résultats annoncés sont significatifs : réduction de 35x du temps de calcul et diminution de 34 % de l'erreur cartésienne par rapport à la méthode précédente des mêmes auteurs, qui reposait sur une approche bi-niveaux avec résolution primal-dual. Ce gain de performance est important pour la robotique industrielle collaborative, où les bras doubles, typiquement utilisés en assemblage, en manipulation d'objets encombrants ou en chirurgie assistée, doivent exécuter des trajectoires précises dans des temps de cycle serrés. La méthode antérieure, basée sur le gradient, souffrait de deux limitations structurelles : une charge de calcul élevée rendant la planification en quasi-temps-réel difficile, et une incapacité à imposer directement une contrainte d'erreur cartésienne en norme infinie (L∞) le long de la trajectoire, en raison de la sparsité du gradient. Le passage à un échantillonnage probabiliste via un algorithme de diffusion permet de contourner ces deux problèmes simultanément, ce qui constitue une avancée méthodologique réelle, même si les benchmarks restent pour l'instant sur simulation. Le contexte est celui de l'essor des planificateurs de mouvement basés sur l'apprentissage et les méthodes probabilistes pour les robots à haute redondance cinématique. Les approches par diffusion, popularisées dans la génération d'images puis étendues à la robotique via des travaux comme pi0 (Physical Intelligence) ou des planificateurs de trajectoire neuronaux, gagnent du terrain face aux solveurs classiques (CHOMP, TrajOpt) sur des critères de vitesse et de généralisation. Ce travail s'inscrit dans cette tendance en restant ancré dans un cadre d'optimisation formelle (contrôle optimal), ce qui lui confère une interprétabilité que les approches purement end-to-end n'offrent pas encore. La prochaine étape naturelle serait une validation sur hardware physique avec contraintes temps-réel.

RecherchePaper
1 source
Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms
1197arXiv cs.RO 

Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms

Des chercheurs ont publié sur arXiv (arXiv:2504.16509) une architecture transformer entraînée par apprentissage par renforcement, spécifiquement l'algorithme PPO (Proximal Policy Optimization), pour élaguer dynamiquement les graphes de planification utilisés dans les algorithmes d'exploration robotique. Le système cible les graphes RRT (Rapidly Exploring Random Trees) employés dans l'exploration par frontières, une méthode classique où un robot identifie les limites entre zones cartographiées et inconnues pour piloter sa navigation. En simulation, le framework réduit la taille des graphes jusqu'à 96 % sans intervention humaine, en prenant des décisions de suppression de nœuds en temps réel pendant que le robot explore son environnement. L'intérêt opérationnel est direct : dans les systèmes d'exploration autonome longue durée, entrepôts, sites industriels, bâtiments en intervention d'urgence, les graphes de planification grossissent de façon non bornée et dégradent les performances au fil du temps, forçant soit des redémarrages, soit des architectures mémoire coûteuses. Ici, la politique apprise parvient à associer des décisions locales d'élagage à des résultats d'exploration globaux malgré un signal de récompense rare et retardé, ce qui constitue le résultat le plus difficile à obtenir en RL appliqué à la planification. En contrepartie, le taux d'exploration moyen est légèrement inférieur aux baselines non élagués, mais l'écart-type de couverture est le plus bas observé : le robot explore moins vite, mais de façon nettement plus prévisible d'un environnement à l'autre, un critère souvent plus pertinent en déploiement industriel que la vitesse brute. La sparsification de graphes dynamiques est un problème connu en SLAM et planification de mouvement, traditionnellement traité par des heuristiques géométriques ou des seuils fixes. Appliquer du RL à cette couche basse de la pile robotique est, selon les auteurs, une première. Le travail reste à ce stade une preuve de concept en simulation, sans validation sur hardware réel ni comparaison avec des systèmes commerciaux comme les AMR de MiR, Fetch Robotics ou Exotec. Les prochaines étapes naturelles seraient un transfert sim-to-real et une évaluation sur des graphes issus de LiDAR 3D, contexte dans lequel la croissance exponentielle des graphes est particulièrement problématique.

RecherchePaper
1 source
Locomotion d'un robot serpent élastique par dynamique naturelle
1198arXiv cs.RO 

Locomotion d'un robot serpent élastique par dynamique naturelle

Des chercheurs ont publié le 24 avril 2026 sur arXiv (référence 2604.17895) une étude portant sur la locomotion d'un robot serpent élastique exploitant ses dynamiques naturelles pour améliorer l'efficacité énergétique de ses déplacements. L'approche repose sur la théorie des eigenmanifolds, un cadre mathématique permettant de caractériser les comportements dynamiques non linéaires de systèmes mécaniques complexes. Les auteurs ont conçu et testé deux familles d'allures (gaits) fondées sur ces dynamiques naturelles : l'une basée sur la commutation entre deux modes normaux non linéaires, l'autre sur des trajectoires périodiques dites "non-brake orbits". Les simulations dynamiques montrent que les gaits par non-brake orbits atteignent une efficacité parfaite dans le cas conservatif (sans frottement), et surpassent un robot rigide de référence dans un scénario réaliste avec frottement. La commutation entre modes normaux non linéaires, en revanche, n'apporte pas de gain d'efficacité significatif par rapport à la baseline. Ces résultats ont des implications concrètes pour la conception de robots locomoteurs à corps mou ou semi-élastique. L'idée d'exploiter la compliance mécanique plutôt que de la compenser par du contrôle actif est une hypothèse ancienne dans la robotique bio-inspirée, mais elle restait difficile à formaliser rigoureusement pour des systèmes non linéaires. Cette publication fournit un cadre analytique opérationnel : la théorie des eigenmanifolds permet d'identifier des trajectoires naturelles exploitables, réduisant le coût de transport sans augmenter la complexité du contrôleur. Pour les intégrateurs et concepteurs de systèmes d'inspection en espace confiné, tuyaux ou structures irrégulières, cela ouvre une voie vers des plateformes plus autonomes énergétiquement, réduisant la dépendance à des batteries lourdes ou à des liaisons filaires. Les robots serpents élastiques s'inscrivent dans une tradition de recherche en locomotion bio-inspirée qui remonte aux travaux des années 1990 sur les serpentins modulaires (CMU Biorobotics Lab, SINTEF en Norvège). La théorie des eigenmanifolds, issue de la mécanique analytique, a été appliquée récemment à des robots à pattes et des manipulateurs élastiques avant d'être étendue ici aux systèmes sériels à haute redondance cinématique. Côté concurrents, des groupes comme le Dynamic Robotics and Control Lab de l'ETH Zurich ou le groupe ANYbotics travaillent sur la compliance passive pour la locomotion, mais sur des architectures à pattes. Dans l'espace serpent/continuum, des acteurs comme Medrobotics (médical) ou des spin-offs académiques européens explorent des niches applicatives. L'étape suivante identifiée par les auteurs est la validation expérimentale sur prototype physique, absente de cette publication, ce qui maintient les résultats au stade de la preuve de concept simulée.

RecherchePaper
1 source
Greedy Kalman-Swarm : amélioration de l'estimation d'état dans les essaims de robots en environnements difficiles
1199arXiv cs.RO 

Greedy Kalman-Swarm : amélioration de l'estimation d'état dans les essaims de robots en environnements difficiles

Des chercheurs ont publié sur arXiv (référence 2604.16868) une méthode de filtrage de Kalman distribué baptisée "Greedy Kalman-Swarm", conçue pour améliorer l'estimation d'état dans les essaims de robots opérant en environnements dégradés. Le principe : chaque robot intègre, à chaque itération, l'ensemble des données de voisinage disponibles au moment précis du calcul, sans attendre une synchronisation globale. Contrairement aux approches classiques qui requièrent soit un nœud centralisateur, soit des protocoles de communication lourds pour atteindre un consensus collectif, cette méthode fonctionne de façon purement locale. Les simulations menées dans des environnements à connectivité contrainte montrent que le système reste fonctionnel même en cas de perte partielle de données entre agents, tout en maintenant une précision supérieure à celle d'un filtre de Kalman purement individuel. L'enjeu industriel est réel pour les déploiements multi-robots en milieu non structuré. La plupart des architectures d'essaim actuelles butent sur un compromis difficile : la précision collective nécessite soit une infrastructure de communication fiable et à large bande passante, soit une unité centrale de fusion de données, deux hypothèses rarement tenables sur le terrain. Le Greedy Kalman-Swarm démontre qu'une cohésion globale peut émerger de comportements locaux greedy, sans consensus explicitement imposé. C'est un résultat qui contredit l'intuition dominante selon laquelle la précision collective exige de la coordination synchrone, et qui ouvre la voie à des essaims véritablement autonomes dans des conditions adverses, sans dépendance à une infrastructure fixe. Le filtrage de Kalman est une brique fondamentale de l'estimation d'état en robotique depuis les années 1960, et son extension aux systèmes multi-agents fait l'objet de travaux actifs depuis au moins deux décennies. Les approches distribuées existantes, comme le Kalman consensus filter ou les variantes à diffusion de données, supposent généralement une topologie de communication stable ou des échanges périodiques complets. Greedy Kalman-Swarm se positionne comme une alternative légère, scalable et tolérante aux pannes. Les auteurs ciblent explicitement deux applications : la recherche et le sauvetage (search-and-rescue) en milieu sinistré, et l'exploration spatiale, deux domaines où la fiabilité des liaisons radio ne peut être garantie. Le code n'est pas encore publié et les résultats restent pour l'instant au stade de la simulation, ce qui appelle une validation sur matériel réel avant tout déploiement opérationnel.

RecherchePaper
1 source
Incertitude, flou et ambiguïté dans l'interaction humain-robot : pourquoi la conceptualisation est essentielle
1200arXiv cs.RO 

Incertitude, flou et ambiguïté dans l'interaction humain-robot : pourquoi la conceptualisation est essentielle

Une équipe de chercheurs a soumis fin avril 2026 sur arXiv (référence 2604.15339) un article proposant un cadre conceptuel unifié pour trois notions centrales de l'interaction humain-robot : l'incertitude, le flou et l'ambiguïté. Le constat de départ est empirique : dans la littérature HRI, ces trois termes sont régulièrement définis de manière contradictoire d'une étude à l'autre, voire utilisés comme synonymes. Les auteurs partent des définitions lexicographiques, analysent les distinctions et les relations entre ces concepts dans le contexte spécifique du HRI, illustrent chaque notion par des exemples concrets, puis démontrent comment ce socle cohérent permet de concevoir de nouvelles méthodes et d'évaluer les méthodologies existantes avec plus de rigueur. L'enjeu n'est pas seulement terminologique. Quand deux équipes utilisent le mot "ambiguïté" pour désigner des phénomènes différents, leurs résultats expérimentaux deviennent non comparables, et la capitalisation théorique du domaine ralentit. Pour un intégrateur ou un concepteur de systèmes robotiques interactifs, cette confusion a des conséquences pratiques : les métriques d'évaluation divergent, les benchmarks perdent leur valeur de référence, et le transfert de résultats de laboratoire vers des déploiements réels est fragilisé. En établissant des frontières claires entre ces trois concepts, le papier prépare le terrain pour des protocoles d'évaluation reproductibles et des méta-analyses plus robustes, deux prérequis pour une maturation industrielle du HRI. Ce travail s'inscrit dans un mouvement plus large de structuration académique du HRI, discipline jeune à l'intersection de la robotique, des sciences cognitives et de la linguistique. Le problème de l'incohérence terminologique y est identifié depuis plusieurs années, notamment dans des travaux sur la communication intentionnelle et la résolution de références entre humains et robots. Les auteurs ne proposent pas ici un nouveau système technique mais une infrastructure conceptuelle, ce qui est typiquement le type de contribution qui précède une normalisation de fait dans un domaine. Les prochaines étapes naturelles seraient l'adoption de ce cadre dans des conférences de référence comme HRI, RO-MAN ou HRI Workshop de l'IEEE, et son intégration dans des protocoles d'évaluation standardisés pour les assistants robotiques en environnement industriel ou de service.

RecherchePaper
1 source