Aller au contenu principal

Dossier arXiv cs.RO — page 34

1750 articles · page 34 sur 35

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif
1651arXiv cs.RO IA physiqueOpinion

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

Des chercheurs présentent NavWAM (Navigation World Action Model), une architecture diffusion-transformer publiée en préprint sur arXiv (identifiant 2606.13494, juin 2026), conçue pour la navigation visuelle conditionnée par un objectif. Le problème posé est classique en robotique mobile : un robot doit naviguer vers une cible image sous observabilité partielle, en anticipant uniquement depuis sa caméra embarquée comment ses déplacements vont modifier son champ de vision. NavWAM fusionne dans une séquence latente partagée trois composantes distinctes : les observations visuelles futures prédites, les valeurs de progression vers l'objectif, et les blocs d'actions (action chunks). L'entraînement combine un préentraînement en simulation suivi d'une adaptation sur robot réel, avec une évaluation en boucle fermée sur des tâches de navigation image-à-image. Ce travail répond à une limitation bien identifiée des modèles de monde pour la navigation : ces modèles prédisent correctement l'évolution visuelle future, mais restent des modules passifs qui exigent un planificateur externe pour convertir leurs prédictions en commandes effectives. NavWAM élimine ce découplage en apprenant conjointement la prédiction visuelle, les valeurs d'objectif et la politique d'action. Concrètement, la clairvoyance visuelle du modèle de monde devient directement exploitable pour le contrôle moteur, sans recourir à une recherche d'actions de type CEM (Cross-Entropy Method). Sur les benchmarks offline et en déploiement réel en boucle fermée, NavWAM surpasse les baselines world-model à planification externe reportées par les auteurs. Comme pour tout préprint non encore revu par les pairs, ces résultats restent à valider sur une diversité d'environnements plus large. L'approche s'inscrit dans une tendance qui cherche à unifier modèles génératifs et politiques de contrôle, direction explorée notamment par les modèles VLA (Vision-Language-Action) tels que Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui opèrent eux aussi sur des espaces latents partagés multi-modalités. La différence ici est la focalisation stricte sur la navigation monoculaire, sans instruction sémantique en langage naturel. Le passage sim-to-real est traité par fine-tuning sur données réelles, méthode désormais standard mais dont la robustesse dépend fortement de la diversité des scènes d'entraînement, non précisée dans l'abstract. Aucun code ni dataset n'est encore annoncé ; une page projet avec démonstrations vidéo est disponible à l'adresse fournie par les auteurs.

1 source
Apprentissage de politiques de sécurité pour robots via des scénarios synthétiques adversariaux
1652arXiv cs.RO 

Apprentissage de politiques de sécurité pour robots via des scénarios synthétiques adversariaux

Des chercheurs ont déposé en juin 2026 sur arXiv (référence 2606.05952) un article de recherche présentant un cadre de "gamification agentique" destiné à entraîner des politiques de sécurité pour robots physiques. Le principe repose sur un jeu adversarial entre deux agents logiciels : une Red Team chargée d'explorer l'espace des défaillances possibles en construisant des scénarios dangereux, et une Blue Team qui raffine itérativement les politiques de sécurité pour y répondre. Ce processus en boucle vise à faire émerger des cas limites à haut risque que ni la simulation aléatoire ni l'énumération manuelle de scénarios ne permettent d'identifier efficacement. Il est important de noter que les auteurs décrivent eux-mêmes un travail en cours : la contribution se limite à une formulation du problème et à une architecture de solution proposée, sans validation expérimentale publiée à ce stade. L'enjeu industriel est réel. À mesure que les systèmes de Physical AI, notamment les bras manipulateurs et les robots humanoïdes, quittent les environnements contrôlés pour des déploiements en atelier ou en logistique, la robustesse des politiques de sécurité devient un critère de qualification aussi important que la performance. Les approches classiques de test par simulation aléatoire souffrent d'une couverture insuffisante des situations rares mais critiques, et l'énumération manuelle ne passe pas à l'échelle. L'idée d'un red teaming automatisé, si elle est validée expérimentalement, offrirait un pipeline scalable pour certifier des comportements sûrs avant déploiement, ce que les intégrateurs industriels attendent avec impatience. Le red teaming est une technique éprouvée en cybersécurité et dans l'alignement des grands modèles de langage : Anthropic et OpenAI l'utilisent systématiquement pour identifier les comportements dangereux de leurs LLMs avant mise en production. Sa transposition à la robotique physique est plus complexe, car l'espace d'états est continu, les conséquences des défaillances sont immédiates et irréversibles, et la simulation doit capturer une physique réaliste. Dans un secteur où Figure, Tesla (Optimus), Boston Dynamics et Agility Robotics accélèrent leurs déploiements en environnements non structurés, la question de la certification de sécurité reste un verrou non résolu. Ce travail propose une direction méthodologique, mais ses auteurs n'annoncent ni calendrier d'implémentation ni partenariat industriel à ce stade.

RechercheOpinion
1 source
Manipulation inverse par planification symbolique et apprentissage d'opérateurs résiduels
1653arXiv cs.RO 

Manipulation inverse par planification symbolique et apprentissage d'opérateurs résiduels

Des chercheurs publient sur arXiv (2606.05248) un cadre hybride pour la manipulation inverse en robotique : restaurer l'état initial d'un objet après qu'un bras manipulateur a exécuté une tâche. Le système extrait automatiquement des opérateurs de type STRIPS à partir de démonstrations humaines, via des prédicats géométriques souples (soft geometric predicates). Pour chaque opérateur, il dérive un objectif de restauration inverse qui préserve les préconditions, restaure les effets supprimés et annule les effets ajoutés. Quand le planificateur symbolique ne parvient pas à tout résoudre seul, les prédicats irrésolus déclenchent un apprentissage résiduel par algorithme Soft Actor-Critic (SAC). L'évaluation porte sur la tâche PushCube du benchmark de simulation ManiSkill3 : le plan symbolique effectue une restauration grossière par pick-and-place, puis le SAC affine la pose du cube pour satisfaire les prédicats restants. Ce travail s'attaque à un problème industriellement critique mais peu formalisé : inverser une tâche robotique ne se résume ni à rejouer les trajectoires moteur à rebours, ni à inverser les transitions symboliques d'un plan. La dynamique continue des contacts physiques crée des effets irréversibles qu'aucune de ces deux approches seules ne corrige. En combinant planification symbolique pour la restauration grossière et RL résiduel pour le raffinement précis, les auteurs montrent qu'un inverse approximatif peut devenir une compétence physiquement fondée. Pour les intégrateurs industriels, cela ouvre la voie à des systèmes capables de récupération d'erreur automatique sans reprogrammation manuelle, une lacune réelle des installations robotiques actuelles. Ce preprint s'inscrit dans la tension croissante entre deux paradigmes : les modèles tout-neuronal de type VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur l'apprentissage de bout en bout, et les approches hybrides symbolique-neuronal. Les auteurs parient sur STRIPS, formalisé en 1971, comme couche de représentation structurée des effets d'actions. ManiSkill3 est un benchmark de simulation standardisé développé à l'Université de San Diego ; les résultats restent donc entièrement en simulation, sans transfert sim-to-real démontré ni partenaire industriel annoncé. L'extension à des tâches aux effets réellement irréversibles (assemblage, coupe, collage) constitue la prochaine étape non résolue, et conditionnera l'intérêt concret de cette approche pour le déploiement réel.

RecherchePaper
1 source
NDPP-Grasp : préhension dextérique orientée tâche guidée par contraintes de plausibilité physique non-différentiables
1654arXiv cs.RO 

NDPP-Grasp : préhension dextérique orientée tâche guidée par contraintes de plausibilité physique non-différentiables

Des chercheurs ont publié le 2 juin 2026 sur arXiv un cadre baptisé NDPP-Grasp pour améliorer la génération de préhensions dextres orientées tâche. Le défi est double : une préhension dextre doit être physiquement plausible (pas de collision de doigts, forces équilibrées) et fonctionnellement adaptée à la manipulation spécifiée (saisir un couteau par le manche, pas par la lame). Les méthodes actuelles basées sur la diffusion traitent ces deux exigences de façon séquentielle : un modèle de diffusion est d'abord entraîné pour l'alignement tâche, puis un raffinement post-génération corrige la plausibilité physique. NDPP-Grasp change cette logique en injectant les contraintes de plausibilité physique directement dans le processus de débruitage (denoising), y compris lorsque ces contraintes sont non-différentiables, c'est-à-dire qu'elles ne peuvent pas être intégrées via une simple rétropropagation du gradient. L'impact technique est concret. Appliquer des corrections physiques après génération laisse la trajectoire de débruitage aveugle aux contraintes, produisant des préhensions sous-optimales que le raffinement corrige imparfaitement. En guidant le processus génératif lui-même, NDPP-Grasp améliore la qualité des préhensions sans sacrifier l'alignement tâche. C'est particulièrement pertinent pour les mains robotiques multi-DOF à haute dextérité (Shadow Hand, Allegro Hand notamment), où l'espace des configurations valides est étroit et où une mauvaise initialisation génère directement des échecs de saisie en conditions réelles. La méthode adresse aussi un verrou technique : intégrer dans un pipeline de diffusion des métriques physiques issues de simulateurs ou de vérificateurs de contact qui ne fournissent pas de gradient analytique. La génération de préhensions dextres mobilise la communauté depuis des décennies, mais l'essor des modèles de diffusion depuis 2022-2023 a renouvelé les approches avec des travaux comme UniDexGrasp ou GraspDiffusion. NDPP-Grasp s'inscrit dans ce courant, concurrent aux méthodes de guidance par classificateur (classifier guidance) appliquées à la manipulation. Le résumé arXiv ne précise pas l'affiliation institutionnelle ni les benchmarks utilisés ; les expériences sont décrites comme "extensives" sans détail sur les architectures de mains testées ni les jeux de données d'évaluation. La validation sur hardware réel, et le transfert sim-to-real associé, restera l'épreuve déterminante pour mesurer l'utilité pratique de ce cadre.

RecherchePaper
1 source
CLAW : un cadre vision-langage-action (VLA) pour la préhension robotique adaptée au poids
1655arXiv cs.RO 

CLAW : un cadre vision-langage-action (VLA) pour la préhension robotique adaptée au poids

Des chercheurs ont publié sur arXiv (arXiv:2509.14143) un framework baptisé CLAW (CLIP-Language-Action for Weight), conçu pour permettre à un robot de saisir des objets en respectant des seuils de poids définis en langage naturel. L'architecture repose sur deux composants distincts : un modèle CLIP affiné qui joue le rôle de générateur de directives symboliques en lisant en continu l'affichage numérique d'une balance, et le modèle VLA π₀ (Pi-zéro), une politique à base de flux développée par Physical Intelligence, qui intègre ces directives avec des observations caméras multi-vues pour produire des commandes motrices continues. Le système a été validé sur trois configurations expérimentales couvrant la saisie d'objets uniques et des tâches mixtes nécessitant une manipulation bi-bras. Dans toutes les conditions, CLAW surpasse à la fois π₀ brut et π₀ affiné sans le module de surveillance, sans que les auteurs ne précisent les marges de performance ni les volumes de données d'entraînement utilisés. L'enjeu central que CLAW cherche à résoudre est une limitation structurelle des VLA actuels : entraînés de façon bout-en-bout, ces modèles peinent à respecter des contraintes numériques précises comme "arrête-toi quand le poids dépasse 500 grammes", car leur mapping observation-action est implicitement façonné par les données d'entraînement et ne dispose d'aucun mécanisme explicite de surveillance de conditions. En découplant l'évaluation de condition (symbolique, légère) de la génération d'action (continue, haute fréquence), CLAW ouvre une voie pour intégrer une logique de contrôle de procédé dans des pipelines VLA, ce qui est directement pertinent pour des applications industrielles comme le tri pondéral, le conditionnement, ou l'assemblage qualifié par masse. C'est une réponse concrète au "demo-to-reality gap" : les vidéos de démos de manipulation VLA sont souvent réalisées dans des conditions contrôlées sans contraintes mesurables ; CLAW introduit un critère d'arrêt objectif et vérifiable. π₀ est le modèle phare de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine et d'anciens chercheurs de Google Brain et DeepMind, qui a levé 400 millions de dollars en 2024. Le choix de π₀ comme base n'est pas anodin : c'est l'un des rares modèles VLA publiquement documentés capables de manipulation dextre généraliste. CLAW s'inscrit dans une tendance plus large de travaux qui cherchent à hybrider des couches symboliques légères avec des politiques neuronales denses, à l'image des travaux de Physical Intelligence sur le grounding multi-modal ou des approches modulaires comme OpenVLA. Aucun déploiement industriel n'est annoncé ; le travail reste au stade de la preuve de concept académique avec des setups de laboratoire, et une vidéo de démonstration est disponible sur YouTube. Les prochaines étapes naturelles seraient une évaluation sur des capteurs variés (au-delà de la balance numérique) et une généralisation à d'autres contraintes métriques comme la force ou la température.

RechercheOpinion
1 source
Construction de la généralisation dans la génération de comportements via des compositions adaptatives de régularités
1656arXiv cs.RO 

Construction de la généralisation dans la génération de comportements via des compositions adaptatives de régularités

Une équipe de chercheurs a déposé sur arXiv (2605.31110) un cadre baptisé AICON (Active InterCONnect) pour aborder la généralisation en robotique. Le système représente les régularités, soit les relations prévisibles au sein du couple robot-environnement, sous forme de processus en interaction dans un réseau différentiable. Le retour sensoriel orchestre leur composition en temps réel, tandis qu'une descente de gradient génère le comportement. Les expériences sont menées entièrement en simulation sur un problème maîtrisé, où toutes les régularités pertinentes ont été identifiées et encodées a priori. Confronté à un large éventail de conditions inédites, le modèle produit un comportement adapté dans presque tous les cas ; seul un scénario échoue, et les auteurs démontrent formellement que les régularités encodées y sont insuffisantes. La généralisation reste le verrou central de la robotique apprenante : un robot entraîné sur un ensemble de tâches échoue souvent dès que les conditions varient légèrement. AICON propose une réponse structurelle, en ancrant la généralisation dans un biais inductif explicite, la composition adaptative de régularités, plutôt que dans le volume de données. Les ablations montrent que le réseau module automatiquement l'influence de chaque régularité selon son caractère informatif dans la situation courante, un mécanisme de pondération émergent sans supervision. Pour les chercheurs en apprentissage robot et les intégrateurs, cela remet en question l'hypothèse que la mise à l'échelle des données ou des paramètres suffit à couvrir la distribution des situations réelles. La généralisation est aujourd'hui au coeur des travaux sur les VLA (Vision-Language-Action models) comme pi0 de Physical Intelligence, RT-2 de Google DeepMind ou OpenVLA, qui misent sur des fondations pré-entraînées à grande échelle pour transférer vers de nouvelles tâches. AICON emprunte une voie opposée, plus proche des systèmes dynamiques et du contrôle adaptatif, en cherchant à encoder la structure du monde plutôt qu'à l'approximer par accumulation de données. L'étude reste entièrement en simulation sur des problèmes jouets ; le passage aux robots physiques et l'identification automatique des régularités pertinentes restent des questions ouvertes. Une validation sur des benchmarks de manipulation réelle comme LIBERO ou RLBench constituerait la prochaine étape naturelle.

RecherchePaper
1 source
Évitement de collisions par fonctions barrières de contrôle géométriques et approximations polynomiales de Bernstein
1657arXiv cs.RO 

Évitement de collisions par fonctions barrières de contrôle géométriques et approximations polynomiales de Bernstein

Des chercheurs ont déposé sur arXiv (référence 2605.30696) un article présentant une nouvelle méthode de navigation sûre pour robots basée sur des fonctions de barrière de contrôle (CBF) couplées à des champs de distance signée approximés par polynômes de Bernstein, baptisés BP-SDFs. L'approche cible un problème concret du pipeline de planification de mouvement : les substituts géométriques classiques comme les sphères ou les super-ellipsoïdes sont soit trop conservateurs dans des environnements non structurés, soit nécessitent un grand nombre de primitives locales, ce qui gonfle le nombre de contraintes et dégrade les performances temps réel. La méthode proposée offre une représentation unifiée pour les robots et les obstacles via un seul champ de distance signé, réduisant le problème de sécurité à une contrainte de distance minimale unique, applicable en boucle fermée grâce à la différentiabilité des polynômes de Bernstein. Les validations sont réalisées exclusivement en simulation, sur des scénarios de navigation mono-robot et d'évitement de collision multi-robots hétérogènes. L'enjeu industriel est réel : les CBFs sont aujourd'hui un outil central pour garantir mathématiquement la sûreté des systèmes robotiques, mais leur passage à l'échelle dans des environnements complexes (entrepôts encombrés, lignes de production partagées entre AMRs hétérogènes) bute souvent sur l'explosion combinatoire des contraintes. Réduire cette inflation tout en conservant des garanties formelles d'invariance de l'ensemble sûr serait un gain direct pour les intégrateurs qui déploient des flottes mixtes. La différentiabilité des BP-SDFs permet en outre d'intégrer la contrainte dans un QP (quadratic program) standard sans approximations supplémentaires, ce qui simplifie l'architecture de contrôle. Les CBFs ont été formalisés et popularisés principalement par le groupe d'Aaron Ames (Caltech) depuis le début des années 2010, et les SDF comme représentation géométrique sont exploités depuis longtemps en planification de mouvement et en apprentissage (NeRF, NeuralSDF). D'autres équipes combinent déjà CBFs et SDFs appris par réseaux de neurones, ou utilisent des CBFs à base de convex decomposition. Cette contribution se positionne dans la continuité de ces travaux avec l'angle spécifique de l'approximation polynomiale, plus analytiquement contrôlable. Étant un preprint sans validation hardware, la distance entre simulation et déploiement réel reste à combler, et aucune timeline ni partenaire industriel ne sont mentionnés.

RecherchePaper
1 source
Voir vite et lentement : graphes de scènes 3D bimodaux pour tâches en domaine ouvert
1658arXiv cs.RO 

Voir vite et lentement : graphes de scènes 3D bimodaux pour tâches en domaine ouvert

Des chercheurs ont publié en mai 2026 sur arXiv (identifiant 2605.31067) BiMoSG, un système de génération de graphes de scène 3D bimodal conçu pour l'exécution de tâches à vocabulaire ouvert en robotique autonome. Le principe repose sur deux modes distincts : un mode "rapide" actif par défaut, qui construit une représentation grossière de l'environnement, et un mode "lent" déclenché automatiquement lorsque le robot identifie des zones susceptibles de contenir des objets pertinents pour la tâche en cours. Ce second mode génère un graphe de scène 3D à granularité fine, compatible avec des requêtes sémantiques en langage naturel (open-vocabulary), sans liste d'objets prédéfinie. Les auteurs affirment surpasser en vitesse les approches open-source de référence, sans toutefois publier de métriques chiffrées précises dans l'abstract disponible, un point à vérifier dans le corpus complet avant d'en tirer des conclusions fermes. Ce système s'attaque à une tension structurelle bien connue en robotique de terrain : les représentations haute fidélité sont computationnellement coûteuses et inutiles dans les zones sans intérêt, tandis que les représentations grossières sont insuffisantes au moment de localiser un objet cible. BiMoSG tente de résoudre ce compromis de façon dynamique et contextuelle, ce qui est directement pertinent pour les intégrateurs d'AMR (autonomous mobile robots) en entrepôt ou en logistique industrielle, où le temps de cycle de la couche de perception est un goulot d'étranglement réel. La capacité annoncée à coupler la génération du graphe de scène avec l'exécution de tâches en temps réel, si elle se confirme en déploiement physique, représenterait un pas concret vers des systèmes open-set opérationnels au-delà des démonstrations en environnement contrôlé. Les graphes de scène 3D constituent un champ de recherche actif depuis les travaux fondateurs comme Kimera (MIT, 2020) et les approches plus récentes exploitant des encodeurs visuels de type CLIP pour le matching sémantique, tels que ConceptGraphs ou OpenGraph. BiMoSG s'inscrit dans cette lignée en proposant une stratégie d'allocation de ressources perceptives inspirée du cadre dual-process (cognition rapide versus lente), appliqué ici à la perception robotique. Il s'agit d'une contribution académique sous forme de preprint : aucun partenariat industriel, aucun calendrier de déploiement ni benchmark sur jeux de données standardisés (ScanNet, Replica) ne sont mentionnés dans la version initiale. Les étapes naturelles attendues sont une évaluation quantitative comparative et des tests sur plateformes physiques réelles.

RecherchePaper
1 source
Hypothèses futures guidées par LLM pour une exploration à horizon temporel en manipulation robotique multi-étapes
1659arXiv cs.RO 

Hypothèses futures guidées par LLM pour une exploration à horizon temporel en manipulation robotique multi-étapes

Une équipe de recherche a publié fin mai 2026 un article (arXiv:2605.29864) présentant Future-Experience Conditioning (FEC), une méthode destinée à améliorer la manipulation robotique multi-étapes en conditionnant les politiques de contrôle sur de courtes vidéos futures générées synthétiquement. Le pipeline fonctionne en trois étapes : un raisonneur LLM opérant sur une ontologie de tâche initialisée depuis l'état courant de la scène, un jumeau numérique sans robot qui simule le mouvement attendu des objets, puis un modèle de diffusion vidéo sans masque qui synthétise un clip futur cohérent avec la configuration robotique, sans nécessiter de segmentation à l'inférence. Les expériences sont conduites sur deux benchmarks de simulation standards, RoboCasa et CALVIN, en comparant quatre conditions : absence de futur (NoFuture), futur de référence (GTFuture), futur généré (GenFuture) et futur incorrect (WrongFuture), avec trois familles de politiques testées, BC pur, BC+RL, et une Streaming Flow Policy (SFP). Les résultats indiquent que les futurs générés améliorent systématiquement les performances par rapport à l'absence de signal futur, tandis que des futurs incorrects dégradent l'apprentissage jusqu'à bloquer la progression à zéro sur l'ensemble de la courbe d'apprentissage. L'instantiation BC+RL obtient les meilleurs résultats globaux, et l'analyse sur 8 tâches CALVIN montre que GenFuture permet une convergence plus rapide et à un niveau supérieur à NoFuture. Ces résultats tendent à valider l'hypothèse que des vidéos futures imparfaites, mais structurellement cohérentes avec la tâche, constituent des priors utiles pour l'exploration en renforcement, même sans vérité terrain. C'est un résultat non trivial : la qualité du prior conditionne directement la qualité de l'exploration, ce qui renforce l'intérêt des modèles génératifs comme guides de politique plutôt que comme simples augmentations de données. FEC s'inscrit dans un courant actif qui cherche à exploiter les Video Language Models (VLMs) et les modèles de diffusion vidéo comme substituts aux simulateurs physiques pour la planification à horizon court. Des approches concurrentes comme UniSim, SuSIE ou les travaux de Dreamer en model-based RL avaient déjà exploré le conditioning sur des futurs imaginés, mais FEC se distingue par son pipeline modulaire évitant la segmentation à l'inférence, un obstacle pratique souvent sous-estimé en déploiement réel. Le projet dispose d'un site dédié (enact2026.github.io) et reste pour l'instant cantonné à la simulation, sans résultats sim-to-real publiés.

RechercheOpinion
1 source
Apprentissage inverse de récompenses transférables par abstraction d'états
1660arXiv cs.RO 

Apprentissage inverse de récompenses transférables par abstraction d'états

Une équipe de chercheurs a publié sur arXiv (identifiant 2501.01669) une méthode d'apprentissage par renforcement inverse (IRL) visant à extraire des fonctions de récompense abstraites et transférables à partir de trajectoires comportementales observées dans plusieurs configurations différentes d'un même domaine. Plutôt que de simplement reproduire le comportement observé, l'approche cherche à inférer les préférences intrinsèques sous-jacentes, puis à les réutiliser pour générer des comportements adaptés à des instances du domaine non vues pendant l'entraînement. La méthode requiert au minimum deux instances du domaine source pour apprendre la fonction abstraite, qui est ensuite testée sur une troisième instance distincte. Les expériences sont conduites exclusivement en simulation sur les benchmarks OpenAI Gym et AssistiveGym ; aucune validation sur hardware physique n'est présentée dans ce papier. L'enjeu opérationnel pour la robotique industrielle est direct : intégrer un robot dans une nouvelle ligne de production implique aujourd'hui une reprogrammation quasi-complète dès que la tâche évolue, même marginalement. Si une fonction de récompense abstraite peut capturer ce qui est "intrinsèquement souhaité" dans une famille de tâches alignées, un intégrateur pourrait déployer un robot sur une variante de tâche sans repartir de zéro. La méthode teste explicitement cette transférabilité, ce qui constitue une preuve de généralisation au-delà du simple ajustement de paramètres. Le gap sim-to-real n'est pas adressé dans cette version, ce qui limite la portée pratique immédiate, et les métriques présentées restent confinées aux benchmarks de simulation. L'IRL est un domaine de recherche actif depuis les travaux fondateurs d'Abbeel et Ng (début des années 2000), avec des développements récents vers les approches adversariales comme GAIL (Generative Adversarial Imitation Learning) et AIRL (Adversarial IRL). Cette contribution se distingue par l'utilisation de l'abstraction des états comme levier de transfert, plutôt que par l'adaptation de domaine ou le fine-tuning d'un modèle pré-entraîné. Les approches concurrentes incluent le méta-IRL et les méthodes IRL multi-tâches, qui partagent l'objectif de généralisation mais avec des formulations différentes. La suite logique serait une validation sur des plateformes robotiques physiques, en manipulation notamment sur des bras comme Franka Emika ou UR5, pour confirmer que l'abstraction apprise en simulation survit au passage au monde réel.

RecherchePaper
1 source
Navigation et exploration collaboratives avec des processus gaussiens épars bêta
1661arXiv cs.RO 

Navigation et exploration collaboratives avec des processus gaussiens épars bêta

Une équipe de chercheurs a publié sur arXiv (référence 2605.26304) un cadre algorithmique pour la navigation collaborative de robots hétérogènes dans des environnements inconnus. Le scénario étudié met en jeu deux plateformes : un robot principal chargé d'atteindre une cible, secondé par un robot capteur mobile (un drone dans les exemples) qui observe l'environnement local et transmet des informations sous contraintes de bande passante. Le système proposé, baptisé β-Sparse Gaussian Processes (βSGP), permet au drone de sélectionner simultanément quels points de sa carte transmettre et quelle trajectoire d'exploration adopter. Les simulations conduites sur des cartes Mars et terrestres affichent une réduction de 18 % du coût de chemin par rapport à une navigation sans communication, et une diminution de 76 % des données transmises face aux approches par transmission brute. L'intérêt principal du travail réside dans la co-optimisation de la communication et de l'action. Dans la majorité des systèmes multi-robots existants, la sélection des données à transmettre et la planification de trajectoire sont traitées séparément ; ici, elles sont couplées dans un cadre variationnel unique, ce qui permet au drone d'anticiper les zones non encore explorées et de prioriser l'information utile à la navigation du robot principal. Pour un intégrateur ou un opérateur industriel, cela se traduit par une architecture réaliste sous contrainte radio, applicable à l'inspection de sites isolés, à la cartographie d'urgence ou à l'exploration planétaire où les liaisons haut-débit sont exclues. Les Gaussian Processes sont une approche probabiliste classique pour la modélisation spatiale, mais leur passage à l'échelle se heurte à une complexité cubique. Les variantes sparse (à points inducteurs) sont connues depuis les travaux de Snelson et Ghahramani (2006), mais la sélection de ces points reste généralement agnostique à la tâche aval. Le βSGP adresse précisément ce verrou. Il convient de noter que les résultats présentés sont exclusivement en simulation ; aucun déploiement réel n'est rapporté, et l'écart sim-to-real reste à évaluer. Les prochaines étapes naturelles impliqueraient une validation sur plateforme physique et une comparaison avec des approches par apprentissage (GNN, transformers de cartes).

RecherchePaper
1 source
Transport multi-robots de boîtes sur différentes surfaces avec contrôle proportionnel décentralisé basé sur les rôles
1662arXiv cs.RO 

Transport multi-robots de boîtes sur différentes surfaces avec contrôle proportionnel décentralisé basé sur les rôles

Des chercheurs ont publié sur arXiv (référence 2605.26430) R2P2 (Roles with Rules and Proportional-control Primitive), une architecture décentralisée pour le transport collaboratif de caisses rectangulaires par plusieurs robots agissant par poussée, sans préhension. Le système assigne dynamiquement trois rôles distincts à chaque robot - pousser, soutenir ou bloquer - selon le mode de manipulation requis : rotation ou translation de la caisse. R2P2 a été évalué en simulation sur NVIDIA IsaacSim avec une équipe de six robots, testée sur des surfaces planes, en montée et en descente avec des variations de friction et de masse de caisse. La validation physique implique quatre TurtleBots déplaçant une caisse de 1,2 kg. Les auteurs revendiquent un meilleur taux de succès que l'approche de référence par leader-suiveur virtuel, sans préciser de métriques chiffrées au-delà des graphes de comparaison. L'élément différenciant clé est l'architecture décentralisée : chaque robot prend ses décisions localement en observant uniquement sa propre position et celle de la caisse, sans communication inter-robots, consensus ou coordinateur central. Cela élimine le point de défaillance unique et réduit les contraintes de synchronisation critiques pour un déploiement en entrepôt ou en zone sinistrée. La gestion simultanée d'inclinaison et de friction variables représente un défi rarement traité dans la littérature, où la plupart des démonstrateurs fonctionnent sur sol plat homogène. La validation sim-to-real, même à petite échelle, confirme que le contrôle proportionnel basé sur les rôles reste transposable au matériel réel - un résultat non trivial pour une méthode sans apprentissage. Le transport collaboratif par poussée est un problème ouvert en robotique multi-agents depuis les années 1990, qui regagne de l'intérêt avec la montée en puissance des flottes AMR dans la logistique et la construction. Les approches concurrentes incluent les méthodes par leader-suiveur centralisé, les algorithmes de consensus distribué et, plus récemment, le renforcement multi-agent. R2P2 se positionne comme une solution légère, interprétable et sans phase d'entraînement, un avantage pour les intégrateurs qui privilégient la prédictibilité et la facilité de certification. NVIDIA IsaacSim, utilisé ici pour les tests en simulation, est devenu la plateforme de référence pour la validation robotique, notamment adoptée par Figure, Boston Dynamics et 1X. Les auteurs ne mentionnent pas de déploiement industriel ni de partenariats : il s'agit d'une contribution académique, avec comme suites logiques des tests sur des charges plus lourdes, des géométries irrégulières et des équipes plus importantes.

RecherchePaper
1 source
Couverture ergodique dans les systèmes multi-robots via la diffusion anisotrope
1663arXiv cs.RO 

Couverture ergodique dans les systèmes multi-robots via la diffusion anisotrope

Une équipe de chercheurs a soumis sur arXiv (référence 2605.24125, mai 2026) un nouveau cadre mathématique pour la couverture ergodique dans les systèmes multi-robots, basé sur la diffusion anisotrope de Perona-Malik. La couverture ergodique désigne la capacité d'une flotte de robots à explorer un espace de manière proportionnelle à une distribution de probabilité cible : plus une zone est jugée prioritaire, plus les robots y concentrent leur trajectoire. L'innovation proposée combine champ de potentiel et recherche ergodique en utilisant le gradient de la solution de l'équation de Perona-Malik pour diriger le mouvement des agents. Les résultats sont validés uniquement par simulation, dans plusieurs scénarios distincts, sans déploiement réel rapporté. La méthode de référence jusqu'ici reposait sur la diffusion isotrope via l'équation de la chaleur, qui propage l'erreur entre trajectoire réelle et distribution cible de façon uniforme dans toutes les directions, sans tenir compte des variations locales de la carte de densité. Cette uniformité devient sous-optimale lorsque la distribution présente des gradients forts ou des zones très contrastées, situation fréquente en inspection industrielle, surveillance périmétrique ou recherche et sauvetage en milieu hétérogène. La diffusion anisotrope proposée adapte la propagation selon la structure locale de la distribution, permettant aux robots de réagir plus finement aux discontinuités de la carte de priorité. Le cadre présenté englobe l'équation de la chaleur comme cas particulier, garantissant la rétrocompatibilité avec les algorithmes existants et facilitant une migration incrémentale. La couverture ergodique multi-robots fait l'objet de recherches actives depuis une quinzaine d'années, avec des travaux fondateurs portés notamment par le laboratoire de Todd Murphey à Northwestern University. L'approche par équation de la chaleur avait été proposée récemment comme alternative aux métriques spectrales classiques basées sur la décomposition de Fourier, elles-mêmes coûteuses en calcul pour de grands espaces. La diffusion de Perona-Malik, empruntée au traitement d'image où elle est utilisée depuis 1990 pour préserver les contours tout en lissant le bruit, est ici réinterprétée pour générer des champs de potentiel directionnels en robotique. Ce travail reste purement théorique et simulé : aucun test sur plateforme physique, aucun partenaire industriel et aucun financement institutionnel ne sont mentionnés, ce qui laisse entière la question du passage sim-to-real, particulièrement délicate pour les flottes multi-robots en environnement dynamique réel.

RecherchePaper
1 source
Diffusion à somme de coûts avec guidage dynamique pour la planification de mouvement
1664arXiv cs.RO 

Diffusion à somme de coûts avec guidage dynamique pour la planification de mouvement

Une équipe de recherche publie en mai 2026 (arXiv:2605.24690) une nouvelle méthode de planification de trajectoires pour la manipulation robotique, basée sur les modèles de diffusion. L'approche, baptisée "Sum of Costs Diffusion with Dynamic Guidance", guide le processus de débruitage du modèle de diffusion par le gradient du coût total de collision, c'est-à-dire la somme des coûts de collision sur l'ensemble de la trajectoire candidate. Autre contribution clé : une heuristique dynamique pour sélectionner l'étape de départ à partir de laquelle ce guidage par gradient est activé. Sur le benchmark Mπnets, un jeu de données de référence pour la planification en environnements encombrés, la méthode obtient les meilleures performances parmi l'ensemble des approches comparées. La généralisation reste le verrou principal de la planification de mouvement en manipulation robotique. Les planificateurs classiques (familles RRT, OMPL) peinent à s'adapter à de nouveaux environnements sans replanification coûteuse, tandis que les approches deep learning souffrent d'une généralisation limitée hors distribution. Le guidage par gradient de coût de collision, appliqué dynamiquement au cours du débruitage, offre une alternative : le modèle ajuste la trajectoire en continu selon la géométrie réelle de la scène, sans retraining. La sélection dynamique du step de départ du guidage adresse un problème connu des modèles de diffusion guidés, le compromis entre force du guidage et diversité des échantillons. Les résultats sur la diversité des configurations de test de Mπnets soutiennent l'hypothèse que cette formulation est plus robuste que les stratégies de guidage par coût ponctuel utilisées dans les travaux antérieurs. Cela dit, l'article est une prépublication non encore révisée par les pairs, et les métriques gagneraient à être validées sur des benchmarks physiques réels. L'intérêt pour les modèles de diffusion en planification robotique s'est accéléré depuis 2023 avec des travaux comme Diffusion Policy (Chi et al.) ou SE(3)-DiffusionFields. Les approches concurrentes directement comparées incluent MPinets et CuRobo (NVIDIA), deux méthodes learning-based de référence sur Mπnets. La méthode proposée s'inscrit dans un courant qui cherche à marier la flexibilité générative des modèles de diffusion avec des contraintes de sécurité physique (évitement de collision) sans passer par un planificateur externe. La prochaine étape logique sera une validation sur hardware réel et des environnements dynamiques, conditions nécessaires pour que ce type d'approche intéresse les intégrateurs industriels.

RecherchePaper
1 source
Quand la recherche devient mémoire : transformer les essais de conception robotique en compétences transférables
1665arXiv cs.RO 

Quand la recherche devient mémoire : transformer les essais de conception robotique en compétences transférables

Une équipe de chercheurs propose Auto-Robotist (arXiv:2605.25832, mai 2026), un agent LLM auto-évolutif pour la conception morphologique de robots. Contrairement aux boucles évolutionnaires classiques où les résultats du simulateur guident la prochaine population sans être conservés, Auto-Robotist distille chaque trace de recherche en une bibliothèque de compétences en langage naturel. Chaque entrée stocke un archétype structurel, des règles positives et négatives étayées par les évaluations, et les designs associés. Lors de la recherche, l'agent récupère ces compétences pour guider les éditions LLM des meilleures morphologies tout en maintenant un chemin de mutation par algorithme génétique (GA) ; après évaluation, la bibliothèque est mise à jour via trois opérations : Ajout, Diagnostic, Fusion. Sur sept tâches EvoGym couvrant locomotion, franchissement d'obstacles et interaction avec des objets, le système améliore la recherche à froid en espace 5x5 et transfère les compétences vers des espaces 10x10, surpassant le GA sur l'ensemble des tâches. L'enjeu central est économique : les évaluations en simulation coûtent cher en calcul, et les GA classiques les oublient à chaque génération. Auto-Robotist les convertit en principes réutilisables et auditables, ce qui modifie la logique des pipelines de conception robotique. La lisibilité de la bibliothèque (des règles en langage naturel plutôt que des poids implicites dans un réseau) permet à un ingénieur d'inspecter et de corriger les décisions de conception, un critère de plus en plus central en contexte industriel. Le transfert inter-espaces sans réentraînement complet est prometteur pour les workflows de conception accélérée, même si les résultats restent pour l'instant limités à EvoGym, un simulateur 2D. L'utilisation des LLM dans les boucles évolutionnaires est un champ actif depuis 2023-2024, avec EUREKA (NVIDIA) pour la génération de fonctions de récompense ou EvoPrompting pour l'architecture neuronale. Auto-Robotist se distingue en ciblant directement la morphologie physique et en rendant la mémoire de recherche explicite et transférable, là où les autres approches restent implicites ou spécialisées. EvoGym est un simulateur 2D open-source standardisé pour la co-évolution morphologie-contrôle, ce qui garantit la reproductibilité des comparaisons. Le code sera publié à l'acceptation de l'article ; les prochaines étapes naturelles seraient une validation sur des simulateurs physiques plus réalistes comme MuJoCo ou IsaacSim, et une intégration dans des pipelines de conception hardware assistée par IA.

RecherchePaper
1 source
Robots qui apprennent à évaluer des modèles de comportement collectif
1666arXiv cs.RO 

Robots qui apprennent à évaluer des modèles de comportement collectif

Des chercheurs ont publié sur arXiv (référence 2604.07303) un cadre méthodologique inédit permettant d'évaluer la fidélité de modèles comportementaux animaux via un robot biomimétique en interaction fermée. L'équipe a utilisé un poisson robot, baptisé RoboFish, contrôlé par des politiques d'apprentissage par renforcement entraînées en simulation sur quatre modèles de comportement de poissons réels : une baseline constante de suivi simple, deux modèles à règles explicites, et un modèle neuronal convolutif (CNN) ancré biologiquement. Ces politiques entraînées en simulation ont ensuite été transférées au RoboFish physique, qui a interagi en temps réel avec de vrais poissons. L'écart sim-to-real a été quantifié via la distance de Wasserstein entre les distributions simulées et réelles de métriques comportementales : performance d'atteinte de cible, distances inter-individuelles, interactions avec les parois de l'aquarium, et alignement de nage. Le modèle CNN s'est révélé le plus fidèle, affichant le plus faible écart sim-to-real sur la majorité des métriques mesurées. Ce travail résout un problème méthodologique persistant en robotique bio-inspirée et en éthologie computationnelle : jusqu'ici, les modèles comportementaux étaient validés uniquement par comparaison offline sur des trajectoires enregistrées, sans confrontation dynamique avec les animaux réels. En introduisant une évaluation en boucle fermée, les auteurs montrent que le classement des modèles change lorsqu'on passe d'une comparaison statique à une interaction incarnée, ce qui implique que de nombreux modèles publiés ont pu être surévalués. Pour la robotique de swarm et les systèmes multi-agents bio-inspirés, ce type de benchmark incarné constitue un outil de validation bien plus discriminant que les métriques classiques. Ce travail s'inscrit dans un courant de recherche croissant sur le sim-to-real en robotique comportementale, porté par des laboratoires comme celui de Maurizio Porfiri (NYU) qui travaille depuis plusieurs années sur RoboFish comme outil d'étude du comportement collectif animal. Le cadre proposé est explicitement généraliste : les auteurs suggèrent qu'il peut s'appliquer à d'autres espèces et d'autres plateformes robotiques. Les prochaines étapes naturelles incluent des tests sur des comportements collectifs plus complexes (bancs de plusieurs individus) et l'extension à d'autres espèces sociales. Aucun partenaire industriel ni financement spécifique n'est mentionné dans le préprint.

RecherchePaper
1 source
Planification par réseau de neurones en graphe et contrôle prédictif pour la planification de mouvement multi-robots sans étiquettes sous contraintes de communication
1667arXiv cs.RO 

Planification par réseau de neurones en graphe et contrôle prédictif pour la planification de mouvement multi-robots sans étiquettes sous contraintes de communication

Une équipe de chercheurs propose, dans un preprint déposé sur arXiv le 25 mai 2026 (arXiv:2605.19209), un framework hiérarchique pour résoudre le problème de planification de mouvement multi-robots sans étiquetage, c'est-à-dire l'assignation simultanée de robots à des objectifs et la génération de trajectoires sûres dans des environnements partagés. Le système combine deux composants : un Graph ATtention Planner (GATP), fondé sur des réseaux de neurones à graphes avec mécanisme d'attention, qui génère des sous-objectifs intermédiaires par coopération entre agents, et un contrôleur NMPC (Nonlinear Model Predictive Controller) décentralisé, exécuté en embarqué sur chaque robot, qui garantit la faisabilité des trajectoires sous dynamiques non-linéaires et contraintes d'actuation réelles. Le framework a été évalué à la fois en simulation et sur des quadrotors physiques. Les auteurs rapportent une tolérance aux délais de communication allant jusqu'à 200 ms, une inférence entièrement décentralisée à bord, et une meilleure généralisation à des équipes de taille croissante. Ce travail s'attaque directement au gouffre sim-to-real qui mine la plupart des approches GNN appliquées à la robotique multi-agents : les méthodes existantes supposent des dynamiques simplifiées et un environnement de simulation idéalisé, ce qui les rend fragiles en conditions réelles. En couplant un planificateur neuronal décentralisé à un contrôleur à modèle prédictif, le framework maintient les propriétés de scalabilité des GNN tout en imposant des garanties de sécurité physiques que les approches purement apprises ne fournissent pas. La robustesse aux délais de communication est particulièrement significative pour les déploiements en entrepôts ou en milieu industriel, où les réseaux sans fil ne sont jamais idéaux. Cette contribution s'inscrit dans un corpus actif de recherche sur les GNN pour la coordination multi-robots, aux côtés de travaux comme MAGAT ou DAN, qui visent à remplacer les solveurs centralisés classiques (MILP, CBS) par des approches distribuées passant à l'échelle. Le preprint n'est pas encore soumis à une revue avec comité de lecture, et aucun déploiement industriel ni partenariat n'est annoncé : il s'agit d'une validation expérimentale académique sur quadrotors, prometteuse mais à consolider. Les prochaines étapes naturelles seraient des expériences sur flottes plus larges et des robots à dynamiques plus complexes, comme des manipulateurs mobiles ou des AMR en environnement entrepôt.

RecherchePaper
1 source
Filtrage hybride variationnel stable pour la récupération de modes de contact et de lois creuses
1668arXiv cs.RO 

Filtrage hybride variationnel stable pour la récupération de modes de contact et de lois creuses

Une équipe de recherche a publié sur arXiv (référence 2605.16398) VHYDRO, un filtre variationnel hybride conçu pour apprendre la dynamique de contact des robots manipulateurs. Le problème ciblé est précis : dans les systèmes à contact riche, une seule observation peut correspondre à plusieurs régimes latents distincts (mouvement libre, impact, stick-slip). Un filtre amortized classique qui n'affecte aucune probabilité à une transition de contact faisable perd définitivement la branche que le robot suit réellement, sans possibilité de récupération. VHYDRO empêche cette perte de branche en mélangeant la loi de proposition apprise avec une loi de transition physiquement faisable avant l'échantillonnage et la pondération d'importance, garantissant ainsi que chaque transition conservée par le support du modèle reste couverte. Le système infère conjointement un état latent continu et un mode de contact discret, puis ajuste une loi port-Hamiltonienne sparse à chaque régime récupéré. Les résultats empiriques portent sur des démonstrations ManiSkill et sur quatre familles de tâches Sawyer/BridgeData, où VHYDRO surpasse les baselines post-hoc et sans mode sur trois métriques : ARI, change-point F1 et pureté de segment. L'enjeu pour l'industrie robotique est direct : la manipulation à contact riche, préhension, assemblage, insertion de pièces, reste l'un des points durs non résolus pour le déploiement des bras industriels apprenants. La capacité à segmenter temporellement les régimes de contact en segments cohérents est un prérequis pour toute politique de contrôle hybride robuste. Ce que prouve VHYDRO, c'est qu'un filtre défensif au sens du support peut stabiliser la reconstruction du mode discret et, de là, permettre une identification physique sparse des termes actifs dans chaque régime, là où les baselines purement prédictives échouent. Sous occlusion sévère, condition fréquente en atelier, le filtre classique s'effondre tandis que VHYDRO reste utilisable, ce qui est un argument concret pour les intégrateurs travaillant sur des cellules robotisées peu camérisées. La formalisation port-Hamiltonienne, héritée de la mécanique classique des systèmes conservatifs avec contraintes, est ici appliquée à un contexte d'apprentissage hybride, ce qui constitue une contribution méthodologique distincte des approches neurales purement prédictives. ManiSkill et BridgeData sont des benchmarks de référence pour la manipulation robotique apprise, largement utilisés par les laboratoires de la côte Ouest américaine. Le papier est une prépublication arXiv, sans affiliation institutionnelle ni déploiement annoncé. Les concurrents directs sont les méthodes de segmentation de mode post-hoc et les filtres mode-free à apprentissage end-to-end. Les suites naturelles seraient une validation sur robots réels à contact non structuré et une intégration dans des pipelines de contrôle en boucle fermée.

RecherchePaper
1 source
HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines
1669arXiv cs.RO 

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.03243v2) HoMMI, pour Whole-Body Mobile Manipulation Interface, un framework d'apprentissage par imitation permettant à un robot mobile de maîtriser la manipulation bimanuelle et la navigation à partir de démonstrations humaines réalisées sans robot. Le principe : un opérateur humain porte une interface portative héritée du projet UMI (Universal Manipulation Interface), enrichie d'une caméra égocentrique capturant le contexte global de la scène (position dans l'espace, état de l'environnement). Ces données brutes alimentent une politique apprise, transférée ensuite sur un robot à corps entier (bras, torse, base mobile) sans que celui-ci n'ait été présent lors de la collecte. La difficulté centrale que HoMMI cherche à résoudre est l'"embodiment gap" : la différence morphologique et sensorielle entre humain et robot rend le transfert de politique difficile, particulièrement en perception égocentrique où les champs de vue et hauteurs d'oeil divergent fortement. Les auteurs proposent trois briques techniques pour combler cet écart : une représentation visuelle agnostique à l'embodiment, une représentation d'action "head relaxed" qui neutralise les variations de mouvement de tête, et un contrôleur corps entier réalisant les trajectoires main-oeil sous contraintes physiques du robot. Ces choix permettent des tâches longue-séquence mobilisant navigation, perception active et coordination bimanuelle, le type de scénario que les architectures Vision-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent également à résoudre. Les résultats, présentés sous forme de vidéos sur hommi-robot.github.io, restent à valider en conditions non contrôlées et sur des benchmarks standardisés. HoMMI s'inscrit dans la continuité directe du projet UMI (Columbia/Stanford, 2024), qui avait popularisé la collecte portable de démonstrations pour la manipulation fixe sur table. L'extension au robot mobile ajoute la dimension navigation, saut de complexité majeur pour le sim-to-real et la généralisation hors laboratoire. Les approches concurrentes incluent Mobile ALOHA (Stanford), les pipelines de distillation de données de Physical Intelligence, et les travaux de manipulation bimanuelle ALOHA/ACT de Berkeley. HoMMI reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni métriques de taux de succès publiées, une limite habituelle des publications en robotique d'apprentissage avant revue par les pairs.

RecherchePaper
1 source
Manipulation d'objets par un système de treillis à topologie variable
1670arXiv cs.RO 

Manipulation d'objets par un système de treillis à topologie variable

Des chercheurs ont publié en mai 2025 sur arXiv (référence 2605.13086) une stratégie de manipulation d'objets pour le Variable Topology Truss (VTT), un robot truss composé de membres actionnés reliés entre eux par des joints sphériques passifs dont la topologie structurale peut être reconfigurée à la demande. Jusqu'ici, cette classe de robot était démontrée pour ses capacités cinématiques, sans méthode formalisée pour saisir ou déplacer des objets. Les auteurs proposent un cadre de contrôle hybride qui régule simultanément position et force, sans découplage explicite entre les deux objectifs. Au niveau de chaque actionneur, un contrôleur à rétroaction de force par capteur génère les forces axiales souhaitées malgré une friction mécanique élevée, problème récurrent dans ces mécanismes. Au niveau de la tâche, les forces appliquées aux noeuds effecteurs sont calculées à partir d'un modèle statique du VTT. Les expériences portent sur un module unitaire puis sur le système complet dans deux configurations de manipulation représentatives, avec évaluation quantitative du suivi combiné position-force. Cette contribution comble un écart méthodologique structurant: les robots truss avaient été identifiés comme des manipulateurs à déploiement rapide, notamment pour des environnements contraints (robotique spatiale, intervention d'urgence, infrastructure adaptative), mais l'absence de stratégie de manipulation fiable les maintenait au stade de démonstrateurs cinématiques. Traiter explicitement la friction élevée des actionneurs via la rétroaction de force rapproche la démarche des contraintes d'un déploiement réel. La validation expérimentale quantitative, plutôt qu'une démonstration vidéo qualitative, renforce la crédibilité des résultats. Il convient toutefois de noter que la publication reste un preprint, non encore soumis à évaluation par les pairs. Les robots truss reconfigurables constituent une voie distincte des manipulateurs sériels classiques (bras 6-DOF type KUKA, UR) et des architectures parallèles (Delta, Stewart): leur avantage théorique réside dans une reconfiguration structurale à la volée, potentiellement utile pour des tâches à géométrie variable. Le VTT s'inscrit dans une lignée de travaux sur les treillis actifs explorés depuis les années 1990 principalement pour la robotique spatiale et les structures adaptatives. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans l'article; les suites naturelles porteraient sur la généralisation à des topologies plus complexes, des charges utiles plus importantes et une validation en environnement non structuré.

RecherchePaper
1 source
CUBic : cadre unifié et coordonné de perception et contrôle bimanuels
1671arXiv cs.RO 

CUBic : cadre unifié et coordonné de perception et contrôle bimanuels

Des chercheurs ont publié CUBic (Coordinated and Unified framework for Bimanual perception and control), un cadre d'apprentissage visuomoteur pour robots à deux bras, déposé sur arXiv en mai 2025 (arXiv:2605.13452). L'objectif : résoudre un verrou classique de la manipulation bimanuelle, où chaque bras doit agir à la fois de façon indépendante et coordonnée avec l'autre. CUBic reformule ce problème comme un défi de modélisation perceptuelle unifiée, en apprenant une représentation tokenisée partagée à travers trois composants : une agrégation perceptuelle unidirectionnelle, une coordination bidirectionnelle via deux codebooks à mapping commun, et une politique de diffusion perception-vers-contrôle. Les expériences sur le benchmark RoboTwin montrent des améliorations nettes sur les métriques de précision de coordination et de taux de succès par rapport aux baselines de référence, sans que les chiffres précis soient disponibles dans l'abstract publié. Le verrou que CUBic adresse est structurel : les approches existantes forçaient un choix binaire, soit déconnecter les deux bras (chacun avec sa propre politique, au détriment de la coordination globale), soit imposer un couplage fort entre eux (risque d'interférences, manque de souplesse). CUBic démontre qu'une représentation partagée apprise de façon émergente, sans couplage codé à la main, suffit à générer simultanément indépendance et coordination. Pour un intégrateur ou un COO industriel, c'est un signal encourageant pour les tâches d'assemblage bimanuel complexes comme le vissage, le pliage ou le conditionnement, qui restent aujourd'hui difficiles à automatiser sans sur-ingénierie du système de contrôle. La manipulation bimanuelle est l'un des fronts les plus actifs de la recherche en robotique apprise. Des cadres comme ACT (Action Chunking with Transformers), Diffusion Policy ou Pi-0 de Physical Intelligence ont progressivement amélioré les performances à un seul bras ; l'extension bimanuelle reste un défi ouvert, notamment pour les robots humanoïdes tels que le Figure 03, l'Optimus Gen 3 ou l'Unitree G1, qui en ont besoin pour les tâches industrielles réelles. CUBic est pour l'instant une contribution fondationnelle validée uniquement en simulation sur RoboTwin, sans déploiement physique annoncé. La prochaine étape logique serait un transfert sim-to-real sur robot physique, qui constitue encore le principal goulot d'étranglement entre publications académiques et applications industrielles concrètes.

RecherchePaper
1 source
Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique
1672arXiv cs.RO 

Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique

Une équipe de chercheurs a publié en mai 2025 sur arXiv (référence 2605.12084) une méthode appelée Quasi-Optimal Experimental Design, ou QOED, visant à résoudre un problème fondamental de l'exploration robotique : comment guider un robot vers les expériences qui lui apprendront réellement quelque chose d'utile ? La méthode repose sur une analyse de l'espace propre de la matrice d'information de Fisher pour identifier les directions de paramètres réellement observables, puis modifie l'objectif d'exploration pour concentrer l'effort sur ces directions tout en atténuant l'influence des paramètres secondaires ("nuisance"). Évaluée sur des tâches de navigation et de manipulation en simulation et en conditions réelles, QOED génère un gain de performance de 35,23 % grâce à la sélection des directions identifiables, et de 21,98 % supplémentaires via la suppression des effets parasites. Intégrée comme objectif d'exploration dans une boucle d'optimisation de politique model-based, elle surpasse les baselines classiques de RL. Ce résultat compte parce qu'il attaque directement le goulot d'étranglement de l'apprentissage actif en robotique : dans les systèmes haute dimension (bras articulés, manipulation dextre, navigation en environnement non structuré), une large fraction des paramètres du modèle est faiblement observable, voire non identifiable. Les méthodes classiques de curiosité ou d'information gain mesurent une incertitude globale sans distinguer ce qui peut être réduit par l'expérience de ce qui ne le peut pas. QOED fournit une approximation à facteur constant de l'objectif idéal théorique, une garantie formelle rare dans ce champ, ce qui lui confère une légitimité au-delà de la démonstration empirique seule. La méthode s'inscrit dans une longue tradition de théorie du design expérimental optimal (OED) issue des statistiques, ici adaptée au cadre RL avec optimisation en ligne. Sur le plan concurrentiel, les approches voisines incluent les méthodes de curiosité bayésienne (type DIAYN ou LEXA) et les objectifs d'information mutuelle comme VIME ou Plan2Explore. QOED se distingue par son ancrage théorique rigoureux et l'explicitation du sous-espace identifiable, deux points que les méthodes heuristiques négligent. Aucun déploiement industriel ni partenaire n'est mentionné : il s'agit à ce stade d'un résultat académique, dont l'intégration dans des pipelines de calibration ou de sim-to-real reste à valider à plus grande échelle.

RecherchePaper
1 source
Emballage dans des contenants partiellement remplis par contact
1673arXiv cs.RO 

Emballage dans des contenants partiellement remplis par contact

Une équipe de chercheurs publie sur arXiv (référence 2602.12095, version 3, première soumission en février 2026) une approche de bin-packing robotique capable de placer des objets dans des conteneurs déjà partiellement remplis, contrairement aux méthodes existantes qui supposent des conteneurs vides. L'algorithme repose sur trois composants couplés: un optimiseur de trajectoire multi-objets basé sur les contacts, intégré dans un contrôleur prédictif (MPC); un système de perception physiquement informé qui estime les poses des objets même en présence d'occlusions inévitables; et un module de suggestion de positions d'empilement physiquement réalisables. La contribution centrale est l'exploitation délibérée des interactions de contact avec les objets déjà en place pour créer de l'espace libre et permettre l'insertion de nouveaux items, sans recourir à la stratégie collision-free qui prévaut dans la littérature. Dans les entrepôts réels, les bacs ne sont presque jamais vides: ils circulent entre zones de tri, postes de préparation et quais d'expédition, accumulant des configurations sous-optimales au fil des déplacements. Les approches sans contact dominantes échouent ou produisent des taux de remplissage médiocres face à ces conditions, creusant un écart persistant entre la recherche en laboratoire et les contraintes opérationnelles. Ce travail propose un changement de paradigme: traiter les contacts comme un levier d'organisation spatiale plutôt que comme un obstacle à éviter. Pour un intégrateur ou un opérateur logistique, l'impact potentiel est direct: densité de remplissage accrue, moins de passages en reprise manuelle, réduction des coûts de transport et de surface de stockage. L'absence de métriques quantitatives dans l'abstract (taux de succès, temps de cycle, payload) empêche toutefois d'évaluer les performances réelles à ce stade. Le bin-packing robotique reste un problème ouvert malgré les investissements d'Amazon Robotics, Ocado et Covariant, et la montée de spécialistes comme Nimble Robotics. Côté européen, Exotec (AMR de stockage, Lille) et Enchanted Tools évoluent dans des espaces adjacents sans cibler encore ce niveau de manipulation dense en conteneur partiellement rempli. Ce travail est un preprint en version 3, sans déploiement ni partenariat industriel annoncé: il s'agit d'une contribution académique, pas d'un produit expédié. Si les performances se confirment hors laboratoire, cette approche orientée contact pourrait s'intégrer à la prochaine génération de cellules de picking-packing autonomes, où la robustesse face au désordre constitue le vrai différenciateur commercial.

UEImpact indirect : si les performances se confirment hors laboratoire, des acteurs logistiques européens comme Exotec pourraient intégrer cette approche orientée contact dans leurs cellules de picking-packing, réduisant la dépendance aux reprises manuelles dans les entrepôts.

RecherchePaper
1 source
Génie logiciel pour la robotique auto-adaptative : un programme de recherche
1674arXiv cs.RO 

Génie logiciel pour la robotique auto-adaptative : un programme de recherche

Une équipe de chercheurs a soumis sur arXiv (réf. 2505.19629, troisième version) un agenda de recherche structuré pour le génie logiciel appliqué aux systèmes robotiques auto-adaptatifs. Contrairement aux robots industriels classiques dont le comportement est entièrement prédéfini au moment du déploiement, les systèmes auto-adaptatifs sont conçus pour modifier leur propre logique en cours d'exécution, en réponse à des environnements dynamiques et incertains. L'article organise cet agenda autour de deux axes : d'une part, le cycle de vie logiciel complet (spécification des exigences, conception, développement, test, opérations), adapté aux contraintes de l'auto-adaptation ; d'autre part, les technologies habilitantes telles que les jumeaux numériques (digital twins) et les mécanismes d'adaptation pilotés par l'IA, qui assurent la surveillance en temps réel, la détection de pannes et la prise de décision automatisée. L'enjeu central identifié par les auteurs est la vérifiabilité des comportements adaptatifs sous incertitude, un problème ouvert qui conditionne directement l'adoption industrielle. Les robots capables d'apprendre et de se reconfigurer en production posent en effet des questions radicalement différentes de celles que traitent les standards de sécurité fonctionnelle classiques comme l'IEC 61508 ou l'ISO 26262. L'article cible notamment la difficulté à équilibrer trois contraintes contradictoires : adaptabilité, performance et sécurité. Il propose d'intégrer des frameworks formels comme MAPE-K (Monitor, Analyze, Plan, Execute, Knowledge), boucle de contrôle réflexif issue de l'autonomic computing d'IBM, et sa variante étendue MAPLE-K, comme socles architecturaux unifiants pour l'ingénierie de ces systèmes. Ce travail s'inscrit dans une dynamique académique qui s'accélère depuis l'émergence des VLA (Vision-Language-Action models) et des approches sim-to-real à grande échelle. Des communautés concurrentes, notamment autour de ROS 2 Lifecycle, des architectures behavior trees, et du model-driven engineering for robotics (MDE4R), explorent des directions parallèles. Les auteurs formalisent une feuille de route vers 2030, visant des systèmes robotiques dits trustworthy, capables d'opérer sans supervision humaine continue dans des environnements industriels réels. Il convient de situer ce papier pour ce qu'il est : un agenda de recherche, pas un produit livré ni un déploiement annoncé. Il cartographie les problèmes à résoudre, pas les solutions disponibles.

UELes questions de vérifiabilité des comportements adaptatifs sous incertitude sont indirectement pertinentes pour les industries européennes soumises aux normes IEC 61508 et à l'AI Act, mais aucun acteur français ou européen n'est impliqué dans ce travail.

RecherchePaper
1 source
Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède
1675arXiv cs.RO 

Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède

Des chercheurs ont publié sur arXiv (identifiant 2508.14994, troisième révision) un système de téleopération à contrôle partagé pour un robot quadrupède équipé d'un bras manipulateur, ciblant les environnements dangereux ou inaccessibles. Le principe : une caméra externe couplée à un modèle d'apprentissage automatique détecte la position du poignet de l'opérateur en temps réel, puis traduit ces mouvements en commandes directes pour le bras robotique. Un planificateur de trajectoire intégré assure la sécurité en détectant et bloquant les collisions potentielles avec les obstacles environnants, ainsi que les auto-collisions entre le bras et le châssis du robot. Le système a été validé sur un robot physique réel, pas uniquement en simulation. Il s'agit d'un preprint académique, pas d'un produit commercialisé. Ce travail adresse un verrou connu dans l'intégration industrielle des robots à pattes : les interfaces joystick ou manette exigent un niveau d'expertise élevé et génèrent une charge cognitive importante pour l'opérateur, augmentant le risque de collision dans des espaces confinés ou dynamiques. En mappant directement les gestes naturels du bras humain vers le bras du robot, l'approche réduit la barrière à l'entrée et pourrait accélérer le déploiement de plateformes comme le Boston Dynamics Spot ARM ou l'ANYmal d'ANYbotics dans des scénarios d'inspection ou de maintenance à risque. La solution revendique un faible coût d'implémentation, ne nécessitant qu'une caméra standard plutôt qu'un équipement de capture de mouvement dédié ou un retour haptique coûteux. La téleopération de robots locomoteurs reste un champ en compétition dense. Les approches concurrentes incluent la commande par réalité virtuelle (Boston Dynamics, Apptronik), les exosquelettes (Sarcos, Shadow Robot) et les interfaces à vision stéréo immersive. Du côté académique, les modèles Visual-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent à réduire ou éliminer la téleopération au profit de l'autonomie embarquée. Ce travail se positionne dans une niche différente : augmenter la sécurité et l'intuitivité du contrôle humain plutôt que de le remplacer. Les prochaines étapes, non détaillées dans le preprint, concerneraient typiquement des tests de robustesse en conditions dégradées (faible luminosité, poussière) et une évaluation comparative des temps de cycle opérateur face aux interfaces existantes.

RecherchePaper
1 source
Contrôle neuronal : l'apprentissage adjoint par contraintes d'équilibre
1676arXiv cs.RO 

Contrôle neuronal : l'apprentissage adjoint par contraintes d'équilibre

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.03288) un framework de contrôle baptisé "Neural Control", conçu pour piloter des systèmes physiques régis par des contraintes d'équilibre implicite. La cible principale est la manipulation d'objets linéaires déformables (DLO, deformable linear objects) tels que câbles, fils ou tuyaux flexibles. Dans ces systèmes, le robot n'actionne qu'un sous-ensemble de degrés de liberté (DoF de frontière), tandis que les DoF libres restants convergent vers une configuration d'énergie potentielle minimale. La difficulté centrale réside dans la multi-stabilité : pour les mêmes conditions aux limites, un câble peut atteindre plusieurs formes d'équilibre distinctes selon la trajectoire d'actionnement suivie. Neural Control résout ce problème en calculant des gradients proxy à travers les conditions d'équilibre via une formulation adjointe, évitant ainsi le déroulage complet des itérations du solveur et réduisant drastiquement l'empreinte mémoire et calcul. Le schéma est intégré dans un MPC à horizon glissant (receding-horizon MPC) qui ré-ancre l'optimisation à chaque pas sur l'équilibre réellement atteint, limitant les basculements entre bassins d'attraction. Les résultats, évalués en simulation et sur robots physiques, surpassent les méthodes sans gradient comme SPSA (Simultaneous Perturbation Stochastic Approximation) et CEM (Cross-Entropy Method). L'enjeu industriel est direct : la manipulation de câblages et de harnais est l'un des goulots d'étranglement non résolus de l'automatisation en assemblage automobile, électronique et médical. Les approches par apprentissage par renforcement standard buttent sur l'espace d'état combinatoire des DLO, et le sim-to-real reste fragile faute de gradients exploitables. La formulation adjointe proposée ici ouvre une voie différentiable sans le coût mémoire prohibitif du backpropagation à travers les solveurs itératifs, ce qui est un apport méthodologique tangible. Il faut noter que les métriques de performance publiées n'incluent pas de temps de cycle ni de taux de succès quantifiés sur cas industriels réels, les expériences physiques semblant rester au stade de validation en laboratoire. Ce travail s'inscrit dans un mouvement plus large de simulation différentiable appliquée à la robotique, avec des contributions récentes de groupes comme MIT, Stanford et ETH Zurich. Sur le segment DLO, il concurrence des approches comme les politiques visuomotrices apprises par imitation et les modèles d'espace d'état pour objets déformables. Aucun partenaire industriel ni déploiement pilote n'est mentionné dans la prépublication, ce qui situe clairement ce travail au stade recherche fondamentale. Les prochaines étapes probables incluent une validation sur des tâches de câblage plus complexes et une intégration dans des pipelines de planification temps-réel.

RecherchePaper
1 source
Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque
1677arXiv cs.RO 

Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque

Des chercheurs ont publié début mai 2026, via un preprint arXiv (2605.02862), un planificateur de navigation robotique baptisé SRAH (Semantic Risk-Aware Heuristic), conçu pour intégrer des principes de raisonnement issus des grands modèles de langage (LLM) dans le cadre classique de recherche de chemin A. L'algorithme encode des fonctions de coût sémantiques qui pénalisent les zones géométriquement encombrées ou identifiées comme à risque élevé, et déclenche un replanification en boucle fermée dès qu'un obstacle dynamique est détecté. Les auteurs l'ont évalué sur 200 essais randomisés dans un environnement grille 15x15 cases, avec 20% de densité d'obstacles statiques et des obstacles dynamiques stochastiques. SRAH atteint un taux de succès de 62,0%, contre 56,5% pour BFS avec replanification (soit +9,7% d'amélioration relative) et 4,0% pour une heuristique Greedy sans replanification. Une étude d'ablation sur la densité d'obstacles confirme que le façonnage sémantique des coûts améliore la navigation sur des environnements de difficulté variable. Ce travail s'inscrit dans un courant de recherche qui cherche à exploiter la capacité des LLM à encoder du raisonnement contextuel sans les déployer en inférence temps réel, ce qui réduirait la latence et les coûts de calcul embarqués. L'idée centrale, injecter une représentation sémantique du risque dans la fonction heuristique d'A, est pertinente pour les développeurs d'AMR (robots mobiles autonomes) industriels confrontés à des environnements semi-structurés changeants. Cela dit, les résultats doivent être nuancés : un taux de succès de 62% dans une grille 15x15 reste modeste pour une tâche de navigation, et la comparaison avec un Greedy sans replanification est méthodologiquement inégale. La valeur démontrée reste celle de principe, pas de déploiement à l'échelle. La navigation en environnement dynamique est un problème central depuis les travaux fondateurs sur A (Hart, Nilsson, Raphael, 1968) et les variantes D et D*-Lite des années 1990-2000. L'émergence des LLM a relancé l'intérêt pour des heuristiques fondées sur la sémantique plutôt que sur la pure géométrie, une piste explorée par des équipes comme celles de Stanford (SayCan, 2022) ou de Google DeepMind avec RT-2. Sur le segment de la navigation mobile, des acteurs comme Boston Dynamics, MiR ou Exotec (France) intègrent déjà des couches de replanification dynamique dans leurs flottes d'AMR industriels. Ce preprint n'annonce pas de produit ni de déploiement : c'est une contribution algorithmique à valider sur des benchmarks plus réalistes (ROS 2, Gazebo, environnements 3D) avant tout transfert industriel.

UECe preprint pourrait à terme informer les développeurs d'AMR industriels européens sur les heuristiques sémantiques LLM, mais les résultats restent trop préliminaires et le benchmark trop limité (grille 15x15) pour un transfert industriel immédiat.

RecherchePaper
1 source
Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique
1678arXiv cs.RO 

Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique

Une équipe de chercheurs publie SocialLDG (Social Lexically-guided Dynamic Graph learning), un cadre d'apprentissage multi-tâches destiné à doter les robots d'intelligence sociale. Déposé sur arXiv (2604.10895v2), le travail vise un problème central de l'interaction humain-robot : inférer les états internes d'un utilisateur (émotions, intentions, états cognitifs non directement observables), prédire ses comportements futurs et y répondre de façon adaptée. Le cadre modélise six tâches distinctes représentant la relation dynamique entre états latents et actions observables, en intégrant un modèle de langage pour introduire des priors lexicaux par tâche, et un apprentissage par graphe dynamique pour suivre l'évolution temporelle des affinités entre tâches. Les auteurs rapportent des performances état de l'art sur deux jeux de données publics d'interaction sociale humain-robot, sans que le résumé disponible précise les benchmarks ni les marges de gain exactes. L'apport le plus concret pour les équipes de R&D en robotique sociale est la résistance au catastrophic forgetting : SocialLDG intègre de nouvelles tâches comportementales sans dégrader les capacités acquises, une propriété critique pour des déploiements réels où l'étendue des interactions croît progressivement. L'usage de priors linguistiques pour structurer le raisonnement sur graphe est également original : il permet d'exploiter la sémantique du langage naturel comme contrainte sur la modélisation sociale du robot, ouvrant la voie à une adaptation sans réentraînement complet. La lisibilité des affinités entre tâches offre en outre un levier d'interprétabilité utile pour le debug et la validation industrielle. La compréhension sociale en robotique est un chantier actif de longue date, avec des contributions notables de CMU, du MIT, et des travaux sur OpenFace ou EMOTIC. SocialLDG se distingue des approches actuelles qui traitent séparément reconnaissance d'émotion, détection d'intention et prédiction de geste, en proposant un cadre unifié inspiré des sciences cognitives. Les travaux récents sur les vision-language agents et les VLA adressent partiellement ce champ, mais restent centrés sur la manipulation physique plutôt que sur la dynamique socio-cognitive. En tant que prépublication non encore évaluée par les pairs, les performances annoncées restent à confirmer indépendamment avant toute intégration.

RecherchePaper
1 source
Faut-il vraiment réinitialiser immédiatement ? Repenser la gestion des collisions pour une navigation robotique efficace
1679arXiv cs.RO 

Faut-il vraiment réinitialiser immédiatement ? Repenser la gestion des collisions pour une navigation robotique efficace

Une équipe de chercheurs propose, dans un préprint déposé sur arXiv le 2 mai 2026 (référence 2605.02192), un nouveau cadre d'entraînement pour la navigation robotique par apprentissage par renforcement profond (DRL), baptisé Multi-Collision reset Budget (MCB). La convention actuelle dans la majorité des frameworks DRL est la suivante : toute collision déclenche immédiatement un reset global de l'épisode et est comptabilisée comme un échec total de la tâche. MCB rompt avec cette logique en découplant la terminaison locale sur collision du reset global de l'environnement, permettant à l'agent d'effectuer plusieurs tentatives au sein d'un même épisode sur une configuration d'obstacles difficile, jusqu'à épuisement d'un budget de collisions défini. Les expériences ont été conduites sur plusieurs plateformes robotiques simulées et réelles, et les auteurs rapportent des gains de taux de succès et d'efficacité de navigation supérieurs aux baselines à collision unique, avec un budget de collisions réduit produisant les meilleurs résultats. L'enjeu est directement lié à une limite connue du DRL appliqué à la navigation en environnements denses : en pénalisant durement chaque collision dès les premières étapes d'entraînement, les agents évitent les configurations complexes plutôt que de les apprendre, ce qui ralentit la convergence. MCB autorise une exploration plus agressive des zones difficiles sans pour autant sacrifier la sécurité en déploiement, où la politique apprise conserve un comportement zéro-collision. Cela adresse indirectement le "sim-to-real gap" en exposant l'agent à des scénarios d'entassement d'obstacles que les resets prématurés rendaient statistiquement rares durant la phase d'exploration précoce. L'approche n'est toutefois présentée que dans un contexte de résultats expérimentaux préliminaires, sans benchmark comparatif exhaustif sur des datasets standardisés. Cette publication s'inscrit dans un débat plus large sur la conception des fonctions de récompense et des conditions de terminaison en DRL pour la navigation mobile, un domaine où des travaux comme ceux de Berkeley (sur la navigation sociale) ou les approches curriculum learning d'OpenAI ont montré l'importance des dynamiques d'exploration en début d'entraînement. Côté robotique industrielle, les AMR (Autonomous Mobile Robots) de Exotec ou des intégrateurs logistiques européens utilisent majoritairement des planificateurs classiques, mais la pression vers des politiques apprises pour des environnements non-structurés rend ce type de recherche pertinent à moyen terme. La prochaine étape logique serait une validation sur des plateformes de référence (TurtleBot, Spot, ou robots humanoïdes à roues) et une comparaison directe avec des méthodes curriculum existantes.

UEImpact indirect à moyen terme : si l'approche MCB se confirme sur des benchmarks standardisés, des acteurs comme Exotec ou des intégrateurs AMR européens opérant en environnements non-structurés pourraient en tirer parti pour passer à des politiques de navigation apprises.

RecherchePaper
1 source
Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative
1680arXiv cs.RO 

Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative

Une équipe de chercheurs a déposé début mai 2026 sur arXiv (référence 2605.00412v1) un article de position proposant un nouveau cadre théorique pour les modèles du monde en IA incarnée : les Hamiltonian World Models. L'idée centrale est d'encoder les observations d'un robot ou d'un agent autonome dans un espace de phase latent structuré, de faire évoluer cet état via une dynamique inspirée du formalisme hamiltonien de la mécanique classique (avec des termes de contrôle, de dissipation et des résidus appris), puis de décoder la trajectoire prédite en observations futures exploitables pour la planification. Il s'agit d'un preprint théorique sans résultats expérimentaux publiés à ce stade. L'argument principal avancé est que le véritable goulot d'étranglement des modèles du monde n'est plus leur capacité à générer des futurs visuellement réalistes, mais à produire des prédictions physiquement cohérentes et exploitables pour la décision sur un horizon long. Les trois courants dominants actuels peinent chacun à garantir cette stabilité physique : les modèles vidéo génératifs 2D (à la Sora ou Genie), les modèles 3D centrés sur la reconstruction de scènes, et les modèles latents prédictifs de type JEPA (portés notamment par Yann LeCun chez Meta) progressent en silo sans répondre aux exigences du contrôle robotique réel. Pour les équipes de reinforcement learning basé sur modèles (MBRL) et les intégrateurs robotiques, cela se traduit concrètement par des politiques qui dérivent lors des rollouts simulés, fragilisant le transfert sim-to-real. Ancrer la dynamique latente dans le formalisme hamiltonien promettrait une meilleure interprétabilité des représentations internes, une moindre consommation de données d'entraînement et une stabilité accrue en inférence longue. Les auteurs reconnaissent eux-mêmes les obstacles pratiques majeurs : friction, contacts discontinus, forces non-conservatives et objets déformables rendent l'application directe du hamiltonien aux scènes robotiques réelles particulièrement complexe. Ce travail s'inscrit dans un renouveau plus large des world models, porté par Dreamer (Google DeepMind), JEPA (Meta), Genie 2 (Google DeepMind) et les travaux de Physical Intelligence sur les Visual-Language-Action models, mais il se distingue par un ancrage explicite en physique analytique plutôt qu'en apprentissage purement statistique. Aucun déploiement ni partenariat industriel n'est annoncé : l'article reste pour l'instant une contribution théorique ouvrant une direction de recherche.

RecherchePaper
1 source
SASI : exploiter la sémantique des sous-actions pour une reconnaissance précoce et robuste en interaction homme-robot
1681arXiv cs.RO 

SASI : exploiter la sémantique des sous-actions pour une reconnaissance précoce et robuste en interaction homme-robot

Des chercheurs présentent SASI (Sub-Action Semantics Integrated cross-modal fusion), un cadre de reconnaissance d'actions humaines publié en préprint sur arXiv (réf. 2604.27508). L'objectif est d'améliorer la reconnaissance précoce des gestes dans le contexte de l'interaction homme-robot (HRI) : identifier une action avant qu'elle soit complètement exécutée, à partir d'une séquence incomplète. SASI combine un réseau de convolution sur graphe (GCN) basé sur le squelette humain avec un modèle de segmentation de sous-actions, fusionnant des features spatiotemporelles et la sémantique des sous-actions via une fusion cross-modale. Le système fonctionne en temps réel à 29 Hz. Les évaluations sont conduites sur le dataset BABEL, un jeu de données squelettiques avec annotations au niveau de la frame, et montrent une amélioration de la précision de reconnaissance précoce par rapport aux approches conventionnelles. La capacité à reconnaître une action avant sa complétion est décisive pour les robots collaboratifs qui doivent anticiper et répondre de manière proactive. Les approches existantes traitent l'action comme un tout holiste et ignorent la structure hiérarchique inhérente aux mouvements humains : un "saisir un objet" se décompose en approche, préhension et retrait, avec des indices sémantiques distincts à chaque sous-étape. En exploitant ces sous-actions comme unités d'analyse, SASI permet au robot de prendre des décisions à partir d'observations partielles. Pour un intégrateur de robots industriels ou un opérateur d'AMR en entrepôt, cela se traduit concrètement par des systèmes capables d'adapter leur trajectoire avant qu'un opérateur humain ait terminé son geste, réduisant les temps d'attente et les risques de collision. La reconnaissance d'actions par squelette s'appuie depuis 2018 sur les GCN spatio-temporels (ST-GCN, puis CTR-GCN, MS-G3D), devenus le backbone standard du domaine. BABEL, le dataset utilisé ici, est construit sur AMASS, une collection motion-capture multi-sujets avec étiquetage sémantique fin. Il n'y a pas, à ce stade, d'entreprise ou de partenaire industriel mentionné : SASI est un travail académique en préprint, soumis de façon anonyme (dépôt de code temporaire sur anonymous.4open.science), ce qui en limite pour l'instant la reproductibilité indépendante. Les auteurs indiquent que des gains supplémentaires sont attendus avec l'amélioration de la segmentation des sous-actions, une dépendance critique non résolue pour un déploiement réel. Aucune timeline de productisation ni partenaire industriel ne sont mentionnés.

RecherchePaper
1 source
Liaisons de jambes robotiques extensibles et rétractables dynamiquement pour l'exécution de tâches multiples en recherche et sauvetage
1682arXiv cs.RO 

Liaisons de jambes robotiques extensibles et rétractables dynamiquement pour l'exécution de tâches multiples en recherche et sauvetage

Des chercheurs ont publié sur arXiv (identifiant 2511.10816, révision 3, avril 2026) les travaux autour d'un nouveau concept de jambe robotique à géométrie variable, baptisé DERRL (Dynamically Extensible and Retractable Robotic Leg Linkage). Le mécanisme repose sur un cinquième bras articulé (five-bar linkage) dont la géométrie peut être reconfigurée à la volée, basculant entre deux modes : une configuration "avantagée en hauteur" pour franchir rapidement des obstacles, et une configuration "avantagée en force" pour exercer des efforts élevés lors des phases d'extraction de victimes. Les expériences sur banc de test ont porté sur trois métriques principales : la longueur de foulée, l'amplitude de force en sortie, et la stabilité dynamique selon les différentes géométries de bras. Le point critique ici est que la robotique SAR (Search and Rescue) souffre d'un problème structurel non résolu : les robots à pattes excellent dans la traversée de terrain accidenté mais peinent à générer des forces d'extraction contrôlées, là où les transmissions à roues font l'inverse. Aucune plateforme existante ne réunit aujourd'hui ces deux capacités de façon satisfaisante. Ce travail propose une voie mécanique plutôt qu'algorithmique pour combler ce fossé, ce qui est notable : la transformation entre modes s'effectue par reconfiguration géométrique, sans changer l'actionneur. C'est un signal intéressant pour les intégrateurs industriels, car cela suggère une robustesse matérielle supérieure aux approches purement contrôle-logiciel. La recherche en robotique SAR connaît une dynamique soutenue depuis les années 2010, portée par des catastrophes comme Fukushima ou les séismes au Maroc et en Turquie. Des plateformes comme le Spot de Boston Dynamics ou l'ANYmal de ANYbotics (ETH Zürich) sont ponctuellement engagées dans ce contexte, mais sans capacité d'extraction lourde intégrée. Ce travail est purement académique à ce stade : aucun prototype complet, aucune démonstration en environnement réel, aucun partenaire industriel annoncé. La prochaine étape logique serait une intégration sur châssis quadrupède et un test en environnement dégradé simulé, avant toute validation opérationnelle.

RecherchePaper
1 source
Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables
1683arXiv cs.RO 

Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables

Des chercheurs ont publié sur arXiv (preprint 2511.19543v2) une approche visant à rendre les transferts d'objets entre humains et robots plus robustes face aux imprévus. Le coeur de la contribution est une couche d'interaction basée sur le Virtual Model Control (VMC), une technique de contrôle qui simule des ressorts et amortisseurs virtuels autour de l'effecteur pour absorber les variations dynamiques de pose de l'objet lors du passage de main. En complément, les auteurs intègrent la réalité augmentée (AR) pour établir une communication bidirectionnelle en temps réel entre l'opérateur humain et le robot, permettant à chaque partie d'anticiper l'intention de l'autre. Les performances du contrôleur ont été évaluées sur une série d'expériences couvrant différentes sources d'incertitude, puis validées par une étude utilisateur impliquant 16 participants testant plusieurs profils de contrôle et visualisations AR. La problématique du transfert d'objet humain-robot (H2R handover) est un verrou bien identifié en robotique collaborative : une légère désorientation de la pièce, un geste hésitant, et le robot échoue ou force l'objet, ce qui rend ce scénario incompatible avec un déploiement industriel fiable. L'approche VMC est intéressante parce qu'elle ne dépend pas d'une trajectoire rigide pré-planifiée mais s'adapte en continu, ce qui réduit la sensibilité au sim-to-real gap souvent fatal aux méthodes basées sur l'apprentissage. L'ajout de la boucle AR pour synchroniser les intentions est également prometteur pour les environnements d'assemblage où la communication verbale est difficile. L'étude utilisateur montre une préférence générale pour l'approche proposée, même si 16 participants reste un panel modeste pour généraliser les conclusions. Le problème H2R est un domaine actif depuis plusieurs années, avec des approches concurrentes allant du contrôle en impédance classique aux méthodes VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les travaux sur GR00T N2 de NVIDIA. Le VMC s'inscrit dans la tradition du contrôle à base de modèle, plus explicable mais moins généraliste que les approches end-to-end. L'article est à ce stade un preprint sans affiliation industrielle identifiée ni déploiement annoncé, ce qui le place clairement dans la catégorie recherche fondamentale. Les prochaines étapes probables incluent une soumission en conférence (ICRA ou IROS) et des tests sur une plus large cohorte ou sur un robot commercial tel qu'un UR ou Franka.

RecherchePaper
1 source
Génération de mouvement réactif par fonctions de potentiel neuronal à phase variable
1684arXiv cs.RO 

Génération de mouvement réactif par fonctions de potentiel neuronal à phase variable

Des chercheurs présentent PNPF (Phase-varying Neural Potential Functions), un nouveau cadre d'apprentissage par démonstration (LfD) pour la génération de mouvements robotiques réactifs, publié sur arXiv (2504.26450v1) fin avril 2026. L'approche conditionne une fonction potentielle neuronale sur une variable de phase estimée directement depuis la progression d'état du robot, et non depuis une entrée temporelle en boucle ouverte. Le système génère des champs de vecteurs locaux assurant un contrôle stable et réactif, y compris pour des trajectoires avec intersections, des tâches périodiques, et des mouvements complets en 6D (position et orientation). Des validations en manipulation robotique en temps réel sous perturbations externes sont rapportées, avec des performances supérieures aux méthodes de référence sur les trajectoires à intersections. L'enjeu central est la robustesse face aux perturbations dans des tâches non triviales. Les systèmes dynamiques du premier ordre échouent dès que la trajectoire se croise, car un même état de position peut correspondre à deux directions de mouvement différentes, comme lors du tracé d'un "8". Les approches du second ordre intègrent la vitesse pour lever cette ambiguïté, mais deviennent fragiles aux perturbations près des intersections, et peuvent échouer lorsque des paires position-vitesse quasi-identiques correspondent à des mouvements futurs distincts. Les méthodes à phase temporelle en boucle ouverte, elles, ne permettent pas de récupérer après une perturbation. PNPF contourne ce triple compromis : la variable de phase, inférée depuis la progression observée de l'état, donne au robot un ancrage dans la tâche sans dépendre d'une horloge externe, ce qui est critique pour des environnements industriels réels où vibrations, interventions humaines et aléas de convoyeur perturbent régulièrement les trajectoires planifiées. Les méthodes LfD basées sur des systèmes dynamiques ont émergé comme alternative légère aux planificateurs de trajectoire classiques, apprenant des politiques stables depuis quelques démonstrations seulement (SEDS, DMP, ProDMP). PNPF s'inscrit dans cette lignée tout en ciblant le maillon faible commun à ces approches : la gestion des revisites d'état. Les concurrents directs incluent les Dynamical Movement Primitives (DMP), les réseaux neuronaux à fonctions potentielles sans phase, et les récentes approches de contrôle par imitation basées sur des transformeurs. La publication est arxiv uniquement, sans code ni démo publique annoncée à ce stade. Les suites logiques seraient une validation sur bras industriel standard (Franka, UR, KUKA) et une intégration dans des pipelines d'apprentissage par imitation pour la manipulation fine, notamment pour des tâches d'assemblage où les trajectoires réelles ne sont jamais parfaitement répétables.

RecherchePaper
1 source
Optimisation bi-niveaux pour la planification du mouvement et des contacts dans les robots à jambes assistés par corde
1685arXiv cs.RO 

Optimisation bi-niveaux pour la planification du mouvement et des contacts dans les robots à jambes assistés par corde

Des chercheurs ont publié sur arXiv (2604.26910) un framework de planification pour robots à pattes assistés par câble, capables de grimper des surfaces verticales. Le système repose sur une optimisation bi-niveau qui résout un problème mixte entier-continu : au niveau supérieur, la méthode Cross-Entropy sélectionne les régions de terrain viables pour l'appui des membres ; au niveau inférieur, une optimisation non linéaire à gradient calcule les mouvements dynamiquement réalisables, en optimisant simultanément les tensions du câble, les forces exercées par les pattes, et la localisation précise des points de contact. L'approche est validée sur une plateforme expérimentale inédite baptisée ALPINE, testée sur plusieurs configurations de terrain difficiles. L'intérêt principal réside dans la décomposition du problème de planification de contact sur surfaces verticales, longtemps considéré comme computationnellement intractable pour les robots à pattes. Le schéma bi-niveau sépare la sélection discrète des zones d'appui de l'optimisation continue des forces et trajectoires, rendant le problème soluble en temps raisonnable. Pour les concepteurs de robots d'inspection d'infrastructure, de maintenance en hauteur ou de recherche en milieu confiné vertical, cette architecture offre un cadre de planification là où les AMR à roues sont inopérants. La robotique grimpante reste un domaine de niche en progression. Les approches antérieures reposaient principalement sur des ventouses, des griffes ou des systèmes d'escalade fortement contraints géométriquement. L'hybridation câble-pattes ouvre une voie potentiellement plus adaptable aux surfaces irrégulières. ETH Zurich via ANYbotics, le MIT et Boston Dynamics ont exploré la locomotion en terrain difficile, mais sans assistance câble active intégrée dans la boucle de planification. ALPINE constitue donc une contribution expérimentale distincte, même si le papier reste un preprint sans validation industrielle ni déploiement annoncé.

RecherchePaper
1 source
Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain
1686arXiv cs.RO 

Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain

Des chercheurs ont publié sur arXiv (référence 2604.26839) un cadre de navigation sociale en extérieur baptisé "Walk with Me", conçu pour assister des humains dans des environnements ouverts à partir d'instructions en langage naturel. Le système fonctionne sans carte préétablie (map-free) : il s'appuie uniquement sur le GPS et des points d'intérêt légers issus d'une API cartographique publique pour identifier les destinations sémantiques et proposer des waypoints. L'architecture est hiérarchique à deux niveaux : un modèle vision-langage (VLM) de haut niveau traduit les intentions abstraites en séquences de waypoints, tandis qu'un modèle vision-langage-action (VLA) de bas niveau exécute la navigation au sol en temps réel. Lorsque des situations complexes surgissent, comme des traversées bondées ou des zones à risque, le système bascule automatiquement vers le raisonnement de sécurité du VLM, pouvant imposer un comportement "stop-and-wait" explicite. L'apport principal est l'élimination de la dépendance aux cartes HD préconstruites, qui représentent un coût d'infrastructure significatif pour tout déploiement de robots d'assistance en milieu urbain ou semi-public. Les approches classiques basées sur l'apprentissage restent majoritairement confinées aux intérieurs et aux trajets courts ; "Walk with Me" vise explicitement à combler ce fossé pour des scénarios extérieurs à longue portée. Le mécanisme de routage adaptatif, qui distingue les segments routiniers délégués au VLA des situations complexes renvoyées au VLM, constitue une piste crédible pour économiser les ressources de calcul tout en maintenant la conformité sociale. À noter cependant : le papier ne publie pas de métriques quantifiées sur des scénarios réels, ce qui rend difficile l'évaluation du reality gap et de la robustesse hors laboratoire. Cette recherche s'inscrit dans une effervescence autour des VLA pour la navigation sociale, aux côtés de travaux comme NaviLLM ou les systèmes piétons de Boston Dynamics Research. La navigation extérieure à longue portée reste un verrou non résolu pour les robots humanoïdes commerciaux actuels, Figure AI (Figure 03), Agility Robotics (Digit), Sanctuary AI, qui opèrent encore majoritairement dans des environnements contrôlés et cartographiés. En Europe, Enchanted Tools et Wandercraft travaillent sur des assistants mobiles, mais dans des contextes d'intérieur structuré. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans cette publication arXiv, la classant fermement dans la catégorie recherche académique. Les prochaines étapes attendues incluent une validation sur des benchmarks standardisés de navigation sociale et des tests urbains documentés en conditions non contrôlées.

RechercheOpinion
1 source
Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal
1687arXiv cs.RO 

Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal

Une équipe de chercheurs propose, dans un preprint arXiv (2505.01380v2, version 2 publiée en mai 2025), un cadre de planification de trajectoires homotopiques pour essaims de robots naviguant dans des environnements à obstacles inconnus. La méthode repose sur un concept de "tube virtuel optimal" : un corridor topologique calculé de manière centralisée, dans lequel chaque robot se déplace de façon distribuée. En exploitant la programmation multiparamétrique pour approximer les trajectoires optimales par des fonctions affines, la complexité de calcul obtenue est en O(nt), où nt désigne le nombre de paramètres de trajectoire. Ce résultat permet une replanification haute fréquence sur des processeurs embarqués à ressources limitées. Les auteurs valident leur approche par simulations et expériences physiques, sans préciser les dimensions des essaims testés ni les conditions réelles de déploiement. Le verrou adressé est structurant pour la robotique en essaim : les planificateurs réactifs offrent une fréquence de replanification élevée mais convergent vers des minima locaux, tandis que les planificateurs multi-étapes réduisent les interblocages au prix d'un coût de calcul incompatible avec les plateformes embarquées. En combinant planification centralisée homotopique et contrôle distribué, le framework se positionne comme une solution hybride crédible. Si les résultats se confirment sur des essaims de plusieurs dizaines d'agents en environnement réel, les applications sont directes : exploration de zones dangereuses, logistique autonome en entrepôt, coordination de flottes d'AMR en espaces encombrés. Les intégrateurs industriels y trouveraient un algorithme de coordination à faible empreinte calculatoire. La planification d'essaims en milieu inconnu est un domaine actif depuis une décennie, avec des contributions majeures d'ETH Zurich, MIT CSAIL et CMU. Les approches par tubes homotopiques existent depuis les années 2010 dans la planification mono-robot ; leur extension aux essaims pose des problèmes de passage à l'échelle que ce travail tente de résoudre par approximation affine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : le stade actuel est celui d'une preuve de concept académique. Les étapes naturelles seraient la validation sur des essaims physiques de 20 à 50 robots et la mise à disposition du code, absente de la publication.

RecherchePaper
1 source
Caractérisation du couplage des couples tangage-roulis dans des robots à ailes battantes de taille insecte via un cardan microfabriqué
1688arXiv cs.RO 

Caractérisation du couplage des couples tangage-roulis dans des robots à ailes battantes de taille insecte via un cardan microfabriqué

Des chercheurs ont publié sur arXiv (réf. 2604.22121) une étude portant sur la caractérisation du couplage entre les couples de tangage (pitch) et de roulis (roll) dans les robots insectes à ailes battantes (FIR, Flapping-wing Insect Robots) sub-gramme. La plateforme testée pèse 180 mg et est actionnée par piézoélectriques, une architecture typique des systèmes volants à l'échelle milligramme, où la fréquence de battement d'aile est calée sur la résonance mécanique. L'outil central de l'étude est un cardan (gimbal) microfabriqué capable de mesurer simultanément le couple de roulis, le couple de tangage et la poussée, comblant ainsi un angle mort instrumental : aucun capteur biaxial ne disposait jusqu'ici d'une sensibilité suffisante pour opérer à cette échelle. Les résultats montrent un coefficient de détermination R² de 0,95 pour le tangage et 0,98 pour le roulis dans la régression linéaire, avec des coefficients de corrélation croisée de -0,001 et -0,085 respectivement, soit un couplage inter-axes négligeable. La poussée ne dévie que de 5,8 % maximum autour de sa valeur moyenne lors des commandes simultanées sur les deux axes. Ces mesures valident une hypothèse de conception qui était jusqu'alors posée sans vérification expérimentale directe : dans les systèmes FIR piézoélectriques, les axes de tangage et de roulis peuvent être traités comme indépendants dans les lois de commande. C'est une donnée structurante pour les équipes qui développent des contrôleurs, des simulateurs ou des modèles aérodynamiques pour ces plateformes : le sim-to-real et la synthèse de correcteurs peuvent s'appuyer sur des modèles découplés sans introduire d'erreur systématique significative. Pour l'écosystème micro-robotique, la contribution méthodologique est peut-être aussi importante que le résultat lui-même : disposer d'un banc de mesure microfabriqué standardisable ouvre la voie à une caractérisation systématique d'autres effets de couplage (yaw, variations d'envergure, asymétries d'aile) qui restent aujourd'hui peu documentés. Le champ des FIR sub-gramme est dominé depuis plus d'une décennie par le RoboBee de Harvard (environ 80 à 100 mg selon les versions), pionnier de l'actionnement piézoélectrique à résonance, et par le DelFly du TU Delft dans la gamme plus élevée (quelques grammes, ailes membraneuses). La modélisation de ces systèmes bute sur deux obstacles conjoints : la complexité mécanique des ailes flexibles et les effets aérodynamiques instationnaires qui rendent les outils classiques de la mécanique du vol inapplicables directement. Cette publication ne mentionne pas d'affiliation ou de financeur dans l'abstract disponible, ce qui limite le contexte institutionnel. Les suites naturelles annoncées sont l'intégration des mesures dans des modèles dynamiques raffinés et leur exploitation pour la conception de contrôleurs plus robustes, étapes préalables à tout déploiement autonome de robots insectes en milieu non contrôlé.

RecherchePaper
1 source
ZipFold : des actionneurs modulaires pour des robots adaptatifs à grande échelle
1689arXiv cs.RO 

ZipFold : des actionneurs modulaires pour des robots adaptatifs à grande échelle

Des chercheurs ont publié en avril 2026 un préprint arXiv (référence 2604.05260v2) présentant ZipFold, un actionneur modulaire capable de transformer simultanément sa taille et sa rigidité par plissage et verrouillage de bandelettes plastiques imprimées en 3D. Le principe repose sur l'enroulement de ces bandelettes flexibles en poutres à section carrée : en position compacte, la structure reste souple et peu encombrante ; en position déployée, elle atteint un état quasi-rigide. La transition est continue, réversible, et ne requiert ni mécanisme hydraulique ni pneumatique. Un prototype intégrant quatre de ces modules a été démontré sous la forme d'un robot marcheur adaptatif capable de modifier dynamiquement sa démarche en ajustant la rigidité de ses membres en temps réel. Le principal intérêt de ZipFold réside dans sa généricité : contrairement aux actionneurs à rigidité variable existants, généralement conçus sur-mesure pour un usage précis et difficilement réutilisables dans un autre contexte, cette brique modulaire peut être assemblée en configurations arbitraires. La fabrication par impression 3D de plastique flexible abaisse le seuil d'entrée pour les équipes de recherche et les petits intégrateurs, sans nécessiter de chaîne d'approvisionnement spécialisée. Pour des systèmes robotiques opérant dans des environnements changeants (logistique, inspection, rééducation), la capacité à modifier le comportement mécanique sans reconfiguration matérielle représente un avantage opérationnel concret. Il faut toutefois tempérer : le papier est un préprint académique sans benchmarks comparatifs publiés face aux alternatives existantes, et les performances annoncées (rigidité atteinte, charge utile, nombre de cycles) restent à valider sur des durées et des conditions représentatives. Le problème de la rigidité variable mobilise la communauté robotique depuis des décennies : les approches pneumatiques (jamming de particules, muscles McKibben), les alliages à mémoire de forme (SMA) et les câbles antagonistes dominent aujourd'hui, mais chacun achoppe sur des compromis entre vitesse de commutation, encombrement et complexité d'intégration. ZipFold se positionne sur le créneau de la modularité fabricatoire, un espace encore peu occupé par des solutions génériques et bas-coût. Le préprint ne mentionne ni partenaire industriel ni calendrier de transfert technologique ; les prochaines étapes attendues incluent des tests de charge, des essais en endurance cyclique, ainsi qu'une démonstration sur des morphologies plus complexes que le marcheur quadrimodulaire actuel.

RecherchePaper
1 source
SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses
1690arXiv cs.RO 

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

Des chercheurs présentent sur arXiv (réf. 2604.21693, avril 2026) un cadre théorique qui reformule le SLAM actif comme un problème de contrôle stochastique optimal sous information partielle. Le SLAM (Simultaneous Localization and Mapping) désigne la capacité d'un robot à construire une carte de son environnement tout en s'y localisant simultanément, un problème fondamental en robotique mobile. Dans sa version "active", le robot doit en plus décider quels mouvements effectuer pour maximiser la qualité de sa carte et la précision de sa pose. Les auteurs formalisent ce problème sous la forme d'un processus de décision markovien partiellement observable (POMDP) non standard, intégrant de façon rigoureuse les modèles de mouvement, de perception et de représentation de la carte. Ils introduisent une nouvelle fonction de coût d'exploration qui encode explicitement la géométrie de l'état du robot au moment d'évaluer les actions de collecte d'information. À partir de cette formulation, ils dérivent des solutions approchées quasi-optimales avec garanties formelles. Une étude numérique extensive valide l'approche en utilisant des algorithmes d'apprentissage par renforcement standards pour apprendre ces politiques. L'intérêt principal de ce travail réside dans la rigueur théorique qu'il apporte à un domaine dominé par des heuristiques empiriques. La plupart des approches d'exploration autonome actuelles, qu'elles reposent sur les frontières d'exploration (frontier-based), la maximisation d'information mutuelle, ou des métriques ad hoc, manquent de garanties formelles sur la qualité des solutions produites. En reformulant le problème dans le cadre du contrôle stochastique optimal et des POMDPs, les auteurs fournissent des conditions de régularité et des bornes d'approximation qui permettent de certifier la quasi-optimalité des politiques apprises. Pour les équipes R&D travaillant sur des AMR (robots mobiles autonomes), des drones cartographiques ou des robots d'inspection industrielle, cette approche ouvre la voie à des algorithmes d'exploration dont le comportement est formellement auditable, ce qui est non trivial dans les contextes de certification. Le SLAM est un problème étudié depuis les années 1990, avec des approches classiques basées sur les filtres de Kalman étendus (EKF-SLAM) ou les filtres particulaires (FastSLAM), puis des méthodes graphiques comme ORB-SLAM3 ou RTAB-Map qui dominent aujourd'hui les implémentations industrielles. Les approches neuronales, comme les NeRF et Gaussian Splatting adaptés au SLAM temps réel, émergent en parallèle. Ce papier, encore préprint non évalué par les pairs, ne remplace pas ces implémentations mais propose un cadre décisionnel qui les surplombe. Les laboratoires actifs sur ces questions incluent MIT CSAIL, ETH Zurich (Autonomous Systems Lab) et l'équipe de Joan Solà. Les prochaines étapes naturelles seraient une validation expérimentale sur robot réel et une extension vers les environnements dynamiques, deux points non traités dans cette version arXiv.

RecherchePaper
1 source
Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels
1691arXiv cs.RO 

Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels

Un préprint déposé le 24 avril 2026 sur arXiv (réf. 2604.21391) présente ResVLA, une nouvelle architecture de politique VLA (Vision-Language-Action) pour le contrôle robotique. Le problème ciblé est le décalage spatiotemporel entre compréhension sémantique de haut niveau et contrôle physique de bas niveau : les VLA actuels génèrent des actions directement "à partir du bruit" (paradigme Generation-from-Noise), produisant une inefficacité de représentation et un alignement faible avec les instructions. ResVLA bascule vers un paradigme "Refinement-from-Intent" : via une analyse spectrale, le mouvement robotique est décomposé en une composante déterministe basse fréquence (l'intention globale) et une composante stochastique haute fréquence (la dynamique locale). Un pont de diffusion résiduel affine ensuite uniquement cette dynamique locale, ancré sur l'intention prédite. Les résultats déclarés incluent une convergence plus rapide que les baselines génératives standards, une robustesse aux perturbations linguistiques et aux variations d'embodiment, et des performances validées en conditions réelles, bien que le papier ne précise pas les plateformes matérielles testées ni les métriques exactes de déploiement physique. Ce travail s'attaque à une limite structurelle des VLA génératifs : ignorer la hiérarchie naturelle du mouvement nuit à l'alignement entre instruction et action. La robustesse à l'embodiment est un point concret pour les intégrateurs travaillant sur des flottes robotiques hétérogènes, où réentraîner un modèle complet par plateforme représente un coût prohibitif. La validation partielle en conditions réelles renforce la crédibilité de l'approche, même si l'absence de métriques détaillées (taux de succès par tâche, temps de cycle, nombre de démos d'entraînement) invite à la prudence avant d'extrapoler les résultats de simulation vers des déploiements industriels. Ce préprint s'inscrit dans une dynamique de recherche intense autour des VLA généralistes. Pi-0 de Physical Intelligence, OpenVLA (UC Berkeley) et les travaux RT-2 de Google DeepMind constituent les références immédiates du domaine. L'approche par résidu spectral est conceptuellement distincte des architectures de diffusion uniformes, mais ResVLA reste une contribution académique sans code public ni produit annoncé. La prochaine étape sera de voir si l'approche se confirme sur des benchmarks partagés comme LIBERO ou BridgeData V2, et si elle influence des frameworks ouverts comme LeRobot de Hugging Face, qui fédère une partie importante de la communauté robotique open-source.

UEImpact indirect et spéculatif : si ResVLA est validé sur des benchmarks partagés, LeRobot (Hugging Face, France) pourrait intégrer cette approche résiduelle, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

RechercheOpinion
1 source
Cartographie sûre de champs scalaires par transformée de Hough et processus gaussiens
1692arXiv cs.RO 

Cartographie sûre de champs scalaires par transformée de Hough et processus gaussiens

Des chercheurs ont publié, le 29 avril 2026, un article présenté sur arXiv (référence 2604.20799) décrivant un système permettant à un robot autonome de cartographier des champs scalaires inconnus tout en évitant automatiquement les zones dangereuses. Le cadre proposé repose sur deux composants mathématiques combinés : les processus gaussiens (GP), qui modélisent la distribution spatiale du champ mesuré, et la transformée de Hough (HT), qui détecte en temps réel la géométrie des zones à haute intensité. Concrètement, un robot équipé de capteurs doit mesurer un champ physique, par exemple d'intensité lumineuse ou de radiation, sans jamais pénétrer dans les régions où la valeur dépasse un seuil de sécurité prédéfini. La validation repose sur deux études de simulation numérique et une expérience en intérieur impliquant un robot mobile à roues cartographiant un champ d'intensité lumineuse. L'enjeu concret est de permettre une exploration robuste et sécurisée dans des environnements potentiellement hostiles, tels que des zones de radiation, des champs électromagnétiques intenses ou des atmosphères chimiques, sans exposer le robot à des dommages irréversibles. L'approche bayésienne des processus gaussiens offre un double avantage : elle fournit non seulement une estimation de la valeur du champ en tout point, mais aussi une mesure d'incertitude associée, permettant au système de planifier ses déplacements avec des garanties probabilistes de sécurité. Cela dépasse les approches classiques qui traitent sécurité et cartographie comme deux problèmes séparés. Ce travail s'inscrit dans un champ de recherche actif sur la robotique d'exploration intelligente, où la demande croissante pour des robots capables d'opérer sans supervision humaine dans des environnements extrêmes, nucléaires, industriels ou de défense, pousse à intégrer des garanties formelles de sécurité directement dans la boucle de planification. La transformée de Hough, outil historiquement utilisé en vision par ordinateur pour détecter des formes géométriques, est ici réinterprétée comme un estimateur structurel de zones à risque à partir de données capteurs partielles. Les prochaines étapes naturelles de ce travail incluront des tests en environnements réels non contrôlés et l'extension à des champs vectoriels ou des robots multi-agents.

RecherchePaper
1 source
Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot
1693arXiv cs.RO 

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

Une équipe de chercheurs a publié sur arXiv (ref. 2404.19670) un framework baptisé RAPIDDS, conçu pour améliorer la collaboration entre humains et robots dans des environnements industriels répétitifs, typiquement les lignes de fabrication. Le système opère sur plusieurs cycles de travail successifs : à chaque cycle, il apprend les comportements spatiaux (trajectoires réelles empruntées par l'opérateur) et temporels (temps effectifs de réalisation de chaque tâche) propres à l'individu face à lui. Ces modèles personnalisés alimentent ensuite deux mécanismes couplés : un planificateur de tâches qui réorganise allocations et séquençages, et un modèle de diffusion qui steer les trajectoires du robot en temps réel pour éviter les zones de proximité critique. Les expériences ont été conduites en simulation, puis sur un bras robotique à 7 degrés de liberté (7-DOF) dans un scénario physique, et validées par une étude utilisateur portant sur 32 participants (n=32). Les résultats montrent une amélioration significative sur des indicateurs objectifs (efficacité, distance de proximité) et subjectifs (fluidité perçue, préférence utilisateur) par rapport à un système non adaptatif. L'apport central de RAPIDDS réside dans la jonction de deux niveaux d'adaptation longtemps traités séparément dans la littérature. Les méthodes de planification de tâches optimisaient l'allocation et le séquençage mais ignoraient les interférences spatiales en situation de proximité étroite ; les méthodes de niveau motion se concentraient sur l'évitement de collision sans tenir compte du contexte global de la tâche. Unifier les deux, en les calibrant sur un modèle individuel mis à jour cycle après cycle, représente un changement concret de posture pour les déploiements industriels : le robot ne s'adapte pas à un opérateur générique, mais à la personne précise qui travaille ce jour-là, avec ses rythmes et ses habitudes de déplacement. Ce travail s'inscrit dans un courant plus large d'utilisation des modèles de diffusion pour la génération de trajectoires robotiques, un terrain que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) exploitent côté manipulation généraliste. RAPIDDS se distingue par sa focalisation sur la couche adaptation humain-robot plutôt que sur la polyvalence du modèle de motion. Le papier reste pour l'instant un preprint arXiv non encore soumis à peer-review, et aucun déploiement industriel ni partenariat avec un intégrateur n'est mentionné. La prochaine étape naturelle serait une validation sur des opérateurs en conditions réelles de production, avec une diversité de profils moteurs, pour tester la robustesse de la personnalisation au-delà d'un environnement contrôlé.

RecherchePaper
1 source
Apprentissage de politique par phases pour la conduite de skateboard par des robots quadrupèdes via modulation linéaire par caractéristiques
1694arXiv cs.RO 

Apprentissage de politique par phases pour la conduite de skateboard par des robots quadrupèdes via modulation linéaire par caractéristiques

Des chercheurs ont publié sur arXiv (2602.09370v2) un cadre d'apprentissage par renforcement baptisé PAPL (Phase-Aware Policy Learning), conçu pour permettre à des robots quadrupèdes de se déplacer sur une planche de skateboard. Le défi central est la nature cyclique et multi-phasée de l'activité : pousser, glisser et freiner mobilisent des objectifs de contrôle distincts et des interactions fortement dépendantes de la perception. Pour y répondre, PAPL intègre des couches FiLM (Feature-wise Linear Modulation) conditionnées par phase dans les réseaux acteur et critique de l'agent, permettant à une politique unifiée de capturer les comportements propres à chaque phase tout en partageant la connaissance générale du robot entre elles. Les évaluations en simulation valident la précision du suivi de commande, des études d'ablation quantifient la contribution de chaque composant, et les auteurs comparent l'efficacité locomotrice à des baselines pattes seules et pattes-roues. Un transfert sim-to-real est également démontré sur plateforme physique, bien que l'abstract ne précise pas le modèle de robot utilisé ni les métriques de performance obtenues. L'intérêt principal de cette approche tient à sa capacité à gérer des comportements multi-modaux au sein d'une politique unique, sans multiplier les modules spécialisés par phase. Utiliser un skateboard comme vecteur de locomotion est économique en énergie et compact, ce qui ouvre des perspectives concrètes dans des environnements industriels ou logistiques où les robots doivent couvrir de longues distances sans recharger. La démonstration du transfert simulation-réel est l'élément le plus scruté par la communauté robotique : le sim-to-real gap reste l'obstacle central à la généralisation des politiques apprises par renforcement, et chaque validation hardware crédibilise un cadre. À noter toutefois que l'abstract ne fournit aucune métrique chiffrée précise (vitesse, taux de succès, distance), ce qui limite l'évaluation indépendante des performances avant lecture du papier complet. PAPL s'inscrit dans un courant de recherche plus large visant à doter les robots à pattes de modes de mobilité hybrides ou étendus. Les couches FiLM, initialement développées pour le raisonnement visuel conditionné en apprentissage automatique, trouvent ici une application originale dans le contrôle moteur cyclique. Sur le plan concurrentiel, les plateformes pattes-roues comme l'ANYmal WE d'ANYbotics ou les variantes hybrides de Unitree explorent une voie différente : l'intégration des roues y est mécanique, non comportementale. L'approche PAPL est donc structurellement distincte et potentiellement complémentaire à ces architectures. Ce travail reste à ce stade un preprint arXiv sans déploiement commercial annoncé ; les suites logiques seraient une validation sur plateforme standardisée et une soumission en conférence majeure comme ICRA ou IROS 2026.

RecherchePaper
1 source
HALO : locomotion hybride auto-encodée avec dynamiques latentes apprises, cartes de Poincaré et régions d'attraction
1695arXiv cs.RO 

HALO : locomotion hybride auto-encodée avec dynamiques latentes apprises, cartes de Poincaré et régions d'attraction

HALO (Hybrid Auto-encoded Locomotion with Learned Latent Dynamics) est un framework académique publié en avril 2026 sur arXiv (2604.18887) autour d'un problème central de la robotique bipedale : construire des modèles d'ordre réduit qui représentent fidèlement la dynamique hybride des robots à jambes tout en offrant des garanties formelles de stabilité. L'approche combine un autoencodeur neuronal, qui apprend une représentation latente basse dimension depuis des trajectoires de locomotion périodique, avec une carte de Poincaré apprise dans cet espace latent. Cette carte modélise la dynamique pas-à-pas du cycle de marche ou de saut et permet de construire des régions d'attraction (RoA) via une analyse de Lyapunov, projetables ensuite vers l'espace d'état complet via le décodeur. Les validations sont conduites en simulation sur un robot sauteur et un humanoïde corps entier. Ce travail tente de combler un fossé persistant entre deux familles de méthodes. Les modèles analytiques classiques comme le Linear Inverted Pendulum (LIP) ou le Spring-Loaded Inverted Pendulum (SLIP) offrent des garanties de stabilité rigoureuses, mais approximent mal la dynamique réelle d'un humanoïde haute dimensionnalité. Les méthodes data-driven récentes capturent mieux la physique du système, mais sans transfert formel des propriétés de stabilité au système complet. HALO propose une voie hybride : apprendre la structure de l'espace d'état depuis les données, puis y appliquer les outils classiques de l'automatique. Pour les développeurs de contrôleurs de locomotion, borner formellement des zones de stabilité sans modèle analytique exact constitue un apport potentiellement significatif. L'approche s'ancre dans une littérature établie sur les systèmes dynamiques hybrides à contacts discontinus, notamment les hybrid zero dynamics et les Control Barrier Functions (CBF) développés par Aaron Ames à Caltech. La carte de Poincaré, outil classique pour analyser les orbites périodiques, est ici apprise depuis les données plutôt que dérivée analytiquement. La limite principale reste l'absence totale de validation sur robot physique : les résultats sont exclusivement en simulation, et le gap sim-to-real n'est pas adressé. Les acteurs industriels comme Boston Dynamics, Agility Robotics ou Figure, qui déploient des humanoïdes en environnement réel, resteront prudents avant d'intégrer des RoA apprises sans expérimentation hardware. Les suites logiques impliqueraient des tests sur plateforme physique et une intégration dans des pipelines MPC ou des frameworks comme Drake.

RecherchePaper
1 source
Locomotion d'un robot serpent élastique par dynamique naturelle
1696arXiv cs.RO 

Locomotion d'un robot serpent élastique par dynamique naturelle

Des chercheurs ont publié le 24 avril 2026 sur arXiv (référence 2604.17895) une étude portant sur la locomotion d'un robot serpent élastique exploitant ses dynamiques naturelles pour améliorer l'efficacité énergétique de ses déplacements. L'approche repose sur la théorie des eigenmanifolds, un cadre mathématique permettant de caractériser les comportements dynamiques non linéaires de systèmes mécaniques complexes. Les auteurs ont conçu et testé deux familles d'allures (gaits) fondées sur ces dynamiques naturelles : l'une basée sur la commutation entre deux modes normaux non linéaires, l'autre sur des trajectoires périodiques dites "non-brake orbits". Les simulations dynamiques montrent que les gaits par non-brake orbits atteignent une efficacité parfaite dans le cas conservatif (sans frottement), et surpassent un robot rigide de référence dans un scénario réaliste avec frottement. La commutation entre modes normaux non linéaires, en revanche, n'apporte pas de gain d'efficacité significatif par rapport à la baseline. Ces résultats ont des implications concrètes pour la conception de robots locomoteurs à corps mou ou semi-élastique. L'idée d'exploiter la compliance mécanique plutôt que de la compenser par du contrôle actif est une hypothèse ancienne dans la robotique bio-inspirée, mais elle restait difficile à formaliser rigoureusement pour des systèmes non linéaires. Cette publication fournit un cadre analytique opérationnel : la théorie des eigenmanifolds permet d'identifier des trajectoires naturelles exploitables, réduisant le coût de transport sans augmenter la complexité du contrôleur. Pour les intégrateurs et concepteurs de systèmes d'inspection en espace confiné, tuyaux ou structures irrégulières, cela ouvre une voie vers des plateformes plus autonomes énergétiquement, réduisant la dépendance à des batteries lourdes ou à des liaisons filaires. Les robots serpents élastiques s'inscrivent dans une tradition de recherche en locomotion bio-inspirée qui remonte aux travaux des années 1990 sur les serpentins modulaires (CMU Biorobotics Lab, SINTEF en Norvège). La théorie des eigenmanifolds, issue de la mécanique analytique, a été appliquée récemment à des robots à pattes et des manipulateurs élastiques avant d'être étendue ici aux systèmes sériels à haute redondance cinématique. Côté concurrents, des groupes comme le Dynamic Robotics and Control Lab de l'ETH Zurich ou le groupe ANYbotics travaillent sur la compliance passive pour la locomotion, mais sur des architectures à pattes. Dans l'espace serpent/continuum, des acteurs comme Medrobotics (médical) ou des spin-offs académiques européens explorent des niches applicatives. L'étape suivante identifiée par les auteurs est la validation expérimentale sur prototype physique, absente de cette publication, ce qui maintient les résultats au stade de la preuve de concept simulée.

RecherchePaper
1 source
Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants
1697arXiv cs.RO 

Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants

Une équipe de chercheurs a publié sur arXiv (ref. 2504.16670) un cadre d'optimisation par diffusion pour résoudre le problème du temps minimum de déplacement sur un robot à double bras redondant. L'objectif est de minimiser le temps nécessaire pour qu'une configuration dual-arm suive un chemin cartésien relatif défini, tout en respectant les contraintes articulaires et l'erreur cartésienne. Les résultats annoncés sont significatifs : réduction de 35x du temps de calcul et diminution de 34 % de l'erreur cartésienne par rapport à la méthode précédente des mêmes auteurs, qui reposait sur une approche bi-niveaux avec résolution primal-dual. Ce gain de performance est important pour la robotique industrielle collaborative, où les bras doubles, typiquement utilisés en assemblage, en manipulation d'objets encombrants ou en chirurgie assistée, doivent exécuter des trajectoires précises dans des temps de cycle serrés. La méthode antérieure, basée sur le gradient, souffrait de deux limitations structurelles : une charge de calcul élevée rendant la planification en quasi-temps-réel difficile, et une incapacité à imposer directement une contrainte d'erreur cartésienne en norme infinie (L∞) le long de la trajectoire, en raison de la sparsité du gradient. Le passage à un échantillonnage probabiliste via un algorithme de diffusion permet de contourner ces deux problèmes simultanément, ce qui constitue une avancée méthodologique réelle, même si les benchmarks restent pour l'instant sur simulation. Le contexte est celui de l'essor des planificateurs de mouvement basés sur l'apprentissage et les méthodes probabilistes pour les robots à haute redondance cinématique. Les approches par diffusion, popularisées dans la génération d'images puis étendues à la robotique via des travaux comme pi0 (Physical Intelligence) ou des planificateurs de trajectoire neuronaux, gagnent du terrain face aux solveurs classiques (CHOMP, TrajOpt) sur des critères de vitesse et de généralisation. Ce travail s'inscrit dans cette tendance en restant ancré dans un cadre d'optimisation formelle (contrôle optimal), ce qui lui confère une interprétabilité que les approches purement end-to-end n'offrent pas encore. La prochaine étape naturelle serait une validation sur hardware physique avec contraintes temps-réel.

RecherchePaper
1 source
Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms
1698arXiv cs.RO 

Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms

Des chercheurs ont publié sur arXiv (arXiv:2504.16509) une architecture transformer entraînée par apprentissage par renforcement, spécifiquement l'algorithme PPO (Proximal Policy Optimization), pour élaguer dynamiquement les graphes de planification utilisés dans les algorithmes d'exploration robotique. Le système cible les graphes RRT (Rapidly Exploring Random Trees) employés dans l'exploration par frontières, une méthode classique où un robot identifie les limites entre zones cartographiées et inconnues pour piloter sa navigation. En simulation, le framework réduit la taille des graphes jusqu'à 96 % sans intervention humaine, en prenant des décisions de suppression de nœuds en temps réel pendant que le robot explore son environnement. L'intérêt opérationnel est direct : dans les systèmes d'exploration autonome longue durée, entrepôts, sites industriels, bâtiments en intervention d'urgence, les graphes de planification grossissent de façon non bornée et dégradent les performances au fil du temps, forçant soit des redémarrages, soit des architectures mémoire coûteuses. Ici, la politique apprise parvient à associer des décisions locales d'élagage à des résultats d'exploration globaux malgré un signal de récompense rare et retardé, ce qui constitue le résultat le plus difficile à obtenir en RL appliqué à la planification. En contrepartie, le taux d'exploration moyen est légèrement inférieur aux baselines non élagués, mais l'écart-type de couverture est le plus bas observé : le robot explore moins vite, mais de façon nettement plus prévisible d'un environnement à l'autre, un critère souvent plus pertinent en déploiement industriel que la vitesse brute. La sparsification de graphes dynamiques est un problème connu en SLAM et planification de mouvement, traditionnellement traité par des heuristiques géométriques ou des seuils fixes. Appliquer du RL à cette couche basse de la pile robotique est, selon les auteurs, une première. Le travail reste à ce stade une preuve de concept en simulation, sans validation sur hardware réel ni comparaison avec des systèmes commerciaux comme les AMR de MiR, Fetch Robotics ou Exotec. Les prochaines étapes naturelles seraient un transfert sim-to-real et une évaluation sur des graphes issus de LiDAR 3D, contexte dans lequel la croissance exponentielle des graphes est particulièrement problématique.

RecherchePaper
1 source
Greedy Kalman-Swarm : amélioration de l'estimation d'état dans les essaims de robots en environnements difficiles
1699arXiv cs.RO 

Greedy Kalman-Swarm : amélioration de l'estimation d'état dans les essaims de robots en environnements difficiles

Des chercheurs ont publié sur arXiv (référence 2604.16868) une méthode de filtrage de Kalman distribué baptisée "Greedy Kalman-Swarm", conçue pour améliorer l'estimation d'état dans les essaims de robots opérant en environnements dégradés. Le principe : chaque robot intègre, à chaque itération, l'ensemble des données de voisinage disponibles au moment précis du calcul, sans attendre une synchronisation globale. Contrairement aux approches classiques qui requièrent soit un nœud centralisateur, soit des protocoles de communication lourds pour atteindre un consensus collectif, cette méthode fonctionne de façon purement locale. Les simulations menées dans des environnements à connectivité contrainte montrent que le système reste fonctionnel même en cas de perte partielle de données entre agents, tout en maintenant une précision supérieure à celle d'un filtre de Kalman purement individuel. L'enjeu industriel est réel pour les déploiements multi-robots en milieu non structuré. La plupart des architectures d'essaim actuelles butent sur un compromis difficile : la précision collective nécessite soit une infrastructure de communication fiable et à large bande passante, soit une unité centrale de fusion de données, deux hypothèses rarement tenables sur le terrain. Le Greedy Kalman-Swarm démontre qu'une cohésion globale peut émerger de comportements locaux greedy, sans consensus explicitement imposé. C'est un résultat qui contredit l'intuition dominante selon laquelle la précision collective exige de la coordination synchrone, et qui ouvre la voie à des essaims véritablement autonomes dans des conditions adverses, sans dépendance à une infrastructure fixe. Le filtrage de Kalman est une brique fondamentale de l'estimation d'état en robotique depuis les années 1960, et son extension aux systèmes multi-agents fait l'objet de travaux actifs depuis au moins deux décennies. Les approches distribuées existantes, comme le Kalman consensus filter ou les variantes à diffusion de données, supposent généralement une topologie de communication stable ou des échanges périodiques complets. Greedy Kalman-Swarm se positionne comme une alternative légère, scalable et tolérante aux pannes. Les auteurs ciblent explicitement deux applications : la recherche et le sauvetage (search-and-rescue) en milieu sinistré, et l'exploration spatiale, deux domaines où la fiabilité des liaisons radio ne peut être garantie. Le code n'est pas encore publié et les résultats restent pour l'instant au stade de la simulation, ce qui appelle une validation sur matériel réel avant tout déploiement opérationnel.

RecherchePaper
1 source
Incertitude, flou et ambiguïté dans l'interaction humain-robot : pourquoi la conceptualisation est essentielle
1700arXiv cs.RO 

Incertitude, flou et ambiguïté dans l'interaction humain-robot : pourquoi la conceptualisation est essentielle

Une équipe de chercheurs a soumis fin avril 2026 sur arXiv (référence 2604.15339) un article proposant un cadre conceptuel unifié pour trois notions centrales de l'interaction humain-robot : l'incertitude, le flou et l'ambiguïté. Le constat de départ est empirique : dans la littérature HRI, ces trois termes sont régulièrement définis de manière contradictoire d'une étude à l'autre, voire utilisés comme synonymes. Les auteurs partent des définitions lexicographiques, analysent les distinctions et les relations entre ces concepts dans le contexte spécifique du HRI, illustrent chaque notion par des exemples concrets, puis démontrent comment ce socle cohérent permet de concevoir de nouvelles méthodes et d'évaluer les méthodologies existantes avec plus de rigueur. L'enjeu n'est pas seulement terminologique. Quand deux équipes utilisent le mot "ambiguïté" pour désigner des phénomènes différents, leurs résultats expérimentaux deviennent non comparables, et la capitalisation théorique du domaine ralentit. Pour un intégrateur ou un concepteur de systèmes robotiques interactifs, cette confusion a des conséquences pratiques : les métriques d'évaluation divergent, les benchmarks perdent leur valeur de référence, et le transfert de résultats de laboratoire vers des déploiements réels est fragilisé. En établissant des frontières claires entre ces trois concepts, le papier prépare le terrain pour des protocoles d'évaluation reproductibles et des méta-analyses plus robustes, deux prérequis pour une maturation industrielle du HRI. Ce travail s'inscrit dans un mouvement plus large de structuration académique du HRI, discipline jeune à l'intersection de la robotique, des sciences cognitives et de la linguistique. Le problème de l'incohérence terminologique y est identifié depuis plusieurs années, notamment dans des travaux sur la communication intentionnelle et la résolution de références entre humains et robots. Les auteurs ne proposent pas ici un nouveau système technique mais une infrastructure conceptuelle, ce qui est typiquement le type de contribution qui précède une normalisation de fait dans un domaine. Les prochaines étapes naturelles seraient l'adoption de ce cadre dans des conférences de référence comme HRI, RO-MAN ou HRI Workshop de l'IEEE, et son intégration dans des protocoles d'évaluation standardisés pour les assistants robotiques en environnement industriel ou de service.

RecherchePaper
1 source