Aller au contenu principal

Dossier arXiv cs.RO — page 29

1458 articles · page 29 sur 30

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances
1401arXiv cs.RO IA physiqueOpinion

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Des chercheurs ont publié le 6 juin 2026 sur arXiv (réf. 2606.06155) un nouveau framework baptisé AffordanceVLA, conçu pour améliorer la manipulation robotique pilotée par des modèles vision-langage-action (VLA). Le coeur du système repose sur l'introduction de l'affordance comme représentation intermédiaire structurée entre la compréhension sémantique et la génération de commandes motrices. Concrètement, trois modules complémentaires décomposent la tâche : Which2Act identifie l'objet pertinent via une prédiction dans l'espace latent visuel pour filtrer les distracteurs ; Where2Act localise en 2D le point d'interaction via une carte d'affordance estimée ; How2Act raisonne en 3D sur la géométrie de la scène pour guider la politique de manipulation. Ces modules sont intégrés dans une architecture Mixture-of-Transformer (MoT) avec des experts spécialisés, entraînée selon un curriculum progressif en trois étapes. Pour pallier le manque de labels d'affordance denses dans les jeux de données robotiques existants, les auteurs ont développé un pipeline automatisé d'augmentation de données. Les résultats sont validés sur bancs de simulation et en conditions réelles, sans que les métriques quantitatives précises soient encore publiées à ce stade de preprint. Le problème que cible AffordanceVLA est bien documenté dans la communauté VLA : les modèles vision-langage préentraînés encodent une sémantique riche mais abstraite, structurellement incompatible avec les espaces de contrôle moteur continu. Combler ce fossé directement, sans représentation intermédiaire, produit des politiques fragiles face aux variations de scène. L'approche par affordance offre une solution élégante car elle reste géométriquement ancrée tout en restant conditionnée sémantiquement, ce qui facilite la généralisation sim-to-real. Pour les intégrateurs qui déploient des bras manipulateurs en environnement non structuré, ce type de robustesse perceptuelle est un critère clé souvent sacrifié dans les démos labo. Le paysage des VLA pour la manipulation est désormais très concurrentiel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA issu de Stanford et Berkeley, ou encore RT-2 de Google DeepMind incarnent différentes approches du même défi. AffordanceVLA se distingue en positionnant explicitement l'affordance comme pont structurel, une direction également explorée par des travaux comme RoboAfford ou UniPI. Ce preprint reste une contribution de recherche, pas un produit commercialisé ; aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seront une évaluation sur benchmarks standardisés comme LIBERO ou RLBench, et une confrontation aux modèles de référence avec métriques comparatives publiées.

1 source
CLAW : un cadre vision-langage-action (VLA) pour la préhension robotique adaptée au poids
1402arXiv cs.RO 

CLAW : un cadre vision-langage-action (VLA) pour la préhension robotique adaptée au poids

Des chercheurs ont publié sur arXiv (arXiv:2509.14143) un framework baptisé CLAW (CLIP-Language-Action for Weight), conçu pour permettre à un robot de saisir des objets en respectant des seuils de poids définis en langage naturel. L'architecture repose sur deux composants distincts : un modèle CLIP affiné qui joue le rôle de générateur de directives symboliques en lisant en continu l'affichage numérique d'une balance, et le modèle VLA π₀ (Pi-zéro), une politique à base de flux développée par Physical Intelligence, qui intègre ces directives avec des observations caméras multi-vues pour produire des commandes motrices continues. Le système a été validé sur trois configurations expérimentales couvrant la saisie d'objets uniques et des tâches mixtes nécessitant une manipulation bi-bras. Dans toutes les conditions, CLAW surpasse à la fois π₀ brut et π₀ affiné sans le module de surveillance, sans que les auteurs ne précisent les marges de performance ni les volumes de données d'entraînement utilisés. L'enjeu central que CLAW cherche à résoudre est une limitation structurelle des VLA actuels : entraînés de façon bout-en-bout, ces modèles peinent à respecter des contraintes numériques précises comme "arrête-toi quand le poids dépasse 500 grammes", car leur mapping observation-action est implicitement façonné par les données d'entraînement et ne dispose d'aucun mécanisme explicite de surveillance de conditions. En découplant l'évaluation de condition (symbolique, légère) de la génération d'action (continue, haute fréquence), CLAW ouvre une voie pour intégrer une logique de contrôle de procédé dans des pipelines VLA, ce qui est directement pertinent pour des applications industrielles comme le tri pondéral, le conditionnement, ou l'assemblage qualifié par masse. C'est une réponse concrète au "demo-to-reality gap" : les vidéos de démos de manipulation VLA sont souvent réalisées dans des conditions contrôlées sans contraintes mesurables ; CLAW introduit un critère d'arrêt objectif et vérifiable. π₀ est le modèle phare de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine et d'anciens chercheurs de Google Brain et DeepMind, qui a levé 400 millions de dollars en 2024. Le choix de π₀ comme base n'est pas anodin : c'est l'un des rares modèles VLA publiquement documentés capables de manipulation dextre généraliste. CLAW s'inscrit dans une tendance plus large de travaux qui cherchent à hybrider des couches symboliques légères avec des politiques neuronales denses, à l'image des travaux de Physical Intelligence sur le grounding multi-modal ou des approches modulaires comme OpenVLA. Aucun déploiement industriel n'est annoncé ; le travail reste au stade de la preuve de concept académique avec des setups de laboratoire, et une vidéo de démonstration est disponible sur YouTube. Les prochaines étapes naturelles seraient une évaluation sur des capteurs variés (au-delà de la balance numérique) et une généralisation à d'autres contraintes métriques comme la force ou la température.

RechercheOpinion
1 source
Modélisation d'actions généralement covariante : construction de variétés généralisées par découplage spatio-temporel
1403arXiv cs.RO 

Modélisation d'actions généralement covariante : construction de variétés généralisées par découplage spatio-temporel

Un préprint soumis sur arXiv le 2 juin 2026 (identifiant 2606.00110) introduit le cadre GAM (Generalized Action Manifold), une approche architecturale pour améliorer la généralisation des politiques robotiques en intelligence incarnée. Le problème ciblé est précis : les méthodes actuelles de Vision-Language-Action (VLA) entraînent les robots à régresser des coordonnées absolues, liant la politique à un style de mouvement et une vitesse d'exécution fixes. GAM résout cela via deux mécanismes orthogonaux. Le premier, l'Arc-Length Parameterizer, sépare la géométrie spatiale d'une trajectoire de sa dynamique temporelle, rendant la politique insensible aux variations de vitesse. Le second, le Schema-Affine-Factorization, projette les trajectoires dans un repère normalisé (pose-normalized coordinate frame), distinguant les schémas géométriques invariants des modulations affines locales. Intégré dans une architecture VLA structurée, GAM permet à un faible nombre de démonstrations de peupler densément un manifold d'actions continu et valide. Les auteurs rapportent des performances supérieures aux baselines geometry-agnostic sur des benchmarks empiriques, sans préciser les robots ou plateformes testés. L'enjeu industriel est direct : la généralisation depuis un nombre limité de démonstrations reste l'un des verrous les plus coûteux du déploiement robotique. Dans les usines où les intégrateurs doivent collecter des milliers de trajectoires par variante de tâche, réduire ce volume a un impact économique concret. Le principe de covariance générale, emprunté à la physique relativiste, stipule qu'une loi ne doit pas dépendre du système de coordonnées choisi. Appliqué à la robotique, cela signifie apprendre la structure géométrique intrinsèque d'une tâche plutôt que les habitudes motrices d'un démonstrateur humain. Si validée à l'échelle, cette approche s'attaquerait directement au demo-to-reality gap et au sim-to-real transfer, deux obstacles persistants pour des systèmes VLA commerciaux comme Pi-0 de Physical Intelligence ou OpenVLA. La recherche VLA s'est accélérée depuis 2024 avec Pi-0, RDT-1B, Octo, et les travaux de NVIDIA sur GR00T N2. GAM se positionne comme une couche d'invariance structurelle compatible avec ces architectures existantes plutôt que comme un modèle concurrent. Ce papier reste à ce stade un preprint non relu par des pairs, sans validation sur des robots physiques identifiés ni données de déploiement réel. Aucun auteur, institution ou partenaire industriel n'est mentionné dans l'abstract disponible, ce qui limite l'évaluation de la crédibilité et de la roadmap concrète. La prochaine étape naturelle serait une soumission à CoRL, ICRA ou RSS avec des expériences sur manipulateurs physiques dans des environnements semi-structurés.

RechercheOpinion
1 source
Hypothèses futures guidées par LLM pour une exploration à horizon temporel en manipulation robotique multi-étapes
1404arXiv cs.RO 

Hypothèses futures guidées par LLM pour une exploration à horizon temporel en manipulation robotique multi-étapes

Une équipe de recherche a publié fin mai 2026 un article (arXiv:2605.29864) présentant Future-Experience Conditioning (FEC), une méthode destinée à améliorer la manipulation robotique multi-étapes en conditionnant les politiques de contrôle sur de courtes vidéos futures générées synthétiquement. Le pipeline fonctionne en trois étapes : un raisonneur LLM opérant sur une ontologie de tâche initialisée depuis l'état courant de la scène, un jumeau numérique sans robot qui simule le mouvement attendu des objets, puis un modèle de diffusion vidéo sans masque qui synthétise un clip futur cohérent avec la configuration robotique, sans nécessiter de segmentation à l'inférence. Les expériences sont conduites sur deux benchmarks de simulation standards, RoboCasa et CALVIN, en comparant quatre conditions : absence de futur (NoFuture), futur de référence (GTFuture), futur généré (GenFuture) et futur incorrect (WrongFuture), avec trois familles de politiques testées, BC pur, BC+RL, et une Streaming Flow Policy (SFP). Les résultats indiquent que les futurs générés améliorent systématiquement les performances par rapport à l'absence de signal futur, tandis que des futurs incorrects dégradent l'apprentissage jusqu'à bloquer la progression à zéro sur l'ensemble de la courbe d'apprentissage. L'instantiation BC+RL obtient les meilleurs résultats globaux, et l'analyse sur 8 tâches CALVIN montre que GenFuture permet une convergence plus rapide et à un niveau supérieur à NoFuture. Ces résultats tendent à valider l'hypothèse que des vidéos futures imparfaites, mais structurellement cohérentes avec la tâche, constituent des priors utiles pour l'exploration en renforcement, même sans vérité terrain. C'est un résultat non trivial : la qualité du prior conditionne directement la qualité de l'exploration, ce qui renforce l'intérêt des modèles génératifs comme guides de politique plutôt que comme simples augmentations de données. FEC s'inscrit dans un courant actif qui cherche à exploiter les Video Language Models (VLMs) et les modèles de diffusion vidéo comme substituts aux simulateurs physiques pour la planification à horizon court. Des approches concurrentes comme UniSim, SuSIE ou les travaux de Dreamer en model-based RL avaient déjà exploré le conditioning sur des futurs imaginés, mais FEC se distingue par son pipeline modulaire évitant la segmentation à l'inférence, un obstacle pratique souvent sous-estimé en déploiement réel. Le projet dispose d'un site dédié (enact2026.github.io) et reste pour l'instant cantonné à la simulation, sans résultats sim-to-real publiés.

RechercheOpinion
1 source
Apprentissage de règles symboliques compositionnelles à partir de démonstrations par programmation logique inductive
1405arXiv cs.RO 

Apprentissage de règles symboliques compositionnelles à partir de démonstrations par programmation logique inductive

Des chercheurs ont déposé sur arXiv (réf. 2605.26828) une méthode combinant apprentissage par démonstration (LfD) et programmation logique inductive (ILP) pour extraire des règles symboliques à partir d'exemples fournis par un opérateur humain. Plutôt que de reproduire les gestes observés, le système décompose une tâche complexe en une hiérarchie d'objectifs d'apprentissage à plusieurs niveaux d'abstraction ontologique : les règles inférées au bas de la hiérarchie sont réutilisées comme briques pour construire des structures de tâches plus élaborées, selon un principe de raisonnement compositionnel. Les expériences ont été conduites dans un scénario synthétique d'assemblage de blocs, et montrent une généralisation aux configurations inédites, y compris avec des objets absents de la phase d'entraînement. À mesure que les robots industriels gagnent en autonomie, la lisibilité et la réutilisabilité de leurs représentations internes de tâches deviennent des enjeux critiques pour les intégrateurs et les équipes de validation. L'ILP produit des règles symboliques explicites et modifiables par un ingénieur, à l'opposé des approches neuronales d'imitation telles que le behavior cloning ou les VLA (vision-language-action models), dont les décisions restent opaques et difficiles à auditer. La capacité du système à généraliser à des tâches plus difficiles avec des objets jamais vus est un résultat encourageant, que les auteurs qualifient eux-mêmes de "preuve préliminaire" : l'évaluation se limite à un environnement entièrement simulé, sans validation sur robot physique ni mesure du sim-to-real gap. L'apprentissage par démonstration est un paradigme fondateur de la robotique programmable, mais les méthodes récentes basées sur le deep learning sacrifient souvent l'interprétabilité à la performance brute. L'ILP, issu de l'IA symbolique des années 1990, connaît un regain d'intérêt dans le mouvement plus large du raisonnement neurosymbolique, qui cherche à allier la flexibilité du machine learning et la rigueur du raisonnement logique. Ce travail s'inscrit dans ce courant sans prétendre à un déploiement industriel immédiat : les étapes suivantes attendues sont la validation sur hardware réel et des scénarios de manipulation plus diversifiés, seuls capables de mesurer la robustesse effective de l'approche hors simulation.

RecherchePaper
1 source
Fermer la boucle en téléopération : évaluation et retour qualité par épisode pour des démonstrations fiables
1406arXiv cs.RO 

Fermer la boucle en téléopération : évaluation et retour qualité par épisode pour des démonstrations fiables

Des chercheurs ont publié sur arXiv (2605.26349) un framework baptisé DQAF (Data Quality Assessment and Feedback) destiné à améliorer la qualité des données de téleopération pour l'entraînement de robots. Le système évalue automatiquement chaque épisode de démonstration en extrayant des signaux quantifiables : progression des sous-tâches, fluidité du mouvement, temps d'arrêt (stalls), et proximité des limites articulaires (kinematic limits). Ces métriques sont ensuite converties en une évaluation structurée accompagnée de retours en langage naturel, transmis à l'opérateur immédiatement après chaque tentative. Une étude de validation a comparé les rejets produits par le système avec ceux d'un réviseur humain lors du curation de dataset. Une étude pilote a impliqué trois opérateurs novices sur deux tâches de manipulation, et les résultats montrent que l'opérateur ayant reçu les retours automatisés a progressé plus rapidement, produisant des démonstrations de meilleure qualité en moins d'itérations que les deux autres. L'enjeu dépasse la simple UX de collecte de données. La transition vers la Physical AI, c'est-à-dire des systèmes robotiques adaptatifs entraînés sur de grandes quantités de démonstrations réelles, crée une demande massive en données de téleopération de haute qualité. Le problème identifié est structurel : un épisode peut être "task-successful" (la tâche est accomplie) mais inutilisable pour entraîner un modèle si les trajectoires sont hésitantes, redondantes, ou proches des butées mécaniques. Le DQAF introduit une distinction importante entre succès binaire et qualité exploitable, ce qui change le paradigme de collecte. Pour des intégrateurs ou des équipes MLops qui construisent des datasets de manipulation à grande échelle, un tel filtre automatisé en boucle fermée peut réduire significativement le coût humain de curation post-hoc, tout en accélérant la montée en compétence des opérateurs. Ce travail s'inscrit dans un contexte d'industrialisation accélérée de la collecte de données pour les VLA (Vision-Language-Action models) et les politiques d'imitation. Des acteurs comme Physical Intelligence (pi0), Figure AI, ou les équipes robotique de Google DeepMind ont tous mis en avant le volume et la qualité des démonstrations humaines comme variable critique de performance. Des frameworks concurrents comme ALOHA ou RoboVQA abordent la qualité du côté des architectures ou des interfaces, mais peu ferment la boucle au niveau de l'opérateur en temps quasi-réel. L'étude pilote reste modeste (3 opérateurs, 2 tâches), et les auteurs ne publient pas encore de dataset ni de code ouvert. Les prochaines étapes naturelles seraient une validation à plus grande échelle et une intégration dans des pipelines de collecte industriels, où la réduction du taux de rejet des épisodes a un impact direct sur le coût de production des datasets.

RechercheOpinion
1 source
Apprentissage, locomotion et navigation de serpents synthétiques souples en environnements tridimensionnels hétérogènes
1407arXiv cs.RO 

Apprentissage, locomotion et navigation de serpents synthétiques souples en environnements tridimensionnels hétérogènes

Des chercheurs ont soumis fin mai 2026 sur arXiv (réf. 2605.24985) un framework computationnel permettant à des serpents robotiques souples de naviguer de façon autonome dans des environnements 3D non structurés et hétérogènes. L'approche repose sur des modèles d'actionnement et de détection bio-inspirés, conçus explicitement pour réduire la complexité de contrôle propre aux structures continues à très haut nombre de degrés de liberté (continuum bodies), dont la cinématique est notablement plus difficile à piloter que celle des robots articulés classiques. Un algorithme d'apprentissage par renforcement (RL) dérive ensuite des politiques de déplacement en deux phases : entraînement sur des terrains homogènes simplifiés pour acquérir des primitives locomotrices de base, puis composition de ces primitives en stratégies adaptatives face à des topographies complexes. La validation s'effectue en simulation haute fidélité dans des environnements 3D reconstruits à partir d'images du monde réel, avec navigation décrite comme fiable -- un point que les auteurs présentent comme preuve de robustesse sim-to-real, bien qu'aucune expérimentation sur robot physique ne soit rapportée dans cet abstract. L'intérêt de ce travail pour les intégrateurs et chercheurs en robotique tient à deux défis distincts qu'il adresse simultanément : la locomotion sans membres (limbless locomotion) dans des terrains non préparés, et le passage à l'échelle d'un contrôle RL sur des corps déformables à haute dimensionnalité. La majorité des approches existantes pour les robots continuums repose sur des contrôleurs analytiques très spécifiques au substrat ou sur des espaces d'états réduits qui limitent la généralisation. Ici, la composition hiérarchique de primitives locomotrices -- apprendre d'abord le mouvement de base, puis l'adapter -- constitue une architecture potentiellement transférable à d'autres morphologies de robots souples. C'est un signal positif pour le champ "sim-to-real" des robots déformables, où le gap simulation-réalité reste l'obstacle principal à la commercialisation. Les serpents robotiques sont étudiés depuis les années 1990, avec des travaux fondateurs de Shigeo Hirose (Tokyo Tech) et, plus récemment, des systèmes comme le ACM-R5 de HiBot ou les robots de Medsnake Labs pour l'inspection de pipelines. Le défi locomoteur sans membres reste néanmoins ouvert : les animaux limbless naturels -- serpents, anguilles, limaces -- affichent une polyvalence sur terrain que l'ingénierie peine à reproduire, notamment sur substrats granulaires, végétaux ou accidentés. Dans l'espace concurrent, des équipes comme celle de Daniel Goldman (Georgia Tech) travaillent sur la physique des locomotions terragènes non conventionnelles, tandis que plusieurs startups de robotique d'inspection (tuyauterie, espaces confinés) cherchent des alternatives aux roues et chenilles. Ce preprint ne mentionne ni partenaires industriels ni timeline de déploiement ; les suites naturelles seront la validation sur hardware physique et le test sur terrains réels non reconstruits.

RecherchePaper
1 source
Comment atténuer le problème de décalage de distribution dans le contrôle robotique : une approche robuste et adaptative par apprentissage par imitation hors ligne vers en ligne
1408arXiv cs.RO 

Comment atténuer le problème de décalage de distribution dans le contrôle robotique : une approche robuste et adaptative par apprentissage par imitation hors ligne vers en ligne

Une équipe de recherche a déposé le 25 mai 2026 sur arXiv (réf. 2605.25414) un cadre d'apprentissage par imitation en deux phases pour traiter le décalage de distribution dans le contrôle robotique. Ce problème survient lorsqu'un agent entraîné sur des démonstrations expertes rencontre, au déploiement, des états non couverts pendant l'entraînement, sa couverture état-action étant structurellement limitée par la portée des démonstrations fournies. La méthode articule une phase hors ligne utilisant des démonstrations complémentaires filtrées par un discriminateur pour élargir cette couverture, et une phase en ligne qui détecte le décalage en temps réel et déclenche un apprentissage auto-supervisé à partir des expériences collectées. Les évaluations ont été conduites uniquement dans des environnements MuJoCo ; aucun test sur robot physique n'est rapporté. L'intérêt réside dans la nature lifelong du mécanisme : au lieu d'une politique figée après entraînement, le système s'adapte en continu lorsqu'il dérive hors de sa distribution. Pour un ingénieur robotique ou un intégrateur industriel, cela ouvre la perspective d'un robot capable de se recalibrer automatiquement en production sans re-collecte manuelle de données ni réentraînement complet. L'utilisation d'un discriminateur évoque les architectures GAIL (Generative Adversarial Imitation Learning), mais la contribution revendiquée tient à la détection en ligne du shift couplée à l'auto-supervision. Les auteurs rapportent de meilleures performances que les baselines sur robustesse et adaptation, bien que les métriques issues de MuJoCo restent éloignées des contraintes du monde réel. Le décalage de distribution est un problème structurel de l'apprentissage par imitation depuis DAgger (Ross et al., 2011) et GAIL (Ho & Ermon, 2016). Les approches concurrentes, comme l'offline RL à haute couverture de données, les politiques de diffusion de type pi-0 (Physical Intelligence) ou les VLA généralistes, traitent le problème principalement par la diversité des données d'entraînement, non par adaptation en ligne. Ce preprint n'a pas encore été soumis à évaluation par les pairs, et le vrai test restera le transfert sim-to-real : la validation sur robots physiques amplifierait précisément les écarts de distribution que ce cadre cherche à combler.

RecherchePaper
1 source
Convex-Neural RRT* : échantillonnage guidé par apprentissage pour une planification de trajectoire robotique rapide et fiable
1409arXiv cs.RO 

Convex-Neural RRT* : échantillonnage guidé par apprentissage pour une planification de trajectoire robotique rapide et fiable

Une équipe de recherche a publié en mai 2026 sur arXiv (réf. 2605.25006) les travaux sur Convex-Neural RRT, une variante de l'algorithme de planification de chemin RRT intégrant un guidage neuronal pour accélérer la recherche de trajectoires optimales. Le principe : un réseau de neurones prédit des régions "waypoints" prometteuses autour des chemins de haute qualité, puis des zones convexes sont extraites de ces prédictions pour concentrer l'exploration sur les zones géométriquement pertinentes tout en maintenant une couverture globale de l'espace. Évalué sur 18 cartes de benchmark réparties en 3 types d'environnements, l'algorithme réduit le temps de calcul de 30 à 75 % par rapport aux variantes neurales existantes (Neural RRT, Neural Informed RRT), et de 88 à 98 % par rapport à LTA. La longueur des chemins produits diminue en moyenne de 5 % par rapport au RRT classique, avec des gains plus marqués dans les environnements complexes. Le taux de succès reste supérieur à 99 % quelle que soit la densité d'obstacles. Ces résultats s'attaquent à un goulot d'étranglement bien documenté du planning probabiliste : les méthodes à base d'échantillonnage sont théoriquement complètes mais lentes à converger vers des solutions de qualité, ce qui freine leur déploiement embarqué où le temps de réponse est critique (robots mobiles, bras industriels, véhicules autonomes). L'utilisation de zones convexes comme proxy des prédictions neuronales est une décision d'ingénierie notable : elle préserve les garanties de convergence de RRT* tout en rendant l'heuristique géométriquement tractable, évitant les dérives habituelles des méthodes purement apprises qui échouent hors distribution. À noter que les gains de 5 % en longueur de chemin restent modestes et que les benchmarks sont réalisés en simulation ; aucune validation sur robot physique n'est rapportée. RRT (Rapidly-exploring Random Tree Star), introduit par Karaman et Frazzoli en 2011, est devenu un standard en planification de mouvement robotique. Ses variantes neurales récentes ont cherché à apprendre des heuristiques d'échantillonnage depuis des données de trajectoires, mais au prix d'une surcharge computationnelle qui annulait souvent le bénéfice. Convex-Neural RRT s'inscrit dans cette lignée en ajoutant une contrainte géométrique qui assainit les prédictions. Les concurrents directs incluent LTA, IRRT et les approches par diffusion (Motion Planning Diffusion). Cette publication préliminaire ne mentionne aucun déploiement industriel ; les prochaines étapes attendues sont une validation sur robots physiques et une extension aux espaces de configuration de haute dimension, notamment les bras 6-7 DOF et les humanoïdes.

RecherchePaper
1 source
MuGen : un contrôleur de locomotion multi-compétences pour robots humanoïdes
1410arXiv cs.RO 

MuGen : un contrôleur de locomotion multi-compétences pour robots humanoïdes

Des chercheurs ont publié le 26 mai 2026 sur arXiv un article présentant MuGen (Multi-Skill Generative Locomotion Controller), un framework d'apprentissage automatique visant à doter les robots humanoïdes d'une locomotion polyvalente et expressive. Le système repose sur des auto-encodeurs à quantification vectorielle (VQ-VAEs) entraînés par apprentissage par renforcement basé sur des modèles, combinés à un pipeline dit "enseignant-élève" avec distillation de politique. Le principe consiste à condenser des heures de données hétérogènes de mouvements humains en une représentation latente compacte, depuis laquelle un robot peut imiter des séquences de mouvement jamais vues à l'entraînement. À noter : l'article ne précise ni plateforme matérielle spécifique, ni métriques quantitatives concrètes (vitesse, payload, temps de cycle), ce qui est habituel pour un preprint de recherche fondamentale à ce stade. Ce qui distingue MuGen des approches classiques de locomotion humanoïde est le choix d'une représentation générative via VQ-VAE, plutôt qu'une politique spécialisée par comportement. Cette architecture permet la réutilisation de l'espace latent appris pour des tâches en aval, ouvrant la voie à un transfert de compétences sans réentraînement complet. La distillation enseignant-élève est un point structurant : la politique enseignante, puissante mais coûteuse en calcul, sert à former une politique élève légère et déployable sur matériel embarqué. Pour les intégrateurs et décideurs industriels, ce paradigme réduit le fossé sim-to-real et laisse entrevoir des robots capables d'adopter de nouveaux comportements locomoteurs à partir d'une simple séquence de référence humaine, sans fine-tuning massif. MuGen s'inscrit dans un courant de recherche actif sur l'imitation motrice pour humanoïdes, dans la lignée de travaux comme AMP (Adversarial Motion Priors, UC Berkeley), ASE ou PhysDiff. Dans l'industrie, Figure AI, Agility Robotics (Digit), Unitree et Tesla (Optimus) investissent massivement dans des pipelines similaires de whole-body control combinant motion capture et RL. L'usage de VQ-VAEs reste relativement peu exploré pour la locomotion, contrairement à son application établie en génération audio et image. Le papier étant un preprint arXiv sans révision par les pairs à ce stade, la prochaine étape déterminante sera une validation sur plateforme physique réelle avec métriques comparatives, condition sine qua non pour évaluer la portée opérationnelle de l'approche.

RecherchePaper
1 source
Combler les lacunes : couverture ergodique multi-robot guidée par rétroaction en environnements inconnus
1411arXiv cs.RO 

Combler les lacunes : couverture ergodique multi-robot guidée par rétroaction en environnements inconnus

Des chercheurs ont soumis fin mai 2026 sur arXiv (2605.21719) un framework de couverture adaptative multi-robot intitulé "Mind the Gaps", conçu pour des environnements dont la distribution d'information est inconnue a priori. La méthode repose sur la recherche ergodique : les trajectoires des robots sont optimisées pour que leur distribution spatiale temporelle soit proportionnelle à la densité d'information perçue dans l'environnement. La nouveauté consiste à intégrer un retour en temps réel depuis un modèle paramétrique mis à jour en ligne, permettant de recalculer dynamiquement les zones cibles et de réallouer les agents vers les régions d'intérêt prioritaires. Les validations présentées sont exclusivement en simulation, sans déploiement sur hardware réel. L'obstacle classique des méthodes ergodiques est qu'elles supposent une distribution d'information connue a priori -- une hypothèse irréaliste pour l'inspection industrielle, la surveillance environnementale ou le search-and-rescue. Ce framework élimine ce prérequis en construisant la carte d'intérêt à la volée, concentrant les ressources là où l'incertitude est la plus élevée. Pour un intégrateur déployant des AMR sur un site diffus -- détection de fuites, cartographie de polluants, inspection de grandes surfaces -- cela réduit le nombre d'agents nécessaires et évite les cycles gaspillés sur des zones déjà bien caractérisées. La méthode suppose toutefois un environnement statique ou à évolution lente par rapport à la dynamique des robots, ce qui en limite l'applicabilité aux environnements hautement dynamiques. La recherche ergodique multi-robot s'appuie sur les travaux fondateurs de Mathew et Mezić (2011) et les développements de l'équipe Murphey à Northwestern. Les approches concurrentes -- exploration par frontières et processus gaussiens (GP-UCB) -- offrent une quantification d'incertitude plus explicite mais souffrent d'une complexité de calcul cubique avec le nombre d'observations. Ce papier positionne les méthodes ergodiques comme plus scalables pour de grandes flottes, sans toutefois proposer de comparaison quantitative directe. La validation limitée à la simulation laisse ouverte la question du sim-to-real gap, notamment pour les dynamiques de communication inter-agents à faible bande passante. Aucun partenariat industriel ni timeline de transfert technologique n'est mentionné.

RecherchePaper
1 source
Perception active et contrôle tenant compte des conflits dans les champs de Gaussian Splatting 3D via des fonctions barrière de contrôle
1412arXiv cs.RO 

Perception active et contrôle tenant compte des conflits dans les champs de Gaussian Splatting 3D via des fonctions barrière de contrôle

Des chercheurs ont publié sur arXiv (référence 2605.20566) un cadre algorithmique baptisé "conflict-aware active perception and control" pour robots évoluant dans des environnements modélisés par 3D Gaussian Splatting (3DGS). L'approche repose sur un programme quadratique unifié qui traite simultanément deux objectifs antagonistes : la sécurité, imposée comme contrainte dure via une Control Barrier Function (CBF), et l'acquisition d'information, traitée comme contrainte souple assouplie par des variables de relâchement (slack variables). La CBF est dérivée d'une métrique de risque de collision dite Average Value-at-Risk (AV@R), qui intègre l'incertitude géométrique de la carte et garantit mathématiquement l'invariance avant d'un ensemble sûr. Pour maximiser la perception, le système sélectionne la prochaine meilleure vue (next-best-view) via une formulation risk-aware de l'Expected Information Gain (EIG), et oriente la caméra vers la direction de montée d'information locale grâce à des "perception barrier functions". Les résultats présentés sont issus de simulations uniquement, sans validation sur plateforme physique. Le problème central que ce travail adresse est structurel : dans un environnement partiellement inconnu, les vues les plus informatives se trouvent précisément dans les zones les moins cartographiées, donc les plus à risque de collision. Les approches existantes basées sur 3DGS traitaient ces deux objectifs séparément ou par simple pondération, sans garanties formelles. Formuler la sécurité comme contrainte inviolable tout en relaxant la perception permet aux décideurs B2B et aux intégrateurs robotiques d'envisager des robots d'exploration actifs qui cartographient des environnements industriels non balisés sans compromis ad hoc entre productivité et sécurité. L'amélioration simultanée de la sécurité et du gain d'information, comparée aux méthodes 3DGS concurrentes, constitue un signal technique intéressant, même si l'absence d'expériences réelles limite pour l'instant la portée de la validation. Le 3DGS s'est imposé comme représentation de référence pour les champs de radiance neuronaux depuis 2023, supplantant progressivement le NeRF grâce à sa vitesse de rendu et sa différentiabilité. Les CBF sont un outil établi en commande sûre, mais leur intégration dans des champs neuronaux pour la perception active reste un axe de recherche émergent. Aucune institution ni entreprise n'est explicitement nommée dans l'abstract, et aucun déploiement industriel n'est annoncé. Les concurrents directs sont les méthodes d'exploration active basées NeRF et les planificateurs next-best-view classiques. Les prochaines étapes naturelles seraient une validation sim-to-real sur plateforme physique et des tests dans des scènes plus complexes.

RecherchePaper
1 source
Planification par réseau de neurones en graphe et contrôle prédictif pour la planification de mouvement multi-robots sans étiquettes sous contraintes de communication
1413arXiv cs.RO 

Planification par réseau de neurones en graphe et contrôle prédictif pour la planification de mouvement multi-robots sans étiquettes sous contraintes de communication

Une équipe de chercheurs propose, dans un preprint déposé sur arXiv le 25 mai 2026 (arXiv:2605.19209), un framework hiérarchique pour résoudre le problème de planification de mouvement multi-robots sans étiquetage, c'est-à-dire l'assignation simultanée de robots à des objectifs et la génération de trajectoires sûres dans des environnements partagés. Le système combine deux composants : un Graph ATtention Planner (GATP), fondé sur des réseaux de neurones à graphes avec mécanisme d'attention, qui génère des sous-objectifs intermédiaires par coopération entre agents, et un contrôleur NMPC (Nonlinear Model Predictive Controller) décentralisé, exécuté en embarqué sur chaque robot, qui garantit la faisabilité des trajectoires sous dynamiques non-linéaires et contraintes d'actuation réelles. Le framework a été évalué à la fois en simulation et sur des quadrotors physiques. Les auteurs rapportent une tolérance aux délais de communication allant jusqu'à 200 ms, une inférence entièrement décentralisée à bord, et une meilleure généralisation à des équipes de taille croissante. Ce travail s'attaque directement au gouffre sim-to-real qui mine la plupart des approches GNN appliquées à la robotique multi-agents : les méthodes existantes supposent des dynamiques simplifiées et un environnement de simulation idéalisé, ce qui les rend fragiles en conditions réelles. En couplant un planificateur neuronal décentralisé à un contrôleur à modèle prédictif, le framework maintient les propriétés de scalabilité des GNN tout en imposant des garanties de sécurité physiques que les approches purement apprises ne fournissent pas. La robustesse aux délais de communication est particulièrement significative pour les déploiements en entrepôts ou en milieu industriel, où les réseaux sans fil ne sont jamais idéaux. Cette contribution s'inscrit dans un corpus actif de recherche sur les GNN pour la coordination multi-robots, aux côtés de travaux comme MAGAT ou DAN, qui visent à remplacer les solveurs centralisés classiques (MILP, CBS) par des approches distribuées passant à l'échelle. Le preprint n'est pas encore soumis à une revue avec comité de lecture, et aucun déploiement industriel ni partenariat n'est annoncé : il s'agit d'une validation expérimentale académique sur quadrotors, prometteuse mais à consolider. Les prochaines étapes naturelles seraient des expériences sur flottes plus larges et des robots à dynamiques plus complexes, comme des manipulateurs mobiles ou des AMR en environnement entrepôt.

RecherchePaper
1 source
Robots qui apprennent à évaluer des modèles de comportement collectif
1414arXiv cs.RO 

Robots qui apprennent à évaluer des modèles de comportement collectif

Des chercheurs ont publié sur arXiv (référence 2604.07303) un cadre méthodologique inédit permettant d'évaluer la fidélité de modèles comportementaux animaux via un robot biomimétique en interaction fermée. L'équipe a utilisé un poisson robot, baptisé RoboFish, contrôlé par des politiques d'apprentissage par renforcement entraînées en simulation sur quatre modèles de comportement de poissons réels : une baseline constante de suivi simple, deux modèles à règles explicites, et un modèle neuronal convolutif (CNN) ancré biologiquement. Ces politiques entraînées en simulation ont ensuite été transférées au RoboFish physique, qui a interagi en temps réel avec de vrais poissons. L'écart sim-to-real a été quantifié via la distance de Wasserstein entre les distributions simulées et réelles de métriques comportementales : performance d'atteinte de cible, distances inter-individuelles, interactions avec les parois de l'aquarium, et alignement de nage. Le modèle CNN s'est révélé le plus fidèle, affichant le plus faible écart sim-to-real sur la majorité des métriques mesurées. Ce travail résout un problème méthodologique persistant en robotique bio-inspirée et en éthologie computationnelle : jusqu'ici, les modèles comportementaux étaient validés uniquement par comparaison offline sur des trajectoires enregistrées, sans confrontation dynamique avec les animaux réels. En introduisant une évaluation en boucle fermée, les auteurs montrent que le classement des modèles change lorsqu'on passe d'une comparaison statique à une interaction incarnée, ce qui implique que de nombreux modèles publiés ont pu être surévalués. Pour la robotique de swarm et les systèmes multi-agents bio-inspirés, ce type de benchmark incarné constitue un outil de validation bien plus discriminant que les métriques classiques. Ce travail s'inscrit dans un courant de recherche croissant sur le sim-to-real en robotique comportementale, porté par des laboratoires comme celui de Maurizio Porfiri (NYU) qui travaille depuis plusieurs années sur RoboFish comme outil d'étude du comportement collectif animal. Le cadre proposé est explicitement généraliste : les auteurs suggèrent qu'il peut s'appliquer à d'autres espèces et d'autres plateformes robotiques. Les prochaines étapes naturelles incluent des tests sur des comportements collectifs plus complexes (bancs de plusieurs individus) et l'extension à d'autres espèces sociales. Aucun partenaire industriel ni financement spécifique n'est mentionné dans le préprint.

RecherchePaper
1 source
CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles
1415arXiv cs.RO 

CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles

Des chercheurs ont publié sur arXiv (référence 2605.19206) un framework de navigation baptisé CLUE, conçu pour résoudre le problème de la navigation vers des objets cibles sans entraînement préalable sur ces objets, un défi connu sous le nom de zero-shot object-goal navigation (ZSON). L'idée centrale : un agent robotique doit localiser un objet donné dans un environnement inconnu en exploitant deux types d'indices contextuels, les pièces (un réfrigérateur se trouve presque toujours dans une cuisine) et les objets voisins co-localisés (des ciseaux peuvent se trouver partout, mais souvent près d'un bureau ou d'un plan de travail). CLUE extrait des connaissances de bon sens à partir d'un grand modèle de langage (LLM) utilisé hors ligne, calcule un score d'association entre la cible et les types de pièces, puis construit une carte sémantique unifiée pondérant dynamiquement ces deux sources d'information selon l'ambiguïté de la cible. Un mécanisme de vérification multi-points de vue complète le système. Les expériences menées en simulation et dans des environnements réels montrent que CLUE dépasse les baselines de l'état de l'art sur les métriques de taux de succès (SR) et de succès pondéré par la longueur du chemin (SPL), sans que des chiffres absolus ne soient communiqués dans l'abstract. L'intérêt pratique de cette approche tient à une critique implicite des méthodes existantes : traiter tous les indices contextuels avec le même poids conduit à une exploration inefficace. Pour un intégrateur de robots de service, cela signifie des trajectoires plus courtes et une meilleure résilience dans des environnements non cartographiés, comme les hôpitaux, les entrepôts ou les environnements domestiques. L'utilisation d'un LLM hors ligne, plutôt qu'en inférence temps réel, réduit la latence et les dépendances cloud, un avantage concret pour le déploiement industriel. La démonstration en environnement réel, même si ses conditions exactes ne sont pas précisées, distingue CLUE de nombreux travaux restés en simulation pure. Ce travail s'inscrit dans un champ de recherche actif sur la navigation sémantique, aux côtés de méthodes comme ESC, VLFM ou SemEXP, issues principalement de laboratoires américains (CMU, Georgia Tech, Berkeley). CLUE se positionne comme une couche d'arbitrage contextuel au-dessus de ces approches plutôt que comme une refonte complète de l'architecture. Le papier est une prépublication arXiv, non encore évalué par les pairs, ce qui invite à la prudence sur la généralisabilité des résultats. Aucune affiliation industrielle ni plateforme matérielle spécifique n'est mentionnée. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (AMR de type Boston Dynamics Spot, Hello Robot Stretch ou plateformes mobiles ROS2-compatibles) et une comparaison sur les benchmarks standardisés HM3D ou Gibson.

RecherchePaper
1 source
Filtrage hybride variationnel stable pour la récupération de modes de contact et de lois creuses
1416arXiv cs.RO 

Filtrage hybride variationnel stable pour la récupération de modes de contact et de lois creuses

Une équipe de recherche a publié sur arXiv (référence 2605.16398) VHYDRO, un filtre variationnel hybride conçu pour apprendre la dynamique de contact des robots manipulateurs. Le problème ciblé est précis : dans les systèmes à contact riche, une seule observation peut correspondre à plusieurs régimes latents distincts (mouvement libre, impact, stick-slip). Un filtre amortized classique qui n'affecte aucune probabilité à une transition de contact faisable perd définitivement la branche que le robot suit réellement, sans possibilité de récupération. VHYDRO empêche cette perte de branche en mélangeant la loi de proposition apprise avec une loi de transition physiquement faisable avant l'échantillonnage et la pondération d'importance, garantissant ainsi que chaque transition conservée par le support du modèle reste couverte. Le système infère conjointement un état latent continu et un mode de contact discret, puis ajuste une loi port-Hamiltonienne sparse à chaque régime récupéré. Les résultats empiriques portent sur des démonstrations ManiSkill et sur quatre familles de tâches Sawyer/BridgeData, où VHYDRO surpasse les baselines post-hoc et sans mode sur trois métriques : ARI, change-point F1 et pureté de segment. L'enjeu pour l'industrie robotique est direct : la manipulation à contact riche, préhension, assemblage, insertion de pièces, reste l'un des points durs non résolus pour le déploiement des bras industriels apprenants. La capacité à segmenter temporellement les régimes de contact en segments cohérents est un prérequis pour toute politique de contrôle hybride robuste. Ce que prouve VHYDRO, c'est qu'un filtre défensif au sens du support peut stabiliser la reconstruction du mode discret et, de là, permettre une identification physique sparse des termes actifs dans chaque régime, là où les baselines purement prédictives échouent. Sous occlusion sévère, condition fréquente en atelier, le filtre classique s'effondre tandis que VHYDRO reste utilisable, ce qui est un argument concret pour les intégrateurs travaillant sur des cellules robotisées peu camérisées. La formalisation port-Hamiltonienne, héritée de la mécanique classique des systèmes conservatifs avec contraintes, est ici appliquée à un contexte d'apprentissage hybride, ce qui constitue une contribution méthodologique distincte des approches neurales purement prédictives. ManiSkill et BridgeData sont des benchmarks de référence pour la manipulation robotique apprise, largement utilisés par les laboratoires de la côte Ouest américaine. Le papier est une prépublication arXiv, sans affiliation institutionnelle ni déploiement annoncé. Les concurrents directs sont les méthodes de segmentation de mode post-hoc et les filtres mode-free à apprentissage end-to-end. Les suites naturelles seraient une validation sur robots réels à contact non structuré et une intégration dans des pipelines de contrôle en boucle fermée.

RecherchePaper
1 source
RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel
1417arXiv cs.RO 

RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel

Des chercheurs ont publié le 22 mai 2026 sur arXiv (référence 2605.17522) les travaux autour de RoboFlow4D, un modèle de planification en flux 3D destiné à la manipulation robotique temps réel. L'approche repose sur ce que les auteurs appellent un "flow world model" : plutôt que d'empiler plusieurs sous-modèles spécialisés dans un pipeline modulaire classique, RoboFlow4D prédit directement des flux de mouvement 3D sur plusieurs trames temporelles à partir d'observations visuelles et d'instructions textuelles. Ce flux explicite sert de plan intermédiaire pour guider la génération d'actions motrices, bouclant ainsi un cycle perception-planification-exécution en une seule architecture de bout en bout. L'exécution repose sur une collaboration dite "slow-fast" entre le prédicteur de flux et le contrôleur d'action, visant à réduire la latence globale. Les résultats présentés couvrent des benchmarks en simulation et des expériences en environnement réel, avec des gains annoncés sur les taux de succès de manipulation et sur l'efficacité computationnelle, sans que les chiffres précis soient détaillés dans l'abstract. L'intérêt de cette direction de recherche réside dans la réduction de la charge de calcul associée aux pipelines VLA (Vision-Language-Action) contemporains. Les architectures modulaires dominantes, comme celles utilisées dans Pi-0 (Physical Intelligence) ou les variantes de GR00T N2 (NVIDIA), impliquent des inférences en cascade coûteuses qui limitent la réactivité en conditions industrielles. RoboFlow4D tente de consolider perception et planification dans un seul modèle léger, ce qui, si les performances se confirment à l'échelle, pourrait abaisser les exigences matérielles pour déployer des politiques de manipulation dextres sur des robots à ressources contraintes. Du côté du contexte compétitif, le domaine des planificateurs par flux optique 3D est actif depuis les travaux sur UniFlow et Flowbot3D, mais leur intégration dans des boucles temps réel reste un défi ouvert. RoboFlow4D se positionne comme une réponse légère à ces limitations. Il s'agit pour l'instant d'un preprint non évalué par les pairs, sans code ni modèle publiés, ce qui invite à la prudence avant tout benchmark indépendant. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés type RLBench ou LIBERO, et une comparaison directe avec les baselines modulaires qu'il prétend dépasser.

RechercheOpinion
1 source
Estimation de pose des parties d'objets avec une stratégie d'apprentissage sans annotation de symétrie
1418arXiv cs.RO 

Estimation de pose des parties d'objets avec une stratégie d'apprentissage sans annotation de symétrie

Des chercheurs ont déposé le 19 mai 2026 sur arXiv (référence 2605.17033) un nouveau cadre d'apprentissage baptisé SAFAG (Symmetry Annotation-Free framework for Generalizable and Actionable Parts), destiné à améliorer l'estimation de pose des parties fonctionnelles d'objets pour la manipulation robotique. Le problème central adressé est celui de la perception cross-catégorie : un robot doit être capable d'identifier et d'utiliser les parties actionnables d'objets inconnus (poignées de tiroirs, vannes, leviers) sans annotations de symétrie produites manuellement. SAFAG propose une architecture à deux étapes de type candidat-vers-final pour la régression de quaternions (représentation mathématique de l'orientation 3D en espace), couplée à un mécanisme d'apprentissage auto-supervisé qui traite la symétrie des objets comme un problème de distribution de probabilité, supprimant ainsi la dépendance aux annotations manuelles. L'enjeu industriel est concret : l'une des frictions majeures dans le déploiement de bras robotiques polyvalents en atelier ou en logistique est précisément la capacité à actionner des objets variés sans reprogrammation par référence. La symétrie géométrique des pièces (bouton rond, valve cylindrique) génère des ambiguïtés de pose qui font échouer les pipelines de perception classiques, contraignant les intégrateurs à constituer des datasets annotés par catégorie d'objet, une démarche coûteuse et non scalable. En automatisant la gestion de la symétrie via l'apprentissage auto-supervisé, SAFAG pourrait réduire significativement ce coût d'intégration pour des tâches pick-and-place sur objets non structurés, domaine où le sim-to-real reste un défi ouvert. Le concept de GAParts (Generalizable and Actionable Parts) sur lequel s'appuie SAFAG a émergé ces dernières années dans la communauté de l'embodied AI, notamment autour de travaux sur la segmentation sémantique des parties d'objets articulés. Le paysage concurrent inclut AnyGrasp, FoundationPose de NVIDIA et UniGraspTransfer, qui visent tous à généraliser la préhension sans supervision dense. SAFAG se distingue par son traitement explicite de la symétrie sans annotation. Il s'agit néanmoins d'un preprint arXiv sans code publié ni évaluation externe disponible à ce stade : les performances revendiquées restent à reproduire de façon indépendante avant toute considération d'intégration industrielle.

RecherchePaper
1 source
MUSE : quantification multimodale de l'incertitude dans l'estimation d'état
1419arXiv cs.RO 

MUSE : quantification multimodale de l'incertitude dans l'estimation d'état

Une équipe de chercheurs a déposé sur arXiv (référence 2605.17421, mai 2026) un cadre d'apprentissage automatique baptisé MUSE (Multimodal Uncertainty Quantification of State Estimation), conçu pour quantifier en temps réel l'incertitude dans l'estimation d'état visuel. La contribution centrale porte sur l'odométrie visuelle-inertielle (VIO), technique qui fusionne données de caméra et unité de mesure inertielle (IMU) pour localiser un robot sans GPS. MUSE exploite l'architecture Mamba, modèle séquentiel à état discret proposé en 2023 comme alternative efficace aux Transformers, pour traiter plusieurs flux de capteurs asynchrones simultanément. Les expériences ont été conduites sur des jeux de données publics et des données propriétaires ; les auteurs rapportent une fiabilité et une robustesse supérieures aux méthodes existantes, sans fournir dans l'abstract de métriques chiffrées précises permettant une comparaison directe avec l'état de l'art. L'enjeu dépasse la simple précision de localisation : savoir quand ne pas faire confiance à une estimation est aussi critique que l'estimation elle-même. En navigation autonome, en conduite sans conducteur et en vol autonome, une erreur non détectée peut provoquer une collision ou un abandon de mission. Le problème est particulièrement difficile en VIO car la distribution des erreurs est hétéroscédastique (la variance évolue selon les conditions lumineuses, les textures, la vitesse) et multimodale (plusieurs hypothèses de pose simultanément plausibles). Une quantification d'incertitude fiable ouvre la voie à des mécanismes embarqués de détection de défaillance et de dégradation gracieuse, deux capacités très recherchées par les intégrateurs de systèmes autonomes en industrie. L'estimation d'état visuel est un domaine très actif, où filtres de Kalman étendus, graphes de facteurs (GTSAM, g2o) et méthodes neuronales récentes (DPVO, DROID-SLAM) se concurrencent sur des benchmarks standard comme EuRoC ou TUM-VI. Mamba gagne du terrain dans les tâches de séquences longues, et MUSE s'inscrit dans cette tendance en l'appliquant à la fusion sensorielle multi-modale. Aucune affiliation institutionnelle ni partenariat industriel n'est mentionné dans l'abstract, et le papier n'a pas encore été soumis à une revue à comité de lecture confirmée. Les performances annoncées restent donc à valider indépendamment avant toute intégration dans un pipeline de production.

RecherchePaper
1 source
HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines
1420arXiv cs.RO 

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.03243v2) HoMMI, pour Whole-Body Mobile Manipulation Interface, un framework d'apprentissage par imitation permettant à un robot mobile de maîtriser la manipulation bimanuelle et la navigation à partir de démonstrations humaines réalisées sans robot. Le principe : un opérateur humain porte une interface portative héritée du projet UMI (Universal Manipulation Interface), enrichie d'une caméra égocentrique capturant le contexte global de la scène (position dans l'espace, état de l'environnement). Ces données brutes alimentent une politique apprise, transférée ensuite sur un robot à corps entier (bras, torse, base mobile) sans que celui-ci n'ait été présent lors de la collecte. La difficulté centrale que HoMMI cherche à résoudre est l'"embodiment gap" : la différence morphologique et sensorielle entre humain et robot rend le transfert de politique difficile, particulièrement en perception égocentrique où les champs de vue et hauteurs d'oeil divergent fortement. Les auteurs proposent trois briques techniques pour combler cet écart : une représentation visuelle agnostique à l'embodiment, une représentation d'action "head relaxed" qui neutralise les variations de mouvement de tête, et un contrôleur corps entier réalisant les trajectoires main-oeil sous contraintes physiques du robot. Ces choix permettent des tâches longue-séquence mobilisant navigation, perception active et coordination bimanuelle, le type de scénario que les architectures Vision-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent également à résoudre. Les résultats, présentés sous forme de vidéos sur hommi-robot.github.io, restent à valider en conditions non contrôlées et sur des benchmarks standardisés. HoMMI s'inscrit dans la continuité directe du projet UMI (Columbia/Stanford, 2024), qui avait popularisé la collecte portable de démonstrations pour la manipulation fixe sur table. L'extension au robot mobile ajoute la dimension navigation, saut de complexité majeur pour le sim-to-real et la généralisation hors laboratoire. Les approches concurrentes incluent Mobile ALOHA (Stanford), les pipelines de distillation de données de Physical Intelligence, et les travaux de manipulation bimanuelle ALOHA/ACT de Berkeley. HoMMI reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni métriques de taux de succès publiées, une limite habituelle des publications en robotique d'apprentissage avant revue par les pairs.

RecherchePaper
1 source
Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs
1421arXiv cs.RO 

Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.15753) une méthode pour construire des graphes de scènes 3D fonctionnels et hiérarchiques dans des espaces intérieurs, à vocabulaire ouvert. Ces graphes représentent l'environnement sous forme de noeuds objets, d'éléments interactifs et d'arêtes de relations fonctionnelles, permettant à un robot de comprendre non seulement ce qui est présent dans une pièce, mais comment les objets peuvent interagir entre eux. La contribution principale est l'extension des benchmarks existants en y intégrant des objets denses posés sur des surfaces planes (tabletop), ainsi que des relations fonctionnelles multi-niveaux explicites. Le pipeline proposé repose sur un ancrage visuel 2D (visual grounding) couplé à une optimisation de graphes 3D, combinant accumulation d'évidence, régularisation par entropie et lissage temporel pour résoudre l'association entre instances et déterminer les connexions fonctionnelles de chaque noeud. Une étape finale de structuration hiérarchique globale permet de récupérer la structure en niveaux du graphe complet. L'intérêt de cette approche pour la manipulation robotique est concret. Les travaux antérieurs sur les graphes de scènes se concentraient sur les meubles de grande taille, laissant de côté la granularité fine nécessaire pour les tâches impliquant des objets de bureau ou de cuisine. Introduire des objets petits, denses et visuellement similaires (tasses, stylos, boîtes) crée trois défis techniques distincts: confusion entre instances lors de la fusion inter-images, incertitude d'attribution sous des points de vue dynamiques, et absence d'ancrage visuel dans le raisonnement relationnel. Le pipeline open-vocabulary présenté aborde ces trois points sans catégories prédéfinies, ce qui représente un avantage pratique pour des déploiements en environnements variés. Les expériences reportées montrent une inférence fiable sur des scènes réelles exigeantes, bien que le résumé soumis ne détaille pas de métriques quantitatives précises, ce qui rend difficile toute comparaison directe avec l'état de l'art. Les graphes de scènes sémantiques pour la robotique sont étudiés depuis une dizaine d'années, mais leur adoption pratique a été freinée par des benchmarks limités aux grandes structures, peu représentatifs des scénarios de manipulation réelle. Ce travail s'inscrit dans une tendance plus large vers la perception embodied à vocabulaire ouvert, en concurrence directe avec les approches basées sur les champs de radiance neuronaux (NeRF, 3DGS) ou la segmentation 3D ouverte comme OpenMask3D et ConceptFusion. Ce type de représentation est fondamental pour les systèmes de planification de tâches et les robots de service opérant en environnement non structuré. Aucune timeline de déploiement industriel n'est mentionnée: il s'agit d'un preprint de recherche académique, pas d'un produit commercialisé ni d'un partenariat industriel annoncé.

RecherchePaper
1 source
Manipulation d'objets par un système de treillis à topologie variable
1422arXiv cs.RO 

Manipulation d'objets par un système de treillis à topologie variable

Des chercheurs ont publié en mai 2025 sur arXiv (référence 2605.13086) une stratégie de manipulation d'objets pour le Variable Topology Truss (VTT), un robot truss composé de membres actionnés reliés entre eux par des joints sphériques passifs dont la topologie structurale peut être reconfigurée à la demande. Jusqu'ici, cette classe de robot était démontrée pour ses capacités cinématiques, sans méthode formalisée pour saisir ou déplacer des objets. Les auteurs proposent un cadre de contrôle hybride qui régule simultanément position et force, sans découplage explicite entre les deux objectifs. Au niveau de chaque actionneur, un contrôleur à rétroaction de force par capteur génère les forces axiales souhaitées malgré une friction mécanique élevée, problème récurrent dans ces mécanismes. Au niveau de la tâche, les forces appliquées aux noeuds effecteurs sont calculées à partir d'un modèle statique du VTT. Les expériences portent sur un module unitaire puis sur le système complet dans deux configurations de manipulation représentatives, avec évaluation quantitative du suivi combiné position-force. Cette contribution comble un écart méthodologique structurant: les robots truss avaient été identifiés comme des manipulateurs à déploiement rapide, notamment pour des environnements contraints (robotique spatiale, intervention d'urgence, infrastructure adaptative), mais l'absence de stratégie de manipulation fiable les maintenait au stade de démonstrateurs cinématiques. Traiter explicitement la friction élevée des actionneurs via la rétroaction de force rapproche la démarche des contraintes d'un déploiement réel. La validation expérimentale quantitative, plutôt qu'une démonstration vidéo qualitative, renforce la crédibilité des résultats. Il convient toutefois de noter que la publication reste un preprint, non encore soumis à évaluation par les pairs. Les robots truss reconfigurables constituent une voie distincte des manipulateurs sériels classiques (bras 6-DOF type KUKA, UR) et des architectures parallèles (Delta, Stewart): leur avantage théorique réside dans une reconfiguration structurale à la volée, potentiellement utile pour des tâches à géométrie variable. Le VTT s'inscrit dans une lignée de travaux sur les treillis actifs explorés depuis les années 1990 principalement pour la robotique spatiale et les structures adaptatives. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans l'article; les suites naturelles porteraient sur la généralisation à des topologies plus complexes, des charges utiles plus importantes et une validation en environnement non structuré.

RecherchePaper
1 source
Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique
1423arXiv cs.RO 

Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique

Une équipe de chercheurs a publié en mai 2025 sur arXiv (référence 2605.12084) une méthode appelée Quasi-Optimal Experimental Design, ou QOED, visant à résoudre un problème fondamental de l'exploration robotique : comment guider un robot vers les expériences qui lui apprendront réellement quelque chose d'utile ? La méthode repose sur une analyse de l'espace propre de la matrice d'information de Fisher pour identifier les directions de paramètres réellement observables, puis modifie l'objectif d'exploration pour concentrer l'effort sur ces directions tout en atténuant l'influence des paramètres secondaires ("nuisance"). Évaluée sur des tâches de navigation et de manipulation en simulation et en conditions réelles, QOED génère un gain de performance de 35,23 % grâce à la sélection des directions identifiables, et de 21,98 % supplémentaires via la suppression des effets parasites. Intégrée comme objectif d'exploration dans une boucle d'optimisation de politique model-based, elle surpasse les baselines classiques de RL. Ce résultat compte parce qu'il attaque directement le goulot d'étranglement de l'apprentissage actif en robotique : dans les systèmes haute dimension (bras articulés, manipulation dextre, navigation en environnement non structuré), une large fraction des paramètres du modèle est faiblement observable, voire non identifiable. Les méthodes classiques de curiosité ou d'information gain mesurent une incertitude globale sans distinguer ce qui peut être réduit par l'expérience de ce qui ne le peut pas. QOED fournit une approximation à facteur constant de l'objectif idéal théorique, une garantie formelle rare dans ce champ, ce qui lui confère une légitimité au-delà de la démonstration empirique seule. La méthode s'inscrit dans une longue tradition de théorie du design expérimental optimal (OED) issue des statistiques, ici adaptée au cadre RL avec optimisation en ligne. Sur le plan concurrentiel, les approches voisines incluent les méthodes de curiosité bayésienne (type DIAYN ou LEXA) et les objectifs d'information mutuelle comme VIME ou Plan2Explore. QOED se distingue par son ancrage théorique rigoureux et l'explicitation du sous-espace identifiable, deux points que les méthodes heuristiques négligent. Aucun déploiement industriel ni partenaire n'est mentionné : il s'agit à ce stade d'un résultat académique, dont l'intégration dans des pipelines de calibration ou de sim-to-real reste à valider à plus grande échelle.

RecherchePaper
1 source
Rollbot : un robot sphérique propulsé par un seul actionneur
1424arXiv cs.RO 

Rollbot : un robot sphérique propulsé par un seul actionneur

Rollbot, présenté dans un article de recherche déposé sur arXiv (réf. 2404.05120v2, révision 2024), est un robot sphérique prototype capable de se déplacer de façon contrôlée sur un plan 2D avec un seul actionneur. Le robot roule au sol en décrivant des arcs de cercle et ajuste la courbure de sa trajectoire en accélérant et décélérant son unique moteur ainsi que la masse solidaire attachée à celui-ci. Les auteurs ont dérivé des lois de contrôle fondées sur une dynamique dite "quasi-stable", et ont validé expérimentalement la capacité du système à suivre des waypoints successifs. Aucune institution ni source de financement n'est mentionnée dans l'abstract public. Ce travail remet en cause une contrainte de conception longtemps tenue pour acquise dans la robotique sphérique: l'obligation d'utiliser au minimum deux actionneurs pour obtenir un mouvement plan maîtrisé. Ramener ce seuil à un seul actionneur réduit mécaniquement la complexité structurelle, la consommation énergétique et le nombre de points de défaillance potentiels. Pour les concepteurs de robots d'inspection en espace confiné, de plateformes de surveillance ou de démonstrateurs éducatifs, cette approche peut ouvrir des architectures plus légères et moins coûteuses à produire. Il faut cependant noter que les résultats sont présentés en contexte laboratoire; aucune métrique de robustesse sur terrain non contrôlé ni de cycle de production n'est communiquée. Les robots sphériques à actionnement interne existent depuis les années 1990 dans la recherche académique, avec des prototypes issus de MIT, ETH Zurich ou Carnegie Mellon, et ont trouvé des applications limitées dans la surveillance et l'exploration. Côté produits grand public, Sphero a popularisé la forme, mais sans ambition de navigation autonome précise. Le créneau du robot sphérique à un seul actionneur reste un espace purement expérimental; la prochaine étape logique serait de démontrer la robustesse aux perturbations extérieures (surface irrégulière, contact), d'étendre le cadre théorique à la navigation 3D, et d'évaluer l'intégration de capteurs embarqués dans un volume aussi contraint.

RecherchePaper
1 source
ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique
1425arXiv cs.RO 

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Une équipe de recherche a publié en mai 2026 sur arXiv (référence 2605.08774) ProcVLM, un modèle vision-langage conçu pour générer des signaux de récompense denses dans les tâches de manipulation robotique à longue durée. Contrairement aux approches existantes qui s'appuient sur des étiquettes de succès en fin de trajectoire ou sur une interpolation temporelle, ProcVLM ancre son estimation de progression dans la structure procédurale de la tâche et dans les changements visuels au sein de chaque sous-étape. Le modèle adopte un paradigme "raisonner avant d'estimer" : il infère d'abord les actions atomiques restantes avant de chiffrer l'avancement global. Pour l'entraîner à grande échelle, les auteurs ont constitué ProcCorpus-60M, un corpus de 60 millions de trames annotées issues de 30 jeux de données embodied, dont est dérivé ProcVQA, un benchmark couvrant l'estimation de progression, la segmentation d'actions et la planification prospective. L'enjeu est direct pour les intégrateurs et les équipes travaillant sur la manipulation longue durée, comme l'assemblage multi-étapes, le conditionnement ou la maintenance industrielle. Les modèles de récompense classiques, en confondant temps écoulé et progression réelle, sont incapables de détecter stagnation, étapes manquées ou états d'échec intermédiaires. ProcVLM produit des estimations discriminantes intra-trajectoire, ce qui en fait un composant plus utile pour la policy optimization guidée par récompense. Les expériences publiées montrent des gains mesurés sur ProcVQA et sur des benchmarks de modèles de récompense face aux baselines représentatives. Ces résultats restent néanmoins dans le cadre de la simulation et de l'évaluation hors-ligne : aucun déploiement sur robot physique n'est annoncé. Ce travail s'inscrit dans une tendance de fond visant à améliorer la qualité des signaux de supervision pour les modèles vision-langage-action (VLA), un chantier central depuis la publication de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le problème du reward shaping dans les tâches manipulatoires longues est un verrou bien identifié : le sim-to-real gap se double d'un gap supervision-comportement quand les étiquettes de succès sont trop parcimonieuses. ProcVLM propose une réponse méthodologique à ce second verrou via un corpus de supervision synthétique à 60 millions de trames, mais demeure à ce stade un preprint académique sans validation sur hardware réel annoncée. La page projet (procvlm.github.io) est en ligne, sans date de release du code ou des données précisée.

RechercheOpinion
1 source
Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM
1426arXiv cs.RO 

Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM

Des chercheurs ont publié le 12 mai 2026 sur arXiv (référence 2605.08330) un framework de planification tâche-et-mouvement pour robots de service, reposant sur deux modules LLM distincts organisés en hiérarchie. Le premier module, dit "agent de haut niveau", interprète des commandes en langage naturel et génère des séquences d'actions via un prompt de style ReAct, en s'appuyant sur des outils de perception et de manipulation (pick, place, release). Le second module, dédié au raisonnement spatial de bas niveau, prend en charge les instructions de placement précis, par exemple "pose la tasse à côté de l'assiette", en calculant les positions 3D à partir de la géométrie des objets et de la configuration de la scène. La détection d'objets et l'estimation de pose sont assurées par YOLOX-GDRNet. Sur 24 scénarios de test couvrant des commandes spatiales simples, des instructions de haut niveau et des requêtes infaisables, le système affiche un taux de succès global de 86 %. Cette architecture en deux étages répond à un problème bien connu en robotique de service : un LLM généraliste gère mal simultanément la logique séquentielle des tâches et le raisonnement géométrique fin. Séparer ces deux fonctions réduit la surface d'erreur et rend le système plus robuste aux ambiguïtés spatiales, un point de friction majeur dans les scénarios d'assistance à domicile ou hospitaliers. Le taux de 86 % est encourageant, mais il convient de nuancer : 24 scénarios constituent une base d'évaluation très réduite, et les conditions de test en laboratoire restent éloignées de la variabilité d'un environnement réel non structuré. Aucun robot physique n'est mentionné, le module d'exécution motrice étant décrit comme un "stub", ce qui signifie que les résultats restent pour l'instant purement simulés ou partiellement maquettés. Ce travail s'inscrit dans le prolongement des approches LLM-to-robot popularisées par SayCan de Google (2022) et les travaux RT-2 et OpenVLA, qui ont démontré qu'un modèle de langage peut servir de planificateur de haut niveau pour un robot. La spécificité ici est le découplage explicite du raisonnement spatial dans un sous-module dédié, plutôt que de tout faire porter au modèle principal, une direction cohérente avec les limites documentées des VLA (Vision-Language-Action models) sur les tâches de placement précis. Aucun partenaire industriel ni calendrier de déploiement n'est communiqué ; l'étape suivante logique serait une validation sur robot réel dans un contexte de service structuré.

RechercheOpinion
1 source
Navigation multimodale par apprentissage par renforcement multi-agents
1427arXiv cs.RO 

Navigation multimodale par apprentissage par renforcement multi-agents

Des chercheurs ont publié CRONA (Cross-Modal Navigation), un framework basé sur l'apprentissage par renforcement multi-agent (MARL), disponible en préprint sur arXiv (identifiant 2605.06595). Plutôt que d'entraîner un modèle monolithique fusionnant simultanément plusieurs flux sensoriels, ce qui génère des espaces de représentation complexes et élargit considérablement l'espace de politiques à explorer, CRONA déploie des agents légers spécialisés par modalité, coordonnés par un critique centralisé multi-modal disposant d'un état global partagé et de représentations auxiliaires orientées contrôle. Les expériences portent sur des tâches de navigation visuo-acoustique : CRONA surpasse les baselines à agent unique en performance et en efficacité. Les auteurs identifient trois régimes distincts : la collaboration homogène (agents de même modalité) suffit pour la navigation courte portée avec indices saillants ; la collaboration hétérogène (modalités complémentaires) est généralement efficace ; les grands environnements complexes réclament une perception plus riche et une capacité modèle accrue. L'enjeu industriel est la modularité. Fusionner vision, audio et autres capteurs dans un seul réseau reste un obstacle majeur pour les robots incarnés opérant en milieux non contrôlés, entrepôts, espaces publics, bâtiments industriels. En découplant les modalités en agents parallèles indépendants, CRONA simplifie l'acquisition de données (chaque modalité peut être entraînée séparément) et permet de remplacer ou affiner un capteur sans réentraîner l'ensemble du système. Pour les intégrateurs B2B, la taxonomie des trois régimes de navigation constitue une heuristique pratique pour dimensionner les architectures embarquées selon la complexité des scénarios cibles. La navigation audio-visuelle incarnée s'appuie sur des environnements de référence établis comme SoundSpaces et Matterport3D. L'originalité de CRONA réside dans l'application du MARL à ce problème, là où la littérature récente privilégie les architectures Transformer multi-modales de type VLA (Vision-Language-Action). Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : il s'agit d'un preprint sans validation sur hardware réel, ce qui laisse ouverte la question du sim-to-real gap, particulièrement critique pour les signaux acoustiques en environnement non contrôlé. La prochaine étape logique serait une validation sur plateforme robotique physique.

RecherchePaper
1 source
Contrôle anti-enchevêtrement par topologie pour robots souples
1428arXiv cs.RO 

Contrôle anti-enchevêtrement par topologie pour robots souples

Des chercheurs ont publié sur arXiv (référence arXiv:2605.05236v1) un cadre d'apprentissage par renforcement multi-agent baptisé TD-MARL (Topology-Driven Multi-Agent Reinforcement Learning), conçu pour coordonner plusieurs robots souples afin d'éviter les enchevêtrements dans des environnements de fabrication de précision fortement contraints. L'architecture repose sur un réseau critique à apprentissage centralisé, permettant à chaque agent de percevoir les stratégies de ses homologues via un état topologique partagé, couplé à une exécution distribuée qui supprime tout besoin de communication inter-robots en temps réel. Un composant central, la couche de sécurité topologique, exploite des invariants topologiques pour évaluer quantitativement et atténuer les risques d'enchevêtrement avant qu'ils ne bloquent les trajectoires. Les expériences présentées sont entièrement en simulation ; aucun déploiement sur hardware physique n'est rapporté à ce stade. Ce travail s'attaque à un verrou identifié dans les systèmes multi-robots déformables : les frameworks distribués classiques peinent à converger en environnements haute densité d'obstacles, car l'observabilité partielle de chaque agent génère une instabilité d'entraînement. En introduisant la topologie comme état partagé plutôt que des coordonnées brutes, TD-MARL réduit la dimensionnalité du problème de coordination tout en préservant l'information structurelle critique pour le désenchevêtrement. Pour les intégrateurs industriels qui déploient des robots souples en assemblage de précision ou en gestion de câbles, cette approche ouvre la voie à une coordination autonome sans infrastructure de communication dédiée, simplifiant l'architecture système. Le papier ne quantifie pas l'écart simulation-réel (sim-to-real gap), ce qui constitue la principale limite à l'extrapolation industrielle. La robotique souple connaît un regain d'intérêt pour les tâches de manipulation en espace confiné, portées par des équipes académiques en Chine, en Europe et aux États-Unis. Sur le plan du contrôle multi-agent, TD-MARL s'inscrit dans la lignée des approches CTDE (Centralized Training, Decentralized Execution) popularisées par MADDPG et MAPPO, en y ajoutant une couche topologique inspirée de la théorie des noeuds et de l'homologie persistante. Aucun concurrent industriel direct n'est nommé dans l'article, le benchmarking se faisant exclusivement contre des méthodes DRL de référence en simulation. La prochaine étape naturelle, et condition sine qua non pour un transfert industriel, serait une validation sur banc de test physique avec des corps déformables réels.

RecherchePaper
1 source
SwarmCoDe : cadre de co-conception évolutif pour essaims de robots hétérogènes par spéciation dynamique
1429arXiv cs.RO 

SwarmCoDe : cadre de co-conception évolutif pour essaims de robots hétérogènes par spéciation dynamique

SwarmCoDe est un algorithme de co-évolution collaborative (CCEA) présenté dans un preprint arXiv (2603.26240v2) qui vise à automatiser la co-conception d'essaims de robots hétérogènes à grande échelle. La méthode centrale, dite "spéciation dynamique", fait émerger automatiquement des espèces de robots distinctes en fonction de la complexité de la tâche, sans les définir a priori. L'algorithme optimise simultanément la planification de tâches et la morphologie physique des robots, sous contrainte de budget de fabrication. Il intègre un "gène de dominance" qui dicte la composition de l'essaim, et des "tags génétiques" inspirés de mécanismes biologiques de coopération inter-espèces, permettant aux agents d'identifier des partenaires bénéfiques sans frontières prédéfinies. Les expériences rapportées, toutes simulées, montrent des essaims pouvant atteindre 200 agents, soit quatre fois la taille de la population évolutionnaire utilisée pour les générer. Le problème que SwarmCoDe cherche à résoudre est structurel : dans les approches classiques, la co-conception d'un essaim devient rapidement intractable à mesure que le nombre d'agents augmente, l'espace de design croissant exponentiellement. Le gène de dominance découple la taille physique de l'essaim de la population évolutionnaire, ce qui constitue la contribution technique principale : elle rend le calcul viable pour de grands systèmes sans explosion des ressources computationnelles. Pour les intégrateurs industriels et les équipes R&D déployant des flottes de robots, cela ouvre la perspective d'une optimisation automatique de la diversité matérielle, plutôt qu'une définition manuelle du mix robotique. Les améliorations marginales sur chaque unité se composent à l'échelle, ce qui explique pourquoi le co-design est stratégique dès qu'on parle de dizaines ou centaines d'agents en déploiement réel. La co-conception robotique est un domaine actif depuis une décennie, mais généralement appliquée à des robots unitaires ou de petits groupes homogènes. SwarmCoDe s'inscrit dans la continuité des travaux sur l'évolution morphologique (NEAT, neuroévolution) et des recherches sur les essaims hétérogènes, notamment des groupes comme celui de Josh Bongard à l'Université du Vermont. Les approches concurrentes incluent l'optimisation multi-objectif classique et les frameworks de co-design par gradient. Point critique à noter : l'article ne présente aucune validation sur robots physiques, toutes les métriques étant issues de simulation. Le fossé sim-to-real reste un verrou non adressé dans ce travail, et constituera l'épreuve décisive pour une adoption en contexte industriel.

RecherchePaper
1 source
Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style
1430arXiv cs.RO 

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

Des chercheurs ont publié sur arXiv (preprint 2503.16368, mis à jour en mai 2026) un framework baptisé Style-Conditioned Diffusion Policy (SCDP), conçu pour résoudre un compromis fondamental en collaboration humain-robot : la lisibilité des mouvements face à leur efficacité temporelle et énergétique. Le système s'appuie sur une politique de diffusion pré-entraînée qu'il enrichit via un pipeline post-entraînement léger, ajoutant un encodeur de scène et un prédicteur de conditionnement sans modifier les poids du modèle de base. À l'inférence, un module de détection d'ambiguïté détermine automatiquement si l'objectif du robot est déjà évident pour un observateur humain ; si oui, la trajectoire optimale est maintenue ; sinon, le système bascule vers des mouvements plus expressifs et intentionnels. Les évaluations portent sur des tâches de manipulation et de navigation. Ce travail adresse un point de friction concret dans le déploiement industriel des bras collaboratifs et des robots mobiles : un robot trop optimal génère des trajectoires difficiles à anticiper pour un opérateur humain, augmentant le risque d'accident et la charge cognitive. À l'inverse, rendre tous les mouvements expressifs coûte du temps de cycle et de l'énergie, ressources critiques en production. SCDP propose un arbitrage automatique et contextuel, ce qui le distingue des approches à style fixe. Le fait que le framework ne nécessite pas de réentraîner la politique de base est l'argument technique le plus fort : cela ouvre la voie à une adaptation post-déploiement sur des modèles existants, un avantage réel pour les intégrateurs qui ne peuvent pas se permettre des cycles de réentraînement complets. Les Diffusion Policies se sont imposées depuis 2023 comme architecture de référence pour l'imitation de comportements complexes, notamment via les travaux de Chi et al. (Columbia/MIT) et leur intégration dans des systèmes comme pi0 de Physical Intelligence. SCDP s'inscrit dans une vague de recherches visant à rendre ces politiques modulables sans réentraînement, une direction également explorée par des approches de guidance conditionnel et d'adaptateurs de type LoRA appliqués à la robotique. Côté lisibilité robot, les travaux sur la motion legibility remontent aux équipes de Dragan et Srinivasa (Carnegie Mellon, 2013), mais leur intégration dans des politiques génératives modernes reste peu exploitée. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; il s'agit d'une contribution académique dont la robustesse hors conditions contrôlées reste à démontrer.

RecherchePaper
1 source
Sûreté par invariance, vivacité par raffinement : contrats hétérogènes pour la co-conception du contrôle multicouche
1431arXiv cs.RO 

Sûreté par invariance, vivacité par raffinement : contrats hétérogènes pour la co-conception du contrôle multicouche

Des chercheurs présentent, dans un preprint arXiv déposé en mai 2026 (arXiv:2605.04222), un cadre formel pour la co-conception d'architectures de contrôle en couches (LCA). L'article identifie trois lacunes persistantes dans la littérature sur les LCA : l'absence de langage de spécification unifié entre la planification discrète et l'exécution continue, l'absence de garanties formelles lors de l'interconnexion de sous-systèmes opérant à des échelles de temps hétérogènes, et l'absence de séparation compositionnelle entre les couches due au recours à des lois de filtrage d'entrée naïves. Pour y répondre, les auteurs importent la décomposition sécurité-vivacité dans un cadre assume-guarantee hétérogène : la sécurité est garantie par invariance à la couche temps-continu, tandis que la vivacité est assurée par raffinement à la couche temps-discret. La coordination inter-couches est formalisée via des conditions de raffinement vertical et de compatibilité temporelle. Le framework est instancié avec une architecture concrète combinant un planificateur MPC (Model Predictive Control), un contrôleur bas niveau à stabilisation entrée-état (ISS), et un pont de type reference governor, puis validé sur un système hybride de stockage d'énergie (HESS) composé d'une batterie et d'un supercondensateur. L'apport principal est de nature théorique mais avec des implications pratiques directes pour les systèmes autonomes embarqués. En offrant des garanties formelles compositionnelles, le framework permet aux ingénieurs de concevoir chaque couche indépendamment tout en conservant des propriétés de sécurité bout-en-bout, ce qui réduit la complexité de vérification dans les systèmes à contraintes temps-réel mixtes. Le recours au reference governor comme pont entre MPC et contrôleur bas niveau est une contribution notable : il préserve les contraintes de sécurité sans saturation abrupte des actionneurs, un problème classique dans les architectures hiérarchiques industrielles. Ce travail s'inscrit dans un courant actif qui cherche à réconcilier les méthodes formelles issues du génie logiciel (contrats assume-guarantee, logique temporelle) avec la théorie du contrôle non linéaire (CBF, ISS, MPC). Les approches concurrentes incluent les QP basés sur les Control Barrier Functions (CBF-CLF) et les architectures de sécurité par filtrage de type "safety filter". La validation sur HESS, plutôt que sur un système robotique, suggère un positionnement orienté gestion d'énergie embarquée et systèmes cyber-physiques industriels ; une extension aux robots mobiles ou aux bras manipulateurs, domaines où la coexistence sécurité-vivacité est critique, constituerait une suite naturelle.

RecherchePaper
1 source
Politiques de diffusion multi-agents extensibles pour le contrôle de couverture
1432arXiv cs.RO 

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Des chercheurs ont publié sur arXiv (identifiant 2509.17244) MADP (Multi-Agent Diffusion Policy), une approche basée sur les modèles de diffusion pour la coordination décentralisée de nuées de robots. Le principe : chaque robot génère ses actions en échantillonnant depuis une distribution jointe haute dimension, en conditionnant sa politique sur une représentation fusionnée de ses propres observations et des embeddings perceptuels reçus de ses pairs via communication locale. L'équipe évalue MADP sur le problème de couverture de terrain (coverage control), un benchmark canonique en robotique multi-agent où un groupe de robots holonomes doit couvrir efficacement un espace selon des fonctions de densité d'importance variables. La politique est entraînée par imitation learning à partir d'un expert omniscient (dit "clairvoyant"), et le processus de diffusion est paramétré par une architecture de transformer spatial permettant l'inférence décentralisée, sans coordinateur central. Les résultats présentés sont exclusivement issus de simulations. L'intérêt technique principal tient à la nature des modèles de diffusion : contrairement aux politiques classiques qui produisent une action déterministe ou une distribution gaussienne unimodale, MADP peut capturer les interdépendances entre les actions de plusieurs agents dans une distribution multi-modale complexe. Les expériences montrent que le modèle généralise à travers des densités d'agents variables et des environnements non vus à l'entraînement, surpassant les baselines état de l'art. Pour un intégrateur ou un décideur industriel, cela signifie en théorie des essaims plus robustes aux variations de flotte, aux défaillances partielles et aux reconfiguration dynamiques, sans retraining complet. La robustesse au nombre d'agents est particulièrement notable : c'est un verrou historique des approches d'apprentissage multi-agent. Le problème de couverture de terrain occupe les équipes de robotique multi-agent depuis les années 2000, avec des solutions allant de l'optimisation par diagrammes de Voronoï aux algorithmes de reinforcement learning décentralisé. L'application des modèles de diffusion aux politiques robotiques est un domaine en essor depuis les travaux sur les diffusion policies (Pearce et al., 2023) et leur extension dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures ACT. MADP en étend la logique au cas multi-agent, encore peu exploré dans la littérature. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce preprint ; les prochaines étapes naturelles seraient une validation sur hardware réel et l'extension à des tâches au-delà de la couverture pure.

RecherchePaper
1 source
LineRides : apprentissage par renforcement guidé par trajectoire pour les cascades d'un robot vélo
1433arXiv cs.RO 

LineRides : apprentissage par renforcement guidé par trajectoire pour les cascades d'un robot vélo

Des chercheurs ont publié le 7 mai 2026 sur arXiv (identifiant 2605.05110) un cadre d'apprentissage par renforcement baptisé LineRides, conçu pour permettre à un robot-vélo custom baptisé Ultra Mobility Vehicle (UMV) d'exécuter des cascades acrobatiques commandables sans recours à des démonstrations humaines ni à des séquences de référence prédéfinies. LineRides s'appuie sur une ligne spatiale fournie par l'utilisateur, complétée par de rares orientations-clés positionnelles ou séquentielles : le système apprend seul à réaliser cinq manœuvres distinctes sur commande, à savoir le MiniHop (petit saut), le LargeHop (grand saut), le ThreePointTurn (demi-tour en trois points), le Backflip (saut arrière complet) et le DriftTurn (virage en dérapage). Pour gérer les guides spatialement infaisables, c'est-à-dire les lignes que le robot ne peut pas suivre à la lettre, le cadre introduit un "tracking margin", une tolérance de déviation contrôlée qui évite l'échec de la politique sans relâcher l'objectif global. La progression le long de la ligne est mesurée en distance parcourue plutôt qu'en temps, ce qui résout l'ambiguïté temporelle inhérente aux trajectoires acrobatiques complexes. L'apport principal est méthodologique : LineRides supprime la dépendance aux motion captures et aux trajectoires de référence, deux obstacles majeurs pour les plateformes non-standard ou pour les manœuvres extrêmes pour lesquelles aucune démonstration préalable n'existe. Pour les laboratoires travaillant sur la robotique agile et les concepteurs de véhicules à équilibre dynamique (monoroues, bicycles, exosquelettes), cette approche ouvre la voie à l'apprentissage de comportements complexes sur des engins dont la dynamique est difficile à capturer en MoCap. La transition fluide démontrée entre conduite normale et exécution de cascade sur l'UMV suggère une politique suffisamment robuste pour une intégration dans un système de contrôle réel. Il convient toutefois de noter que les performances en conditions non contrôlées, hors environnement de laboratoire, restent à valider de manière indépendante. LineRides s'inscrit dans un courant de travaux sur l'apprentissage par renforcement pour la locomotion agile, aux côtés de méthodes comme AMP (Adversarial Motion Priors) ou CALM, qui s'appuient sur des données de référence pour guider l'exploration. L'abandon explicite de ces références au profit de contraintes géométriques légères constitue le marqueur distinctif de l'approche. L'UMV reste une plateforme custom dont les caractéristiques exactes (masse, empattement, actionneurs) ne sont pas détaillées dans l'article, ce qui limite la comparaison directe avec d'autres travaux sur les robots à deux roues. Dans l'écosystème de la robotique agile, ETH Zurich, Stanford et le MIT progressent sur des plateformes quadrupèdes et aériennes, mais le champ des robots bicycles dynamiquement équilibrés reste peu peuplé, ce qui place LineRides en position de précurseur. Les étapes suivantes naturelles incluent une validation sur terrain non structuré, une extension à d'autres plateformes sous-actionnées, et une comparaison quantitative avec les méthodes de l'état de l'art.

RecherchePaper
1 source
Commutation de raideur par multistabilité
1434arXiv cs.RO 

Commutation de raideur par multistabilité

Des chercheurs ont présenté un métamatériau mécanique multistable capable de moduler sa rigidité par commutation discrète entre deux configurations stables. Publiés sur arXiv (réf. 2510.09511, version mise à jour en 2025), ces travaux décrivent une structure monolithique, réalisable par impression 3D, dont la rigidité effective en cisaillement peut être basculée d'un état à l'autre sans actionneur externe. Le mécanisme repose sur la rotation que les poutres de support transmettent à une poutre incurvée centrale, laquelle régit l'équilibre entre déformation en flexion et déformation axiale. En faisant varier l'élancement des poutres de support ou en intégrant des charnières localisées qui modulent ce transfert de rotation, les concepteurs peuvent ajuster le rapport de rigidité entre les deux états stables. Des prototypes imprimés en 3D ont validé les prédictions numériques et confirmé la répétabilité du basculement sur plusieurs géométries. L'équipe démontre également un embrayage souple monolithique exploitant cet effet pour obtenir une modulation par paliers de la rigidité. L'intérêt de cette approche tient à son architecture sans pièce discrète. Les solutions actuelles de rigidité variable (actionneurs à rigidité variable de type VSA, verrouillage par particules en pression, alliages à mémoire de forme) impliquent des sous-systèmes mécaniques ou électroniques qui alourdissent les robots, complexifient la commande et réduisent la fiabilité. Encoder la variation de rigidité directement dans la géométrie de la structure ouvre la voie à des préhenseurs souples ou des membres prosthétiques capables de passer d'un mode conforme à un mode rigide via une simple sollicitation mécanique. Le basculement est discret, ce qui garantit des états prévisibles et reproductibles, un atout direct pour la conception de contrôleurs. L'embrayage souple monolithique constitue une preuve de concept concrète, bien que les performances en cycle répété et sous charge réelle ne soient pas encore publiées dans ce préprint. Le domaine des métamatériaux mécaniques a connu une accélération notable ces cinq dernières années, portée par l'accessibilité croissante de l'impression 3D multi-matériaux. Les approches concurrentes incluent les structures auxétiques à rigidité variable, les métamatériaux inspirés de l'origami et les structures bistables à base d'élastomères. Ces travaux s'inscrivent dans un courant visant à remonter la complexité fonctionnelle depuis les actionneurs vers la structure elle-même, réduisant ainsi la chaîne de composants nécessaire à l'adaptation mécanique. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication; les suites naturelles concernent l'intégration dans des grippers de robotique souple et des structures intelligentes adaptatives pour le bâtiment ou les dispositifs médicaux.

RecherchePaper
1 source
Contrôle hybride intégrant la faisabilité pour la planification de mouvement sous logiques temporelles à signaux
1435arXiv cs.RO 

Contrôle hybride intégrant la faisabilité pour la planification de mouvement sous logiques temporelles à signaux

Une équipe de chercheurs publie sur arXiv (2605.03662v1) une méthode de planification hybride pour robots planaires opérant sous contraintes de Signal Temporal Logic (STL). L'approche introduit une variable discrète qui modélise la satisfaction locale des contraintes et permet une analyse de faisabilité à l'échelle locale, unifiant planification de tâches et synthèse de commande en une architecture unique. Des fonctions de barrière de contrôle (Control Barrier Functions, CBF) sont définies sur une version transformée en disque de l'espace de travail robotique, initialement non-convexe et géométriquement complexe, pour lever le problème des blocages (deadlocks) classiques dans ces formulations. Des simulations démontrent la gestion simultanée de plusieurs tâches spatio-temporelles superposées, y compris en présence de saturation des actionneurs. L'intérêt de cette contribution réside dans le couplage direct entre faisabilité locale et boucle de contrôle, plutôt qu'en post-traitement. Dans les architectures de Task and Motion Planning (TAMP) conventionnelles, le planificateur propose fréquemment des trajectoires irréalisables par le contrôleur bas niveau : intégrer l'analyse de faisabilité en amont réduit structurellement cet écart. La gestion de la saturation des actionneurs, contrainte réaliste rarement traitée dans les formulations STL existantes, renforce la crédibilité industrielle de l'approche pour des robots à ressources limitées. Les STL constituent depuis une dizaine d'années un cadre de spécification formelle prisé pour exprimer des contraintes temporisées du type "atteindre la zone A entre t=2s et t=5s", mais leur intégration avec des garanties de sûreté temps-réel reste un problème ouvert. Les CBF, popularisées notamment par les travaux d'Aaron Ames (Caltech), offrent de telles garanties mais peinent sur les espaces non-convexes ; la transformation géométrique en disque proposée ici adresse directement ce couplage. Les résultats restent pour l'instant limités à des simulations planaires 2D ; une validation sur plateforme physique constitue la prochaine étape naturelle.

RecherchePaper
1 source
Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples
1436arXiv cs.RO 

Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples

Des chercheurs ont publié en mai 2026 une étude préliminaire (arXiv:2605.03290) sur les effets de la randomisation de domaine sensible au risque appliquée au contrôle prédictif par échantillonnage (SPC) dans des tâches à contacts physiques denses. La randomisation de domaine (DR) consiste à entraîner un planificateur sur des variantes aléatoires des paramètres physiques, masse, friction, rigidité, pour le rendre robuste aux erreurs de modélisation. Très utilisée en apprentissage par renforcement, elle restait quasiment inexploriée dans le SPC, où la qualité des trajectoires simulées est particulièrement sensible à l'incertitude. Les auteurs comparent trois stratégies d'agrégation de rollouts sous instances de modèles randomisés : moyenne, optimiste (meilleur cas) et pessimiste (pire cas), sur la tâche Push-T, un benchmark de manipulation où un robot pousse un objet en T vers une pose cible. Les résultats révèlent un effet inattendu : la DR ne se contente pas d'améliorer la robustesse aux erreurs de modèle, elle modifie structurellement le paysage de coût perçu par l'optimiseur d'échantillonnage. Selon le profil de risque retenu, le bassin d'attraction autour des actions produisant des contacts physiques est reconfiguré différemment, ce qui influe directement sur la propension de l'optimiseur à explorer ou à éviter les configurations de contact. Pour des applications industrielles, assemblage, manipulation fine ou tri, où les contacts sont inévitables, ce couplage entre incertitude de modèle et stratégie de risque est critique : un mauvais calibrage peut rendre le SPC soit trop conservateur, soit instable face aux contacts non planifiés. La DR a été systématisée dans les simulateurs physiques comme Isaac Sim de NVIDIA et popularisée par les travaux d'OpenAI sur la manipulation dextre (projet Dactyl, 2019). Le SPC, notamment via l'algorithme MPPI (Model Predictive Path Integral), connaît un regain d'intérêt pour la robotique temps réel, en locomotion et manipulation. Cette étude constitue un premier jalon formel à l'intersection des deux approches, jusqu'ici traitées séparément. Elle s'inscrit dans un contexte plus large où les modèles VLA (Vision-Language-Action) et les approches sim-to-real de Google DeepMind ou Physical Intelligence (Pi-0) cherchent à réduire l'écart entre simulation et réalité. Les auteurs ne publient que des résultats initiaux sur une tâche simple et ne proposent pas encore de généralisation ni de calendrier applicatif, ce qui limite la portée immédiate mais ouvre un axe de recherche prometteur pour le contrôle robuste aux contacts.

RecherchePaper
1 source
LLMs pour le comportement de recherche dans les essaims de robots décentralisés
1437arXiv cs.RO 

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.01461) LLM-Foraging, un contrôleur décentralisé pour essaims de robots conçu pour la collecte de ressources. L'approche intègre un large modèle de langage (LLM) comme décideur tactique dans la machine d'états du CPFA (central-place foraging algorithm), à trois points précis : après un dépôt de ressource, à l'arrivée en zone centrale, et lors d'un blocage de recherche (search starvation). Chaque robot embarque son propre client LLM et l'interroge sur la base de ses seules observations locales, sans communication centralisée. Les tests ont été conduits dans le simulateur Gazebo avec des robots TurtleBot3 virtuels, sur 36 configurations couvrant des équipes de 4 à 10 robots, des arènes de 6x6 à 10x10 mètres et trois distributions de ressources (groupée, loi de puissance, aléatoire). LLM-Foraging surpasse la baseline CPFA optimisée par algorithme génétique sur l'ensemble des configurations testées, avec une consistance que les auteurs jugent supérieure. L'enjeu principal est l'absence de phase d'entraînement au déploiement. Un CPFA calibré par algorithme génétique produit des politiques figées sur une configuration donnée : tout changement de taille d'équipe, d'arène ou de distribution de ressources impose un recalcul coûteux. En substituant un LLM comme politique générale de décision, l'architecture se transfère à de nouvelles conditions sans ré-optimisation. Pour les intégrateurs de systèmes robotiques distribués, c'est une promesse de reconfigurabilité opérationnelle notable. Limite importante à retenir : l'évaluation reste entièrement en simulation, et le sim-to-real gap pour des décisions LLM dans des essaims physiques reste entièrement à démontrer. Le CPFA est un algorithme de référence en robotique d'essaim depuis les années 2010, inspiré des stratégies de fourragement des insectes sociaux. LLM-Foraging s'inscrit dans la tendance d'intégration des modèles fondationnels en robotique, aux côtés d'architectures vision-langage-action (VLA) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais appliquée pour la première fois aux essaims décentralisés, un domaine où les approches évolutionnaires et par apprentissage par renforcement dominaient sans alternative crédible. Aucun acteur européen n'est impliqué dans ces travaux académiques. Les prochaines étapes naturelles incluent la validation sur robots physiques, le passage à des essaims dépassant la dizaine d'unités, et l'évaluation dans des environnements dynamiques où les ressources se déplacent ou disparaissent.

RechercheActu
1 source
OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel
1438arXiv cs.RO 

OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel

Des chercheurs ont publié en avril 2026 sur arXiv (arXiv:2604.28197) les spécifications d'OmniRobotHome, une plateforme expérimentale résidentielle instrumentée avec 48 caméras RGB synchronisées au niveau matériel pour le suivi 3D temps réel, sans marqueurs, de plusieurs humains et objets simultanément. Le système est couplé à deux bras manipulateurs Franka, qui réagissent à l'état de la scène en temps réel dans un référentiel spatial partagé. La plateforme cible ce que les auteurs nomment la collaboration "multiadique" : plusieurs humains et robots qui partagent un même espace de travail domestique, agissent en parallèle sur des sous-tâches imbriquées avec des contraintes spatiales et temporelles serrées. Contrairement aux setups dyadiques classiques (un humain, un robot, une tâche), OmniRobotHome enregistre en continu pour constituer une mémoire comportementale long-horizon à partir des trajectoires accumulées. Le verrou technique que ce travail prétend lever est l'occlusion persistante : en environnement résidentiel réel, les interactions rapprochées entre humains, robots et objets génèrent des changements d'état rapides et des zones aveugles qui rendent le tracking 3D fiable en temps réel extrêmement difficile. Aucune plateforme existante ne combinait, selon les auteurs, la robustesse aux occlusions à l'échelle d'une pièce entière avec une actuation multi-robots coordonnée. Les deux problèmes ciblés, sécurité en environnement partagé et assistance robotique anticipatoire, montrent des gains mesurables grâce à la perception temps réel et à la mémoire comportementale accumulée, bien que les chiffres précis (taux de collision évités, latence, précision du suivi) ne soient pas détaillés dans l'abstract publié. Ce travail s'inscrit dans une tendance académique vers les plateformes de recherche domestique à grande échelle, aux côtés d'initiatives comme TidyBot (Stanford), HomeRobot (Meta/CMU) ou RoboCasa (UT Austin). L'utilisation de bras Franka, standard de facto en manipulation robotique, facilite la réplication dans d'autres laboratoires. En revanche, la nature preprint de la publication (pas encore soumise à évaluation par les pairs) et l'absence de métriques quantitatives publiées invitent à la prudence avant toute interprétation comme validation de terrain. La prochaine étape déterminante sera l'ouverture éventuelle du dataset ou du code : c'est ce qui distinguerait OmniRobotHome comme infrastructure de référence pour la communauté d'une contribution de laboratoire isolée.

RecherchePaper
1 source
Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels
1439arXiv cs.RO 

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

Des chercheurs ont publié sur arXiv (preprint 2604.26689) un protocole d'évaluation pour gouverner les mises à jour de compétences dans les politiques robotiques compositionnelles. Le problème concret : les bibliothèques de skills dans les systèmes déployés sont continuellement raffinées par fine-tuning, nouvelles démonstrations ou adaptation de domaine, mais les méthodes de composition existantes (BLADE, SymSkill, Generative Skill Chaining) supposent que la bibliothèque est figée au moment du test et ne caractérisent pas l'impact d'un remplacement de skill sur la composition globale. L'équipe introduit un protocole de swap cross-version par échantillonnage couplé (paired-sampling cross-version swap) sur les tâches de manipulation robosuite. Sur une tâche bimanuelle peg-in-hole, ils documentent un effet de skill dominant : un seul ECM (Elementary Composition Module) atteint 86,7 % de taux de succès atomique tandis que tous les autres restent sous 26,7 %, et la présence ou l'absence de cet ECM dominant dans une composition déplace le taux de succès de la composition jusqu'à +50 points de pourcentage. Ils testent également une tâche de pick où toutes les politiques saturent à 100 %, rendant l'effet indéfini, et couvrent au total 144 décisions de mise à jour de skill sur trois tâches. L'enseignement industriellement pertinent est que les métriques de distance comportementale hors-politique échouent à identifier l'ECM dominant, ce qui élimine le prédicteur bon marché le plus naturel pour un système de gouvernance en production. Pour pallier cela, les auteurs proposent une sonde de qualité atomique (atomic-quality probe) combinée à un Hybrid Selector : sur T6, la sonde atomique seule se situe 23 points sous la revalidation complète (64,6 % vs 87,5 % de correspondance oracle) à coût nul par décision ; le Hybrid Selector avec m=10 ramène cet écart à environ 12 points en mobilisant 46 % du coût d'une revalidation complète. Sur la moyenne inter-tâches des 144 événements, la sonde atomique seule reste à moins de 3 points de la revalidation complète, avec une réserve liée à l'oracle mixte. Pour les intégrateurs qui déploient des robots en production continue, ce résultat signifie qu'une stratégie de revalidation sélective peut préserver l'essentiel de la qualité compositionnelle à moitié coût, sans rejouer l'intégralité du test de composition à chaque mise à jour de skill. Ce travail s'inscrit dans un corpus académique croissant autour de la composition de politiques robotiques, domaine animé notamment par des méthodes comme Generative Skill Chaining et BLADE qui ont posé les bases du typed-composition mais sans mécanisme de gouvernance post-déploiement. Il n'existe à ce stade aucun déploiement industriel annoncé, ni partenariat OEM mentionné dans le preprint : il s'agit d'un résultat de recherche fondamentale évalué uniquement en simulation (robosuite). La portée pratique dépendra de la capacité à transférer ces résultats sur des stacks de policies VLA (Vision-Language-Action) plus récents, comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA, qui multiplient précisément les modules compositionnels mis à jour en continu. Les prochaines étapes naturelles seraient une validation sim-to-real et une intégration dans des pipelines de CI/CD pour robots, un problème d'ingénierie encore largement ouvert.

RecherchePaper
1 source
LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage
1440arXiv cs.RO 

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Des chercheurs ont publié LLM-Flax (arXiv 2604.26569v1), un framework en trois étapes conçu pour automatiser le déploiement de planificateurs de tâches neuro-symboliques sans expertise manuelle ni données d'entraînement. Le système prend en entrée uniquement un LLM hébergé localement et un fichier PDDL décrivant le domaine : l'étape 1 génère les règles de relaxation par prompting structuré avec auto-correction, l'étape 2 pilote la récupération sur échec via une politique de budget de latence, et l'étape 3 remplace entièrement le réseau GNN par un scoring d'objets zero-shot. Évalué sur le benchmark MazeNamo en grilles 10x10, 12x12 et 15x15 (8 benchmarks au total), LLM-Flax atteint un taux de succès moyen de 0,945 contre 0,828 pour la baseline manuelle, soit un gain de +0,117. Sur la configuration 12x12 Expert, où le planificateur manuel échoue complètement (SR 0,000), LLM-Flax atteint SR 0,733 ; sur 15x15 Hard, il obtient SR 1,000 contre 0,900 pour l'approche de référence. Le principal verrou adressé est le coût de transfert de domaine : adapter un planificateur symbolique à une nouvelle cellule robotique mobilise aujourd'hui des centaines de problèmes d'entraînement et l'intervention d'un expert métier, ce qui rend le déploiement à l'échelle industrielle prohibitif. La politique de budget de latence de l'étape 2, qui réserve explicitement une enveloppe d'appels LLM avant chaque séquence de récupération sur échec, adresse un problème pratique rarement traité dans la littérature : les boucles de fallback infinies qui paralysent les systèmes en production. L'étape 3 démontre la faisabilité du zero-shot avec SR 0,720 sur 12x12 Hard sans aucune donnée d'entraînement, mais bute sur la fenêtre de contexte à grande échelle, que les auteurs identifient eux-mêmes comme le principal défi ouvert. LLM-Flax s'inscrit dans la lignée des travaux combinant PDDL et LLMs pour la robotique, après SayCan (Google, 2022), Code as Policies (Google DeepMind) et ProgPrompt. Cette approche neuro-symbolique reste distinctement différente des architectures VLA end-to-end comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) : elle préserve un module de raisonnement explicite et auditable, ce qui peut constituer un avantage dans les environnements industriels certifiables. Le benchmark MazeNamo demeure un environnement de navigation 2D simplifié, éloigné des scénarios de manipulation réels ; aucun déploiement terrain n'est annoncé à ce stade, et les auteurs indiquent l'extension à des environnements multi-objets complexes comme prochaine étape.

RecherchePaper
1 source
Scensory : perception olfactive robotique en temps réel pour l'identification conjointe et la localisation de source
1441arXiv cs.RO 

Scensory : perception olfactive robotique en temps réel pour l'identification conjointe et la localisation de source

Des chercheurs ont publié sur arXiv (référence 2509.19318, version révisée en 2026) un système baptisé Scensory, conçu pour doter les robots d'une capacité olfactive temps réel appliquée à la détection de contaminations fongiques en intérieur. Le framework repose sur des réseaux de capteurs VOC (composés organiques volatils) bon marché et à sensibilité croisée, couplés à des réseaux de neurones capables d'analyser de courtes séries temporelles de 3 à 7 secondes. Sur un panel de cinq espèces fongiques testées en conditions ambiantes, Scensory atteint 89,85 % de précision pour l'identification de l'espèce et 87,31 % pour la localisation de la source. Les deux tâches sont résolues simultanément, à partir d'un même flux de données capteurs. Ce résultat est techniquement significatif parce que les signaux chimiques en diffusion libre sont particulièrement difficiles à exploiter : contrairement à la vision ou au toucher, où le signal est directionnel et localisé, les panaches olfactifs se dispersent de manière stochastique selon les flux d'air ambiants. Que des capteurs VOC grand public, combinés à un apprentissage supervisé sur données collectées automatiquement par le robot, permettent de relier dynamique temporelle du signal et position spatiale de la source change l'équation économique du nez électronique embarqué. Jusqu'ici, la perception chimique robotique supposait soit des capteurs spécialisés coûteux, soit des conditions contrôlées de laboratoire. Scensory suggère qu'une approche data-driven sur matériel accessible peut combler une partie de ce fossé. Le domaine de l'olfaction robotique reste nettement en retard sur la vision et la manipulation, malgré des travaux académiques réguliers depuis les années 2000 sur les nez électroniques (e-nose) et la navigation par gradient chimique. Les applications visées par Scensory, inspection de bâtiments, monitoring environnemental indoor, contrôle qualité alimentaire, n'ont pas encore de solution robotique commerciale établie. Le papier reste un résultat académique sur arXiv sans déploiement annoncé ni partenaire industriel identifié ; les performances reportées devront être validées sur un spectre élargi d'espèces, de conditions d'humidité et de géométries de pièce avant d'envisager une intégration produit.

RecherchePaper
1 source
Impédance variable passive pour le contrôle partagé
1442arXiv cs.RO 

Impédance variable passive pour le contrôle partagé

Des chercheurs ont publié un nouveau travail, référencé arXiv:2604.20557, portant sur la stabilisation des systèmes de contrôle partagé en robotique. L'approche proposée s'attaque à un problème précis : lorsqu'un bras robotique est guidé simultanément vers plusieurs objectifs de position avec des priorités variables, les forces générées par chaque objectif doivent être combinées de façon cohérente. Les auteurs reformulent ce problème dans un cadre unifié, couvrant à la fois le contrôle d'impédance à raideur variable et l'arbitrage entre plusieurs contrôleurs par sommation pondérée de leurs sorties en couple et en force. Le cœur de la contribution réside dans l'identification de violations de passivité dans le système en boucle fermée, un phénomène qui peut rendre le système instable lorsque les gains de raideur ou les pondérations changent au fil du temps. La passivité est une propriété physique fondamentale garantissant qu'un système ne génère pas d'énergie de lui-même, condition nécessaire à la stabilité dans les interactions physiques homme-robot. Les méthodes proposées corrigent ces violations sans imposer de contraintes sur la forme des matrices de raideur : celles-ci peuvent inclure des termes hors diagonale et évoluer arbitrairement dans le temps, ce qui offre une flexibilité inédite pour concevoir des comportements de guidage complexes et adaptatifs. Les expériences menées en simulation et sur des robots réels sur plusieurs plateformes confirment l'efficacité de l'approche. Le contrôle partagé, qui consiste à partager la commande d'un robot entre une intention humaine et une assistance automatique, est un enjeu central en robotique collaborative, en assistance médicale et en téléopération. Les approches actuelles peinent à combiner robustesse et flexibilité dès que le contexte évolue dynamiquement. En proposant un cadre générique qui stabilise les contrôleurs d'impédance standards tout en autorisant des arbitrages fluides entre plusieurs objectifs concurrents, ce travail ouvre la voie à des assistants robotiques capables de s'adapter en temps réel aux besoins de l'utilisateur sans compromettre la sécurité de l'interaction physique.

RechercheOpinion
1 source
CubeDAgger : apprentissage par imitation interactif pour systèmes dynamiques, avec une interaction efficace et à faible risque
1443arXiv cs.RO 

CubeDAgger : apprentissage par imitation interactif pour systèmes dynamiques, avec une interaction efficace et à faible risque

Des chercheurs ont publié CubeDAgger, une nouvelle méthode d'apprentissage par imitation interactive conçue pour les systèmes robotiques dynamiques. Présentée dans un article soumis à arXiv (identifiant 2505.04897), elle s'appuie sur un cadre existant appelé EnsembleDAgger et y apporte trois améliorations distinctes : une régularisation explicite du seuil de déclenchement des corrections humaines, un mécanisme de consensus entre plusieurs candidats d'action en lieu et place du simple basculement entre expert et agent, et enfin l'injection d'un bruit coloré autorégressif dans les actions du robot pour garantir une exploration cohérente dans le temps. Les expériences réelles ont été conduites sur une tâche de ramassage avec une cuillère, un robot apprenant à exécuter ce geste correctement à partir de zéro en seulement 30 minutes d'interaction avec un expert humain. L'enjeu central que CubeDAgger cherche à résoudre est la stabilité dynamique, un problème négligé par la majorité des méthodes actuelles. Les algorithmes d'apprentissage par imitation interactive existants fonctionnent bien pour des tâches statiques, où l'expert peut intervenir ponctuellement sans perturber le comportement du robot. Mais dès que la tâche implique du mouvement continu, ramasser un objet, stabiliser une trajectoire, un basculement brutal entre le mode expert et le mode autonome provoque des à-coups mécaniques qui compromettent la sécurité et la fiabilité. CubeDAgger réduit ces discontinuités, ce qui le rend pertinent pour des applications industrielles ou médicales où la précision du geste est critique. L'apprentissage par imitation interactive, dont DAgger est le pionnier depuis 2011, reste une approche de référence pour entraîner des politiques robotiques robustes sans nécessiter des millions d'exemples. Le défi a toujours été de minimiser la charge imposée à l'expert humain tout en conservant la qualité de l'apprentissage. Les variantes récentes comme EnsembleDAgger avaient progressé sur ce point, mais butaient sur les tâches dynamiques. CubeDAgger s'inscrit dans une tendance plus large visant à rendre la robotique apprenante opérationnelle en dehors des environnements contrôlés de laboratoire, avec des horizons d'application dans la logistique, la chirurgie assistée, ou encore les robots d'assistance domestique.

RechercheOpinion
1 source
Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms
1444arXiv cs.RO 

Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms

Des chercheurs ont publié sur arXiv (arXiv:2504.16509) une architecture transformer entraînée par apprentissage par renforcement, spécifiquement l'algorithme PPO (Proximal Policy Optimization), pour élaguer dynamiquement les graphes de planification utilisés dans les algorithmes d'exploration robotique. Le système cible les graphes RRT (Rapidly Exploring Random Trees) employés dans l'exploration par frontières, une méthode classique où un robot identifie les limites entre zones cartographiées et inconnues pour piloter sa navigation. En simulation, le framework réduit la taille des graphes jusqu'à 96 % sans intervention humaine, en prenant des décisions de suppression de nœuds en temps réel pendant que le robot explore son environnement. L'intérêt opérationnel est direct : dans les systèmes d'exploration autonome longue durée, entrepôts, sites industriels, bâtiments en intervention d'urgence, les graphes de planification grossissent de façon non bornée et dégradent les performances au fil du temps, forçant soit des redémarrages, soit des architectures mémoire coûteuses. Ici, la politique apprise parvient à associer des décisions locales d'élagage à des résultats d'exploration globaux malgré un signal de récompense rare et retardé, ce qui constitue le résultat le plus difficile à obtenir en RL appliqué à la planification. En contrepartie, le taux d'exploration moyen est légèrement inférieur aux baselines non élagués, mais l'écart-type de couverture est le plus bas observé : le robot explore moins vite, mais de façon nettement plus prévisible d'un environnement à l'autre, un critère souvent plus pertinent en déploiement industriel que la vitesse brute. La sparsification de graphes dynamiques est un problème connu en SLAM et planification de mouvement, traditionnellement traité par des heuristiques géométriques ou des seuils fixes. Appliquer du RL à cette couche basse de la pile robotique est, selon les auteurs, une première. Le travail reste à ce stade une preuve de concept en simulation, sans validation sur hardware réel ni comparaison avec des systèmes commerciaux comme les AMR de MiR, Fetch Robotics ou Exotec. Les prochaines étapes naturelles seraient un transfert sim-to-real et une évaluation sur des graphes issus de LiDAR 3D, contexte dans lequel la croissance exponentielle des graphes est particulièrement problématique.

RecherchePaper
1 source
Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants
1445arXiv cs.RO 

Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants

Une équipe de chercheurs a publié sur arXiv (ref. 2504.16670) un cadre d'optimisation par diffusion pour résoudre le problème du temps minimum de déplacement sur un robot à double bras redondant. L'objectif est de minimiser le temps nécessaire pour qu'une configuration dual-arm suive un chemin cartésien relatif défini, tout en respectant les contraintes articulaires et l'erreur cartésienne. Les résultats annoncés sont significatifs : réduction de 35x du temps de calcul et diminution de 34 % de l'erreur cartésienne par rapport à la méthode précédente des mêmes auteurs, qui reposait sur une approche bi-niveaux avec résolution primal-dual. Ce gain de performance est important pour la robotique industrielle collaborative, où les bras doubles, typiquement utilisés en assemblage, en manipulation d'objets encombrants ou en chirurgie assistée, doivent exécuter des trajectoires précises dans des temps de cycle serrés. La méthode antérieure, basée sur le gradient, souffrait de deux limitations structurelles : une charge de calcul élevée rendant la planification en quasi-temps-réel difficile, et une incapacité à imposer directement une contrainte d'erreur cartésienne en norme infinie (L∞) le long de la trajectoire, en raison de la sparsité du gradient. Le passage à un échantillonnage probabiliste via un algorithme de diffusion permet de contourner ces deux problèmes simultanément, ce qui constitue une avancée méthodologique réelle, même si les benchmarks restent pour l'instant sur simulation. Le contexte est celui de l'essor des planificateurs de mouvement basés sur l'apprentissage et les méthodes probabilistes pour les robots à haute redondance cinématique. Les approches par diffusion, popularisées dans la génération d'images puis étendues à la robotique via des travaux comme pi0 (Physical Intelligence) ou des planificateurs de trajectoire neuronaux, gagnent du terrain face aux solveurs classiques (CHOMP, TrajOpt) sur des critères de vitesse et de généralisation. Ce travail s'inscrit dans cette tendance en restant ancré dans un cadre d'optimisation formelle (contrôle optimal), ce qui lui confère une interprétabilité que les approches purement end-to-end n'offrent pas encore. La prochaine étape naturelle serait une validation sur hardware physique avec contraintes temps-réel.

RecherchePaper
1 source
Greedy Kalman-Swarm : amélioration de l'estimation d'état dans les essaims de robots en environnements difficiles
1446arXiv cs.RO 

Greedy Kalman-Swarm : amélioration de l'estimation d'état dans les essaims de robots en environnements difficiles

Des chercheurs ont publié sur arXiv (référence 2604.16868) une méthode de filtrage de Kalman distribué baptisée "Greedy Kalman-Swarm", conçue pour améliorer l'estimation d'état dans les essaims de robots opérant en environnements dégradés. Le principe : chaque robot intègre, à chaque itération, l'ensemble des données de voisinage disponibles au moment précis du calcul, sans attendre une synchronisation globale. Contrairement aux approches classiques qui requièrent soit un nœud centralisateur, soit des protocoles de communication lourds pour atteindre un consensus collectif, cette méthode fonctionne de façon purement locale. Les simulations menées dans des environnements à connectivité contrainte montrent que le système reste fonctionnel même en cas de perte partielle de données entre agents, tout en maintenant une précision supérieure à celle d'un filtre de Kalman purement individuel. L'enjeu industriel est réel pour les déploiements multi-robots en milieu non structuré. La plupart des architectures d'essaim actuelles butent sur un compromis difficile : la précision collective nécessite soit une infrastructure de communication fiable et à large bande passante, soit une unité centrale de fusion de données, deux hypothèses rarement tenables sur le terrain. Le Greedy Kalman-Swarm démontre qu'une cohésion globale peut émerger de comportements locaux greedy, sans consensus explicitement imposé. C'est un résultat qui contredit l'intuition dominante selon laquelle la précision collective exige de la coordination synchrone, et qui ouvre la voie à des essaims véritablement autonomes dans des conditions adverses, sans dépendance à une infrastructure fixe. Le filtrage de Kalman est une brique fondamentale de l'estimation d'état en robotique depuis les années 1960, et son extension aux systèmes multi-agents fait l'objet de travaux actifs depuis au moins deux décennies. Les approches distribuées existantes, comme le Kalman consensus filter ou les variantes à diffusion de données, supposent généralement une topologie de communication stable ou des échanges périodiques complets. Greedy Kalman-Swarm se positionne comme une alternative légère, scalable et tolérante aux pannes. Les auteurs ciblent explicitement deux applications : la recherche et le sauvetage (search-and-rescue) en milieu sinistré, et l'exploration spatiale, deux domaines où la fiabilité des liaisons radio ne peut être garantie. Le code n'est pas encore publié et les résultats restent pour l'instant au stade de la simulation, ce qui appelle une validation sur matériel réel avant tout déploiement opérationnel.

RecherchePaper
1 source
IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions
1447arXiv cs.RO 

IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17810) un travail portant sur la question-réponse incarnée multi-agents (MA-EQA), un paradigme où plusieurs robots coopèrent pour répondre à des requêtes sur ce qu'ils ont collectivement observé sur un horizon temporel long. Le problème central est l'allocation de puissance de transmission entre agents : quand les ressources radio sont limitées, quels robots doivent avoir la priorité pour transmettre leurs souvenirs ? Les auteurs proposent deux contributions : un modèle de qualité de mémoire (QoM) basé sur un examen génératif adversarial (GAE), et un algorithme d'allocation de puissance centré sur la mémoire (MCPA). Le GAE fonctionne par simulation prospective : il génère des questions-tests, évalue la capacité de chaque agent à y répondre correctement à partir de sa mémoire locale, puis convertit les scores obtenus en valeurs QoM. Le MCPA maximise ensuite la fonction QoM globale sous contraintes de ressources de communication. L'analyse asymptotique montre que la puissance allouée à chaque robot est proportionnelle à sa probabilité d'erreur GAE, ce qui revient à prioriser les agents dont la mémoire est la plus riche et la plus fiable. L'intérêt concret pour les architectes de systèmes multi-robots est de déplacer le critère d'optimisation réseau des métriques classiques (débit, latence, taux d'erreur paquet) vers une métrique applicative directement liée à la tâche cognitive. Dans les déploiements d'inspection industrielle, de surveillance ou d'exploration, les robots ne transmettent pas pour transmettre : ils transmettent pour que le système réponde correctement à des requêtes. Traiter la qualité de mémoire comme une ressource à optimiser, au même titre que la bande passante, est une rupture de cadre qui pourrait influencer la conception des protocoles MAC dans les flottes d'agents embarqués. Les expériences montrent des gains significatifs sur plusieurs benchmarks et scénarios, bien que les conditions exactes de déploiement (nombre d'agents, topologie réseau, type de mémoire) ne soient pas détaillées dans le résumé. Ce travail s'inscrit dans la convergence entre vision-langage-action (VLA), robotique incarnée et gestion des ressources sans-fil, un champ en forte expansion depuis 2023 avec les architectures de type RT-2 (Google DeepMind), GR00T (NVIDIA) et les travaux sur les mémoires épisodiques longue durée pour robots mobiles. Sur le plan académique, le GAE adversarial rappelle les techniques d'évaluation automatique utilisées dans les LLM, ici transposées à l'évaluation de mémoire sensorimotrice. Les prochaines étapes logiques seraient une validation sur flotte physique réelle et une intégration avec des architectures mémoire de type VectorDB embarqué. Aucun acteur industriel ni partenaire de déploiement n'est mentionné dans la publication.

RecherchePaper
1 source
Incertitude, flou et ambiguïté dans l'interaction humain-robot : pourquoi la conceptualisation est essentielle
1448arXiv cs.RO 

Incertitude, flou et ambiguïté dans l'interaction humain-robot : pourquoi la conceptualisation est essentielle

Une équipe de chercheurs a soumis fin avril 2026 sur arXiv (référence 2604.15339) un article proposant un cadre conceptuel unifié pour trois notions centrales de l'interaction humain-robot : l'incertitude, le flou et l'ambiguïté. Le constat de départ est empirique : dans la littérature HRI, ces trois termes sont régulièrement définis de manière contradictoire d'une étude à l'autre, voire utilisés comme synonymes. Les auteurs partent des définitions lexicographiques, analysent les distinctions et les relations entre ces concepts dans le contexte spécifique du HRI, illustrent chaque notion par des exemples concrets, puis démontrent comment ce socle cohérent permet de concevoir de nouvelles méthodes et d'évaluer les méthodologies existantes avec plus de rigueur. L'enjeu n'est pas seulement terminologique. Quand deux équipes utilisent le mot "ambiguïté" pour désigner des phénomènes différents, leurs résultats expérimentaux deviennent non comparables, et la capitalisation théorique du domaine ralentit. Pour un intégrateur ou un concepteur de systèmes robotiques interactifs, cette confusion a des conséquences pratiques : les métriques d'évaluation divergent, les benchmarks perdent leur valeur de référence, et le transfert de résultats de laboratoire vers des déploiements réels est fragilisé. En établissant des frontières claires entre ces trois concepts, le papier prépare le terrain pour des protocoles d'évaluation reproductibles et des méta-analyses plus robustes, deux prérequis pour une maturation industrielle du HRI. Ce travail s'inscrit dans un mouvement plus large de structuration académique du HRI, discipline jeune à l'intersection de la robotique, des sciences cognitives et de la linguistique. Le problème de l'incohérence terminologique y est identifié depuis plusieurs années, notamment dans des travaux sur la communication intentionnelle et la résolution de références entre humains et robots. Les auteurs ne proposent pas ici un nouveau système technique mais une infrastructure conceptuelle, ce qui est typiquement le type de contribution qui précède une normalisation de fait dans un domaine. Les prochaines étapes naturelles seraient l'adoption de ce cadre dans des conférences de référence comme HRI, RO-MAN ou HRI Workshop de l'IEEE, et son intégration dans des protocoles d'évaluation standardisés pour les assistants robotiques en environnement industriel ou de service.

RecherchePaper
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
1449arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source
Localisation par angle et contrôle de rigidité pour réseaux multi-robots
1450arXiv cs.RO 

Localisation par angle et contrôle de rigidité pour réseaux multi-robots

Des chercheurs ont publié sur arXiv (référence 2604.11754v2) une contribution théorique et algorithmique portant sur la localisation par mesures d'angles et le maintien de rigidité dans les réseaux multi-robots, en 2D et en 3D. Le résultat central établit une équivalence formelle entre rigidité angulaire et rigidité de type "bearing" (orientation relative) pour des graphes de détection dirigés avec mesures en référentiel embarqué : un système dans SE(d) est infinitésimalement rigide au sens bearing si et seulement s'il est infinitésimalement rigide au sens angulaire et que chaque robot acquiert au moins d-1 mesures de bearing (d valant 2 ou 3). À partir de cette base, les auteurs proposent un schéma de localisation distribué et démontrent sa stabilité exponentielle locale sous des topologies de détection commutantes, avec comme seule hypothèse la rigidité angulaire infinitésimale sur l'ensemble des topologies visitées. Une nouvelle métrique, la valeur propre de rigidité angulaire, est introduite pour quantifier le degré de rigidité du réseau, et un contrôleur décentralisé par gradient est proposé pour maintenir cette rigidité tout en exécutant des commandes de mission. Les résultats sont validés par simulation. L'intérêt pratique de ce travail réside dans le choix des mesures angulaires plutôt que des distances ou des orientations absolues : les angles entre vecteurs de direction peuvent être extraits directement depuis des caméras embarquées à bas coût, sans capteur de distance actif ni accès GPS. Pour les intégrateurs de systèmes multi-robots, notamment en essaims de drones ou en robotique entrepôt avec coordination décentralisée, la robustesse sous topologies commutantes est critique, car les lignes de vue entre agents changent constamment. Le contrôleur proposé adresse ce problème en maintenant activement une configuration spatiale suffisamment rigide pour garantir l'observabilité du réseau, ce qui évite les dégradations silencieuses de localisation que l'on observe dans les déploiements réels. C'est une avancée sur le problème dit du "rigidity maintenance", encore peu traité dans la littérature avec des garanties formelles en 3D. La rigidité de réseau comme fondation pour la localisation distribuée est un domaine actif depuis les travaux fondateurs sur la formation control et les frameworks d'Henneberg dans les années 2010. Les approches concurrentes incluent la localisation par distances (nécessitant UWB ou radar), par bearings seuls (plus sensible aux ambiguïtés), ou par fusion IMU/SLAM embarqué par robot, chacune avec ses propres hypothèses de connectivité et de coût matériel. Ce papier se positionne dans le créneau "caméra seule, pas de métadonnées globales", pertinent pour les petits drones ou les robots à budget capteur contraint. Aucun déploiement ni partenaire industriel n'est mentionné, il s'agit d'une contribution académique pure. Les suites naturelles incluraient une validation sur plateforme physique (type Crazyflie ou quadrupèdes en formation) et l'extension aux perturbations de mesures bruitées en environnement non contrôlé.

RecherchePaper
1 source