Aller au contenu principal

Recherche — page 7

1654 articles · page 7 sur 34

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

DynaHMRC : collaboration décentralisée de robots hétérogènes pour des tâches dynamiques via les grands modèles de langage
301arXiv cs.RO RecherchePaper

DynaHMRC : collaboration décentralisée de robots hétérogènes pour des tâches dynamiques via les grands modèles de langage

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.14882) DynaHMRC, un cadre décentralisé de coordination multi-robots hétérogènes piloté par des grands modèles de langage (LLM). Contrairement aux architectures classiques à planificateur central, DynaHMRC attribue à chaque robot un agent LLM individuel, dit "role-aware", qui orchestre la collaboration en quatre étapes en boucle fermée : auto-description des capacités, allocation des tâches par enchères de leadership, élection d'un robot chef, puis exécution réflexive avec retour d'état. Le système repose sur des interfaces exécutables standardisées permettant aux robots de types différents (bras, véhicules, drones) de coopérer sans schéma de communication rigide. Pour l'évaluation, les auteurs ont construit un benchmark couvrant trois familles de tâches, quatre variations dynamiques (perturbations en cours d'exécution, changements d'objectifs, pannes de robots) et six configurations d'équipes. Les résultats annoncés montrent des taux de succès supérieurs aux baselines existantes, avec moins d'actions et moins d'échanges de messages entre agents. L'intérêt principal de cette approche est d'attaquer le goulot d'étranglement du contexte long : un planificateur LLM centralisé qui gère dix robots simultanément doit traiter un contexte proportionnel à la taille de l'équipe, ce qui dégrade la qualité du raisonnement. En distribuant la charge cognitive, DynaHMRC conserve des contextes locaux courts et maintient des performances cohérentes lorsque la taille de l'équipe augmente, au moins dans les configurations testées. L'article propose aussi une méthodologie pour constituer des jeux de données domaine-spécifiques et affiner des LLM open-source, réduisant la dépendance aux modèles propriétaires coûteux pour des tâches robotiques spécialisées. Il faut toutefois cadrer ces résultats : tout se passe en simulation, sans déploiement terrain rapporté. Le domaine des architectures multi-agents LLM pour la robotique est très actif, avec des approches concurrentes comme SAMA, CoELA ou les frameworks basés sur GPT-4o pour la planification hiérarchique. La contribution de DynaHMRC est architecturale plutôt que matérielle, et sa valeur réelle dépendra de sa tenue face au sim-to-real gap, une limite que les auteurs n'adressent pas encore.

1 source
LOPAL : apprentissage actif local sensible aux performances à partir de démonstrations imparfaites
302arXiv cs.RO 

LOPAL : apprentissage actif local sensible aux performances à partir de démonstrations imparfaites

Des chercheurs ont publié sur arXiv (référence 2606.16888) une méthode baptisée LOPAL (Local Performance-Aware Active Learning), conçue pour améliorer l'apprentissage par démonstration robotique en tenant compte de la qualité variable à l'intérieur même d'une démonstration humaine. L'approche repose sur deux composants complémentaires : d'abord, un modèle de mélange de gaussiennes (GMM) qui encode simultanément les trajectoires démontrées et une évaluation locale de leur qualité, permettant de générer des trajectoires qui sélectionnent et combinent les meilleures portions de chaque démonstration imparfaite ; ensuite, un mécanisme d'acquisition active de données qui identifie les zones où les données de qualité font défaut et sollicite l'opérateur humain pour fournir des corrections via un système d'autonomie partagée, pendant que le robot continue d'exécuter le comportement appris de façon autonome. Validée sur une tâche réelle d'inspection de tuyauterie, LOPAL atteint une amélioration de 27,31 % des performances par rapport aux démonstrations initiales, tout en réduisant l'effort de collecte de données. L'intérêt industriel de cette approche est tangible pour les intégrateurs et les responsables de production qui déploient des robots sur des tâches répétitives à variation fine. Le verrou que LOPAL cherche à lever est bien connu : les humains sont des démonstrateurs incohérents, et les méthodes classiques de LfD (imitation directe, GAIL, etc.) traitent chaque démonstration comme globalement bonne ou mauvaise. En exploitant la granularité locale, le système peut extraire de la valeur même de gestes imparfaits, ce qui réduit le nombre de démos nécessaires et accélère la mise en service. Le mécanisme d'autonomie partagée est particulièrement pertinent pour les environnements industriels où l'opérateur peut intervenir ponctuellement sans reprendre le contrôle total. L'apprentissage par démonstration est un domaine actif depuis plus d'une décennie, avec des approches comme DMP (Dynamic Movement Primitives), ProDMP, ou plus récemment les politiques de diffusion (Diffusion Policy) et les VLA (Vision-Language-Action models). LOPAL s'inscrit dans la lignée des méthodes basées sur les GMM, popularisées notamment par les travaux de l'EPFL et de l'IIT, mais en y ajoutant une couche d'apprentissage actif et de correction en ligne. Le papier reste au stade académique (pas de déploiement industriel annoncé), et les résultats sur la tâche d'inspection de pipes, bien que convaincants, portent sur un environnement contrôlé. Les prochaines étapes naturelles concernent la généralisation à des tâches multi-contact et la robustesse face à des perturbations environnementales non anticipées.

RecherchePaper
1 source
FlowMPC : amélioration des politiques de correspondance de flux avec des modèles du monde
303arXiv cs.RO 

FlowMPC : amélioration des politiques de correspondance de flux avec des modèles du monde

Un préprint publié sur arXiv en juin 2026 (arXiv:2606.16286) présente FlowMPC, un cadre expérimental qui combine une politique d'imitation par Flow Matching (FM) avec un modèle de monde appris, pour améliorer les performances à l'inférence sans modifier l'entraînement initial. Le framework s'appuie sur TD-MPC2 (Hansen et al., 2024) et recourt à la planification Model Predictive Path Integral (MPPI) pour évaluer des séquences d'actions candidates générées par la politique FM à chaque pas de décision. Les expériences sont conduites sur le benchmark de manipulation ManiSkill (Tao et al., 2025), sur deux tâches : PickCube et PickSingleYCB. Dans les deux cas, l'ajout du modèle de monde améliore les performances par rapport à la politique FM seule, avec des gains particulièrement nets sur le taux de succès en fin d'épisode, l'indicateur le plus exigeant de ces benchmarks. Ce résultat illustre une tendance croissante en robotique apprise : augmenter les politiques d'imitation par du raisonnement prospectif au moment de l'inférence, sans retraining coûteux. Flow Matching est une approche récente pour les espaces d'action multimodaux, typiques des tâches de manipulation, mais elle n'est pas conçue pour maximiser directement un retour cumulatif. FlowMPC comble ce déficit en couplant le FM à un modèle de monde : la politique génère des actions candidates, le planificateur MPPI les filtre selon leur valeur estimée. Ce découplage entraînement/test ouvre une voie pragmatique pour les intégrateurs robotiques, car il permet d'améliorer des politiques déployées sans relancer des pipelines d'entraînement lourds. Ce travail s'inscrit dans un paysage de recherche dense où plusieurs approches cherchent à marier imitation et planification. TD-MPC2, sur lequel FlowMPC s'appuie directement, est une référence établie pour l'apprentissage par renforcement basé sur des modèles. Signé d'un seul auteur et non encore soumis à revue par les pairs, ce preprint reste à un stade préliminaire : les tests se limitent à deux tâches simulées, sans évaluation sur robot physique ni comparaison avec des politiques concurrentes majeures telles que Pi-0 (Physical Intelligence) ou les diffusion policies (Chi et al., 2023). La prochaine étape naturelle serait de valider le transfert sim-to-real et de tester sur des benchmarks de manipulation plus complexes, comme l'assemblage de pièces ou la manipulation d'objets déformables.

RecherchePaper
1 source
Interface cerveau-robot en réalité augmentée pour la manipulation généraliste de bras robotique
304arXiv cs.RO 

Interface cerveau-robot en réalité augmentée pour la manipulation généraliste de bras robotique

Des chercheurs ont déposé sur arXiv (identifiant 2606.16413) un système baptisé AR BRI, pour "Augmented Reality Brain-Robot Interface", permettant à un utilisateur de contrôler un bras robotique via un casque de réalité augmentée couplé à une interface cerveau-machine EEG. Le contrôle repose sur deux modalités complémentaires : le suivi oculaire (eye-tracking) pour désigner l'objet cible dans la scène, et l'imagerie motrice (l'utilisateur imagine un geste physique, ce qui génère un signal EEG détectable) pour déclencher l'action. Des overlays visuels contextuels "Place" et "Use" guident l'utilisateur étape par étape dans un cadre de co-autonomie, où le robot prend en charge l'exécution bas-niveau tandis que l'humain conserve l'intentionnalité. Une étude de faisabilité avec 18 participants sains a couvert trois séquences d'activités quotidiennes : boire, ouvrir un tiroir et utiliser un four. Le score SUS (System Usability Scale) obtenu dépasse 70, seuil qualifié de "Good" selon la classification standard. Ce résultat est notable non pour sa performance brute, mais pour la démonstration d'un paradigme généraliste. Les systèmes BCI-robot existants sont typiquement conçus pour une tâche unique et fixe ; ici, la combinaison eye-tracking et imagerie motrice avec overlays AR permet d'enchaîner plusieurs tâches séquentielles sans reconfiguration du système. Pour les intégrateurs spécialisés en assistance robotique, cela représente un pas vers des interfaces plus flexibles, réduisant potentiellement le coût de développement par cas d'usage. Il faut néanmoins nuancer : l'évaluation ne porte que sur des participants sains, pas sur la population cible (personnes atteintes de handicap moteur), ce qui laisse entière la question centrale des performances en conditions réelles. Le projet s'inscrit dans la tendance des BCI non-invasives pour la commande robotique, par opposition aux approches implantées comme Neuralink ou BrainGate, qui obtiennent de meilleures performances sur des cohortes beaucoup plus restreintes. Les auteurs annoncent des évaluations futures avec la population concernée, notamment des personnes atteintes de SLA ou de lésions médullaires. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné : il s'agit d'un prototype de recherche académique au stade de preuve de concept, documenté sur ar-bri-manip.github.io.

RecherchePaper
1 source
C-3TO : optimisation continue de trajectoires 3D sur champs de distances euclidiennes signées neuronaux
305arXiv cs.RO 

C-3TO : optimisation continue de trajectoires 3D sur champs de distances euclidiennes signées neuronaux

Une équipe de recherche a publié sur arXiv (identifiant 2509.20084v2) un framework de planification de trajectoires 3D baptisé C-3TO (Continuous 3D Trajectory Optimization), ciblant la navigation autonome de drones en environnements encombrés. Le coeur du système repose sur un champ de distance signée euclidien (ESDF) neuronal mis à jour en temps réel, sur lequel les trajectoires sont optimisées de façon continue plutôt que sur une grille discrétisée. Celles-ci sont paramétrées par des polynômes de cinquième ordre, ce qui garantit la continuité des dérivées jusqu'à l'accélération et au-delà. L'optimisation s'effectue en deux étapes non linéaires successives qui mettent en balance efficacité computationnelle, sécurité vis-à-vis des obstacles et régularité du mouvement. Les expériences menées démontrent que le système génère des trajectoires à la fois collision-free et dynamiquement faisables. L'intérêt de cette approche tient à un point précis : les méthodes classiques construisent des ESDFs discrètes et interpolent entre les voxels pour obtenir les gradients, ce qui introduit des erreurs numériques lors de l'optimisation. En travaillant directement sur une représentation neuronale continue, C-3TO dispose de gradients exacts sur l'intégralité du chemin, pas seulement aux noeuds d'une grille. Pour les systèmes de replanification locale embarquée sur drone, cela réduit potentiellement le risque de trajectoires sous-optimales autour d'obstacles complexes. La flexibilité du framework dans le réglage de la taille des fenêtres locales et des paramètres d'optimisation le rend adaptable sans redéveloppement majeur, un argument pertinent pour les équipes d'intégration en robotique aérienne. Le domaine de la planification de trajectoires en temps réel pour UAV est actif depuis plusieurs années, avec des travaux notables autour des EGO-Planner (Zhu et al., 2021) et FASTER (Tordesillas et al., 2022), qui s'appuient eux aussi sur des représentations de distance pour l'évitement d'obstacles. C-3TO se positionne comme une évolution méthodologique de cet écosystème, en substituant le réseau neuronal à la grille voxel traditionnelle. Le paper n'annonce pas de déploiement matériel ni de validation sur plateforme physique en conditions réelles ; les résultats présentés restent à ce stade expérimentaux, et la robustesse sim-to-real n'est pas adressée explicitement.

RecherchePaper
1 source
R2RDreamer : augmentation de données 3D pour des politiques de manipulation 2D spatialement généralisées
306arXiv cs.RO 

R2RDreamer : augmentation de données 3D pour des politiques de manipulation 2D spatialement généralisées

Des chercheurs présentent R2RDreamer, un cadre d'augmentation de données pour entraîner des politiques de manipulation robotique à faible coût de collecte, publié en préprint sur arXiv (2606.17040) en juin 2026. Le problème ciblé est la généralisation spatiale : une politique apprise par imitation sur quelques démonstrations réelles échoue souvent dès que l'objet est légèrement déplacé, la caméra repositionée, ou le bras robotique reconfiguré. R2RDreamer part d'un nombre limité de démonstrations réelles et en génère artificiellement des variantes cohérentes. Son pipeline fonctionne en deux étapes : d'abord, un module 3D léger édite les nuages de points incomplets de la scène et les trajectoires de l'effecteur terminal dans un référentiel commun ; ensuite, ces scènes modifiées sont projetées en vidéos de contrôle masquées (avec raisonnement occlusion-aware), puis complétées en séquences RGB temporellement cohérentes par un modèle image-vers-vidéo à contrôle dense. Les expériences valident la méthode sur des tâches de manipulation avec déplacement spatial, en combinaison avec des politiques de type diffusion 2D et des politiques vision-langage-action (VLA). Ce travail s'attaque à un verrou concret du déploiement industriel : le coût prohibitif de la collecte de démonstrations multi-pose, multi-viewpoint en environnement réel. Les approches concurrentes basées sur la simulation (MuJoCo, Isaac Gym) exigent une modélisation précise des objets et restent exposées au sim-to-real gap. Les méthodes real-to-real existantes contournent ce gap mais requièrent une reconstruction 3D complète et produisent des observations adaptées aux politiques sur nuages de points, inadaptées aux pipelines RGB classiques. R2RDreamer déplace la complétion visuelle dans l'espace vidéo 2D, ce qui le rend compatible avec les architectures VLA dominantes comme pi0 ou OpenVLA, sans nécessiter une reconstruction de scène exhaustive. C'est une avancée méthodologique qui pourrait réduire les besoins en données téléopérées d'un facteur significatif, même si les expériences rapportées ne quantifient pas encore de ratio précis. R2RDreamer s'inscrit dans une famille de travaux real-to-real (RoboAgent, GenAug, SceneAug) cherchant à s'affranchir de la simulation. La nouveauté réside dans l'hybridation : garder la rigueur géométrique de l'édition 3D pour les trajectoires, mais déléguer la cohérence visuelle à un modèle vidéo génératif, évitant ainsi les artefacts de rendu 3D. Côté compétiteurs, des approches comme AugmentationX ou les méthodes de diffusion in-painting (Paint-it, RoboGen) font le même pari mais sans édition jointe trajectoire-observation. Aucun partenaire industriel ni calendrier de transfert ne sont mentionnés dans ce preprint : il s'agit d'une contribution de recherche fondamentale, et l'étape suivante probable sera une évaluation sur des plateformes matérielles standardisées (Franka, UR5, ou une humanoïde) avec des benchmarks publics type RoboMimic ou LIBERO.

RecherchePaper
1 source
ART-Glove : un gant tactile articulé pour capturer les interactions dextériques en contact
307arXiv cs.RO 

ART-Glove : un gant tactile articulé pour capturer les interactions dextériques en contact

Des chercheurs ont publié sur arXiv (arXiv:2606.16370) les spécifications de l'ART-Glove (Articulated Tactile Glove), un gant instrumenté conçu pour capturer des démonstrations de manipulation dextère en préservant la mobilité naturelle de la main humaine. Le système intègre 16 surfaces rigides fonctionnelles couvrant les doigts, le pouce et la paume, reliées par 22 articulations anatomiquement alignées qui suivent le mouvement de la main en temps réel. La capture repose sur deux modalités complémentaires : un encodeur mécanique pour les positions articulaires et une matrice de capteurs piézorésistifs pour les contacts cutanés. Le résultat est une acquisition synchronisée à 120 Hz de 22 degrés de liberté (DoF) articulaires et de 2 048 taxels tactiles, soit une résolution spatiale du contact parmi les plus denses publiées pour ce type de dispositif portable. L'enjeu technique que cible ART-Glove est le goulet d'étranglement de la collecte de données pour l'apprentissage dextère des robots. Les approches actuelles de téléopération ou de capture de mouvement peinent à enregistrer simultanément la géométrie du contact et la cinématique de la main, deux informations pourtant indispensables pour qu'un réseau de politique (notamment les VLA, Vision-Language-Action models) puisse reproduire des manipulations fines comme saisir un objet fragile ou assembler un connecteur. En rendant la géométrie de contact explicite plutôt qu'inférée, le gant vise à réduire le fossé sim-to-real dans les pipelines d'imitation learning pour mains robotiques, un problème notoire qui freine le passage à l'échelle industrielle. Le contexte de ce travail s'inscrit dans une dynamique intense autour de la manipulation dextère : des projets comme DEXTAH (MIT), DexPilot (NVIDIA) ou les gants de capture de Shadow Robot ont montré l'intérêt de l'instrumentation côté opérateur humain, mais aucun ne combine à cette résolution les deux canaux cinématique et tactile sur des surfaces rigides géométriquement définies. Le papier reste pour l'heure un preprint sans validation industrielle annoncée ni partenaire commercial identifié. Les prochaines étapes naturelles seraient des expériences de transfert direct vers des mains robotiques comme la LEAP Hand ou la Dexterous Hand d'Allegro, et une évaluation des politiques apprises sur des tâches de manipulation contact-riche en dehors du laboratoire.

RecherchePaper
1 source
SGM-SLAM : correspondance de graphes de scène pour un SLAM distribué efficace en données
308arXiv cs.RO 

SGM-SLAM : correspondance de graphes de scène pour un SLAM distribué efficace en données

Une équipe de chercheurs publie SGM-SLAM (arXiv:2606.16881, juin 2026), un framework de cartographie et localisation simultanées (SLAM) distribué, conçu pour des flottes de robots équipés de LiDAR, caméras et capteurs inertiels. Sa singularité revendiquée : c'est, selon les auteurs, la première approche de mise en correspondance de graphes de scènes opérant uniquement à partir de labels d'objets et de centroïdes, sans descripteurs de features bas niveau. Le système génère deux couches de représentation à partir de nuages de points RGB-LiDAR fusionnés : une couche de segmentation sémantique et une couche d'objets délimités discrets, accompagnant les trajectoires estimées de chaque robot. Ces graphes sont échangés entre robots voisins via un protocole multi-étapes conçu pour limiter la bande passante consommée. Les expériences couvrent simulation et collecte terrain sur robots à pattes, en environnements intérieurs et extérieurs. Pour les intégrateurs de flottes robotiques, le goulot d'étranglement habituel du SLAM distribué est précisément la bande passante : partager des descripteurs visuels ou LiDAR entre robots génère des volumes de données élevés, problématiques dans les environnements RF dégradés typiques de l'industrie (entrepôts métalliques, sous-sols, sites en chantier). En réduisant l'échange à des métadonnées sémantiques légères (classe d'objet + position centroïde), SGM-SLAM affiche un coût de communication structurellement inférieur aux méthodes feature-based. La validation sur robots à pattes, réputés plus difficiles à stabiliser dynamiquement que les AMR à roues, renforce la portée pratique des résultats. Si les performances se maintiennent à l'échelle en nombre de robots et en taille d'environnement, le framework pourrait changer le calcul de faisabilité pour les opérations multi-robots en connectivité limitée. Le SLAM distribué multi-robots est un chantier actif depuis plus d'une décennie. Des systèmes comme Kimera-Multi (MIT SPARK Lab), DiSCo-SLAM et Swarm-SLAM ont progressivement amélioré la précision tout en réduisant les échanges de données, mais aucun n'avait jusqu'ici poussé l'abstraction au niveau objet seul. SGM-SLAM s'inscrit dans la tendance plus large des graphes de scènes sémantiques, héritée de la compréhension de scènes 3D et de la robotique de manipulation, et l'applique ici à l'exploration collective. Les plateformes à pattes testées correspondent aux types Boston Dynamics Spot ou ANYmal, très présentes dans l'inspection industrielle et la réponse aux catastrophes. L'article, en pré-publication sur arXiv, ne mentionne pas de disponibilité de code open-source ni de timeline de déploiement applicatif.

UETechnologie potentiellement utile pour les équipes européennes déployant des flottes d'inspection en environnements RF dégradés, mais aucun acteur FR/EU impliqué et aucun code open-source disponible à ce stade.

RecherchePaper
1 source
Nouvelles tâches par compétences réutilisables : experts compositionnels pour l'apprentissage continu incarné
309arXiv cs.RO 

Nouvelles tâches par compétences réutilisables : experts compositionnels pour l'apprentissage continu incarné

Des chercheurs ont publié en juin 2026 sur arXiv (2606.15685) un framework appelé SCE (Skill-Compositional Experts), conçu pour permettre à des robots manipulateurs d'apprendre de nouvelles tâches en continu sans effacer les comportements déjà maîtrisés. L'approche repose sur deux blocs : un mécanisme de Compositional Skill Grounding (CSG) qui décompose des démonstrations en primitives réutilisables, puis un système DETE (Dual Execution-and-Transition Experts) à deux branches, l'une assurant l'exécution de chaque skill et l'autre pilotant les transitions entre eux pour produire un comportement cohérent. Les évaluations portent sur les benchmarks LIBERO (manipulation en simulation) ainsi que sur des tâches en environnement réel, avec des gains de rétention et de performance globale par rapport aux méthodes de référence. Le problème visé, le "catastrophic forgetting" en boucle fermée, est nettement plus sévère qu'en continual learning classique : sous contrôle séquentiel, la dérive des représentations internes (feature drift) s'accumule et dégrade progressivement les comportements antérieurs. Pour les industriels déployant des bras robotiques multi-tâches en logistique, assemblage ou alimentation, c'est un verrou réel : introduire une nouvelle tâche risque d'invalider les précédentes, imposant des revalidations coûteuses. SCE propose de structurer explicitement les skills en une base réutilisable, ce qui pourrait, si cela tient à l'échelle, réduire ce surcoût d'intégration. À noter cependant : il s'agit d'un preprint non encore évalué par les pairs, et les résultats en environnement réel restent peu détaillés dans l'abstract. L'Embodied Continual Learning a gagné en visibilité avec l'essor des politiques robotiques généralisables, notamment sous l'influence des Visual Language Action models (VLA) et des travaux de sim-to-real transfer. Les benchmarks LIBERO sont devenus une référence pour évaluer la généralisation des politiques de manipulation. Les approches concurrentes, comme SkillDiffuser ou les méthodes à mémoire épisodique, traitent la même problématique sans structurer explicitement les transitions entre skills, ce qui constitue la contribution centrale de SCE. Les auteurs publient une page projet mais n'annoncent ni partenariat industriel ni timeline de déploiement, ce qui situe ce travail à la frontière entre preuve de concept académique et transfert applicatif.

RecherchePaper
1 source
TO-SoFiT : optimisation topologique d'une queue de poisson souple hydraulique pour une locomotion ondulatoire programmable
310arXiv cs.RO 

TO-SoFiT : optimisation topologique d'une queue de poisson souple hydraulique pour une locomotion ondulatoire programmable

Des chercheurs ont mis en ligne en juin 2026 sur arXiv (preprint 2606.15645) une méthode baptisée TO-SoFiT (Topology Optimization of Soft Fish Tail), destinée à automatiser la conception de queues de poissons souples hydrauliques pour la robotique sous-marine biomimétique. Le coeur de l'approche repose sur un modèle issu de la loi de Darcy, augmenté d'un terme de drainage, pour simuler les pressions hydrauliques spatialement variables à l'intérieur de la structure souple, puis les convertir en forces nodales via analyse par éléments finis. Une formulation d'optimisation multi-critères équilibre simultanément l'efficacité de déformation, l'interaction fluide-structure, la fabricabilité géométrique et la rigidité requise pour la nage 3D. L'actionneur obtenu, intégré dans un réseau pneumatique, est validé par simulation sous différentes charges hydrauliques, atteignant des amplitudes d'ondulation réglables et une flexion multiaxe pour le contrôle de profondeur. En cascadant plusieurs segments optimisés, les auteurs obtiennent des schémas de nage programmables à différentes pressions. Le code et les simulations sont disponibles publiquement sur GitHub. Ce travail répond à un verrou persistant de la robotique douce : l'absence de cadre de conception systématique pour des mouvements 3D complexes par actuation hydraulique ou pneumatique. Jusqu'ici, les concepteurs s'appuyaient sur des géométries empiriques, souvent rectangulaires, dont les performances sont sous-optimales. TO-SoFiT démontre en simulation que la topologie optimisée surpasse son équivalent rectangulaire en amplitude d'ondulation et en agilité multiaxe. L'approche formalise également le couplage entre actuation et déformation structurelle, souvent traité de manière découplée dans la littérature, ouvrant une voie vers la co-conception automatisée d'actionneurs souples. La robotique douce sous-marine mobilise plusieurs groupes de référence, dont le MIT CSAIL, Harvard et plusieurs équipes chinoises spécialisées dans les robots-poissons pneumatiques. L'industriel allemand Festo illustre le potentiel commercial du biomimétisme aquatique avec ses projets BionicFinWave et AquaPenguin. TO-SoFiT se positionne avant tout comme un outil de conception amont plutôt que comme un prototype : le preprint ne présente aucune fabrication physique ni test en bassin, ce qui laisse ouverte la question critique du sim-to-real gap, généralement significatif avec les élastomères souples. Les prochaines étapes naturelles sont la fabrication par moulage en silicone et la validation expérimentale, en vue d'applications dans l'inspection de structures sous-marines ou la biologie aquatique.

RecherchePaper
1 source
Apprentissage par renforcement avec estimateur de dynamique interne pour la manipulation aérienne en environnement incertain
311arXiv cs.RO 

Apprentissage par renforcement avec estimateur de dynamique interne pour la manipulation aérienne en environnement incertain

Des chercheurs ont publié sur arXiv (preprint 2606.16621) une architecture de contrôle hiérarchique pour manipulateurs aériens, visant à résoudre l'un des problèmes les plus épineux de la robotique de terrain : faire travailler un bras articulé monté sur drone sans que les mouvements du bras ne déstabilisent l'engin, même quand la charge utile varie de façon imprévue. Le système combine un apprentissage par renforcement (RL) en boucle externe avec un estimateur de dynamique en boucle interne. La couche RL traduit des cibles en 6 degrés de liberté (DOF) pour l'effecteur terminal en commandes coordonnées pour l'ensemble du corps de l'engin, sans nécessiter un modèle dynamique couplé précis. La boucle interne prend le relais pour compenser en temps réel les perturbations inertielles transitoires, notamment lors de changements brusques de payload ou de mouvements rapides du bras à 3-DOF. Les expériences matérielles ont été conduites sur un quadrotor instrumenté à cet effet, dans des conditions de charge variable. Comparée à deux baselines de référence (RL+PID et RL+INDI+PID), l'approche réduit l'erreur de suivi de l'effecteur terminal et améliore le taux de succès des tâches. Ce résultat est pertinent parce que le couplage dynamique bras-drone reste le principal frein à la manipulation aérienne fiable en conditions réelles : chaque mouvement du bras modifie le centre de masse et génère des couples parasites que les contrôleurs classiques peinent à absorber. En séparant la couche d'apprentissage (qui gère la coordination tâche-corps) de la couche d'estimation (qui absorbe les incertitudes à basse latence), les auteurs proposent une architecture modulaire qui ne dépend pas d'un modèle système précis, ce qui simplifie le passage du simulateur au matériel réel. Pour les intégrateurs industriels qui ciblent l'inspection de structures, la maintenance d'infrastructures ou la construction en hauteur, c'est un verrou technique concret qui se desserre. Le domaine de la manipulation aérienne est encore largement académique, avec des contributions dispersées entre laboratoires européens, américains et asiatiques, sans acteur dominant identifié à ce stade. Côté français, Alerion et quelques spin-offs de l'ISAE-SUPAERO ou de l'ENAC travaillent sur des drones à haute précision, mais sans manipulateur embarqué à ce niveau de sophistication. Ce travail reste un preprint non encore soumis à revue par les pairs, et les expériences rapportées portent sur un prototype unique dans un environnement contrôlé. Les métriques de succès ne sont pas détaillées quantitativement dans le résumé disponible, ce qui rend difficile toute comparaison directe avec l'état de l'art publié. La prochaine étape logique serait une validation sur des tâches réelles en extérieur avec des charges plus lourdes.

UELes laboratoires français actifs sur les drones de précision (Alerion, ISAE-SUPAERO, ENAC) pourraient s'appuyer sur cette architecture modulaire pour progresser vers la manipulation aérienne embarquée, mais aucun impact direct n'est établi à ce stade.

RecherchePaper
1 source
VANDERER : exploration sans carte par politique de diffusion guidée par la curiosité visuelle et l'anticipation
312arXiv cs.RO 

VANDERER : exploration sans carte par politique de diffusion guidée par la curiosité visuelle et l'anticipation

Des chercheurs ont publié sur arXiv (arXiv:2606.14879, juin 2026) un framework d'exploration baptisé VANDERER, conçu pour permettre à des agents mobiles de naviguer dans des environnements inconnus sans construire de carte d'occupation traditionnelle. Le système repose sur un module de curiosité visuelle (Visual Curiosity Module, VCM) qui pilote une politique de diffusion pré-entraînée en s'appuyant exclusivement sur des images monoculaires, sans LiDAR ni caméra de profondeur. Concrètement, le VCM intègre un modèle du monde de navigation qui prédit les conséquences des actions candidates, leur attribue un coût de curiosité, puis oriente le processus de diffusion vers les actions qui maximisent la superficie explorée. Évalué sur des environnements simulés variés, VANDERER explore en moyenne 13,4 % de superficie supplémentaire par rapport à NoMaD, une baseline reconnue dans le domaine de la navigation sans carte. L'intérêt du travail tient à la contrainte matérielle assumée : une seule caméra monoculaire, omniprésente sur les plateformes robotiques à bas coût, là où LiDAR et caméras stéréo restent onéreux ou volumineux. Pour les intégrateurs et les équipes de robotique mobile, VANDERER ouvre la voie à une exploration autonome efficace sur des robots à budget capteur limité, drones, robots de surveillance périmétrique ou AGV en extérieur, sans reconstruction 3D préalable de l'environnement. Les résultats établissent aussi une corrélation directe entre curiosité visuelle (texture, nouveauté apparente de l'image) et curiosité géométrique (zones non cartographiées), ce qui valide l'hypothèse que le signal caméra seul peut servir de proxy fiable à la couverture spatiale réelle dans des contextes extérieurs. C'est un résultat non trivial qui renforce la crédibilité des politiques de diffusion comme couche de planification active, au-delà du simple suivi de waypoints. VANDERER s'inscrit dans un courant de recherche sur la navigation sans carte qui a gagné en traction avec des travaux comme NoMaD et les politiques de navigation de type VLA (Vision-Language-Action). L'approche diffusion policy, popularisée dans la manipulation robotique et reprise dans des projets comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est ici détournée vers l'exploration spatiale pure. Le papier reste au stade de preprint arXiv et toutes les évaluations sont conduites en simulation : le gap sim-to-real n'est pas adressé, ce qui constitue une limite explicite avant tout déploiement terrain. Les étapes suivantes naturelles seraient des validations sur robots réels en extérieur et l'extension à des scénarios multi-bâtiments ou en environnements intérieurs encombrés.

RechercheOpinion
1 source
HOLO-MPPI : planification de mouvement multi-scénarios par optimisation de politique hiérarchique
313arXiv cs.RO 

HOLO-MPPI : planification de mouvement multi-scénarios par optimisation de politique hiérarchique

Des chercheurs ont publié en juin 2026 sur arXiv (référence 2606.16480) HOLO-MPPI (High-level Offline, Low-level Online MPPI), un framework de planification de mouvement conçu pour que des robots opèrent dans des scénarios variés sans recalibrage par scénario. L'architecture repose sur deux niveaux : hors ligne, une politique haut niveau apprend à proposer des plans robustes dans un espace d'actions abstrait, avec un modèle du monde appris pour la simulation interne ; en ligne, cette politique sert de prior adaptatif pour paramétrer l'algorithme MPPI (Model Predictive Path Integral), qui optimise en temps réel les séquences de contrôle bas niveau face aux perturbations locales. Le système a été instancié et évalué sur des tâches de conduite autonome, avec des architectures de modèles et un espace d'actions haut niveau conçus spécifiquement pour ce domaine. Ce travail attaque une limite concrète du déploiement robotique : un système ne doit pas nécessiter de retuning manuel dès qu'il change d'environnement. L'apprentissage par renforcement de bout en bout peut généraliser, mais se révèle fragile face aux décalages de distribution, aux récompenses mal spécifiées et aux interactions stochastiques. MPPI seul offre un raffinement temps réel efficace sans gradients, mais sa performance dépend d'un prior d'échantillonnage bien construit, ce qui ne passe pas à l'échelle multi-scénarios. HOLO-MPPI résout cette tension : les expériences montrent qu'il surpasse les baselines MPPI pur et RL de bout en bout sur l'ensemble des scénarios de conduite testés, en maintenant des contraintes de contrôle temps réel. MPPI est une méthode de contrôle optimal stochastique établie depuis les travaux de Williams et al. à Georgia Tech (2016-2018), répandue en robotique mobile et conduite autonome. L'hybridation avec des politiques apprises s'inscrit dans une tendance concurrente des approches VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui visent une généralisation entièrement apprise. HOLO-MPPI choisit une voie intermédiaire, structurellement plus vérifiable et potentiellement plus attractive pour des intégrateurs industriels soucieux d'explicabilité. Le papier étant un preprint arXiv non encore relu par les pairs, les performances annoncées restent à confirmer sur des benchmarks standardisés ou en conditions réelles.

RecherchePaper
1 source
Matière robotique enchevêtrée en mouvement cohésif
314Robohub 

Matière robotique enchevêtrée en mouvement cohésif

Des ingénieurs de l'université Cornell ont publié le 20 mai dans Science Robotics les résultats d'un collectif robotique décentralisé baptisé Cross-Link Collective. Le système regroupe des dizaines de modules identiques mesurant 200 mm de long sur 20 mm de large, chacun équipé d'un unique moteur qui le fait osciller entre deux formes, "I" et "U". Ces oscillations génèrent des forces contre le sol pour avancer, tandis que des languettes de Velcro à faible adhérence aux extrémités permettent aux modules de s'accrocher et de se désolidariser spontanément. Pris isolément, les robots progressent lentement et se bloquent fréquemment sur les surfaces inclinées selon leur orientation. Mais enchevêtrés en chaînes, ils s'auto-organisent en configurations mouvantes : en terrain incliné, les chaînes franchissent des pentes où les modules individuels calent ; dans des champs d'obstacles, le collectif se comporte comme un fluide, formant et rompant ses connexions pour éviter les blocages. Lorsqu'un module perd contact avec le groupe, il émet un signal sonore audible qui pousse les voisins à ralentir le temps qu'il se raccroche. La recherche est menée par Kirstin Petersen, professeure associée en génie électrique et informatique à Cornell et Aref and Manon Lahham Faculty Fellow, et Danna Ma, chercheuse principale, avec des co-auteurs du Georgia Institute of Technology qui ont conçu le module original. Ce qui singularise le Cross-Link Collective par rapport aux essaims robotiques classiques, c'est l'absence totale de calcul centralisé ou de communication numérique entre modules. Les auteurs parlent d'"intelligence mécanique" : la coordination est encodée dans la géométrie physique des robots et leurs interactions de contact, non dans du logiciel. La tolérance aux pannes est structurelle : si un module défaille (batterie déchargée, panne moteur), le collectif s'adapte sans reconfiguration explicite, ce que les auteurs vérifient expérimentalement. Ce paradigme remet en question l'hypothèse selon laquelle des comportements collectifs robustes requièrent une couche de communication sophistiquée, et ouvre une piste concrète pour des systèmes déployables en environnements dégradés ou sans connectivité réseau. Le système s'inspire des gels actifs, matériaux dont les liaisons moléculaires se forment et se dissolvent en continu tout en maintenant une cohésion globale. Ce parallèle avec la soft matter reste pour l'instant conceptuel : les chercheurs positionnent le Cross-Link Collective comme un outil d'étude des comportements émergents, pas comme un produit industrialisable à court terme. Dans le champ de la robotique en essaim décentralisée, d'autres laboratoires travaillent sur des approches similaires, notamment Harvard avec les Kilobots et l'IRIDIA à Bruxelles, mais peu ont éliminé aussi radicalement toute communication numérique explicite entre agents. Les prochaines étapes portent sur l'analyse statistique de l'influence de la géométrie des modules sur leurs propriétés d'enchevêtrement, et sur le passage à des effectifs plus importants pour tester la mise à l'échelle.

RecherchePaper
1 source
Jumeau numérique pour la classification textile et la détection d'objets étrangers dans les systèmes de tri automatisé
315arXiv cs.RO 

Jumeau numérique pour la classification textile et la détection d'objets étrangers dans les systèmes de tri automatisé

Une équipe de chercheurs a présenté un système robotique de tri textile piloté par un jumeau numérique, conçu pour l'automatisation du recyclage de vêtements. La cellule à double bras intègre une perception RGBD, un retour tactile capacitif et une planification de trajectoires anticollision via MoveIt. Le pipeline autonome saisit des vêtements depuis un panier non trié, les transfère vers une zone d'inspection et les classifie via des modèles de vision-langage (VLM, Visual Language Models). Le benchmark porte sur neuf VLM issus de cinq familles de modèles, évalués sur 223 scénarios couvrant six catégories : chemises, chaussettes, pantalons, sous-vêtements, objets étrangers et scènes vides. La famille Qwen atteint la précision globale la plus élevée avec 87,9 %, assortie de solides performances sur la détection d'objets étrangers. Gemma3 offre un compromis vitesse/précision adapté au déploiement sur matériel embarqué (edge). Le travail est disponible sur arXiv sous la référence 2603.05230v2. Ce benchmark en conditions industrielles réelles, sur des objets déformables, constitue une validation plus rigoureuse que les démonstrations sur images synthétiques habituellement produites dans ce domaine. L'évaluation intègre le comportement aux hallucinations et les performances computationnelles sous contraintes matérielles, deux critères souvent absents des publications académiques sur la robotique manipulatrice. Pour les intégrateurs industriels, cela confirme que le tri automatisé de textiles par VLM est réalisable sans infrastructure GPU haute performance, et que le choix du modèle doit s'adapter aux contraintes du site de déploiement. L'intégration de nuages de points 3D segmentés dans le jumeau numérique réduit par ailleurs le fossé sim-to-real pour la planification de prises sur objets déformables. Ce travail s'inscrit dans un contexte de pression réglementaire croissante : l'UE impose depuis janvier 2025 la collecte séparée obligatoire des textiles usagés dans les États membres, accélérant la demande d'automatisation dans les centres de tri. Dans le paysage concurrentiel, Picvisa (Espagne) et Recycleye (Royaume-Uni) opèrent déjà sur le tri optique de déchets par vision, mais sans raisonnement sémantique par VLM. Les prochaines étapes naturelles pour ce système seraient la validation sur des lignes industrielles à plus grand débit et l'extension à d'autres catégories de matières, notamment les textiles synthétiques et les fibres techniques.

UELa directive UE sur la collecte séparée des textiles (en vigueur depuis janvier 2025) crée une demande directe pour ce type d'automatisation dans les centres de tri européens, et les acteurs ibérique (Picvisa) et britannique (Recycleye) déjà présents pourraient être concurrencés ou complétés par ce système.

RecherchePaper
1 source
MPC d'impédance avec estimation des perturbations pour le contrôle de main dextérique
316arXiv cs.RO 

MPC d'impédance avec estimation des perturbations pour le contrôle de main dextérique

Des chercheurs ont soumis en juin 2026 sur arXiv (réf. 2606.14606) un cadre de contrôle baptisé Impedance MPC pour doigts robotiques dextres, actuateur-agnostique, couvrant transmissions hydrauliques, câblées, pneumatiques, à corde torsadée et série-élastiques. Un préfiltrage algébrique réduit la dynamique tendineuse à un double intégrateur à coefficients constants, dont l'inverse du coût QP est précalculé hors ligne ; un horizon glissant de 10 pas tourne à 500 Hz avec contraintes dures sur les forces de contact (ISO/TS 15066), les limites d'actionnement et le jerk. Un filtre de Kalman augmenté, alimenté uniquement par encodeurs, annule l'erreur statique sous charge constante. Sur un prototype de doigt à actionnement hydraulique, le contrôleur atteint 0,5 mrad RMS, 0,1 mrad en régime permanent et 6,6 mrad en pic sous 1,5 Nm de couple de contact, soit 183×, 1500× et 23× meilleur que l'impédance classique à gain fixe ; la raideur réalisée s'étend de 18 à 323 Nm/rad selon la fréquence de mise à jour. En simulation MuJoCo, le cadre s'étend à une main LEAP à 16 DOF, récupérant en 0,7 s après une perturbation de saisie de 2,5 N. L'actuateur-agnosticisme est le principal atout pour les intégrateurs : une seule loi de commande couvre des architectures mécaniquement très hétérogènes sans retuning, réduisant le coût d'intégration sur des plateformes multi-actionneurs. La conformité native à l'ISO/TS 15066 dans la formulation du problème simplifie les validations pour le déploiement cobotique en environnement humain, là où les forces de contact sont réglementées. Il faut cependant relativiser les gains annoncés, dont le plus élevé atteint 1500× : la référence est un contrôleur à gain fixe, choix délibérément défavorable, et des benchmarks contre du MPC adaptatif ou du contrôle par apprentissage sont absents de l'article. La main dextre reste le maillon faible de la robotique humanoïde : Shadow Robotics, Inspire Robots et d'autres ont progressé sur le plan mécanique, mais le contrôle fin sous contact demeure un problème ouvert. Les mains LEAP, issues de Carnegie Mellon, constituent la plateforme open-source de référence pour la recherche en manipulation. Les approches concurrentes privilégient l'apprentissage par renforcement et les architectures VLA (vision-langage-action), qui court-circuitent le contrôle classique au prix des garanties formelles ; cet article occupe l'angle inverse, avec des propriétés de stabilité et de faisabilité récursive héritées du cadre pHRI (interaction physique humain-robot). Aucun partenaire industriel ni calendrier de transfert n'est mentionné ; la contribution reste académique, mais elle outille directement les équipes intégrant des mains dextres sur des humanoïdes commerciaux comme ceux de Figure AI ou Unitree.

UELa conformité native à l'ISO/TS 15066 inscrite dans la formulation du contrôleur simplifie les validations réglementaires pour le déploiement cobotique en environnements humains en Europe, où les forces de contact sont normativement encadrées.

RecherchePaper
1 source
Architecture de contrôle unifiée pour la manipulation macro-micro par centre de compliance déporté actif en fabrication
317arXiv cs.RO 

Architecture de contrôle unifiée pour la manipulation macro-micro par centre de compliance déporté actif en fabrication

Des chercheurs ont proposé une architecture de commande unifiée pour manipulateurs macro-micro, publiée sur arXiv (2602.01948v2), ciblant les applications d'assemblage industriel de précision. Ce type de système associe un bras macro (robot industriel à large espace de travail) à un micro-manipulateur léger à haute bande passante. Dans l'approche classique, le macro assure le positionnement pendant que le micro gère l'interaction avec l'environnement, ce qui plafonne la bande passante de contrôle en force. L'architecture présentée intègre le bras macro dans la boucle d'interaction active, obtenant un gain de bande passante d'un facteur 2,1 par rapport à l'approche leader-suiveur état de l'art, et d'un facteur 12,5 face au contrôle en force robot traditionnel. Les auteurs ajoutent des modèles de substitution (surrogate models) pour simplifier la synthèse du contrôleur et son adaptation aux changements matériels. La validation s'appuie sur trois scénarios expérimentaux : collision avec un objet, suivi de trajectoire en force, et tâches d'assemblage industriel. Ces gains de bande passante répondent à un verrou concret en intégration robotique : une réactivité faible impose des vitesses d'approche réduites et des tolérances relâchées, pénalisant les cadences de production. Multiplier par douze la réactivité du contrôle en force ouvre la voie à des assemblages à ajustement serré comparables aux systèmes passifs à Remote Center of Compliance (RCC) mécanique, mais avec la flexibilité d'un système actif reprogrammable. Les surrogate models adressent un frein souvent négligé : le coût de reconfiguration lors d'un changement d'outil ou de charge utile. Les résultats restent cependant à l'échelle laboratoire et devront être confirmés sur des cycles de production réels, avec variabilité des pièces et dégradation des actionneurs dans le temps. La manipulation macro-micro est étudiée depuis les années 1990, d'abord pour la microchirurgie avant de migrer vers la fabrication industrielle. L'approche leader-suiveur, prise comme référence dans l'étude, reste la baseline académique dominante mais est peu déployée en production. Les acteurs industriels actifs sur la compliance active incluent Bota Systems pour les capteurs force-couple d'extrémité de bras, ainsi que KUKA et Franka Robotics (racheté par Agile Robots) sur l'impédance control. Côté recherche académique, le DLR et l'ETH Zurich développent des architectures proches. La suite logique serait un pilote industriel avec des métriques de cycle time et de taux de rejet pour valider le potentiel de commercialisation.

UEDLR et ETH Zurich sont cités comme acteurs académiques proches de ces travaux, et KUKA ainsi que Franka Robotics, deux acteurs européens leaders sur l'impédance control, sont les bénéficiaires industriels naturels si ces gains de bande passante (×12,5 vs force control classique) se confirment en conditions de production réelles.

RecherchePaper
1 source
Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé
318arXiv cs.RO 

Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé

Publiés sur arXiv en juin 2026 (arXiv:2606.14153), des chercheurs présentent un diagnostic simple aux conclusions contre-intuitives : l'encodeur visuel le plus performant sur un petit modèle VLA (Vision-Language-Action) ne l'est pas nécessairement sur un modèle plus grand. Pour le démontrer, l'équipe a développé un protocole de "greffe à backbone gelé" (frozen-backbone grafting), consistant à remplacer la tour visuelle d'un VLA publié par un encodeur candidat, tout en maintenant gelés le modèle de langage et l'expert d'action. Quatre encodeurs ont été testés sur deux backbones : SmolVLA-450M et π₀.₅-3.3B de Physical Intelligence, sur deux suites de benchmarks LIBERO, avec 40 runs de greffe principaux évalués par MSE d'action hors-ligne. Résultat : SigLIP (Google) domine sur SmolVLA pour les deux suites, tandis que sur π₀.₅, c'est DINOv2-small (Meta) qui prend la tête sur la suite spatiale, avec une quasi-égalité sensible aux seeds sur la suite objets. Sur 3 comparaisons backbone-suite sur 4, et 11 cellules sur 12 au niveau des seeds, les classements s'avèrent backbone-dépendants. Ce résultat remet en question une pratique courante dans la communauté VLA : hériter l'encodeur visuel d'un VLM upstream sans vérifier si ce choix tient à l'échelle cible. Le diagnostic révèle également que le protocole de greffe lui-même n'est pas neutre : il introduit un biais asymétrique de +45 à 56% de MSE sur la tour native de SmolVLA, mais de -50 à 52% sur π₀.₅, ce qui conditionne fortement l'interprétation des résultats. Pour les équipes qui construisent des VLAs à grande échelle, cela signifie concrètement qu'une ablation menée sur un backbone 450M ne prédit pas le classement sur un 3,3B, un surcoût de validation qui change structurellement les pipelines d'expérimentation. Les VLAs sont aujourd'hui au coeur de la robotique apprise de bout-en-bout, incarnés par des modèles phares comme π₀ et π₀.₅ de Physical Intelligence, GR00T N2 de NVIDIA ou encore OpenVLA. LIBERO, la suite utilisée ici pour la manipulation robotique en simulation, est un benchmark standard du champ. Les auteurs positionnent explicitement la greffe gelée comme un outil diagnostique pré-engagement à faible coût, à utiliser avant de figer le choix d'encodeur sur un backbone cible, et non comme une méthode de déploiement en boucle fermée. C'est une contribution méthodologique qui devrait modifier la façon dont les équipes structurent leurs campagnes d'ablation d'encodeurs dans la course aux VLAs à grande échelle.

UELes équipes européennes travaillant sur des VLAs (labs INRIA, CEA-List, startups robotique FR) peuvent intégrer le protocole de greffe gelée comme outil diagnostique à faible coût avant de figer le choix d'encodeur sur leur backbone cible.

RechercheActu
1 source
ORCA : une plateforme open source pour la recherche en dextérité
319arXiv cs.RO 

ORCA : une plateforme open source pour la recherche en dextérité

Une équipe de chercheurs présente ORCA, une pile logicielle open-source dédiée à la manipulation dextre par mains anthropomorphes, publiée sur arXiv (2606.14561) en juin 2026. La plateforme unifie en une seule interface le contrôle bas niveau, la simulation, la téleopération depuis des dispositifs grand public, et le retargeting de main, c'est-à-dire la conversion des mouvements d'une main humaine vers les actionneurs d'une main robotique. ORCA s'intègre nativement avec LeRobot, le framework de robot learning open-source de Hugging Face devenu référence dans la communauté. Les auteurs ont validé le système sur une tâche de réorientation objet en main (in-hand reorientation), en collectant des démonstrations par téleopération via un casque VR grand public, en entraînant une politique autonome avec LeRobot, puis en évaluant les résultats dans un environnement entièrement reproductible. Aucun chiffre de performance quantifié (taux de succès, temps de cycle) n'est communiqué dans l'abstract. Ce travail s'attaque à un verrou structurel du domaine : les mains dextres restent quasi-absentes des benchmarks de robot learning, non par manque de hardware accessible, mais parce que les couches logicielles, simulation, téleopération, retargeting, sont dispersées dans des dépôts non maintenus, sans connexion aux pipelines de données et d'entraînement standards. Résultat, les chercheurs travaillant sur les pinces parallèles à deux doigts (two-finger grippers) bénéficient d'un écosystème mature, tandis que les équipes mains anthropomorphes repartent de zéro à chaque projet. ORCA propose une fondation partagée pour homogénéiser cet effort, permettant de réutiliser les mêmes datasets, les mêmes recettes d'entraînement et les mêmes protocoles d'évaluation entre plateformes dextres et non-dextres. C'est un pari d'infrastructure communautaire, pas une avancée algorithmique. Le contexte immédiat est la montée en puissance de LeRobot comme socle commun du robot learning open-source, accélérant la demande pour des intégrations matérielles homogènes. La recherche en manipulation dextre reste dominée par quelques labos bien équipés (Stanford, CMU, Berkeley), souvent sur des mains propriétaires comme la Dexterous Hand d'Allegro ou la Shadow Hand. Côté européen, Pollen Robotics (Bordeaux) et Enchanted Tools intègrent des mains polydigitales dans leurs plateformes, et pourraient bénéficier directement d'une couche d'abstraction standardisée comme ORCA. La prochaine étape naturelle serait l'adoption par la communauté LeRobot et l'extension à des tâches multi-objets ou de manipulation bimanuelle, domaines où les grippers classiques atteignent leurs limites mécaniques.

UEPollen Robotics (Bordeaux) et Enchanted Tools pourraient adopter ORCA directement pour accélérer leurs développements sur mains polydigitales, en bénéficiant d'une couche d'abstraction standardisée native avec LeRobot, le framework open-source de HuggingFace (entreprise française).

RecherchePaper
1 source
Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA
320arXiv cs.RO 

Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA

Des chercheurs ont publié sur arXiv (réf. 2606.14375) une nouvelle méthode appelée Elastic Queries Reinforcement Learning (EQRL), conçue pour rendre l'exécution des modèles VLA (Vision-Language-Action) adaptative plutôt que rigide. Dans les systèmes actuels, ces modèles qui pilotent la manipulation robotique s'exécutent selon des plannings d'inférence fixes : même fréquence de requête, même budget de débruitage, même longueur de chunk d'actions, quelle que soit la complexité de l'état courant. EQRL introduit un adaptateur léger qui sélectionne dynamiquement, pour chaque requête, trois paramètres : l'entrée latente, le budget de débruitage, et la longueur du chunk à exécuter en boucle ouverte. La méthode entraîne un critique sur l'espace joint et dérive un signal de difficulté d'état via le désaccord entre un ensemble de critiques (critic ensemble disagreement), guidant le calcul vers les états difficiles sans modifier les poids du modèle VLA sous-jacent. Sur bancs de simulation et en manipulation sur robot réel, les auteurs rapportent une réduction du coût d'inférence amorti avec un taux de succès préservé ou amélioré. L'enjeu concret concerne directement le coût de déploiement des politiques fondées sur des modèles de diffusion, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Ces architectures souffrent d'un goulot d'étranglement identique : le nombre d'évaluations de fonction (NFE) du processus de débruitage est fixe, qu'on soit sur une prise de contact incertaine ou un simple transit en espace libre. EQRL démontre qu'il est possible d'allouer dynamiquement ce budget de calcul selon la difficulté estimée, sans retraining du modèle de base. Pour un intégrateur ou un COO, la promesse est directe : même capacité de manipulation, moins de GPU sur les états faciles, meilleure scalabilité sur flotte. Le travail s'inscrit dans une course à l'efficacité d'inférence pour les VLA, accélérée par la publication de Pi-0 fin 2024 et les modèles de diffusion successifs (Octo, OpenVLA, GR00T N2, Helix de Figure AI). Des approches parallèles comme FAST ou DiT-Policy attaquent le même problème sous d'autres angles : compression de trajectoire, distillation, ou batch adaptatif. EQRL se distingue en opérant au-dessus du modèle sans le modifier et en intégrant un signal de difficulté appris par RL. Les auteurs annoncent des résultats positifs en simulation et sur robot réel, mais les métriques précises et les conditions expérimentales restent à examiner dans le corps du papier : la validité des gains annoncés dépendra de la représentativité des benchmarks choisis.

UELes équipes R&D européennes développant ou déployant des politiques de manipulation sur modèles de diffusion (VLA) pourraient appliquer EQRL pour réduire leurs coûts GPU d'inférence sans retraining, mais aucun acteur français ou européen n'est directement impliqué.

RechercheOpinion
1 source
PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique
321arXiv cs.RO 

PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique

Des chercheurs ont publié sur arXiv (arXiv:2606.13886, juin 2026) PhysVLA, un module d'inférence plug-and-play conçu pour corriger en temps réel les actions générées par n'importe quel modèle VLA (Vision-Language-Action) existant, sans rétro-entraînement ni accès aux poids. Le système intercepte les commandes produites par le backbone VLA et applique deux couches de correction successives : une machine à états finis sensible à la phase de la tâche (approche, saisie, transport, dépôt), puis un filtre sélectif basé sur les équations d'Euler-Lagrange qui ne s'active que lorsqu'un oracle de dynamique détecte une incohérence cinodynamique. Le surcoût de calcul est inférieur à 1 ms par pas de contrôle. Évalué sur quatre architectures distinctes (OpenVLA, OpenVLA-OFT, Force-VLA, Generalist-VLA) sur le benchmark LIBERO-Spatial avec un bras Franka Panda 7-DOF, PhysVLA améliore le taux de succès absolu jusqu'à 17 points, la stabilité jusqu'à 19 points, et l'efficacité de trajectoire jusqu'à 15 %, sans régression sur aucune tâche. Sur un sweep cross-simulateur (Robosuite Lift), la robustesse au jerk de trajectoire progresse d'un facteur 10. La validation sur un bras physique Agilex Piper (tâche pick-and-place réelle) confirme le transfert sim-to-real sans rétro-entraînement, avec une amélioration du taux de succès allant jusqu'à 50 %. L'intérêt industriel de cette approche tient à son caractère composable et backbone-agnostique. Les VLA actuels apprennent à imiter des démonstrations comportementales sans contraindre explicitement la physique des corps rigides ni les contacts, ce que les chercheurs nomment un "physics gap". Les correcteurs temporels classiques (temporal smoothing) masquent le problème sans le résoudre, et introduisent leurs propres échecs. PhysVLA propose une solution d'intégration légère pour les équipes qui déploient des VLA existants en production : pas de réentraînement, pas d'accès aux poids, un wrapper autour du modèle gelé. Pour un intégrateur ou un OEM, cela signifie potentiellement améliorer des systèmes déjà en ligne sans toucher aux pipelines de formation, ce qui réduit le risque et le coût de mise à niveau. PhysVLA s'inscrit dans la montée en puissance des approches de contrôle physique fondé pour les VLA généralistes, une problématique que des laboratoires comme Physical Intelligence (avec π0), Stanford (OpenVLA) ou Google DeepMind travaillent activement. Le papier positionne explicitement son framework comme complémentaire à ces backbones plutôt que concurrent. Il reste à ce stade un prototype de recherche validé en laboratoire sur deux plateformes matérielles (Franka Panda et Agilex Piper) ; aucun déploiement industriel ni partenariat commercial n'est annoncé. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus larges (RoboMimic, DROID) et sur des robots à plus haute cinématique, notamment des humanoïdes où la gestion des contacts et de la dynamique des corps rigides est critique.

UELes équipes R&D et intégrateurs européens déployant des VLA en production peuvent directement tester ce wrapper plug-and-play sans rétro-entraînement, mais aucun acteur ou déploiement européen n'est impliqué dans ce travail de recherche.

RechercheOpinion
1 source
Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables
322arXiv cs.RO 

Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables

Fin juin 2025, une équipe de recherche a déposé sur arXiv (2506.14188) CORD-SLS, une méthode de contrôle temps réel pour la manipulation certifiée d'objets déformables, principalement des cordes et des tissus. Le coeur du système est un simulateur différentiable GPU-parallèle avec lissage de contact, permettant une planification par gradient à travers des contacts intermittents. Un algorithme de commande prédictive robuste (MPC) à retour de sortie, lui aussi GPU-parallèle, exploite ce simulateur pour générer des trajectoires en quelques millisecondes. Pour gérer les incertitudes de modèle et de perception, le système intègre la prédiction conforme (conformal prediction), qui calibre les erreurs de rétroaction visuelle et produit des "tubes atteignables" offrant des garanties probabilistes de sécurité. Les expériences couvrent des tâches à contact riche: évitement d'obstacles, routage de corde, pliage et lissage de tissu, évaluées en simulation et sur matériel réel, avec des résultats supérieurs aux baselines sur les critères de sécurité, de vitesse et de taux de succès. La manipulation d'objets déformables reste l'un des angles morts de la robotique industrielle: cordes et tissus présentent des espaces d'états quasi-infinis et des dynamiques de contact difficiles à modéliser. CORD-SLS attaque deux verrous simultanément: la vitesse de planification compatible avec du contrôle en boucle fermée temps réel, et des garanties formelles de sécurité absentes de la quasi-totalité des approches par apprentissage (RL, VLA). Le fait que le même simulateur accélère également l'entraînement de politiques neuronales model-based est notable: cela ouvre la voie à des pipelines hybrides combinant planification robuste et politiques apprises. Pour les intégrateurs ciblant la couture automatisée, la logistique textile ou la robotique chirurgicale, c'est une démonstration académique sérieuse, pas encore un produit déployé. La manipulation déformable est étudiée depuis les années 1990, mais les approches classiques échouaient systématiquement à l'échelle réelle faute de simulateurs rapides et fiables. Les méthodes par apprentissage de type diffusion policies et VLAs gagnent du terrain mais peinent à fournir des garanties certifiables, ce qui freine leur adoption dans des contextes régulés. CORD-SLS positionne le couplage MPC robuste et prédiction conforme comme une alternative formellement vérifiable. Les concurrents directs incluent les travaux de simulation différentiable de DiffTaichi, les approches MPC déformable développées à MIT et CMU, et les politiques end-to-end de type Pi-0 de Physical Intelligence. Le papier reste un preprint sans publication en conférence confirmée à ce stade; les suites dépendront de validations sur des tâches industrielles réelles et d'une éventuelle mise à disposition publique du code.

RecherchePaper
1 source
Kine2Go : jeu de données cinématiques pour le robot Unitree Go2, avec allures et mouvements variés
323arXiv cs.RO 

Kine2Go : jeu de données cinématiques pour le robot Unitree Go2, avec allures et mouvements variés

Une équipe de chercheurs a publié en juin 2026 Kine2Go, un jeu de données cinématiques open-source destiné au robot quadrupède Unitree Go2. Le dataset contient 800 trajectoires de marche couvrant une large variété de gaits, issues de 40 politiques de contrôle distinctes. Le pipeline développé accepte des données de locomotion provenant de morphologies quadrupèdes variées et les retraduit dans un format compatible Go2. Ces politiques sont entraînées par renforcement (RL) pour reproduire fidèlement les trajectoires cibles, puis les données collectées en simulation incluent des perturbations, ce qui produit des séquences cinématiques robustes accompagnées des commandes moteur correspondantes, niveau actionneur. Le problème que Kine2Go cherche à résoudre est concret : les approches modernes d'apprentissage sur robots, qu'il s'agisse d'imitation learning, de behavioral cloning ou de RL, nécessitent des données de démonstration incluant l'état cinématique complet du robot et les actions appliquées aux moteurs. Construire le pipeline d'acquisition de ces données est coûteux en temps et en ingénierie, ce qui constitue un frein réel pour les équipes de recherche à ressources limitées. En prépackageant 800 trajectoires prêtes à l'emploi avec leurs labels moteur, le dataset réduit significativement ce coût d'entrée pour les travaux en navigation, contrôle de locomotion et transfert sim-to-real. La présence de perturbations dans les données est un choix pertinent : elle expose les modèles apprenants à de la variabilité, ce qui améliore la robustesse des politiques résultantes en condition réelle. Le Unitree Go2 s'est imposé ces deux dernières années comme plateforme de référence accessible dans la recherche en locomotion quadrupède, notamment face au Boston Dynamics Spot, beaucoup plus onéreux. Sa démocratisation tient au rapport coût-performance : moins de 2 000 dollars en version grand public, contre plusieurs dizaines de milliers pour ses concurrents institutionnels. Ce contexte de coût hardware décroissant est précisément la motivation affichée par les auteurs. La prochaine étape logique serait l'extension du pipeline à d'autres plateformes quadrupèdes populaires comme l'ANYmal de ANYbotics ou le Spot de Boston Dynamics, voire aux robots bipèdes, que le pipeline générique semble en principe permettre. Le preprint est disponible sur arXiv (2606.14433).

RecherchePaper
1 source
GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels
324arXiv cs.RO 

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Une équipe de chercheurs a publié sur arXiv (2606.14160) une nouvelle méthode d'estimation d'état proprioceptive pour robots à pattes, baptisée GAIT. L'approche repose sur une tokenisation inertielle-jambe (Inertial-Leg, IL) couplée à un réseau d'attention : plutôt que de concaténer l'ensemble des données capteurs en un seul vecteur plat, l'architecture représente les mesures inertielles et les mesures par jambe comme des tokens distincts, puis utilise un mécanisme d'attention pour pondérer dynamiquement chaque source selon les conditions de contact courantes. La méthode a été validée sur un robot quadrupède Unitree Go1, sur des terrains encombrés de débris absents de la simulation d'entraînement, et sur des allures (gait patterns) non présentées lors de l'apprentissage. L'enjeu de GAIT est de résoudre un problème central des estimateurs à pattes : la fiabilité des mesures de cinématique directe dépend du contact effectif du pied avec le sol. Les estimateurs classiques "contact-aided" contournent ce problème via un module de détection de contact explicite et l'hypothèse d'un appui stationnaire, ce qui les rend fragiles sur terrains irréguliers ou lors de transitions d'allure. GAIT apprend ce comportement de repondération directement depuis les données, sans estimateur de contact dédié, éliminant une source d'erreur en cascade. Les résultats montrent une supériorité sur les estimateurs d'apprentissage existants pour des allures non vues, ainsi qu'une amélioration par rapport aux méthodes modèles contact-aided, confirmant que les architectures à attention peuvent réduire le gap sim-to-real sur l'estimation proprioceptive bas-niveau. L'estimation d'état proprioceptive reste un défi persistant en robotique à pattes : les filtres de Kalman étendu (EKF) et variantes invariantes dominent en production chez Boston Dynamics et Unitree, mais peinent sur terrains non structurés. Les approches d'apprentissage antérieures traitaient généralement les capteurs comme un vecteur plat homogène, sans différenciation structurelle entre inertielles et cinématiques. GAIT s'inscrit dans la tendance 2024-2026 d'appliquer des mécanismes d'attention aux données robotiques bas-niveau, une direction convergente avec les architectures VLA (Vision-Language-Action) pour la commande motrice. Le code n'est pas encore publié ; la prochaine étape naturelle serait une validation sur plateformes bipèdes telles que l'Unitree H1 ou le Boston Dynamics Atlas, où la phase de vol rend l'estimation d'état encore plus critique.

RecherchePaper
1 source
Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles
325arXiv cs.RO 

Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles

Des chercheurs ont publié en juin 2026 (arXiv:2606.13746) un système de peau tactile dynamique basé sur des guides d'ondes acoustiques passifs et flexibles. L'architecture repose sur des résonateurs de Helmholtz à membranes élastiques interconnectés par des microtubes renforcés par ressorts, formant un réseau fermé dont la transmission acoustique reste stable sous flexion macroscopique, sans électronique distribuée dans la structure. Quatre microphones suffisent à couvrir 64 noeuds de détection avec une résolution spatiale de 4 mm et une précision de localisation supérieure à 99 %. L'inférence, fondée sur une transformée en ondelettes continue rapide (Fast CWT) couplée à un réseau de neurones léger, s'exécute en 5,5 ms. Les prototypes démontrés (réseau d'extrémité de doigt, gant tactile, peaux de grande surface) détectent des stimuli allant du contact d'un seul cheveu à un impact de particule de 5 mg, ainsi que des ondes de pouls artériel et des effleurements de plume, sur des signaux inférieurs à 100 Hz. La contribution clé n'est pas la sensibilité brute mais le découplage entre performance et flexibilité structurelle : contrairement aux capteurs piézorésistifs ou capacitifs qui se dégradent sur des substrats courbés, la transmission acoustique passive reste invariante. Ramener à quatre microphones la couverture de 64 points de mesure réduit câblage, coût et modes de défaillance, trois leviers critiques pour une mise en série industrielle. La précision annoncée de 99 % reste à confirmer hors conditions de laboratoire contrôlé et sur des cycles de manipulation réels. Ces travaux s'inscrivent dans une compétition dense autour de la peau tactile robotique, face aux capteurs optiques (famille GelSight du MIT), aux matrices piézorésistives (BeBop Sensors, SynTouch) et aux peaux capacitives développées en Europe et en Asie. Aucune approche n'a encore atteint la trifecta scalabilité-robustesse-coût sur un corps humanoïde complet. Ce paradigme passif pourrait intéresser des plateformes comme Agility Robotics, Figure AI ou Apptronik, qui cherchent à intégrer du retour tactile sans multiplier la complexité d'assemblage. La validation mécanique sur cycles répétés et la soumission à une revue à comité de lecture constituent les prochaines étapes critiques.

RecherchePaper
1 source
EgoGuide : guidage égocentrique pour collecter des démonstrations sans robot et apprendre efficacement
326arXiv cs.RO 

EgoGuide : guidage égocentrique pour collecter des démonstrations sans robot et apprendre efficacement

Une équipe de chercheurs a publié en juin 2026 sur arXiv (2606.14665) EgoGuide, une interface de collecte de démonstrations robotiques sans robot physique. Le système enregistre simultanément deux flux vidéo : une caméra au poignet de l'opérateur (wrist view) et une caméra égocentrique portée sur la tête (egocentric view). Un module de guidage visuel-géométrique en ligne évalue la qualité de chaque épisode en temps réel et signale les données redondantes ou peu informatives avant leur accumulation dans le jeu d'entraînement. Les auteurs introduisent également une "Gated Egocentric Residual Policy", une architecture qui mobilise la vue égocentrique pour corriger les ambiguïtés de la vue poignet, tout en préservant la stabilité du contrôle moteur local. Les expériences en conditions réelles confirment une réduction du nombre d'épisodes de démonstration nécessaires et une meilleure robustesse face aux occultations visuelles. L'apport principal est de s'attaquer à un goulot d'étranglement bien identifié dans le domaine : le coût humain de la collecte de données de qualité. Les pipelines de type UMI (Universal Manipulation Interface), qui permettent à un opérateur de collecter des démonstrations manuellement sans robot dédié, produisent souvent des épisodes redondants et manquent de contexte global de scène. Le guidage en ligne réduit ce gaspillage dès la source. La politique résiduelle répond à un problème concret des systèmes d'imitation : la vue poignet seule est ambiguë lors d'occultations ou de passages critiques dans la trajectoire. Donner au modèle un accès conditionnel (gated) à la vue globale lève ces ambiguïtés sans déstabiliser le contrôle fin. Pour un intégrateur, cela signifie potentiellement moins d'heures de collecte humaine pour atteindre un niveau de performance équivalent. EgoGuide s'inscrit dans la lignée directe de l'UMI, développé par Cheng Chi et ses collaborateurs à Stanford et Columbia, qui a popularisé la collecte de démonstrations via des dispositifs portatifs instrumentés. Le verrou adressé ici n'est pas la quantité brute de données mais leur qualité et leur diversité informationnelle. Les approches concurrentes incluent ACT (Action Chunking Transformer), Diffusion Policy et les plateformes de téléopération à faible coût comme ALOHA. Ce travail reste une publication académique arXiv sans déploiement industriel annoncé, et les expériences présentées restent à l'échelle laboratoire. La combinaison guidage en ligne et politique bi-caméra présente toutefois un intérêt direct pour les équipes cherchant à réduire le coût opérationnel de la démonstration à grande échelle.

RechercheOpinion
1 source
X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques
327arXiv cs.RO 

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

Publié sur arXiv (2603.03733) en 2025, X-Loco est un framework d'entraînement d'une politique de locomotion généraliste basée sur la vision pour robots humanoïdes. L'approche repose sur une distillation synergétique : plusieurs politiques expertes sont entraînées séparément pour des compétences distinctes - locomotion bipède stable, récupération après chute, coordination corps entier, franchissement de terrains variés - puis une politique unique guidée par entrée visuelle est distillée à partir de ces experts via un mécanisme de sélection adaptative au cas par cas. X-Loco opère uniquement sur des commandes de vitesse, sans recours à des mouvements de référence issus de captures de mouvement. Les auteurs revendiquent une première dans l'intégration simultanée de toutes ces compétences dans une seule politique vision - affirmation à prendre avec les précautions d'usage pour un preprint non encore évalué par les pairs. Ce travail s'attaque à un verrou technique central : entraîner une politique unique qui maîtrise des comportements aux dynamiques radicalement différentes et aux objectifs de contrôle parfois contradictoires. Une telle politique simplifie le déploiement opérationnel en éliminant les modules de commutation entre comportements. L'absence de dépendance aux données de mocap rend également le pipeline d'entraînement plus scalable, puisqu'il ne requiert pas de bibliothèques de mouvements spécifiques à chaque compétence cible. Les études d'ablation incluses renforcent la crédibilité des choix architecturaux, mais les résultats restent cantonnés à la simulation et au laboratoire, sans validation sur hardware réel à grande échelle. X-Loco s'inscrit dans une dynamique de recherche intense sur la locomotion humanoïde, portée par des équipes comme Berkeley Humanoid, CMU et les labos gravitant autour d'Unitree. La distillation enseignant-étudiant est un paradigme établi en apprentissage par renforcement, mais son application à un spectre aussi large de compétences reste un défi ouvert. Côté commercialisation, Tesla (Optimus Gen 2), Figure AI, Boston Dynamics (Atlas) et 1X Technologies travaillent sur des problèmes similaires avec des ressources bien supérieures. La suite logique pour X-Loco serait une validation sim-to-real convaincante sur hardware physique, étape non encore franchie selon le papier.

RecherchePaper
1 source
FloVerse : navigation multimodale guidée par plan d'étage
328arXiv cs.RO 

FloVerse : navigation multimodale guidée par plan d'étage

Une équipe de chercheurs a publié FloVerse, un cadre unifié de navigation incarnée guidée par plans d'étage, accompagné d'un jeu de données à grande échelle et d'une nouvelle politique d'apprentissage. Présenté sous forme de preprint arXiv (2606.14267) en juin 2026, ce travail rassemble sous un même protocole trois variantes classiques de navigation autonome en intérieur : PointNav (atteindre des coordonnées cibles), ObjectNav (trouver une instance d'objet précis) et ImageNav (rejoindre un lieu identifié par une image de référence). Pour soutenir ces expériences, les auteurs ont constitué FloVerse-1.6K, un jeu de données de 1 600 scènes issues des environnements HM3D et Gibson 4+, couplé aux plans d'étage correspondants, comprenant 240 000 trajectoires expertes et 12 millions de frames RGBD. Ils proposent également ThreeDiff, une politique d'imitation en deux étapes : un planificateur basé sur la diffusion entraîné par masked-modality modeling (masquage aléatoire des modalités en entrée pour forcer la robustesse multimodale), et un raffineur qui ajuste les trajectoires à l'exécution à partir de données de profondeur pour éviter les collisions. L'apport principal réside dans la démonstration que les plans d'étage constituent des priors spatiaux efficaces et généralisables : les résultats montrent une amélioration des performances sur l'ensemble des trois modalités de tâches, y compris en généralisation à des scènes non vues durant l'entraînement. Pour un intégrateur déployant des robots mobiles en environnement structuré (entrepôts, hôpitaux, hôtels), ce résultat ouvre une voie pragmatique : exploiter les plans existants issus du BIM ou de simples blueprints sans nécessiter de cartographie préalable par le robot. ThreeDiff montre de surcroît que ce prior spatial peut être capturé implicitement par le modèle, sans supervision explicite sur la structure géométrique du plan. Ce travail s'inscrit dans un courant de recherche actif où plusieurs approches concurrentes telles que VLN-BERT, NavGPT ou EmbodiedGPT s'appuient sur des modèles de langage visuels ou des cartes sémantiques. La spécificité de FloVerse est d'intégrer le plan d'étage comme modalité de guidage explicite et portable, là où la majorité des travaux antérieurs se limitaient à PointNav sur des environnements restreints comme AI2-THOR ou Matterport3D. En tant que preprint non encore soumis à évaluation par les pairs, les benchmarks restent en simulation ; le gap sim-to-real n'est pas évalué, ce qui constitue la limite principale avant toute application industrielle.

RecherchePaper
1 source
Le gant haptique N2D : un gant multi-doigts pour le retour de force directionnel 2D en manipulation multi-contact
329arXiv cs.RO 

Le gant haptique N2D : un gant multi-doigts pour le retour de force directionnel 2D en manipulation multi-contact

Des chercheurs du laboratoire ARC de l'Université de Californie à San Diego (UCSD) ont présenté le N2D Haptic Glove, un gant haptique multi-doigts dont le preprint a été déposé sur arXiv (2606.14083) en juin 2026. Le dispositif exploite des transmissions à cabestan (capstan-drive) pour restituer, en temps réel, des forces de contact bidirectionnelles dans le plan sagittal de chaque doigt, couvrant à la fois la flexion et l'extension. Dans une étude contrôlée de télé-opération d'un bras et d'une main robotiques, le gant a été comparé à deux conditions de référence: retour visuel seul et retour haptique mono-axial. Le retour planaire réduit significativement l'erreur de force de contact lors de manipulations précises, améliore la répétabilité inter-essais, et hausse les scores d'expérience utilisateur sur des tâches de sondage axial. Le hardware et le software seront publiés en open-source sur le dépôt de l'ARC Lab. Ce résultat adresse directement un angle mort persistant de la télé-opération haptique: sans information sur la direction de la force appliquée, un opérateur compense par la vision seule, ce qui génère des sur-pressions systématiques, une forte variabilité et une perte de précision dans les gestes fins. Pour les équipes qui collectent des données de démonstration robotique (learning from demonstrations, LfD) pour entraîner des politiques de manipulation dextre, la fidélité du retour d'effort est critique: un gant qui ne transmet que l'intensité introduit un biais dans les trajectoires capturées. La capacité du N2D à réduire l'erreur de force en télé-opération suggère que les données produites avec ce type de gant seraient plus représentatives des stratégies de contact humain réel, ce qui est directement pertinent pour les équipes humanoides actuelles. Le N2D s'inscrit dans un segment où plusieurs acteurs ont tenté de concilier précision et praticité. HaptX commercialise un gant pneumatique à retour de force multi-doigts, mais avec un encombrement et un poids importants; SenseGlove (Pays-Bas) propose un exosquelette à câbles ciblant la formation industrielle; Dexmo de Dexta Robotics offre un retour de force par doigt sans composante directionnelle planaire. Le N2D se distingue par la transparence mécanique réputée des transmissions à cabestan et par son approche open-source, rare dans ce domaine. Les auteurs ciblent trois débouchés: télé-opération contact-riche, simulation en réalité virtuelle et collecte de démonstrations pour l'apprentissage robotique. Le preprint ne mentionne ni partenaire industriel ni calendrier de commercialisation; l'étude reste un prototype de laboratoire validé en conditions contrôlées.

UELa publication open-source du N2D constitue une pression concurrentielle indirecte pour SenseGlove (Pays-Bas), acteur européen du gant haptique à câbles ciblant la formation industrielle.

RecherchePaper
1 source
TRACE : mémoire causale guidée par trajectoire pour l'imitation visuomotrice à indices différés
330arXiv cs.RO 

TRACE : mémoire causale guidée par trajectoire pour l'imitation visuomotrice à indices différés

TRACE (TRAjectory-routed Causal Evidence) est un framework mémoire pour les politiques visuomotrices d'imitation, présenté dans un preprint arXiv publié en juin 2026 (arXiv:2606.14551) par une équipe de l'Université Zhejiang. Le problème central : lorsqu'un robot opère en autonomie sur une séquence longue, certains indices visuels critiques (couleur d'un objet, panneau de direction, marquage au sol) disparaissent du champ de vision avant que la décision correspondante doive être prise. Ces situations dites de "preuve différée" (delayed-evidence) créent une ambiguïté directe : deux observations visuellement identiques peuvent exiger des actions opposées selon ce que le robot a perçu plus tôt. TRACE y répond en maintenant une mémoire latente de taille fixe, indexée non par le temps brut ni par des étiquettes de tâche fournies manuellement, mais par des "signatures de trajectoire" (path signatures), des descripteurs compacts et ordonnés de la trajectoire d'état cinématique du robot. Ces signatures servent de clés pour écrire et récupérer les preuves visuelles stockées au moment où l'indice était encore visible. Le système s'intègre via des adaptateurs légers sans modifier le backbone, la tête d'action ni l'objectif d'imitation. L'enjeu pratique est réel pour les systèmes de manipulation longue durée. La quasi-totalité des politiques visuomotrices actuelles, qu'elles soient basées sur des Diffusion Policies, des transformers ou des modèles VLA (Vision-Language-Action), supposent implicitement que l'observation courante constitue un état suffisant pour le contrôle. TRACE démontre expérimentalement, sur des tâches réelles de manipulation avec des points de branchement visuellement ambigus, que cette hypothèse échoue dès qu'une décision dépend d'un indice passé. Les résultats surpassent les baselines concurrentes, dont les politiques à historique court et les mémoires récurrentes classiques (LSTM, GRU), sur deux métriques : sélection correcte de branche et taux de succès global. La mémoire à taille bornée évite par ailleurs l'accumulation qui pénalise les architectures à attention sur contexte long lors d'épisodes étendus. Ce travail s'inscrit dans un débat actif sur la mémoire épisodique pour robots manipulateurs. Les approches existantes incluent les RNN embarquées dans la politique, les mécanismes d'attention sur l'historique visuel exploités dans RT-2 et pi-0 (Physical Intelligence), et les Memory-Augmented Neural Networks. TRACE se distingue par son découplage entre l'indice visuel (stocké comme vecteur latent) et la clé de récupération (signature cinématique pure), ce qui le rend robuste aux variations d'apparence tout en restant sensible au chemin parcouru. Il s'agit d'une contribution de recherche fondamentale sans déploiement industriel annoncé ; les suites naturelles incluent l'intégration à des politiques de référence comme ACT ou Diffusion Policy, et la validation sur des horizons plus longs en environnement non structuré.

RechercheOpinion
1 source
AnyGoal : exploration multi-agents guidée par vision-langage pour une navigation permanente sans entraînement
331arXiv cs.RO 

AnyGoal : exploration multi-agents guidée par vision-langage pour une navigation permanente sans entraînement

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.13878) AnyGoal, une architecture multi-agents de navigation en intérieur conçue pour fonctionner sans entraînement préalable sur les scènes cibles. Le système coordonne plusieurs robots via une carte partagée appelée Bayesian Value Map (BVM), une grille 2D maintenant pour chaque pixel une distribution gaussienne (μ, σ²) représentant la pertinence estimée de l'objectif. Cette carte est mise à jour par fusion pondérée des scores issus d'un modèle vision-langage (VLM), projetés via un masque conique de profondeur, et n'est jamais remise à zéro entre les sous-tâches, permettant une accumulation d'indices dite « lifelong ». Sur le benchmark GOAT-Bench (360 épisodes, 2 669 sous-tâches, configuration physique stricte : pas discrets de 0,25 m, champ de vision horizontal de 42°, sans téléportation), la version bi-agent atteint 52,4 % de taux de réussite par sous-tâche (Subtask SR) pour un SPL de 12,7 %, contre 41,9 % en configuration mono-agent. Ce résultat représente un gain de +27,5 points de pourcentage sur Modular GOAT (24,9 %), le système modulaire de référence précédent, ce qui est substantiel dans un domaine où les progrès se mesurent souvent en quelques points. L'intérêt principal réside dans l'approche sans entraînement : là où la plupart des politiques de navigation end-to-end se dégradent dès qu'elles rencontrent des scènes, des catégories d'objets ou des modalités d'objectif hors distribution, AnyGoal s'appuie sur la généralisation intrinsèque du VLM. L'ablation à quatre variables de perception révèle que l'intégration de détecteurs open-vocabulary déplace le goulot d'étranglement : la cause principale d'échec n'est plus l'exploration, mais la vérification de l'objectif, un déplacement de problème qui oriente clairement les futurs travaux. AnyGoal s'inscrit dans la lignée des travaux tentant de remplacer les pipelines fermés (détection à ensemble d'objets fixe, comme dans Modular GOAT) et les mémoires 3D denses (comme 3D-Mem, coûteuses à maintenir et sensibles au point de vue) par des représentations légères pilotées par le langage. La coordination multi-agents repose ici sur un allocateur glouton avec pénalité de séparation spatiale et hysteresis d'engagement, sans contrôleur centralisé, ce qui simplifie le déploiement. L'architecture reste à ce stade une contribution de recherche publiée sur preprint ; aucun pilote industriel ni déploiement réel n'est annoncé. Les prochaines étapes naturelles concernent la robustesse du VLM à la vérification de but et l'extension à des environnements semi-structurés ou extérieurs, où la généralisation sera encore plus mise à l'épreuve.

RecherchePaper
1 source
Récupération robuste après chute pour robots bipèdes à roues sans bras par apprentissage guidé par les forces
332arXiv cs.RO 

Récupération robuste après chute pour robots bipèdes à roues sans bras par apprentissage guidé par les forces

Des chercheurs présentent FTSR (Force-guided Teacher-student framework with Stage-wise Rewards), une méthode d'apprentissage par renforcement pour la récupération après chute des robots bipèdes à roues sans bras, publiée sur arXiv en juin 2026 (arXiv:2606.14270). En simulation, une force auxiliaire externe corrélée en temps réel à la hauteur du robot est formulée comme contrainte optimisable : l'algorithme d'apprentissage contraint pousse la politique à réduire progressivement sa dépendance à cette force tout en relevant le corps. Une architecture teacher-student distille la connaissance privilégiée des dynamiques de récupération, structurée par des récompenses progressives par seuils de hauteur (height-progressive stage-wise rewards). La politique est ensuite déployée sur un robot bipède à roues sans bras physique, testée dans des conditions variées et difficiles, et transfère également à un humanoïde à nombreux degrés de liberté (high-DOF). Sans bras ni pattes supplémentaires pour générer des forces d'appui, un bipède à roues figure parmi les morphologies robotiques les plus contraintes pour la récupération après chute. FTSR contourne ce verrou en injectant une force auxiliaire virtuelle pendant l'entraînement en simulation, puis en la supprimant graduellement via une contrainte optimisable : le robot développe ainsi des stratégies de redressement internes sans jamais dépendre d'un artefact absent en conditions réelles. La validation sim-to-real sur robot physique, combinée à la généralisation à un humanoïde high-DOF sans sur-adaptation à une cinématique spécifique, renforce la crédibilité pratique de l'approche pour les équipes travaillant sur plusieurs plateformes. C'est précisément ce gap entre démonstration en simulation et déploiement physique robuste que FTSR cherche à combler, avec des résultats qui méritent d'être suivis. Les robots bipèdes à roues occupent une niche croissante entre les AMR classiques et les humanoïdes complets : ils combinent mobilité sur terrain plat et capacité partielle à franchir des obstacles, à un coût mécanique inférieur. Sur le problème précis de la récupération après chute, les travaux existants se concentrent sur les humanoïdes avec bras (Boston Dynamics Atlas) et les quadrupèdes multi-pattes (ANYmal d'ANYbotics, Unitree Go2), laissant peu de littérature sur les morphologies intermédiaires sans membres supérieurs. FTSR reste à ce stade un preprint arXiv sans déploiement industriel annoncé et sans plateforme commerciale nommée ; les suites naturelles seraient une évaluation sous perturbations extérieures actives et une intégration dans une stack de navigation autonome complète.

RecherchePaper
1 source
Un modèle basé sur l'attention pour la prévision robuste face aux modalités manquantes
333arXiv cs.RO 

Un modèle basé sur l'attention pour la prévision robuste face aux modalités manquantes

Des chercheurs ont publié le 18 juin 2026 sur arXiv (arXiv:2606.13970) un modèle d'apprentissage multimodal conçu pour fonctionner en présence de données sensorielles incomplètes, une contrainte courante dans les systèmes robotiques réels. L'architecture combine un autoencodeur variationnel conditionnel (CVAE) et un réseau de transformers exploitant des mécanismes d'attention pour produire une représentation vectorielle de dimension fixe, même lorsqu'une ou plusieurs modalités sont absentes, aussi bien en phase d'entraînement qu'à l'inférence. Le modèle a été évalué sur cinq jeux de données multimodaux couvrant deux tâches distinctes : la prédiction de trajectoires humaines et la prévision de manipulations robotiques. Sur l'ensemble de ces benchmarks, il surpasse les approches de fusion multimodale précédemment publiées, selon les métriques rapportées par les auteurs. Ce travail s'attaque à un verrou réel du déploiement robotique : les modèles multimodaux existants supposent quasi-universellement que toutes les modalités (vision, profondeur, proprioception, LiDAR, etc.) sont disponibles simultanément, une hypothèse rarement vérifiée en production. Une caméra obstruée, un capteur de force défaillant ou une latence réseau suffit à faire chuter les performances d'un pipeline classique. En formulant le problème comme un apprentissage conditionnel plutôt qu'une fusion rigide, les auteurs permettent au modèle d'approximer une représentation robuste à partir de l'information partielle disponible, ce qui ouvre la voie à des architectures tolérantes aux pannes sans recourir à des modules de gestion d'exception ad hoc. Pour un intégrateur ou un COO industriel, c'est la promesse de systèmes plus résilients face aux aléas terrain, à condition que les gains en conditions réelles confirment les résultats sur benchmarks. Le problème de la modalité manquante est connu en apprentissage automatique depuis les travaux sur les données tabulaires incomplètes, mais son traitement dans le contexte des robots physiques est resté marginal, la majorité des efforts récents se concentrant sur les architectures VLA (Vision-Language-Action) comme Pi-0 ou GR00T N2, qui présupposent des flux visuels stables. Ce papier s'inscrit dans un courant de recherche plus discret mais potentiellement structurant, aux côtés de travaux sur la robustesse sensorielle et le sim-to-real transfer. L'article est un preprint arXiv non encore évalué par les pairs, et les benchmarks retenus (trajectoires humaines, manipulation) ne couvrent pas des scénarios industriels complexes comme la navigation en entrepôt ou l'assemblage multi-bras. Les prochaines étapes naturelles seraient une validation sur des plateformes physiques réelles et une comparaison avec des approches de type dropout multimodal ou récents travaux sur l'imputation par diffusion.

RecherchePaper
1 source
SplatlessDF : cartographie continue de champ de distance avec des gaussiennes sans splatting
334arXiv cs.RO 

SplatlessDF : cartographie continue de champ de distance avec des gaussiennes sans splatting

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.13990) SplatlessDF, un cadre de cartographie par champ de distance continu (DF) qui réutilise les primitives gaussiennes non pas pour le rendu visuel, mais pour la représentation spatiale. Contrairement aux méthodes classiques de Gaussian Splatting (GS) optimisées pour la reconstruction photométrique, SplatlessDF paramètre directement des éléments gaussiens anisotropes dans le domaine spatial afin de produire un champ de distance différentiable. Le système supporte deux modes d'utilisation : une formulation autonome centrée uniquement sur le champ de distance, et une formulation conjointe couplée à la méthode 2D Gaussian Splatting (2DGS), qui combine dans un seul pipeline la modélisation DF et le rendu photométrique. Les expériences rapportées montrent que la formulation autonome fournit des requêtes de distance et de gradient précises et efficaces, tandis que la formulation conjointe améliore simultanément la géométrie de rendu et la qualité du champ de distance. L'intérêt pratique est significatif pour la robotique mobile : un champ de distance continu et différentiable permet de requêter directement les distances aux obstacles et leurs gradients, deux grandeurs fondamentales pour la planification de trajectoire, l'évitement de collision, et le contrôle en boucle fermée. En réorientant les Gaussians vers la représentation spatiale plutôt que photométrique, SplatlessDF suggère que le paradigme GS, jusqu'ici cantonné à la reconstruction 3D et la synthèse d'images, peut alimenter des modules de navigation sans nécessiter de représentations hybrides (grilles d'occupation, TSDF, réseaux implicites). Le cadre unifié GS pour DF et rendu pourrait simplifier les pipelines de cartographie embarquée pour robots industriels et mobiles autonomes. Le Gaussian Splatting a été popularisé par les travaux de Kerbl et al. (2023), et la variante 2DGS cible spécifiquement la reconstruction de surface. SplatlessDF s'inscrit dans un courant croissant qui cherche à étendre ces représentations au-delà de la vision, aux côtés d'autres approches comme les champs de distance neuraux basés sur NeRF (iSDF, NeuralBlox) ou les grilles ESDF classiques (Voxblox, FIESTA). Ce preprint ne mentionne pas de déploiement réel ni de partenariat industriel : il s'agit d'une contribution de recherche avec validation expérimentale en environnement contrôlé, sans timeline commerciale annoncée.

RecherchePaper
1 source
Formage de sensibilité pour la modélisation latente
335arXiv cs.RO 

Formage de sensibilité pour la modélisation latente

Des chercheurs ont soumis en juin 2026 (arXiv:2606.14585) une méthode de régularisation pour les modèles de dynamique génératifs utilisés en planification robotique. La contribution centrale, baptisée "régularisation de sensibilité au contrôle conditionnée par le support", s'attaque à un angle mort dans les systèmes de détection hors-distribution (OOD) actuels. Le problème identifié : lorsqu'un modèle de dynamique appris est localement insensible à certains choix d'action critiques, une commande non supportée peut produire des prédictions latentes qui ressemblent à des transitions déjà vues à l'entraînement, masquant les signaux OOD malgré des erreurs de prédiction réelles importantes. Les expériences couvrent trois scénarios : l'évitement d'obstacles par vision, la manipulation d'objets, et la navigation sur robot réel en boucle fermée. Ce résultat touche directement le déploiement sûr de robots pilotés par apprentissage dans des environnements non contrôlés. La détection OOD est le filet de sécurité qui permet à un contrôleur de signaler qu'il opère hors de sa distribution de compétence, plutôt que d'extrapoler dangereusement. Les méthodes existantes greffent a posteriori des estimateurs de support sur un modèle de dynamique figé, et échouent précisément dans les zones critiques où le modèle est le moins discriminant sur les actions. La méthode proposée intervient pendant l'entraînement : elle pousse le modèle à répondre de manière sensible aux variations de commande dans les régions à fort support empirique, tout en limitant l'extrapolation instable là où les données manquent. C'est une correction intrinsèque au processus d'apprentissage, pas un ajout post-hoc. Le travail s'inscrit dans le courant des modèles du monde latents pour la robotique, une famille qui inclut des architectures comme RSSM (utilisé dans Dreamer), TDMPC ou les représentations sous-jacentes à des systèmes comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La fermeture du "demo-to-reality gap" et la fiabilité en boucle fermée restent des obstacles majeurs pour les intégrateurs cherchant à déployer des robots en milieu industriel non structuré. Les résultats reportés montrent une amélioration de la détection OOD sans dégradation notable de la performance nominale du planificateur, bien que les benchmarks restent limités à des tâches de laboratoire. Une validation sur des plateformes AMR ou humanoïdes en conditions réelles constituerait la prochaine étape naturelle pour crédibiliser l'approche à l'échelle industrielle.

RecherchePaper
1 source
BIM-Loc : localisation intérieure par LiDAR intégrée au BIM et sensible aux écarts
336arXiv cs.RO 

BIM-Loc : localisation intérieure par LiDAR intégrée au BIM et sensible aux écarts

Une équipe de chercheurs publie BIM-Loc sur arXiv (identifiant 2606.14237), une méthode de localisation LiDAR pour robots de service et d'inspection en intérieur qui exploite directement les maquettes numériques BIM (Building Information Model) issues de la phase de conception des bâtiments, sans nécessiter la création préalable d'une carte dédiée. Le système estime en temps réel la trajectoire du robot dans le repère de coordonnées BIM et détecte simultanément les écarts entre l'environnement réel et la maquette as-designed. Trois contributions techniques structurent l'approche : un algorithme de lancer de rayons multi-impact pour associer les points LiDAR aux surfaces BIM et projeter les observations 3D dans un espace de texture 2D ; un cadre d'optimisation par graphe de poses intégrant des facteurs BIM pour garantir la cohérence entre l'odométrie, les scans successifs et la géométrie du bâtiment ; et un module d'inférence bayésienne hiérarchique qui met à jour de façon incrémentale une représentation surfacique 2D continue, en propageant les détections du pixel jusqu'au niveau structurel. L'enjeu central est la localisation dans les environnements intérieurs peu distinctifs, couloirs d'hôpitaux, open spaces, entrepôts, où les systèmes SLAM classiques échouent faute de repères géométriques saillants. BIM-Loc contourne ce problème en utilisant une source de données déjà présente dans la majorité des bâtiments modernes : le fichier BIM produit lors de la conception. Pour les intégrateurs de robots de service, cela supprime l'étape coûteuse de cartographie préalable et permet un déploiement rapide. La capacité de détection des écarts apporte également une valeur concrète pour les missions d'inspection de conformité, en signalant automatiquement les modifications non documentées d'un bâtiment. Selon les auteurs, BIM-Loc surpasse significativement les méthodes map-based de l'état de l'art en précision et en robustesse, bien que les métriques précises (RMSE, ATE) ne soient pas détaillées dans l'abstract. La localisation en intérieur reste un problème ouvert depuis les premières générations de robots mobiles. Les approches dominantes, SLAM 2D/3D, localisation Monte Carlo, NDT matching, reposent sur des cartes issues de relevés terrain, ce qui pose des problèmes de maintenance dans les environnements changeants. L'utilisation des BIM comme prior a été explorée dans des travaux antérieurs en réalité augmentée pour le BTP, mais leur intégration dans un pipeline de localisation temps réel avec détection de discordances constitue une contribution distincte. Dans l'espace concurrent, des systèmes comme Cartographer (Google) ou les solutions propriétaires de MiR opèrent principalement avec des grilles d'occupation 2D. Aucun partenariat industriel ni calendrier de transfert technologique n'est mentionné dans ce preprint ; la prochaine étape naturelle serait une validation dans des environnements à forte densité de personnes en mouvement.

UEL'adoption du BIM étant réglementairement encouragée dans les marchés publics européens, la méthode pourrait faciliter le déploiement de robots de service dans des bâtiments déjà dotés de maquettes numériques, mais aucune entreprise ou institution française ou européenne n'est impliquée dans ces travaux.

RecherchePaper
1 source
Segmentation de pièces fondée sur l'occupation pour les graphes de scène 3D hiérarchiques
337arXiv cs.RO 

Segmentation de pièces fondée sur l'occupation pour les graphes de scène 3D hiérarchiques

Une équipe de recherche a publié sur arXiv (réf. 2606.13727, juin 2026) un pipeline baptisé OccuSG, conçu pour construire des graphes de scènes 3D hiérarchiques (3DSG) pour robots d'intérieur en ancrant la couche « pièce » à des régions de libre espace extraites d'une décomposition d'occupancy. Contrairement aux approches existantes qui s'appuient sur des clusters de lieux, des plans de murs ou des sorties de segmentation directe (sans critère géométrique commun permettant de comparer leurs résultats), OccuSG attribue à chaque nœud-pièce un contour polygonal explicite. Le pipeline a été évalué sur 12 scènes du jeu de données Matterport3D, en faisant correspondre les polygones prédits aux instances de pièces annotées, et comparé à Hydra, méthode de référence fondée sur la connectivité par lieux. Les graphes de scènes 3D hiérarchiques constituent une couche d'abstraction critique pour les robots naviguant en environnement résidentiel ou tertiaire : ils relient la perception au niveau objet (détection, segmentation) au raisonnement à l'échelle d'une pièce (navigation sémantique, planification de tâches). OccuSG affiche un rappel nettement supérieur à Hydra (davantage d'instances de pièces correctement retrouvées), mais au prix d'une précision plus faible, se traduisant en pratique par des pièces fantômes ou mal délimitées. Pour un intégrateur robotique ou un développeur AMR, le compromis est net : meilleure couverture sémantique, fidélité géométrique moindre. Les deux méthodes échouent par ailleurs à restituer des frontières de pièces précises au niveau des murs, un problème ouvert que les auteurs reconnaissent explicitement. La recherche sur les 3DSG pour robots d'intérieur est dominée depuis plusieurs années par Kimera et Hydra, développés au MIT dans le groupe de Luca Carlone, références académiques incontournables du domaine. OccuSG adopte une voie différente en privilégiant la géométrie d'occupancy plutôt que la topologie de connectivité pour représenter la pièce. Il s'agit d'un preprint arXiv et non d'un produit déployé : les expériences sont limitées à Matterport3D, un corpus de scans intérieurs statiques qui ne reflète pas les conditions dynamiques d'un robot réel. Le code est publié sur GitHub (crcz25/OccuSG), facilitant la reproduction indépendante. Les prolongements naturels incluent des évaluations sur flux temps réel et l'intégration dans des pipelines robotiques complets comme Hydra ou Kimera.

RecherchePaper
1 source
SyLink Hand : main anthropomorphe à mécanisme de bielles inspiré des synergies pour une dextérité humaine
338arXiv cs.RO 

SyLink Hand : main anthropomorphe à mécanisme de bielles inspiré des synergies pour une dextérité humaine

Une équipe de chercheurs a publié en juin 2026 sur arXiv (preprint 2606.14250) les spécifications techniques de la SyLink Hand, une main robotique anthropomorphe de 520 grammes conçue pour reproduire la cinématique de la main humaine avec un budget de fabrication d'environ 400 dollars. La conception repose sur deux principes combinés : les synergies biomécaniques de la main humaine, identifiées grâce à des gants de capture de mouvement qui révèlent de fortes corrélations entre articulations voisines, et des mécanismes de liaisons rigides (linkages) qui coordonnent plusieurs joints à partir d'un seul actionneur. Résultat : 19 articulations pilotées par seulement 11 actionneurs. L'équipe introduit également une liaison à quatre barres sphérique originale permettant de découpler indépendamment la flexion/extension et l'abduction/adduction à l'articulation métacarpophalangienne (MCP), dans un encombrement compact. Ce rapport de 11 actionneurs pour 19 degrés de liberté est le point saillant de ce travail. Dans la plupart des mains dextres existantes, la multiplication des actionneurs fait exploser masse, coût et complexité de contrôle. En s'appuyant sur les synergies naturelles de la main (le fait que les doigts bougent rarement de façon totalement indépendante), les auteurs réduisent le problème sans sacrifier l'anthropomorphisme cinématique. Un coût de fabrication de 400 dollars positionne la SyLink Hand très en dessous des références académiques comme la Shadow Hand (plusieurs dizaines de milliers d'euros) ou l'Allegro Hand (Wonik Robotics, environ 4 000 dollars). Cela ouvre un couloir d'accessibilité pour la robotique de service, les plateformes de recherche ou l'intégration dans des humanoïdes à budget contraint. Reste à noter que les évaluations présentées sont expérimentales et issues d'un prototype de laboratoire : aucun déploiement industriel ni partenariat industriel n'est annoncé. Cette publication s'inscrit dans une compétition académique et industrielle dense autour des mains robotiques dextres. Shadow Robot (UK) domine le segment haute performance avec la Dexterous Hand, tandis que des projets open-source comme LEAP Hand (Carnegie Mellon, 2023) ou la main de Dexterous Robotics ciblent également le compromis coût/performance. Côté humanoïdes, Figure (Figure 03), Tesla (Optimus Gen 3) et Agility Robotics développent leurs propres solutions de préhension intégrées. En Europe, des acteurs comme Enchanted Tools (France) conçoivent des mains orientées interaction sociale. La SyLink Hand, en tant que preprint sans partenaire industriel déclaré, reste pour l'instant une contribution académique prometteuse. Les suites dépendront de sa capacité à passer des tests de lab aux conditions réelles d'utilisation, notamment en durabilité des liaisons mécaniques sous cycles répétés.

RecherchePaper
1 source
$\mu_0$ : un modèle du monde 3D évolutif par traces d'interaction
339arXiv cs.RO 

$\mu_0$ : un modèle du monde 3D évolutif par traces d'interaction

Des chercheurs présentent μ₀ (mu-zéro), un modèle mondial 3D à base de traces d'interaction, publié en préprint sur arXiv (2506.13769) en juin 2025. Plutôt que de reconstruire des pixels denses comme les modèles vidéo, ou d'exiger des étiquettes d'action spécifiques à chaque morphologie robotique, μ₀ prédit des trajectoires 3D lisses pour des points saillants : objets, outils, mains et zones de contact, encodées en points de contrôle B-spline. Le système TraceExtract extrait automatiquement cette supervision depuis des vidéos diversifiées, en sélectionnant des points clés, construisant des traces alignées globalement et associant chaque segment à des légendes linguistiques hiérarchiques. L'architecture couple un backbone vision-langage préentraîné à un expert de traces modulaire. Dans les expériences de laboratoire, μ₀ dépasse les baselines en prédiction de traces 2D et 3D, y compris les approches VLM tokenisées. L'enjeu central est l'interopérabilité cross-embodiment : permettre à une politique robotique d'opérer sur différentes morphologies sans données d'action spécifiques. Les VLA comme π₀ de Physical Intelligence ou GR00T N2 de NVIDIA nécessitent des téléopérations coûteuses pour étiqueter les actions, freinant la scalabilité. μ₀ contourne ce verrou en apprenant une représentation intermédiaire agnostique à l'embodiment, couplable ensuite à des experts d'action légers par morphologie cible. Résultat notable : malgré un préentraînement entièrement sans étiquettes d'action, les politiques trace-conditionnées atteignent des performances compétitives avec π₀, un VLA entraîné avec supervision d'action complète. Si cette généralisation se confirme à l'échelle, des politiques de manipulation pourraient être entraînées massivement sur des vidéos génériques, humaines ou issues de la simulation, sans collecte de données robot-spécifiques. La robotique de manipulation cherche depuis des années à s'affranchir des données proprioceptives labellisées, coûteuses à collecter. Deux approches dominent actuellement : les modèles vidéo pixel-dense comme UniSim ou Genie, et les VLA directs comme OpenVLA, π₀ ou GR00T N2, chacun présentant ses propres limites de scalabilité ou de spécificité. μ₀ propose un troisième espace latent, la trace 3D compacte, entraînable sur des vidéos brutes. Les concurrents les plus proches incluent les travaux de point-tracking tels que TAPIR et CoTracker, ainsi que les modèles d'action en espace latent. Le papier reste un préprint de laboratoire sans déploiement industriel annoncé, et la robustesse en environnement réel non contrôlé reste à démontrer. Les prochaines étapes logiques incluent la validation sur des flottes multi-robots hétérogènes et l'intégration dans des pipelines d'imitation learning à grande échelle.

RechercheOpinion
1 source
Robots d'assistance personnalisés par LLM : apprentissage des préférences en langage naturel pour personnes paralysées
340arXiv cs.RO 

Robots d'assistance personnalisés par LLM : apprentissage des préférences en langage naturel pour personnes paralysées

Une équipe de chercheurs a publié sur arXiv (réf. 2604.01463) un cadre d'apprentissage des préférences conçu pour personnaliser les robots d'assistance physique à partir de retours en langage naturel, sans imposer de charge cognitive aux utilisateurs atteints de paralysie. Le système, entièrement hors ligne, traduit des commentaires vocaux non structurés en politiques de contrôle robotique déterministes. La validation a été menée avec 10 adultes tétraplégiques dans une étude simulée de préparation de repas. Le pipeline s'appuie sur des grands modèles de langage (LLM) ancrés dans l'Occupational Therapy Practice Framework (OTPF), référentiel clinique standard de l'ergothérapie américaine, pour déchiffrer les réactions subjectives des utilisateurs en besoins physiques et psychologiques explicites, puis les convertir en arbres de décision lisibles. Une étape de vérification automatisée, dite "LLM-as-a-Judge", contrôle la sûreté structurelle du code généré avant tout déploiement. L'enjeu est direct pour les intégrateurs de robotique d'assistance : les méthodes classiques d'apprentissage des préférences, notamment les comparaisons par paires exhaustives issues du paradigme RLHF, sont pratiquement inapplicables à des utilisateurs présentant des déficiences motrices sévères, tant la fatigue physique et cognitive est élevée. Ce travail propose une alternative qui réduit significativement la charge utilisateur selon les mesures rapportées, et dont les politiques générées ont été jugées sûres et fidèles aux préférences des patients par des ergothérapeutes certifiés. L'ancrage dans un cadre clinique structuré, plutôt qu'une simple inférence LLM libre, est le point différenciant : il impose une traçabilité entre le discours du patient et les paramètres de contrôle robot. Les arbres de décision produits restent interprétables, ce qui facilite la validation réglementaire. Le cadre s'inscrit dans une littérature croissante sur la personnalisation des robots d'assistance, domaine où Physical Intelligence (pi.ai) ou des acteurs académiques comme Stanford et Carnegie Mellon explorent les politiques VLA généralisables. Ici, l'approche est délibérément ciblée et offline, ce qui la distingue des pipelines end-to-end en ligne. La taille de l'étude reste limitée (10 participants, environnement simulé), et aucune timeline de déploiement clinique réel n'est annoncée, ce qui maintient ce travail au stade de la preuve de concept prometteuse plutôt que d'un produit shipped. La prochaine étape naturelle serait une validation en environnement réel avec un robot physique instrumenté.

RecherchePaper
1 source
Relaxations semi-définies pour la planification de mouvement sans collision
341arXiv cs.RO 

Relaxations semi-définies pour la planification de mouvement sans collision

Une équipe de chercheurs a soumis sur arXiv (identifiant 2606.14063) une analyse théorique des relaxations semi-définies (SDP) appliquées à la planification de trajectoires sans collision. Le problème étudié est volontairement élémentaire : un robot ponctuel doit rejoindre une cible en évitant des obstacles sphériques dans R^n, sous contraintes de continuité de trajectoire et avec un coût sur les dérivées au carré. Ce problème est d'abord formulé exactement comme un problème non-convexe sur des courbes polynomiales, puis une relaxation semi-définie naturelle est construite. Les benchmarks montrent un gain de vitesse de 10 à 100 fois par rapport aux solveurs de programmation non-linéaire directs SNOPT et IPOPT, avec une variance des temps de résolution nettement plus faible. La méthode est validée comme fonction de pilotage convexe dans un planificateur RRT pour des trajectoires quadrirotor à snap minimal avec continuité C^4 (jusqu'à la 4e dérivée). Les deux contributions théoriques constituent, selon les auteurs, la première analyse formelle des SDP pour ce problème. La première établit que résoudre la relaxation convexe revient à résoudre globalement un problème de planification connexe dans un espace de dimension potentiellement supérieure, ce qui donne des conditions nécessaires et suffisantes de tightness ainsi qu'une intuition géométrique claire des cas où la relaxation est lâche. La seconde identifie une réduction de symétrie décisive : les tailles des cônes semi-définis positifs (PSD) évoluent linéairement avec le degré polynomial et sont indépendantes de la dimension ambiante, évitant ainsi l'explosion combinatoire typique des méthodes NLP en haute dimension. La planification sans collision reste un verrou fondamental de la robotique, où les solveurs NLP classiques souffrent de sensibilité aux initialisations et de convergence vers des minima locaux sous-optimaux. Des frameworks comme Drake (groupe Tedrake, MIT CSAIL) utilisent déjà des relaxations convexes de type GCS ou DSOS, mais sans les garanties théoriques que ce travail commence à formaliser. L'extension aux obstacles non-sphériques et aux robots articulés à degrés de liberté multiples reste entière, deux généralisations indispensables avant tout déploiement industriel. Des applications en navigation de drones en intérieur ou en planification de mouvement pour bras manipulateurs constituent les prochaines étapes logiques.

RecherchePaper
1 source
Friction asymétrique dans la locomotion géométrique
342arXiv cs.RO 

Friction asymétrique dans la locomotion géométrique

Des chercheurs ont soumis sur arXiv (référence 2512.22484, version 2) une extension formelle des modèles de mécanique géométrique appliqués à la locomotion. Ces modèles décrivent comment robots et animaux convertissent des changements de forme interne en déplacement net, une relation encodée dans une "carte de motilité". Le cadre classique reposait sur une friction anisotrope (coefficients différents selon les axes avant/arrière et gauche/droite), formalisée via des métriques riemanniennes sur chaque segment corporel. L'approche sous-riemannienne permettait d'identifier la vitesse de position qui minimise la puissance dissipée par friction pour une vitesse de forme donnée. La contribution du papier consiste à lever l'hypothèse de symétrie : la friction peut désormais être asymétrique, c'est-à-dire avec des coefficients distincts pour le mouvement vers l'avant et vers l'arrière sur un même axe. Formellement, les métriques riemanniennes sont remplacées par des métriques de Finsler, et l'approche sous-riemannienne se généralise en une approche sous-finslérienne. Cette distinction a des conséquences pratiques directes. De nombreux locomoteurs opèrent sur des surfaces à friction asymétrique : les serpents se propulsent via des écailles dont la résistance au glissement avant et arrière est délibérément différente ; les pattes équipées de crampons, les robots rampants (crawling robots) et certains micro-robots présentent le même profil. Dans les modèles riemanniens classiques, cette asymétrie était ignorée ou approximée, ce qui introduit des erreurs systématiques dans la carte de motilité. Le papier démontre que la propriété "géométrique" fondamentale se maintient dans le cadre finslerian : le déplacement final dépend uniquement de la séquence de formes parcourues, pas de la vitesse d'exécution. Les auteurs identifient également l'analogue de la courbure de contrainte, un invariant clé qui caractérise les capacités de déplacement net du système. Le cadre de mécanique géométrique appliqué à la locomotion a été principalement développé par Ross Hatton et Howie Choset à Carnegie Mellon University dans les années 2010, avec des applications à la locomotion serpentiforme et aux organismes microscopiques en régime à faible nombre de Reynolds. Ce travail s'inscrit dans cette lignée en levant une hypothèse restrictive qui en limitait le domaine d'applicabilité. Les approches concurrentes (méthodes numériques directes, apprentissage par renforcement) modélisent la friction asymétrique sans offrir les mêmes garanties d'interprétabilité analytique. La prochaine étape naturelle serait de valider ce cadre sub-finslerian sur des plateformes robotiques réelles à friction asymétrique prononcée, et d'explorer son apport pour la planification de trajectoires dans ces environnements.

RecherchePaper
1 source
Le Navigateur de Schrödinger : imaginer un ensemble de futurs pour la navigation vers des objets en zéro-shot
343arXiv cs.RO 

Le Navigateur de Schrödinger : imaginer un ensemble de futurs pour la navigation vers des objets en zéro-shot

Des chercheurs ont présenté sur arXiv (2512.21201, v3, déposé en décembre 2025) Schrödinger's Navigator, un système de navigation zéro-shot d'objets (ZSON) pour robots mobiles. Le principe : à l'inférence, le système génère plusieurs "futurs 3D imaginés" le long de trajectoires candidates, maintenant une superposition de représentations plausibles de la scène plutôt que de s'engager sur une carte unique. Un échantillonneur adaptatif concentre l'effort sur les zones occultées et incertaines, tandis qu'une Future-Aware Value Map (FAVM) agrège ces projections pour sélectionner des waypoints proactifs et conscients des risques. Les expériences ont été menées en simulation et sur un quadrupède physique Unitree Go2 dans des scènes encombrées à forte occlusion, avec des résultats supérieurs aux meilleures baselines ZSON actuelles en termes de détection de cibles cachées. Le fossé simulation-réel est l'un des obstacles structurels de la robotique de service : les systèmes efficaces en simulation se dégradent souvent dans des environnements réels encombrés, où les zones inexplorées rendent l'inférence sur une scène unique fragile et risquée. Schrödinger's Navigator attaque ce verrou en raisonnant sur des futurs hypothétiques à l'inférence, sans retraining, ce qui ouvre la voie à une navigation autonome sans cartographie préalable dans des entrepôts, hôpitaux ou bâtiments publics non structurés. La validation sur hardware physique (Go2) plutôt qu'exclusivement en simulation renforce la crédibilité de l'approche, même si les métriques précises (taux de succès chiffrés, nombre de scènes testées) n'apparaissent pas dans le résumé publié. La ZSON est un champ actif mobilisant laboratoires et équipes R&D industrielles, avec des approches concurrentes basées sur des modèles de langage visuel (VLM) ou des représentations sémantiques 3D comme les NeRF ou le Gaussian Splatting. L'originalité de cette proposition est l'usage d'un modèle de monde 3D conditionné par la trajectoire pour projeter des futurs probables, une transposition directe du paradoxe de Schrödinger à la planification sous incertitude. La recherche, déjà en troisième version sur arXiv, reste purement académique : aucun déploiement commercial ni pilote industriel n'est annoncé. Elle constitue néanmoins un signal pertinent pour les équipes travaillant sur la navigation autonome en environnements dynamiques et non structurés, en particulier dans le contexte de l'essor des robots de service et des humanoïdes de deuxième génération.

RecherchePaper
1 source
Commande prédictive par modèle à impédance corps entier pour l'interaction physique humain-robot sûre sur base flottante
344arXiv cs.RO 

Commande prédictive par modèle à impédance corps entier pour l'interaction physique humain-robot sûre sur base flottante

Des chercheurs ont publié sur arXiv (réf. 2606.14617, juin 2026) une architecture de contrôle à trois niveaux pour robots à base flottante - bipèdes et humanoïdes - conçue pour maintenir l'équilibre tout en tolérant l'interaction physique soutenue avec des opérateurs humains (pHRI, physical human-robot interaction). Le premier niveau est un MPC centroïdal qui planifie les forces de contact sur un horizon de 500 millisecondes. Le deuxième est un contrôleur corps entier (WBC) qui traduit l'équilibre en couples articulaires par projection dans l'espace nul cohérente avec les contraintes de contact. Le troisième est un programme quadratique (QP) à horizon fuyant qui prédit et rejette les perturbations de contact à l'aide d'un état augmenté par filtre de Kalman. Une linéarisation par retour d'état réduit la dynamique de l'effecteur à un double intégrateur à matrice constante dans chaque mode de contact, permettant une précalculation hors-ligne des matrices de coût et une exécution à plus de 1 kHz. Les validations ont été conduites en simulation sur un biped à 17 degrés de liberté et sur l'humanoïde Unitree G1. L'apport central est une garantie formelle d'erreur nulle en régime permanent sous des forces de contact humain soutenues et bornées - une limite connue des contrôleurs WBC à gain fixe, qui accumulent une dérive statique lorsqu'un opérateur guide ou pousse le robot en continu. La cadence à 1 kHz, rendue possible par la précalculation hors-ligne, s'inscrit dans les contraintes temps réel de la robotique industrielle. Un théorème d'équivalence d'impédance établit que la limite horizon infini du contrôleur retrouve une loi d'impédance classique en espace tâche, avec masse, amortissement et raideur effectifs qui s'adaptent automatiquement à la posture et à la configuration de contact - ce qui facilite le réglage intuitif pour des ingénieurs familiers des contrôleurs d'impédance conventionnels. Ce travail étend une architecture Impedance MPC à deux couches pour base fixe publiée antérieurement par les mêmes auteurs. Le passage à la base flottante est non trivial : le robot doit simultanément gérer sa propre stabilité dynamique et absorber les perturbations externes. L'Unitree G1, humanoïde commercialisé autour de 16 000 dollars par Unitree Robotics, sert de banc de validation en simulation. Il faut souligner que l'ensemble des résultats est simulé - aucun essai physique sur robot réel n'est rapporté, ce qui constitue l'étape attendue. Dans un paysage où Boston Dynamics (Atlas), Agility Robotics (Digit) et Figure (03) développent leurs propres solutions WBC pour la coopération humain-robot, cette approche apporte une contribution méthodologique formellement fondée, mais dont la robustesse en conditions réelles reste à démontrer.

RecherchePaper
1 source
Les modèles vision-langage apprennent aux robots à lire les émotions humaines
345IEEE Spectrum Robotics 

Les modèles vision-langage apprennent aux robots à lire les émotions humaines

Des chercheurs de l'Université de Melbourne ont entraîné un robot collaboratif à reconnaître les émotions humaines en combinant analyse faciale et facteurs contextuels, via un modèle de langage visuel (VLM, ou Vision Language Model). Les résultats, publiés le 18 mai 2026 dans IEEE Robotics and Automation Letters, montrent que cette approche surpasse les systèmes classiques de reconnaissance d'expression : le VLM obtient un score de similarité de 0,86 sur 1, contre 0,77 pour les outils d'analyse faciale et de suivi d'objets conventionnels. L'étude a été conduite par Seung Chan Hong dans le cadre de sa thèse de licence, avec une cohorte de 40 volontaires. Pour entraîner le modèle, des participants ont d'abord visionné des vidéos de robots effectuant des transferts d'objets à des humains avec des degrés de succès variés, puis décrit les émotions perçues en tenant compte de la scène complète : posture, gestes (doigts qui tambourinent, lèvres pincées), position dans l'espace, et non plus seulement l'expression du visage. Dans un second test, le robot équipé du VLM a intentionnellement commis une erreur, puis proposé soit une excuse adaptée à l'état émotionnel perçu, soit une formule pré-scriptée. Résultat : 31 personnes sur 40 ont préféré la réponse contextuelle. Le résultat le plus significatif n'est pourtant pas le gain de performance du VLM, mais la limite qu'il révèle. Même avec une excuse personnalisée et émotionnellement cohérente, la confiance des participants envers le robot avait chuté après l'erreur, indépendamment de la qualité de la réponse sociale. Les auteurs en tirent une conclusion directe pour les intégrateurs et les équipes de conception : l'adaptivité émotionnelle agit comme un lubrifiant social, elle n'efface pas un déficit fonctionnel. Pour les COO et décideurs qui évaluent des déploiements de cobots en environnement humain, cela signifie que l'investissement dans la fiabilité mécanique reste prioritaire sur les couches d'intelligence émotionnelle. En revanche, dans les scénarios où des erreurs sont inévitables, un module de reconnaissance émotionnelle contextuelle peut atténuer les effets négatifs sur la relation opérateur-robot, ce qui est pertinent dans les environnements d'assemblage ou de logistique. Le VLM utilisé dans l'étude fonctionne sur un principe similaire aux grands modèles de langage comme ChatGPT, mais avec une entrée visuelle permettant une lecture de scène au-delà de la seule mimique faciale. La recherche en interaction humain-robot (HRI) investit depuis plusieurs années dans les modèles de reconnaissance d'affect, mais les approches classiques restaient cantonnées à l'analyse des expressions faciales ou au suivi de posture. L'intégration des VLMs dans ce domaine suit la vague des modèles de vision-langage généralistes issus de Google DeepMind, OpenAI ou Meta. L'étude de Melbourne se distingue par une validation empirique sur sujets humains réels avec une tâche collaborative concrète, plutôt qu'une évaluation sur benchmark. Les prochaines étapes pour ce type de recherche incluront probablement des tests en environnement industriel contrôlé, pour vérifier si la perception émotionnelle reste robuste sous pression temporelle et dans des scènes visuellement chargées.

RecherchePaper
1 source
Les robots souples s'équipent d'une micro-pompe souple pour se mouvoir
346New Atlas Robotics 

Les robots souples s'équipent d'une micro-pompe souple pour se mouvoir

Des chercheurs de l'Université de Bristol ont développé une micro-pompe souple capable d'alimenter hydrauliquement des robots mous sans recourir à des compresseurs volumineux ni à des pompes mécaniques rigides. L'appareil pèse l'équivalent d'une seule graine de courge séchée, soit quelques grammes tout au plus, et intègre du métal liquide pour générer une pression hydraulique suffisante à animer des systèmes de robotique souple. L'annonce ne précise pas les valeurs exactes de pression ni de débit, ce qui limite l'évaluation indépendante des performances revendiquées. Le problème central de la robotique souple est une incompatibilité structurelle que les chercheurs qualifient de "cardiovasculaire" : les corps peuvent se déformer et se plier, mais les actionneurs restaient rigides et encombrants, limitant l'autonomie, la miniaturisation et le déploiement dans des environnements confinés (chirurgie mini-invasive, manipulation d'objets fragiles, exosquelettes légers). Une pompe de la même compliance mécanique que le reste du système ouvre la voie à des robots entièrement souples, sans compromis structurel sur l'enveloppe ou la portabilité. Bristol est un acteur établi en robotique souple, dans un champ concurrentiel qui inclut le Wyss Institute de Harvard (robots octopoïdes, pneumatique souple), le MIT CSAIL et, en Europe, l'ETH Zurich. L'utilisation du métal liquide, vraisemblablement un alliage gallium-indium de type EGaIn, est une approche émergente qui combine fluidité, conductivité électrique et biocompatibilité potentielle. Aucun partenariat industriel ni calendrier de transfert technologique n'est mentionné dans cette publication.

RecherchePaper
1 source
MassRobotics annonce les lauréats du Robotics Medal 2026 et des prix Rising Star
347The Robot Report 

MassRobotics annonce les lauréats du Robotics Medal 2026 et des prix Rising Star

MassRobotics a annoncé les lauréates de ses prix annuels Robotics Medal et Rising Star lors de la conférence IEEE ICRA de Vienne, en juin 2026. La 4e édition du Robotics Medal, sponsorisée par Amazon Robotics et dotée de 50 000 dollars, a été remise à la professeure Allison Okamura, titulaire de la chaire Richard W. Weiland à l'École d'ingénierie de Stanford, également affiliée au département de génie mécanique et à la Hoover Institution. Okamura est récompensée pour ses travaux fondateurs en haptics, en robotique médicale et en conception de robots, ainsi que pour ses contributions à l'éducation robotique en accès libre et à la promotion des femmes dans le domaine. Le Rising Star Medal, doté de 5 000 dollars, est attribué à Ayoung Kim, professeure à l'Université nationale de Séoul, pour ses travaux pionniers sur le Scan Context appliqué à la reconnaissance de lieux par lidar, et sur le SLAM multi-capteurs résilient (localisation et cartographie simultanées) pour la navigation autonome en environnements complexes. La remise officielle des distinctions aura lieu lors d'un gala au MIT Samberg Conference Center de Cambridge (Massachusetts) le 7 novembre 2026. Ces deux prix pointent vers des domaines de recherche qui conditionnent directement la fiabilité des systèmes robotiques déployés en production. Les contributions d'Okamura en haptics alimentent des applications médicales concrètes, de la chirurgie mini-invasive aux dispositifs de réhabilitation, là où le retour de force reste un verrou technique non résolu à grande échelle. Les algorithmes SLAM de Kim, diffusés via des jeux de données publics largement adoptés, constituent une brique d'infrastructure pour les flottes d'AMR (robots mobiles autonomes) et les véhicules autonomes opérant en environnements dégradés. Ces distinctions illustrent aussi une réalité structurelle du secteur : les femmes ne représentent que 16 % des effectifs en ingénierie et robotique selon le National Girls Collaborative Project, contre 35 % de l'ensemble de la main-d'oeuvre STEM et 48 % de la population active totale aux États-Unis. MassRobotics, hub robotique basé dans la région de Boston, organise ce prix depuis quatre ans pour valoriser les chercheuses ayant un impact mesurable sur le champ. Les précédentes lauréates sont issues d'institutions comme l'UC San Diego, l'USC, l'UIUC, Boston University, le MIT et l'EPFL (Lausanne), ce qui traduit une portée internationale réelle. Le jury, composé d'experts du secteur et supervisé par MassRobotics, a cette année évalué des candidatures couvrant des problématiques aussi variées que les matériaux de préhension, les exosquelettes, les technologies d'assistance et le planning de mouvement. Daniela Rus, directrice du CSAIL au MIT et membre du conseil d'administration de MassRobotics, a souligné que la diversité des approches de recherche est un accélérateur direct pour résoudre les défis techniques les plus complexes du domaine. Le gala de novembre ouvrira billets individuels, tables réservées et opportunités de sponsoring au grand public.

RecherchePaper
1 source
Un chercheur primé entraîne des robots à formuler des hypothèses éclairées
348IEEE Spectrum Robotics 

Un chercheur primé entraîne des robots à formuler des hypothèses éclairées

Yen-Ling Kuo, professeure assistante en informatique à l'Université de Virginie à Charlottesville, a reçu l'année dernière le tout premier prix "Outstanding Women in Robotics and Automation Early Career Contribution Award" de l'IEEE Robotics and Automation Society. Cette distinction, créée dans le cadre du programme WiRA (Women in Robotics and Automation), récompense son article intitulé "Diff-DAgger: Uncertainty Estimation with Diffusion Policy for Robotic Manipulation". La méthode présentée permet à un robot de mieux évaluer et gérer l'incertitude lorsqu'il est confronté à des situations sur lesquelles il n'a pas été entraîné. Concrètement, le système réduit le besoin de supervision humaine tout en améliorant le taux de succès dans les tâches de manipulation. Membre IEEE, Kuo est titulaire d'un bachelor et d'un master en informatique de la National Taiwan University (respectivement 2009 et 2012), avant d'intégrer Google en 2012 comme ingénieure logicielle, puis d'embrasser une carrière académique à l'Université de Virginie. Diff-DAgger s'attaque à l'un des obstacles persistants du déploiement robotique en environnements réels : la capacité d'un robot à reconnaître qu'il se trouve hors de sa zone de compétence. Plutôt qu'échouer silencieusement ou répéter indéfiniment une action erronée, un robot équipé de cette approche peut estimer son propre niveau de confiance et solliciter une intervention humaine ciblée uniquement lorsque nécessaire. Cette architecture réduit la charge de collecte de données d'entraînement et ouvre la voie à l'intégration de modèles plus complexes, notamment les politiques de diffusion (diffusion policy), une famille de modèles génératifs appliquée au contrôle robotique, dans les boucles d'apprentissage interactif. Pour les intégrateurs industriels et les équipes R&D en robotique, l'enjeu est concret : moins de démonstrations humaines requises pour généraliser un comportement, et une robustesse accrue face aux variantes imprévues en production. Le parcours de Kuo illustre la convergence entre sciences cognitives et informatique qui irrigue aujourd'hui la recherche en robotique incarnée. Après ses études à Taipei, elle passe l'été 2011 chez Google à Kirkland (Washington) avant de rejoindre brièvement le MIT Media Lab sur le projet Open Mind Common Sense, un effort pionnier de représentation du sens commun pour les machines. Recrutée à temps plein chez Google en 2012, elle pilote l'initiative Shop the Look, qui connectait contenus de réseaux sociaux et résultats de recherche via vision par ordinateur et traitement du langage naturel, un précurseur direct des expériences shopping actuelles propulsées par l'IA. C'est dans ce contexte qu'elle commence à travailler avec les premiers outils de réseaux de neurones profonds, soulevant des questions sur leur interprétabilité et leur fiabilité qui orienteront sa trajectoire de recherche. Son travail sur l'incertitude en manipulation s'inscrit dans un écosystème académique actif, aux côtés d'équipes comme celles de Chelsea Finn (Stanford) ou Sergey Levine (Berkeley), qui explorent des approches similaires d'apprentissage par imitation robuste face à la distribution shift.

RecherchePaper
1 source
Les recherches montrent que la personnalité d'un robot dans les jeux dépend du timing et de l'alternance des tours
349Interesting Engineering 

Les recherches montrent que la personnalité d'un robot dans les jeux dépend du timing et de l'alternance des tours

Des chercheurs de l'université norvégienne de sciences et technologie (NTNU) ont mené une série d'expériences en laboratoire sur les interactions entre humains et robots humanoïdes dans un contexte ludique. L'étude, conduite au département Design du campus de Gjøvik sous la direction de Yavuz Inal, maître de conférences, a utilisé Pepper, le robot social de SoftBank Robotics, dans une variante physique du basketball-poubelle : les participants lançaient des boules de papier froissé dans une corbeille depuis des positions calibrées pour offrir un niveau de défi comparable entre humain et robot. Deux modes de jeu ont été évalués, coopératif (joueurs alliés vers un objectif commun) et compétitif (adversaires directs), croisés avec deux ordres de passage (humain ou robot en premier). Les variables mesurées incluaient l'engagement, la motivation, le plaisir de l'activité physique et les réponses émotionnelles. Résultat principal : des paramètres en apparence anodins, comme l'ordre du premier tour ou le cadre coopératif contre compétitif, suffisent à faire basculer l'expérience de positive à frustrante. Le mode coopératif a généré les retours les plus favorables, mais le mode compétitif s'est révélé tout aussi engageant lorsque l'humain prenait le premier tour, ce qui renforçait son sentiment de contrôle sur l'interaction. Plusieurs joueurs ont trouvé une réelle satisfaction à surpasser le robot, et certains ont admis que regarder Pepper rater un tir contribuait au plaisir. En revanche, la frustration montait fortement quand le robot ouvrait en mode compétitif : les longues pauses avant chaque tir, le rythme lent de Pepper et sa détermination à gagner heurtaient les attentes de fluidité sociale que les joueurs projettent spontanément sur un partenaire humanoïde. Un participant a comparé l'expérience à jouer contre "une imprimante surchargée avec des bras". Pour les concepteurs de robots sociaux, ces résultats pointent un enjeu de conception majeur : la tolérance à l'imperfection technique est bien plus haute quand le robot respecte les codes implicites du tour-par-tour et de la réciprocité sociale, indépendamment de ses performances motrices réelles. Pepper a été commercialisé par SoftBank Robotics à partir de 2015 et s'est imposé comme plateforme de référence pour la recherche en interaction humain-robot (HRI) dans les contextes éducatifs, hospitaliers et de service au public. Cette étude s'inscrit dans un champ de recherche plus large qui cherche à définir les conditions comportementales, au-delà des seules capacités motrices, nécessaires à une intégration réussie des robots dans des espaces sociaux partagés. Les plateformes concurrentes sur ce segment incluent NAO (également SoftBank Robotics) et Furhat Robotics, spécialiste suédois des robots conversationnels à tête expressive, sans qu'aucune ne cible explicitement le jeu physique à visée thérapeutique ou récréative. Inal indique que les travaux futurs porteront sur l'adaptation dynamique du comportement du robot au profil individuel du joueur. Les débouchés applicatifs visés incluent la rééducation motrice assistée et les environnements de soins aux personnes âgées, deux segments où la robotique sociale peine encore à démontrer son efficacité à l'échelle commerciale.

UELa recherche de l'NTNU (Norvège) et la mention de Furhat Robotics (Suède, EU) renforcent l'écosystème européen de robotique sociale, avec des débouchés applicatifs ciblant la rééducation motrice et les soins aux personnes âgées, deux domaines prioritaires des politiques de santé en France et en UE.

RecherchePaper
1 source
Vidéo du vendredi : la découverte de mouvements robotiques révèle des comportements inattendus
350IEEE Spectrum Robotics 

Vidéo du vendredi : la découverte de mouvements robotiques révèle des comportements inattendus

La semaine robotique de mi-juin 2026 a été marquée par la présentation de MotionDisco, un framework conçu pour découvrir des comportements de loco-manipulation "contact-rich" sur des horizons longs, sans recourir à la téléopération ni au retargeting de démonstrations humaines. Contrairement aux approches classiques fondées sur des milliers d'exemples capturés par mocap, MotionDisco génère ces comportements moteurs à partir de zéro en explorant l'espace des configurations physiques de manière autonome. Les séquences produites incluent des comportements qualifiés d'"atypiques" même par leurs auteurs, dont certains surprennent par leur aspect non-anthropomorphe. En parallèle, ROBOTIS a dévoilé AI Sapiens, un pipeline permettant à un humanoïde d'apprendre des mouvements depuis une vidéo capturée par smartphone, sans équipement de motion capture professionnel, avec une mise en open source annoncée. LUMOS Robotics a lancé Project EDGE en proposant 100 robots NIX gratuits à des partenaires universitaires et laboratoires sélectionnés à l'échelle mondiale. L'ESA a diffusé un timelapse du robot Dextre, positionné en bout de Canadarm2 sur l'ISS, opéré depuis le sol pour décharger des équipements depuis le compartiment non pressurisé de la capsule Dragon de SpaceX. L'intérêt de MotionDisco pour les équipes d'ingénierie tient à sa promesse de contourner le principal goulot d'étranglement du développement en robotique humanoïde : la collecte de données de démonstration. Les approches VLA (Vision-Language-Action) et les méthodes par imitation requièrent des volumes importants de données de haute qualité, coûteuses à produire par téléopération ou mocap. Un framework capable de "découvrir" des comportements moteurs complexes sans données humaines initiales réduirait ce coût d'entrée, avec un impact direct pour les intégrateurs qui externalisent aujourd'hui cette phase à des prestataires spécialisés. Cela dit, aucune métrique de robustesse, de taux de succès ni de généralisation n'est fournie dans la présentation publique, ce qui limite l'interprétation : les vidéos sélectionnées montrent des résultats visuellement convaincants, pas une validation de déploiement. L'annonce d'AI Sapiens par ROBOTIS signale une démocratisation possible du motion learning : si un smartphone suffit pour entraîner un humanoïde, le besoin en infrastructure de mocap type Vicon ou OptiTrack disparaît pour les laboratoires à budget limité. MotionDisco s'inscrit dans un axe de recherche en expansion depuis 2024, porté par des travaux comme DeepMimic (UC Berkeley) et AMP (Adversarial Motion Priors), qui cherchent à automatiser la génération de comportements locomoteurs sans supervision humaine directe. ROBOTIS, fabricant coréen connu pour la gamme de servos Dynamixel et ses plateformes humanoïdes éducatives (OP3, DARWIN), positionne AI Sapiens comme une brique accessible pour les labos dépourvus de pipelines téléopérés coûteux, face à des acteurs comme Unitree ou Fourier Intelligence qui misent eux aussi sur la réduction du coût de collecte de données. LUMOS Robotics reste peu documentée publiquement : Project EDGE ressemble davantage à un programme d'early adopters qu'à un déploiement commercial établi. Les opérations Dextre sur l'ISS rappellent que la téléopération spatiale demeure le segment le plus mature pour la manipulation dextère à distance dans des conditions réelles contraintes. Les étapes à surveiller : la publication éventuelle du code MotionDisco et le calendrier de la mise en open source du pipeline ROBOTIS.

UEL'ESA est le seul acteur européen cité, avec une opération de routine du robot Dextre sur l'ISS ; aucun impact opérationnel ou commercial direct pour la France ou l'UE.

RecherchePaper
1 source