Aller au contenu principal

Recherche — page 3

1307 articles · page 3 sur 27

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Suivre le flux : modèles comportementaux de Koopman comme pseudo-planificateurs pour la dextérité visuomotrice
101arXiv cs.RO RecherchePaper

Suivre le flux : modèles comportementaux de Koopman comme pseudo-planificateurs pour la dextérité visuomotrice

Des chercheurs ont soumis sur arXiv (arXiv:2602.07413v3) un framework nommé Unified Behavioral Models (UBMs) pour améliorer la dextérité visuo-motrice des manipulateurs robotiques. L'approche, instanciée sous le nom Koopman-UBM (K-UBM), modélise les compétences dextères comme des systèmes dynamiques couplés : les caractéristiques visuelles de l'environnement (visual flow) et les états proprioceptifs du robot (action flow) co-évoluent dans un espace latent linéaire structuré via l'opérateur de Koopman. Évalué sur sept tâches en simulation et quatre en conditions réelles, K-UBM égale ou dépasse les méthodes de référence tout en offrant une inférence plus rapide et une robustesse aux occlusions partielles. L'enjeu est structurel : les architectures actuelles à base de diffusion et de transformers modélisent les compétences comme des mappings réactifs, et s'appuient sur un action chunking à horizon fixe, créant un compromis rigide entre cohérence temporelle et réactivité. K-UBM contourne ce problème en garantissant la cohérence par construction via la dynamique du système. Son mécanisme de replanning en ligne automatique surveille l'exécution en temps réel et redémarre une planification dès que le visual flow prédit diverge de l'observé au-delà d'un seuil configuré. Pour un intégrateur industriel, cela se traduit par moins de données d'entraînement requises, une robustesse accrue aux perturbations et occlusions partielles, et une latence d'inférence réduite, trois freins identifiés au déploiement des manipulateurs dextres en production. La dextérité multi-doigts reste l'un des verrous les plus documentés de la robotique de manipulation : les architectures dominantes comme Diffusion Policy, ACT, ou Pi-0 de Physical Intelligence fonctionnent sur des tâches structurées mais peinent à s'adapter à des perturbations fines en temps réel. L'opérateur de Koopman, issu de la théorie des systèmes dynamiques non-linéaires, linéarise un espace d'état non-linéaire dans un espace latent de haute dimension, rendant le système analytiquement tractable. Ce papier est une contribution de recherche fondamentale : aucun partenaire industriel ni calendrier de déploiement n'est mentionné. Les suites naturelles incluent des évaluations sur davantage de tâches réelles en conditions non contrôlées et une intégration potentielle dans des frameworks ouverts comme Lerobot, développé par HuggingFace (Paris).

1 source
Repenser la navigation incarnée grâce au biais inductif relationnel
102arXiv cs.RO 

Repenser la navigation incarnée grâce au biais inductif relationnel

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (référence 2606.10348) DB-Nav, un framework de navigation robotique incarnée conçu pour la tâche ObjectNav : guider un agent autonome vers un objet cible dans un environnement inconnu, en s'appuyant uniquement sur des observations visuelles. La spécificité de DB-Nav est de ne pas se contenter de détecter où chercher, mais d'identifier activement ce à quoi ne pas faire confiance. Le système décompose les relations objet-contexte en deux biais complémentaires : un biais d'activation, qui propage les indices contextuels fiables dans la carte de l'environnement, et un biais d'inhibition, qui supprime les régions trompeuses via deux mécanismes distincts, la confusion perceptuelle (faux positifs issus des détecteurs open-vocabulary) et la falsification par l'action (zones déjà explorées sans succès). Ces deux biais sont unifiés dans un graphe appelé Relational Activation-Inhibition Exploration Graph, qui module dynamiquement les valeurs d'exploration des frontières candidates à partir des observations en ligne et des échecs passés. L'intérêt opérationnel de cette approche réside dans l'identification d'un problème structurel souvent sous-estimé : les modèles de vision-langage (VLM) utilisés en robotique de navigation produisent des biais systématiques, faux positifs récurrents, priors statiques obsolètes, absence de vérification incarnée, qui contaminent la cartographie et la prise de décision. DB-Nav y répond sans recourir à un raisonnement VLM en ligne coûteux, ce qui le rend à la fois léger et interprétable. Sur les benchmarks ObjectNav standards, le framework surpasse significativement les méthodes existantes en taux de succès (SR) et en succès pondéré par la longueur du chemin (SPL), deux métriques de référence dans l'évaluation de la navigation autonome en intérieur. La tâche ObjectNav est un banc d'essai central de la robotique cognitive depuis plusieurs années, avec des contributions majeures issues de laboratoires comme AI2, Meta ou CMU. Les approches dominantes jusqu'ici s'appuient sur des détecteurs open-vocabulary (CLIP, Grounding DINO) ou des VLM comme GPT-4V pour guider l'exploration, au prix d'une latence et d'une dépendance à des modèles lourds. DB-Nav s'inscrit dans un courant de recherche qui cherche à corriger le "reality gap" des VLM en intégrant un retour d'expérience incarné, une piste que suivent également des équipes travaillant sur les architectures Vision-Language-Action (VLA) pour la robotique mobile. Ce travail reste à ce stade une contribution académique sans déploiement annoncé ; son impact dépendra de son intégration dans des pipelines de navigation réels, notamment pour les robots de service en environnements intérieurs non structurés.

RecherchePaper
1 source
Communication orientée objectif pour une détection et récupération rapide des pannes en robotique
103arXiv cs.RO 

Communication orientée objectif pour une détection et récupération rapide des pannes en robotique

Une équipe de chercheurs a publié sur arXiv (2601.18765v2) un cadre baptisé Goal-oriented Communication (GoC), conçu pour accélérer la détection et la récupération de pannes (Fault Detection and Recovery, FDR) dans les robots industriels autonomes déployés en usines intelligentes. La méthode repose sur une co-conception de la boucle communication-calcul-contrôle (3C) orientée explicitement vers l'objectif FDR, plutôt que de traiter ces trois niveaux indépendamment. Pour la détection, GoC extrait un graphe de scène 3D (3D-SG) comme représentation sémantique de l'environnement et surveille les changements de relations spatiales entre objets pour identifier les anomalies. Pour la récupération, le cadre fine-tune un petit modèle de langage (SLM) via Low-Rank Adaptation (LoRA), renforcé par distillation de connaissances depuis un LLM, et génère les trajectoires de récupération. Un module de jumeau numérique léger, ne reconstituant que les contours d'objets pertinents à la tâche, affine ces trajectoires quand un contrôle fin est nécessaire. En simulation, GoC réduit le temps de FDR jusqu'à 82,6 % et améliore le taux de succès des tâches (ex. tri de pièces) jusqu'à 76 % par rapport aux frameworks de référence utilisant des VLM pour la détection et des LLM pour la récupération. Ces résultats sont toutefois issus exclusivement de simulations; aucun déploiement physique ni banc d'essai industriel réel n'est rapporté. L'intérêt industriel de GoC tient à deux arbitrages clairs. D'abord, remplacer un VLM ou LLM embarqué par un SLM spécialisé réduit la latence de façon significative, ce qui est critique dans des cellules robotisées où une anomalie non détectée en quelques dizaines de millisecondes peut provoquer des collisions ou des rebuts coûteux. Ensuite, la représentation par graphe de scène 3D offre une abstraction compacte et interprétable de l'espace de travail, potentiellement plus robuste aux variations d'éclairage ou de texture qu'une approche purement pixellique. Pour les intégrateurs et les OEM qui déploient des bras ou des cellules pick-and-place, cela suggère une voie vers des systèmes FDR embarquables sur des contrôleurs à ressources contraintes, sans passer par un cloud ou un serveur GPU dédié. La distinction SLM/LLM va dans le sens d'une tendance de fond: l'industrie cherche à internaliser l'intelligence, pas à l'externaliser. Ce travail s'inscrit dans un corpus actif de recherches sur la robotique cognitive en milieux industriels incertains, en réponse aux limites bien documentées des architectures réactives classiques face aux pannes atypiques. Les approches concurrentes les plus citées mobilisent GPT-4V ou des modèles de la famille LLaVA comme détecteurs de pannes visuelles, au prix d'une latence incompatible avec les exigences temps-réel des lignes de production. GoC ne nomme pas d'entreprise partenaire ni de pilote terrain; il reste à ce stade un prototype académique dont le transfert industriel nécessiterait une validation sur hardware réel, en particulier sur la robustesse du graphe de scène 3D face aux occlusions et aux environnements encombrés. Aucun acteur européen n'est impliqué dans l'étude publiée. Les prochaines étapes naturelles seraient une validation physique et une comparaison sur des benchmarks standardisés comme FaultBench ou les scénarios de la NIST Assembly Task Board.

RecherchePaper
1 source
CableRobotGraphSim : un réseau de neurones en graphe pour modéliser la dynamique des robots à câbles partiellement observables
104arXiv cs.RO 

CableRobotGraphSim : un réseau de neurones en graphe pour modéliser la dynamique des robots à câbles partiellement observables

Des chercheurs ont publié sur arXiv (identifiant arXiv:2602.21331v2) un modèle de simulation neuronal pour robots à câbles, baptisé CableRobotGraphSim. L'architecture repose sur un réseau de neurones graphiques (GNN) : les corps rigides du robot forment les noeuds du graphe, les câbles et les points de contact constituent les arêtes. Cette représentation permet au modèle d'inférer la dynamique du système à partir d'observations partielles uniquement, sans exiger un accès complet à l'état interne du robot. L'entraînement combine données de simulation et données réelles (sim-and-real co-training) pour améliorer la robustesse au bruit des capteurs. Le modèle est ensuite intégré à un contrôleur MPPI (Model Predictive Path Integral) pour la navigation en boucle fermée. L'abstract ne fournit aucune métrique quantitative précise sur la précision ou les temps de cycle, ce qui rend difficile toute évaluation indépendante des performances revendiquées. L'apport technique central est de s'affranchir des deux contraintes majeures des simulateurs traditionnels à base de premiers principes : l'exigence d'observabilité complète de l'état du robot, et la nécessité d'une identification paramétrique coûteuse. Pour les robots à câbles (CDPR, Cable-Driven Parallel Robots), utilisés notamment en logistique grande portée, en plateformes de simulation de mouvement et dans des projets de construction, ces contraintes ont historiquement bloqué le déploiement de pipelines sim-to-real fiables. Un modèle adaptatif capable d'ingérer des données bruitées et partiellement observées ouvre la voie à un transfert plus direct vers des applications industrielles réelles, en rapprochant la mécanique câblée des pipelines qui ont déjà transformé la manipulation et la locomotion bipedale. Les CDPR suscitent un intérêt croissant dans des contextes à grande échelle, du radiotélescope FAST en Chine aux projets logistiques en entrepôt. Sur le terrain de la simulation, les environnements généralistes comme MuJoCo, Isaac Sim de NVIDIA ou PyBullet modélisent mal la dynamique câble-contact, laissant un angle mort que cette approche data-driven spécialisée cherche à combler. Des travaux antérieurs avaient tenté des modèles analytiques ou d'apprentissage, sans traiter explicitement l'observabilité partielle. Le papier, en version v2, ne précise pas d'affiliation institutionnelle claire dans l'abstract et ne mentionne pas de dépôt open-source, deux éléments qui conditionneront son adoption réelle par la communauté robotique.

RecherchePaper
1 source
IMPACT : apprentissage d'une commande prédictive à modèle interne pour la manipulation robotique en force
105arXiv cs.RO 

IMPACT : apprentissage d'une commande prédictive à modèle interne pour la manipulation robotique en force

Une équipe de recherche a publié le 12 juin 2026 sur arXiv (référence 2606.10818) IMPACT, un framework d'apprentissage pour la manipulation robotique dite "forceful", c'est-à-dire impliquant des interactions physiques avec l'environnement : utilisation d'outils de masses variables, transport d'objets lourds, nettoyage de surface par contact prolongé. L'architecture découple le problème en deux blocs distincts : un planificateur de tâche de haut niveau, et un contrôleur prédictif basé sur un modèle interne (internal-model predictive control). Les expériences sont menées à la fois en simulation et sur robot réel, avec évaluation sur des objets non vus lors de l'entraînement. Les auteurs ne publient pas encore les métriques quantitatives précises dans l'abstract arXiv disponible, ce qui limite l'analyse indépendante à ce stade. Le verrou technique adressé est réel et sous-estimé dans les pipelines d'imitation learning actuels. Deux stratégies dominent aujourd'hui : la première laisse les forces émerger implicitement via les erreurs de suivi d'un contrôleur d'impédance, ce qui casse la généralisation dès que la masse de l'objet change ; la seconde commande explicitement les efforts via capteur force/couple ou capteur tactile au poignet, ce qui fonctionne mais alourdit l'intégration matérielle et fragilise les déploiements industriels. IMPACT propose une troisième voie en apprenant un modèle interne de la dynamique de contact, permettant au contrôleur prédictif d'anticiper les forces sans capteur dédié ni dégradation de généralisation. Les gains annoncés en taux de succès, sécurité et efficacité énergétique sont cohérents avec l'approche, mais restent à valider sur des benchmarks standardisés comme DROID ou RoboAgent. Ce travail s'inscrit dans un courant actif qui cherche à marier l'apprentissage par imitation avec les garanties du contrôle prédictif (MPC), après des travaux fondateurs comme ILC, DMP, et plus récemment les architectures VLA de type pi0 (Physical Intelligence) ou RoboDiff. Le problème de la manipulation forcée reste un angle mort des démos grand public, qui privilégient les tâches de pick-and-place sur objets légers. Les concurrents directs incluent les approches sim-to-real de CMU (DexVIP, ACT), d'ETH Zurich (ANYmal) et les travaux de Boston Dynamics Research sur la manipulation lourde. Côté européen, aucun acteur n'est directement cité, mais les travaux de Wandercraft et Enchanted Tools sur la dynamique de contact pourraient bénéficier de ce type de framework. La prochaine étape naturelle serait une validation sur manipulateurs industriels (UR, Franka) en conditions de production réelle.

RecherchePaper
1 source
EM-Fall : détection de chutes jour et nuit par ondes millimétriques embarquées sur robots humanoïdes
106arXiv cs.RO 

EM-Fall : détection de chutes jour et nuit par ondes millimétriques embarquées sur robots humanoïdes

Des chercheurs ont publié sur arXiv (réf. 2606.11109, juin 2026) un framework baptisé EM-Fall, qui intègre un capteur radar millimétrique (mmWave) directement sur un robot humanoïde mobile pour détecter les chutes de personnes âgées en environnement résidentiel. Contrairement aux installations fixes, le robot se déplace activement pour maintenir la ligne de vue sur la cible, même en cas d'occultation partielle ou de transition entre pièces. Le pipeline de traitement associe une perception centrée sur le corps humain à une modélisation temporelle légère (lightweight temporal modeling) qui analyse l'évolution du mouvement avant, pendant et après la chute, et filtre les interférences classiques des environnements domestiques comme le mouvement d'animaux de compagnie ou les artéfacts de multipath radar. L'évaluation a porté sur huit environnements intérieurs réels avec quatre participants, et les auteurs ont constitué un dataset in-home dédié à la détection de chutes par mmWave. Le modèle de robot utilisé n'est pas précisé dans l'abstract, et aucune métrique chiffrée (précision, rappel, F1) n'y figure, ce qui limite l'interprétation des résultats sans accès au papier complet. L'intérêt de l'approche tient à deux verrous résolus simultanément : la détection radar mmWave fonctionne de nuit comme de jour et n'exige pas le port d'un dispositif par l'utilisateur, là où les wearables souffrent d'une faible compliance chez les personnes âgées et où les caméras sont mises en défaut par l'occultation ou les faibles luminosités. La mobilité du robot répond quant à elle à la limite fondamentale des capteurs fixes, qui nécessitent une densité d'installation élevée pour couvrir un appartement entier. Pour un intégrateur de solutions de maintien à domicile ou un COO de résidence senior, c'est la combinaison des deux qui crée la rupture : un seul noeud de sensing mobile remplace potentiellement un réseau de capteurs statiques. Le secteur du fall detection est déjà adressé par des solutions distinctes : Vayyar Care et Amazon Halo Rise utilisent du mmWave fixe, tandis que des prestataires comme Alarm.com ou Apple (Watch Fall Detection) misent sur le wearable. La piste du robot mobile comme plateforme de sensing "embodied" est moins explorée commercialement, bien que des laboratoires comme le MIT CSAIL et l'Université Carnegie Mellon aient publié des travaux analogues sur la perception radar mobile. Ce papier reste à ce stade une preuve de concept académique sans annonce de déploiement ou partenariat industriel, et sa portée réelle dépendra de la publication des métriques complètes et d'une validation à plus grande échelle.

RecherchePaper
1 source
HiMem-WAM : modèles d'action-monde à mémoire hiérarchique pour la manipulation robotique
107arXiv cs.RO 

HiMem-WAM : modèles d'action-monde à mémoire hiérarchique pour la manipulation robotique

Une équipe de recherche a déposé sur arXiv (2606.10363v1) HiMem-WAM, un nouveau modèle d'action hiérarchique pour la manipulation robotique. L'architecture s'attaque à une limitation persistante des World Action Models (WAM) existants : leur incapacité à maintenir une mémoire de tâche cohérente sur des séquences longues, typiques des manipulations multi-étapes. HiMem-WAM combine trois mécanismes : des actions latentes centrées sur le mouvement (niveau bas), des latents de compétences de haut niveau, et une porte mémoire déclenchée aux transitions de compétences prédites. Ce verrou mémoire écrit des états compacts à des moments-clés, permettant l'inférence causale sans génération vidéo ni estimation de flux optique au moment du test. Le modèle a été évalué sur les benchmarks LIBERO, LIBERO-PLUS et RMBench, ainsi que sur des tâches en conditions réelles. La contribution principale est d'ordre systémique : la structuration hiérarchique améliore la robustesse sous perturbations lors du déploiement, là où la plupart des architectures VLA actuelles échouent dès qu'un événement imprévu survient en milieu de séquence. Pour un décideur industriel, c'est un signal pertinent : le module mémoire apporte, selon les auteurs, un gain substantiel sur les tâches longues dépendantes de l'historique d'action. Éviter la génération vidéo en temps d'inférence réduit également la latence et la charge computationnelle, deux freins réels au déploiement embarqué. Ces résultats restent toutefois issus d'un preprint non peer-reviewed, et les performances sur benchmarks standardisés ne garantissent pas les mêmes gains en environnement de production non contrôlé. Les World Action Models constituent un paradigme récent qui apprend les dynamiques visuelles pertinentes pour l'action, distinct des architectures VLA classiques comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, lesquelles s'appuient sur des transformers multimodaux de grande taille. La manipulation longue-horizon reste un défi ouvert pour l'ensemble du secteur : ni les diffusion-policies ni les modèles language-conditioned n'ont résolu le maintien du contexte sur des séquences dépassant une dizaine de sous-tâches. HiMem-WAM propose une piste architecturale concrète, mais sans intégration hardware annoncée ni timeline de déploiement, ce qui en fait pour l'instant une contribution de recherche fondamentale.

RechercheOpinion
1 source
GuideWalk : apprentissage de la navigation autonome et de la locomotion unifiées pour robots humanoïdes sur terrains variés
108arXiv cs.RO 

GuideWalk : apprentissage de la navigation autonome et de la locomotion unifiées pour robots humanoïdes sur terrains variés

Des chercheurs présentent GuideWalk (arXiv:2606.10449, juin 2026), un framework unifié qui couple navigation autonome et locomotion adaptative pour robots humanoïdes sur terrains variés. L'architecture repose sur trois composantes : un module de navigation qui génère des guidances de vitesse explicites en tenant compte de la traversabilité du terrain, un schéma de distillation à enseignants composites qui agrège commandes directionnelles et actions dynamiquement cohérentes dans une politique unique, puis un affinement par apprentissage par renforcement (RL) couplé à un objectif auxiliaire de clonage comportemental (behavior cloning). Ce dernier mécanisme vise à maintenir les comportements souhaitables issus des enseignants tout en favorisant l'exploration. L'article reste au stade de preprint arXiv sans déploiement industriel annoncé ni métriques benchmarkées publiées dans l'abstract. Le problème technique adressé est structurant pour la robotique humanoïde : l'évitement d'obstacles et la locomotion dynamique sont habituellement traités en silos, ce qui crée des incohérences lorsqu'un robot planifie sur escaliers, sol accidenté ou transitions sol dur/mou. GuideWalk découple explicitement la planification d'obstacles de l'état du terrain, ce qui est une approche architecturale plus propre que les solutions end-to-end brutes ou les pipelines hiérarchiques rigides. Pour les intégrateurs et décideurs B2B, le vrai enjeu est le sim-to-real gap sur locomotion hétérogène : si cette architecture tient ses promesses en évaluation externe, elle pourrait réduire le besoin d'ingénierie terrain-spécifique lors du déploiement en entrepôt ou en environnement industriel non structuré. La navigation humanoïde sur terrains complexes reste un des derniers verrous majeurs avant déploiement opérationnel large, là où la locomotion pure en terrain plat est désormais relativement résolue chez Unitree (H1, G1), Boston Dynamics (Atlas) ou Agility Robotics (Digit). Des approches concurrentes comme GR00T N2 de NVIDIA ou les travaux de Physical Intelligence (Pi-0) s'attaquent au même problème via des Visual Language Action models (VLA) généralisés, tandis que des labos académiques comme CMU ou Berkeley publient régulièrement sur le sim-to-real en locomotion adaptative. GuideWalk s'inscrit dans cette vague mais avec une contribution méthodologique spécifique sur le couplage navigation-locomotion. Les prochaines étapes naturelles seraient une évaluation sur hardware réel (le preprint ne précise pas le robot utilisé) et une comparaison quantitative avec des baselines établies.

RecherchePaper
1 source
Robot à 20 yeux et 20 pattes capable de se déplacer dans toutes les directions avec la même aisance
109New Atlas Robotics 

Robot à 20 yeux et 20 pattes capable de se déplacer dans toutes les directions avec la même aisance

Des chercheurs de l'université Duke ont présenté Argus, un robot à vingt pattes et vingt capteurs visuels inspiré de l'oursin, conçu pour se déplacer avec une efficacité égale dans toutes les directions. Contrairement aux plateformes mobiles conventionnelles à symétrie bilatérale, Argus adopte une architecture radialement symétrique, avec ses membres et ses capteurs distribués uniformément autour d'un corps central. Cette géométrie lui permet de se déplacer latéralement, en diagonale ou en rotation sans reconfigurer sa posture, éliminant les angles morts de déplacement propres aux robots à symétrie gauche-droite. L'implication principale pour la robotique mobile est de remettre en question un postulat de conception quasi universel : la symétrie bilatérale, héritée de l'anatomie vertébrée, n'est pas nécessairement optimale pour un robot opérant dans des environnements encombrés ou nécessitant une réactivité omnidirectionnelle rapide. Pour les intégrateurs et concepteurs de systèmes AMR (autonomous mobile robots), Argus ouvre la voie à des architectures non-anthropomorphes mieux adaptées à des tâches d'exploration, d'inspection en espace confiné, ou de manipulation en milieu chaotique. Le concept prouve expérimentalement que la locomotion à pattes multiples distribuées peut résoudre le problème de la mobilité isotrope sans recourir à des roues omnidirectionnelles. L'oursin de mer, organisme à symétrie pentaradiée, constitue depuis plusieurs années une source d'inspiration pour la robotique de locomotion non conventionnelle, aux côtés des travaux sur les échinodermes menés notamment au MIT et chez Festo. Argus pousse cette logique à vingt membres, ce qui augmente la redondance actionnée et la tolérance aux défaillances. Les prochaines étapes probables incluent des tests en environnement réel et une réduction d'échelle pour des applications d'inspection en pipeline ou en structure, segments où les robots à symétrie bilatérale peinent à manœuvrer.

RecherchePaper
1 source
Les robots du futur pourraient éviter les dommages en se roulant en boule comme des tatous
110New Atlas Robotics 

Les robots du futur pourraient éviter les dommages en se roulant en boule comme des tatous

Des chercheurs du département de génie mécanique et aérospatial de la North Carolina State University ont publié des travaux sur une structure de protection robotique inspirée de l'armadille, le mammifère connu pour sa capacité à se rouler en boule face aux prédateurs. Le concept consiste à équiper des robots d'un exosquelette articulé capable de se replier sur lui-même de manière autonome lorsque le système détecte un risque de choc ou de chute, absorbant l'énergie d'impact et protégeant les composants internes. L'article, classé en robotique et ingénierie sous les thèmes biomimétisme et armure, ne fournit pas de métriques précises sur le prototype (masse, matériaux, temps de réponse), ce qui limite l'évaluation indépendante des performances annoncées. L'enjeu industriel est réel : la fragilité mécanique reste l'un des principaux freins au déploiement de robots mobiles dans des environnements non structurés, entrepôts, chantiers, ou domiciles. Une solution de protection passive qui ne dépend pas de l'électronique embarquée constituerait un avantage significatif en termes de fiabilité et de coût de maintenance. Si le mécanisme se révèle fonctionnel à l'échelle, il pourrait intéresser les fabricants d'AMR (autonomous mobile robots) et les concepteurs d'humanoïdes exposés à des chutes fréquentes lors des phases de déploiement. La biomimétique appliquée à la robotique connaît un regain d'intérêt depuis cinq ans, portée par des travaux sur les exosquelettes inspirés des insectes, la locomotion des serpents, ou les pattes des chats. NC State s'inscrit dans cette tendance avec plusieurs projets en parallèle. Les concurrents directs sur la protection passive incluent des approches par matériaux à rigidité variable (soft robotics) ou par coques modulaires démontables. Aucune date de prototype opérationnel ni partenariat industriel n'est mentionné dans l'extrait disponible.

RecherchePaper
1 source
Bras robotique inspiré du poulpe : capteurs tactiles distribués pour une préhension adaptative
111Interesting Engineering 

Bras robotique inspiré du poulpe : capteurs tactiles distribués pour une préhension adaptative

Des ingénieurs ont développé un bras robotique souple inspiré de l'architecture sensorielle de la pieuvre, capable de saisir des objets de forme irrégulière sans s'appuyer uniquement sur le retour visuel. Le dispositif intègre des capteurs tactiles distribués sur l'ensemble d'un membre multi-segments en élastomère, capables d'enregistrer simultanément la force de contact, la géométrie de surface et les événements de glissement. Les capteurs fonctionnent comme des transducteurs piézorésistifs ou capacitifs disposés en grille dense sur la surface interne du bras, produisant une cartographie spatiale de la pression mise à jour en continu pendant la préhension. Une couche d'éléments de détection de forme est intégrée en parallèle, fournissant au contrôleur une estimation en temps réel de la configuration du membre, ce qui permet au bras de connaître sa propre géométrie sans retour visuel. Le système reste à ce stade un prototype démontrant la préhension sur une gamme variée de formes d'objets. L'intérêt de cette architecture réside dans le traitement local du signal tactile, avant toute transmission vers un contrôleur centralisé. En réduisant la latence de communication, le bras peut initier des mouvements correctifs, comme un resserrement autour d'un objet qui glisse, plus rapidement qu'un système à traitement centralisé ne le permettrait. Pour les intégrateurs travaillant sur des environnements non structurés, que ce soit en robotique chirurgicale, inspection sous-marine ou automatisation logistique, cela répond à un verrou réel : la géométrie des objets est rarement connue à l'avance, et l'occlusion visuelle est fréquente une fois le contact établi. La compliance seule, sans feedback sensoriel en boucle fermée, s'est révélée insuffisante dans les travaux antérieurs sur les préhenseurs souples. Cette approche distribuée reproduit le traitement ganglionnaire des céphalopodes, où les réponses réflexes naissent au niveau du membre plutôt qu'au niveau du cerveau central. La pieuvre constitue une référence fonctionnelle établie en robotique depuis plusieurs années, chacun de ses huit bras concentrant environ deux tiers des neurones totaux de l'animal. Les équipes travaillant sur la manipulation dextère avaient identifié cette architecture comme un modèle d'efficacité, mais les tentatives de réplication matérielle se heurtaient au compromis récurrent entre compliance et transmission de force. Côté concurrence, des travaux sur les grippers souples ont été menés par des laboratoires comme MIT CSAIL, ETH Zurich ou des acteurs commerciaux tels que Soft Robotics (aujourd'hui absorbé), sans qu'aucun ne résolve complètement la question du feedback tactile distribué à l'échelle industrielle. Les limitations actuelles du prototype sont réelles : les actionneurs pneumatiques ou à tendons introduisent leur propre latence et nécessitent des sources de pression externes, tandis que la durabilité de l'interface capteur-élastomère sous cycles répétés de flexion reste une question ouverte, non résolue par l'équipe à ce stade.

UELes équipes européennes travaillant sur la manipulation dextre en robotique chirurgicale ou logistique (dont ETH Zurich déjà actif sur les grippers souples) peuvent surveiller cette approche, mais le prototype ne cible pas directement le marché EU et n'implique pas d'acteur français.

RecherchePaper
1 source
Vidéo : un robot de la taille d'une main à 8 actionneurs intelligents marche, trotte et saute
112Interesting Engineering 

Vidéo : un robot de la taille d'une main à 8 actionneurs intelligents marche, trotte et saute

Le Q8botOne est un robot quadrupède open-source de la taille d'une paume de main, conçu par Eric Wu et destiné aux hobbyistes, étudiants, chercheurs et développeurs. Contrairement à son prédécesseur Q8bot -- qui nécessitait un assemblage manuel -- le Q8botOne est livré entièrement monté et prêt à l'emploi dès la mise sous tension. Sa mobilité dynamique repose sur huit actionneurs intelligents DYNAMIXEL de la série XL, qui animent des pattes à liaison parallèle légères, fabriquées par impression 3D Multi Jet Fusion (MJF) et équipées de joints à roulements de précision. Ces pattes permettent au robot de marcher, de trotter et de sauter, des capacités habituellement réservées à des plateformes bien plus encombrantes et coûteuses. Le système de contrôle s'articule autour d'un microcontrôleur ESP32-C3-MINI-N4, alimenté par une batterie lithium-ion avec circuit de protection intégré. L'électronique est entièrement centralisée sur un PCB personnalisé, éliminant le câblage distribué caractéristique des projets DIY classiques. Le robot sera disponible prochainement via une campagne Crowd Supply, dont le prix n'a pas encore été communiqué. Ce qui distingue le Q8botOne dans le paysage de la robotique éducative est l'intégration verticale de sa conception : PCB central, actionneurs de série DYNAMIXEL -- habituellement réservés à des plateformes de recherche -- et châssis MJF constituent une combinaison rare à ce format. En supprimant la phase d'assemblage, le projet abaisse significativement le seuil d'entrée pour expérimenter la locomotion quadrupède, un domaine traditionnellement onéreux en temps et en matériel. L'interface UART supporte des coprocesseurs comme un Raspberry Pi avec une alimentation jusqu'à 5 V à 3 A, ouvrant la voie à des applications de vision par ordinateur, de navigation autonome ou d'IA embarquée. Un connecteur Qwiic facilite l'ajout de capteurs compatibles SparkFun et Adafruit sans câblage complexe. Ces choix d'architecture font du Q8botOne un banc d'essai crédible pour la recherche en locomotion et en contrôle, pas uniquement un gadget grand public. Le Q8botOne s'inscrit dans la lignée du Q8bot original, dont il reprend l'approche agile et low-cost tout en franchissant un cap vers la clé-en-main. Le secteur des petits quadrupèdes open-source est animé par des projets comme le Unitree Go1 Nano ou le SpotMicro, mais peu proposent une intégration PCB aussi poussée à ce gabarit. Sur le segment éducatif, le Q8botOne se positionne face aux kits Freenove ou aux dérivés MiniCheetah, avec l'avantage d'actionneurs DYNAMIXEL reconnus pour leur fiabilité dans les labos de recherche. Les fichiers mécaniques sont développés dans Onshape, garantissant l'accessibilité à l'écosystème open-source. La campagne Crowd Supply, dont la date de lancement reste à confirmer, sera le vrai test de la demande du marché pour une plateforme quadrupède aussi compacte et prête à l'emploi.

RecherchePaper
1 source
RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste
113arXiv cs.RO 

RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste

Des chercheurs ont publié sur arXiv en juin 2026 un framework nommé RGB-S pour améliorer la fusion visuo-tactile dans la manipulation dextre robotique sous conditions d'occlusion. La méthode projette les emplacements des capteurs tactiles directement sur le plan image RGB via la cinématique directe du robot et la calibration caméra, puis génère des cartes de saillance gaussiennes modulées par la force pour modéliser l'incertitude spatiale liée aux erreurs de calibration. Ces ancres 2D sont injectées dans un backbone visuel standard via une architecture de conditionnement à initialisation zéro, ce qui préserve les représentations visuelles pré-entraînées. Testé sur six tâches de manipulation dextre en simulation et en monde réel sous occlusions sévères, RGB-S dépasse la meilleure baseline visuo-tactile implicite de 26,7 points de pourcentage en taux de succès sur les scénarios occludés. Ce résultat touche à un verrou majeur du déploiement de mains robotiques polyvalentes. Les approches implicites existantes laissent au modèle le soin d'apprendre seul les correspondances inter-modalités depuis un faible nombre de démonstrations, ce qui les rend fragiles dès que la vision est dégradée par l'auto-occlusion des doigts, la poussière ou un éclairage défavorable. En ancrant explicitement les contacts physiques dans l'espace image avec un prior géométrique fort, RGB-S court-circuite ce problème sans détruire les capacités visuelles pré-entraînées. Le gain de 26,7 points sur des expériences réelles est solide, bien que la sélection restreinte à six tâches de benchmark et l'absence de comparaison avec des architectures VLA récentes invitent à nuancer la portée des conclusions. La fusion visuo-tactile est un champ actif depuis l'essor des capteurs haute résolution comme GelSight ou DIGIT. Les approches précédentes, qu'il s'agisse d'imitation learning ou de reinforcement learning, peinent à résoudre le transfert sim-to-real sur des prises complexes. Du côté industriel, des acteurs comme Sanctuary AI, Dexterous Robotics ou Enchanted Tools (France) intègrent des interfaces tactiles dans leurs plateformes humanoïdes pour la manipulation fine. RGB-S se positionne comme une brique modulaire compatible avec des backbones standards, ce qui facilite son intégration dans des pipelines existants. Les prochaines validations naturelles passeront par des benchmarks standardisés comme DexYCB et des tests sur des mains à plus de six degrés de liberté en environnement industriel non contrôlé.

UEEnchanted Tools (France), qui intègre des interfaces tactiles dans ses humanoïdes, pourrait bénéficier directement de cette brique modulaire pour renforcer la manipulation fine sous occlusion sans reconstruire ses représentations visuelles pré-entraînées.

RecherchePaper
1 source
Attaquer les modèles du monde pour compromettre les pipelines d'apprentissage robotique
114arXiv cs.RO 

Attaquer les modèles du monde pour compromettre les pipelines d'apprentissage robotique

Un preprint déposé sur arXiv le 9 juin 2026 (arXiv:2606.09499) expose une classe inédite d'attaques par empoisonnement de données ciblant les world models intégrés aux pipelines d'apprentissage robotique. Contrairement aux attaques traditionnelles qui insèrent directement des trajectoires dangereuses dans un jeu de données vendu ou publié, la méthode décrite ici injecte des prompts malveillants ou des dynamiques de transition compromises dans des datasets de téléopération en apparence sûrs. L'attaque reste dormante jusqu'à ce que ces données soient traitées par un world model, lequel génère alors des trajectoires synthétiques d'entraînement dangereuses, aboutissant au déploiement d'une politique robotique unsafe. Les chercheurs démontrent l'efficacité de l'attaque sur deux paradigmes distincts : les world models conditionnés par l'action (action-conditioned) et ceux conditionnés par le texte (text-conditioned). Résultat concret : un backdoor de bout en bout sur une politique DRL (Deep Reinforcement Learning) en aval, et une preuve de concept dans le cadre VLA (Vision-Language-Action). L'enjeu pour l'industrie est structurel. Les world models sont désormais utilisés comme substituts de données dans les pipelines d'entraînement de robots humanoïdes et industriels, notamment pour réduire le coût de la collecte téléopérée. L'attaque décrite contourne l'hypothèse fondatrice de sécurité dans ces pipelines : que des données ground truth visuellement propres garantissent une politique sûre. Ce n'est pas le cas si le world model interposé est lui-même vulnérable. Pour les intégrateurs qui achètent ou mutualisent des datasets de téléopération, et pour les fournisseurs qui commercialisent des world models pré-entraînés, c'est un vecteur d'attaque supply chain directement actionnable, d'autant plus redoutable qu'il ne laisse aucune trace visible dans les données source. Les world models ont connu une adoption rapide ces dix-huit derniers mois, portée par des travaux comme UniSim, IRASim ou le framework GR00T N2 de NVIDIA, promus comme solution au sim-to-real gap et à la pénurie de données réelles. La recherche s'inscrit dans un contexte où Figure, Agility Robotics et 1X accélèrent leurs déploiements en environnement industriel, rendant la surface d'attaque potentielle concrète et non purement théorique. Les auteurs appellent à reconsidérer la position des world models dans la chaîne d'entraînement et à ouvrir un axe de recherche dédié à leur sécurisation, un chantier aujourd'hui quasi inexistant dans la littérature.

UELes acteurs européens de la robotique qui mutualisent des datasets de téléopération ou intègrent des world models pré-entraînés (startups, intégrateurs, labos comme le CEA-List ou l'INRIA) sont exposés au même vecteur d'attaque supply chain, sans qu'aucun standard de sécurité européen ne couvre encore ce risque spécifique.

RechercheOpinion
1 source
RAM : la portée de l'apprentissage robotique au-delà des morphologies
115arXiv cs.RO 

RAM : la portée de l'apprentissage robotique au-delà des morphologies

Une équipe de chercheurs a publié en juin 2026, via arXiv (arXiv:2606.09108), un modèle de réseau de neurones baptisé RAM (Reachability Across Morphologies), conçu pour prédire l'espace de travail atteignable d'un bras robotique en temps quasi nul. Là où les méthodes traditionnelles d'échantillonnage ou de grilles voxels opèrent à l'échelle de la milliseconde ou plus, RAM atteint un score F1 de 86 % avec un temps d'inférence réduit de trois ordres de grandeur par rapport à la baseline, soit une exécution à l'échelle de la nanoseconde. Le modèle a été entraîné sur un jeu de données de 3×10^10 échantillons, générés exclusivement à partir de la cinématique directe. Sa caractéristique centrale : il est conditionné par la morphologie du robot, lui permettant de généraliser à des configurations inédites sans réentraînement, tout en intégrant nativement la détection des auto-collisions. L'enjeu opérationnel est direct. Le calcul du workspace atteignable intervient à chaque étape du cycle de vie d'un robot, conception morphologique, planification de trajectoire, placement en cellule d'intégration. Les méthodes disponibles à ce jour sont soit lentes, soit figées sur une morphologie unique, rendant l'exploration du design-space coûteuse en calcul. RAM étant différentiable, il peut s'insérer dans des boucles d'optimisation par gradient : les auteurs rapportent des accélérations d'un ordre de grandeur pour l'optimisation morphologique et de deux ordres pour la trajectoire. Pour un intégrateur ou un OEM, cela ouvre la voie à un co-design robot-cellule significativement plus rapide. Les représentations neurales implicites (NRI), popularisées par les NeRF pour la reconstruction 3D, s'imposent progressivement en robotique depuis 2023 pour encoder des fonctions géométriques complexes. RAM applique cette logique à la cinématique, en concurrence directe avec les cartes de joignabilité sur grille (précises mais lourdes) et les surrogates appris à morphologie fixe. Aucun acteur commercial n'est cité dans la publication ; la contribution reste académique, accompagnée d'un site de démonstration. Les suites naturelles seraient l'intégration dans des pipelines de CAO robotique ou des plateformes de simulation telles qu'Isaac Lab ou MuJoCo.

RecherchePaper
1 source
HA-VLN 2.0 : un benchmark ouvert pour la navigation humain-robot en environnements discrets et continus avec interactions multi-personnes dynamiques
116arXiv cs.RO 

HA-VLN 2.0 : un benchmark ouvert pour la navigation humain-robot en environnements discrets et continus avec interactions multi-personnes dynamiques

Une équipe de chercheurs a publié HA-VLN 2.0, un benchmark unifié pour évaluer la navigation guidée par le langage et la vision (VLN) dans des environnements peuplés d'humains en mouvement. Le jeu de données associé, HAPS 2.0, couvre 16 844 instructions socialement contextualisées et modélise des interactions multi-humains en intérieur comme en extérieur, dans des espaces discrets et continus. Le système introduit des métriques explicites mesurant simultanément la précision de navigation vers l'objectif et le respect de l'espace personnel des personnes croisées. Des expériences en conditions réelles sur robot physique ont complété l'évaluation simulée, et un leaderboard ouvert permet des comparaisons reproductibles entre équipes. Les résultats sont sans appel pour les agents VLN actuels : dès que des humains dynamiques et une observabilité partielle entrent en jeu, leurs performances chutent significativement. Ce constat remet en question une hypothèse répandue dans la recherche VLN, à savoir que les agents entraînés en environnements statiques généraliseraient correctement au monde réel. Les expériences sim-to-real confirment en revanche que la modélisation explicite des contraintes sociales améliore la robustesse de navigation et réduit les collisions, ce qui valide l'approche. Pour les intégrateurs déployant des robots mobiles en milieu professionnel (entrepôts partagés, hôpitaux, espaces de bureau), cela signifie que les benchmarks sans humains surestiment substantiellement les capacités réelles des systèmes. La navigation guidée par langage est un champ actif depuis les travaux fondateurs sur R2R (Room-to-Room, 2018), mais la majorité des benchmarks existants, dont R2R, REVERIE ou SOON, supposent des environnements vides ou quasi-statiques. HA-VLN 2.0 s'inscrit dans une tendance récente incluant les travaux sur SocNavBench et HuNavSim, qui cherchent à intégrer la dynamique humaine dans l'évaluation de la navigation sociale. Le benchmark est entièrement open-source (datasets, simulateurs, baselines, protocoles). Les prochaines étapes probables incluent l'intégration de modèles VLA (Vision-Language-Action) plus récents comme pi-0 ou RT-2 dans le leaderboard, ainsi que des évaluations dans des scènes extérieures plus complexes.

RecherchePaper
1 source
Commande prédictive avec impédance pour l'interaction physique humain-robot : rejet prédictif des perturbations et sécurité des limites articulaires
117arXiv cs.RO 

Commande prédictive avec impédance pour l'interaction physique humain-robot : rejet prédictif des perturbations et sécurité des limites articulaires

Des chercheurs présentent dans un preprint arXiv (2606.08281, soumis en juin 2026) une architecture de contrôle en deux couches baptisée Impedance MPC, conçue pour les robots collaboratifs soumis à des contacts humains non planifiés. Le cœur du système repose sur une première couche qui annule analytiquement la gravité, les forces de Coriolis et l'inertie en espace de tâche, réduisant la dynamique résiduelle à un double intégrateur à matrice de transition constante. Une seconde couche résout un problème d'optimisation quadratique convexe à 30 variables à 100 Hz, en exploitant cette structure constante pour précalculer la matrice de réponse libre une seule fois. Un filtre de Kalman augmenté estime l'état de perturbation persistante, garantissant formellement une erreur statique nulle. Les tests ont été conduits sur un Franka FR3 à 7 degrés de liberté : sous une force soutenue de 15 N, l'erreur statique descend à moins de 0,05 mm, contre 44,8 mm pour un contrôle d'impédance classique, soit une réduction supérieure à 800. Le suivi de quatre trajectoires circulaires 3D reste sous le millimètre. Ce résultat touche un problème structurel bien connu des intégrateurs de cobots : le contrôle d'impédance classique accumule une erreur de position proportionnelle à la force appliquée divisée par la raideur de tâche, et les correcteurs intégraux capables de la résorber déstabilisent facilement le système au-delà d'un budget de gain étroit. L'Impedance MPC contourne cette contrainte en incorporant la prédiction de perturbation directement dans la loi de commande, sans sacrifier la compliance ni la sécurité aux butées articulaires, assurée par un potentiel de barrière inverse dans l'espace nul. Pour un COO ou un intégrateur industriel, cela signifie un cobot capable de tenir sa trajectoire même sous charge humaine prolongée, sans recours à des gains agressifs risquant l'instabilité. L'impédance mécanique comme paradigme de contrôle pour la collaboration homme-robot remonte aux travaux de Neville Hogan dans les années 1980 ; son couplage avec le MPC est une direction active depuis une décennie, notamment pour les manipulateurs série. Le Franka FR3, successeur du Panda, est devenu la plateforme de référence pour les publications en contrôle cobot grâce à son interface de couple en temps réel à 1 kHz. Sur ce segment, les concurrents incluent Universal Robots (UR10e), KUKA LBR iisy, et ABB YuMi, tous confrontés au même compromis compliance-précision. L'approche proposée reste pour l'instant au stade preprint sans déploiement industriel annoncé ; les prochaines étapes naturelles sont la validation sur tâches d'assemblage réelles et le passage à des robots à dynamique plus complexe (bases mobiles, humanoïdes légers).

UELes résultats pourraient bénéficier aux intégrateurs cobots européens (KUKA, ABB) confrontés au compromis compliance-précision, en ouvrant la voie à des robots collaboratifs plus précis sous charge humaine prolongée sans sacrifier la sécurité articulaire.

RecherchePaper
1 source
CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche
118arXiv cs.RO 

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Des chercheurs ont publié sur arXiv (2606.08169) CLASP, une architecture modulaire permettant à un bras manipulateur à 7 degrés de liberté d'exécuter des tâches robotiques à partir de commandes en langage naturel, avec seulement 2 à 5 démonstrations kinesthésiques par compétence. Le système repose sur deux briques : des primitives de mouvement noyau paramétrées par tâche (TP-KMPs), héritées des méthodes d'imitation de données, et un modèle vision-langage (VLM) préentraîné, utilisé sans fine-tuning. Lors de la phase d'apprentissage, le VLM génère des schémas de compétences décrivant les paramètres nécessaires et les préconditions d'exécution. À l'exécution, il sélectionne la compétence adaptée, résout les liaisons de paramètres, et compose des comportements inédits via une pondération par covariance. Lorsqu'aucune compétence existante ne suffit, le système identifie automatiquement la lacune et sollicite une démonstration ciblée. Les taux de succès rapportés vont de 73,3 % à 100 % selon les scénarios testés (sélection, composition, apprentissage actif). Ce résultat est notable parce qu'il attaque un problème structurel du déploiement industriel : les modèles vision-langage-action (VLA) de nouvelle génération, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, atteignent des performances impressionnantes mais exigent des volumes de données d'entraînement massifs, difficilement compatibles avec les contraintes de production réelle. À l'inverse, les méthodes d'imitation efficaces en données, comme les TP-GMMs de Stefan Calinon, restent rigides face à des instructions non anticipées. CLASP propose une voie intermédiaire : déléguer le raisonnement symbolique au VLM sans le ré-entraîner, et garder la motricité dans un espace probabiliste compact. La boucle d'apprentissage actif intégrée est particulièrement pertinente pour les intégrateurs industriels : le robot peut signaler ce qu'il ne sait pas faire plutôt que d'échouer silencieusement. Les primitives de mouvement paramétrées par tâche ont une longue trajectoire académique, popularisées notamment par les travaux de Calinon et Billard depuis les années 2010. CLASP s'inscrit dans la vague actuelle qui cherche à greffer la compréhension du langage sur ces méthodes sans sacrifier leur frugalité en données, une direction également explorée par des équipes comme celles de CMU, ETH Zurich ou l'INRIA en France. La validation reste limitée à un manipulateur en laboratoire, les scénarios présentés sont sélectionnés, et les taux de succès ne sont pas contextualisés par rapport à la complexité des tâches ni à la variabilité environnementale. La prochaine étape évidente serait une évaluation sur des tâches de manipulation non structurées, voire un transfert vers une plateforme mobile ou humanoïde.

UEL'INRIA est cité parmi les équipes explorant des directions similaires (langage sur primitives de mouvement frugales en données), positionnant la France comme contributeur actif à cette vague de recherche, sans impact industriel direct à court terme.

RecherchePaper
1 source
Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel
119arXiv cs.RO 

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

Des chercheurs présentent dans un preprint arXiv (2606.08666, juin 2026) un système permettant aux robots de traiter les descriptions spatiales en langage naturel comme un signal capteur à part entière. Le coeur de la contribution est le Language Sensor Model (LSM), qui convertit chaque énoncé ("j'ai laissé mon sac à dos sur la table") et son graphe de scène en une distribution de probabilités 3D multimodale. Cette distribution encode simultanément l'ambiguïté référentielle ("quelle table parmi plusieurs") via des poids de mélange, et l'incertitude spatiale ("où exactement sur la table") via des covariances par composante. Le LSM s'intègre dans VL-Map (Vision-Language Metric-Semantic Mapping), un framework probabiliste qui fusionne ces prédictions linguistiques avec la perception embarquée dans une carte de croyance unifiée. Évalué sur le benchmark VLA-3D et sur un robot mobile réel, le LSM est le seul prédicteur dont les estimations de covariance restent dans le régime calibré, et produit environ 70 % de masse de probabilité supplémentaire sur la cible correcte par rapport au meilleur modèle de fondation testé. L'enjeu pour les intégrateurs est direct : les robots déployés en environnement humain (logistique, soins, assistance) reçoivent constamment des instructions verbales qui référencent des objets hors de leur champ perceptif. La cartographie métrique-sémantique classique ignore ce canal d'information ; les grands modèles multimodaux généralistes ne produisent pas d'estimations calibrées fusionnables dans un filtre bayésien. La calibration est un point critique souvent sous-estimé : un modèle non calibré surestime ou sous-estime sa confiance, rendant la fusion de capteurs instable et potentiellement dangereuse. Ce travail démontre que le langage peut jouer le rôle d'un vrai capteur réducteur d'incertitude, ce qui modifie le calcul architectural pour tout système de navigation ou manipulation en milieu non structuré. La contribution s'inscrit dans la lignée de la cartographie visuosémantique 3D (ConceptFusion, LERF, OpenScene), qui ancre des embeddings visuolinguistiques dans des représentations de scènes mais demeure passive vis-à-vis du langage conversationnel. Les approches VLA actuelles comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA traitent le langage comme déclencheur d'actions, sans produire de distribution spatiale exploitable par un planificateur externe. Ce système s'y positionne orthogonalement : non pas un planificateur ni un annotateur, mais un capteur probabiliste intégrable à un pipeline SLAM existant. Les expériences décrites restent à un stade exploratoire, sans partenaire industriel ni calendrier de déploiement annoncés dans la publication.

RecherchePaper
1 source
Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence
120arXiv cs.RO 

Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence

Une équipe de recherche a publié sur arXiv (ref. 2606.09390) une étude portant sur la reconnaissance d'intention communicative à partir de la seule pose corporelle 2D, sans recours au visage, à la voix ou au texte. Le travail cible explicitement des scénarios de communication personne-robot à longue distance et à faible coût, comme les missions de secours en terrain dégradé. Les chercheurs publient un nouveau dataset de frames réels couvrant dix intents communicatifs distincts, et le comparent à des jeux de données existants : IPC (réel) et trois sources synthétiques, MotionLCM, VEO3.1 et Kimodo, qui couvrent un gradient de difficulté croissant. Plusieurs architectures sont évaluées, des classifieurs graph sur squelette jusqu'aux réseaux de prédiction de mouvement articulaire. Tous les benchmarks sont conduits sur une NVIDIA Orin Nano, un GPU embarqué représentatif des contraintes matérielles d'un robot de terrain, ce qui permet de rapporter à la fois précision de classification et cadence d'inférence en conditions réelles. Le point le plus notable n'est pas le dataset mais la mesure de fiabilité non supervisée proposée : les auteurs montrent que l'auto-cohérence autorégressive d'un modèle, c'est-à-dire la stabilité de ses propres prédictions successives sur une séquence, constitue un signal de confiance exploitable sans étiquettes. Ils fournissent une preuve courte bornant la probabilité qu'une prédiction auto-cohérente soit correcte, et montrent que cette probabilité croît avec le nombre de pas cohérents, tout en identifiant les conditions où une prédiction confiante peut rester fausse. C'est directement utile pour un intégrateur robotique : déployer un tel module sans ground truth disponible en opération reste aujourd'hui un frein majeur, et une mesure de fiabilité embarquée change l'équation. Ce travail s'inscrit dans une lacune documentée de la littérature : les corpus affectifs (combinant corps, visage, voix, texte) et les benchmarks de reconnaissance d'action squelettique étiquètent l'action réalisée, pas le message transmis, ce qui les rend inutilisables pour la communication HRI (human-robot interaction) à distance. Le choix de la pose 2D plutôt que 3D reflète une contrainte de déploiement réaliste : pas de LiDAR, pas de caméra de profondeur. Côté concurrence, les travaux sur VLA (Vision-Language-Action) type Pi-0 ou GR00T N2 de NVIDIA visent des interactions à courte portée en environnement structuré ; ce dataset et ce cadre de fiabilité adressent le segment complémentaire, non-verbal et longue distance. Les prochaines étapes naturelles incluent l'extension à davantage d'intents, l'évaluation sur robot physique en extérieur, et potentiellement une intégration dans des pipelines de perception multi-modale pour robots d'intervention.

RecherchePaper
1 source
Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?
121arXiv cs.RO 

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

Une équipe de chercheurs publie sur arXiv (2510.06492v2) une étude systématique des défaillances des modèles du monde latents face à des contraintes de sécurité partiellement observables. Appliquée à un bras manipulateur Franka Research 3 sur des tâches de cuisine, la recherche identifie deux modes de défaillance distincts. Le premier, appelé "estimation gap", survient quand l'observation courante ne révèle pas une grandeur critique pour la sécurité : la température d'une surface de cuisson, invisible en RGB seul, en est l'exemple central. Le second, le "prediction gap", désigne les situations où la défaillance devient observable dès qu'elle se produit, mais ne peut être anticipée à partir des observations disponibles. Les auteurs proposent deux diagnostics quantitatifs associés : une mesure d'observabilité de sécurité basée sur l'information mutuelle, et une mesure de prédictibilité future fondée sur des rollouts simulés. Deux stratégies de mitigation sont ensuite validées en hardware : la supervision multimodale privilégiée (ajout de capteurs thermiques ou tactiles au flux RGB) pour combler les estimation gaps, et la calibration de risque conforme (conformal risk calibration) pour les prediction gaps, avec des résultats mesurés sur le robot réel. Ces résultats posent une question structurante pour le secteur : les représentations latentes produites par un world model entraîné sur observations RGB sont-elles suffisantes pour garantir un contrôle fiable en environnement industriel ? La réponse empirique ici est non, et ce constat a des implications directes pour les intégrateurs qui déploient des bras robotisés sur des lignes de production où des variables non-visuelles (température, force de contact, couple) conditionnent la sécurité. La calibration conforme, issue de la théorie statistique de la prédiction, permet de borner le risque de violation de contrainte sans retrainer le modèle, ce qui représente un avantage pratique pour les déploiements existants. La contrepartie documentée est une conservatisme accru du contrôleur, se traduisant par une réduction du taux de complétion des tâches : la sécurité est améliorée, mais au prix d'une productivité moindre, un arbitrage classique que les COO devront quantifier pour leur contexte. Le travail s'inscrit dans la lignée des world models de type Dreamer et RSSM (Recurrent State Space Model), popularisés par DeepMind, qui apprennent une représentation compressée de l'état du monde pour planifier en espace latent. Cette approche gagne du terrain face aux politiques purement réactives, notamment dans les architectures VLA (Vision-Language-Action) portées par des équipes comme Physical Intelligence (Pi-0), Google DeepMind (GR00T) ou Figure AI. La plupart de ces modèles s'appuient sur des flux RGB ou RGBD, ignorant les modalités thermiques ou haptiques, ce que cette étude remet en cause sur des tâches à risque. Le Franka Research 3 est le banc d'essai standard de la communauté, ce qui facilite la reproductibilité. Les prochaines étapes probables incluent l'extension à des configurations multi-bras, l'intégration dans des pipelines VLA de production, et la question ouverte de savoir comment sélectionner automatiquement les modalités nécessaires à la sécurité pour une tâche donnée.

RechercheActu
1 source
Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés
122arXiv cs.RO 

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Des chercheurs proposent une méthode de récupération après chute pour robots humanoïdes sur terrains variés, publiée en juin 2026 sur arXiv (identifiant 2606.08922). Baptisée PTDL (Phase-Terrain Decoupled Learning), elle cible un problème concret : un humanoïde tombé sur du gravier, une pente ou un sol inégal doit non seulement se relever, mais reprendre immédiatement une marche dirigée par commande de vitesse, sans capteurs externes ni étiquettes de terrain fournies au moment de l'exécution. La validation porte sur le Unitree G1, humanoïde commercial de 29 degrés de liberté, testé en simulation et sur robot réel, sur sol plat, gravier et inclinaisons allant jusqu'à 20 degrés. L'architecture de PTDL repose sur une double décorrélation. Sur l'axe des phases, des discriminateurs de mouvement à double prior conditionnés par la gravité projetée lient la récupération post-chute à la reprise de locomotion normale. Sur l'axe des terrains, un façonnage de récompense stratifié par surface applique des supervisions d'entraînement spécifiques à chaque sol, labels qui sont ensuite retirés à la politique au déploiement : le robot développe des comportements de lever implicitement adaptés à chaque surface, sans qu'on lui indique sur quoi il repose. Les méthodes antérieures s'arrêtaient généralement au lever quasi-statique ou entraînaient une politique de compromis dégradée face à la diversité des terrains. PTDL enchaîne récupération et reprise de marche sous une seule politique proprioceptive unifiée, ce qui est directement pertinent pour tout déploiement en environnement industriel non structuré où la chute n'est pas une exception mais une probabilité réelle. Le G1 de Unitree Robotics (Shenzhen) est devenu en 2024-2025 une plateforme de référence pour la recherche en locomotion humanoïde, notamment grâce à son accessibilité tarifaire (environ 16 000 USD). La récupération après chute reste un angle mort notoire dans la course humanoïde actuelle : Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus) se concentrent principalement sur les démonstrations de marche et de manipulation, peu sur les protocoles de résilience post-chute. Ce preprint arXiv n'annonce pas de déploiement industriel immédiat et n'a pas encore subi de révision par les pairs, mais il ouvre une piste méthodologique solide : entraîner sur des terrains stratifiés tout en maintenant une politique unifiée à l'inférence, une approche transposable à d'autres défis de robustesse en conditions réelles.

RecherchePaper
1 source
Coordination continue de robots quadrupèdes par découverte de compétences sémantiques
123arXiv cs.RO 

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

Des chercheurs ont publié sur arXiv (réf. 2606.08102) un framework appelé Conquer, conçu pour coordonner des équipes de robots quadrupèdes en apprentissage continu, c'est-à-dire sans avoir à réentraîner le système à chaque nouvelle tâche. L'approche repose sur une bibliothèque de compétences sémantiques organisée autour d'un cycle récupérer-adapter-mettre à jour : avant d'exécuter une tâche inconnue, le système construit un descripteur sémantique à partir des informations pré-exécution, retrouve la compétence la plus proche dans la bibliothèque, l'adapte, puis intègre les trajectoires réelles pour enrichir la base. Le backbone SAG (Self-Allies-Goal) permet de gérer des équipes de taille variable en modélisant explicitement l'état propre de chaque robot, le contexte de ses coéquipiers et l'objectif de la tâche. En simulation, Conquer atteint un taux de succès moyen final de 95,6 %, avec un transfert positif démontré vers de nouvelles tâches et un oubli catastrophique qualifié de négligeable. Des essais en conditions réelles ont été conduits sur des équipes de Unitree Go2, le quadrupède commercial d'Unitree Robotics. Ce résultat compte parce qu'il s'attaque à l'un des verrous fondamentaux de la robotique multi-agents : les méthodes de type MARL (apprentissage par renforcement multi-agents) existantes entraînent des politiques spécifiques à une famille de tâches fermée, ce qui les rend inutilisables dans des environnements industriels où les missions évoluent en permanence. Conquer propose une alternative où de nouvelles compétences de coordination s'accumulent sans effacer les précédentes, un prérequis pour tout déploiement réel dans des entrepôts ou sur des lignes de production à géométrie variable. La capacité à gérer des équipes de taille arbitraire est également non triviale : la plupart des approches supposent un nombre fixe d'agents. À noter cependant que les métriques de succès sont issues de simulation, et que les vidéos de déploiement sur Go2 restent des démonstrations sélectionnées, sans données quantifiées sur les taux d'échec terrain ni sur les temps de cycle réels. La coordination multi-quadrupèdes s'est intensifiée avec la disponibilité de robots comme le Go2 d'Unitree (lancé à moins de 2 700 dollars en version grand public), qui abaisse le coût d'expérimentation en laboratoire. La problématique de l'apprentissage continu en robotique est partagée par plusieurs groupes de recherche, notamment autour des architectures VLA (Vision-Language-Action) qui cherchent elles aussi à éviter la réinitialisation à chaque nouvelle tâche. Conquer se positionne dans un espace encore peu industrialisé, entre les approches MARL classiques et les frameworks généralistes de type foundation model. Les prochaines étapes logiques seraient des évaluations en entrepôt réel sur des tâches de manutention collaboratives, domaine où des acteurs comme Exotec (France) ou Boston Dynamics investissent sur des flottes mixtes humanoïdes et quadrupèdes.

RecherchePaper
1 source
QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède
124arXiv cs.RO 

QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède

Une équipe de recherche a publié début juin 2026 QuadVerse, un cadre de simulation intégré pour robots quadrupèdes conçu pour résoudre simultanément les décalages visuels, physiques et d'actionneur qui constituent le sim-to-real gap. La méthode repose sur une reconstruction de scènes par 3D Gaussian Splatting (3DGS) à partir de vidéos RGB ordinaires : ces scènes servent de substrat de calibration commun à toute la pipeline. Les maillages géométriques extraits permettent un rendu photoréaliste en vue ego, une détection de collisions, et une initialisation de priors de friction spatialement variables, affinés par une recherche bayésienne sur des trajectoires réelles. Un compensateur de dynamique résiduelle est ensuite entraîné en rejouant ces trajectoires sur le terrain calibré, séparant les erreurs de contact dues au relief des non-idéalités propres aux actionneurs. Les expériences rapportées montrent une amélioration de la qualité de reconstruction et du suivi de locomotion par rapport aux baselines, ainsi qu'un déploiement zero-shot d'une politique de navigation visuelle sans aucune collecte de données terrain spécifique à la tâche. Ce que QuadVerse apporte concrètement, c'est une approche unifiée du sim-to-real : là où la majorité des travaux traitent le gap visuel ou dynamique de façon indépendante, ce framework les calibre conjointement à partir du même substrat de scène reconstruite. L'accumulation et la propagation des erreurs individuelles dans l'évolution d'état du robot sont explicitement prises en compte, un problème souvent sous-estimé dans les pipelines existants. Le résultat le plus opérationnel est le déploiement zero-shot : une politique entraînée entièrement en simulation peut être transférée sur un robot réel sans rollout terrain supplémentaire, ce qui réduit le coût d'adaptation à de nouveaux environnements. Pour les intégrateurs qui cherchent à accélérer les cycles de validation, c'est un levier potentiellement significatif. Il faut néanmoins souligner que l'article est un preprint arXiv (v2 déposé en juin 2026), les expériences sont conduites en environnement contrôlé, et aucune validation industrielle à grande échelle n'est encore documentée. Le sim-to-real gap est l'un des problèmes centraux de la robotique apprenante depuis plusieurs années. Des équipes comme ETH Zurich (ANYmal), Agility Robotics ou Boston Dynamics ont montré que les politiques de locomotion peuvent franchir ce gap, mais souvent au prix d'une randomisation de domaine intensive ou d'une adaptation en conditions réelles coûteuse. La technique de 3D Gaussian Splatting, popularisée en 2023, est de plus en plus mobilisée dans des pipelines robotiques pour sa capacité à produire des représentations photoréalistes différentiables. QuadVerse s'inscrit dans un courant actif incluant des travaux comparables autour de NeRF-to-Real et les simulateurs hybrides de Nvidia Isaac Lab. La prochaine étape logique serait une validation sur des plateformes commerciales standardisées comme l'Unitree Go2 ou l'ANYmal-D en environnements non structurés, et une éventuelle extension aux politiques de manipulation pour robots à pattes équipés de bras.

RecherchePaper
1 source
SynManDex : génération de saisies dextériques de type humain à partir de pré-saisies synthétiques
125arXiv cs.RO 

SynManDex : génération de saisies dextériques de type humain à partir de pré-saisies synthétiques

Des chercheurs ont publié SynManDex (arXiv:2606.09798), un pipeline synthétique conçu pour générer des saisies dextres robotiques imitant les interactions naturelles de la main humaine. La méthode fonctionne en quatre étapes : échantillonnage de pré-saisies humaines numériques conditionnées par l'objet, retargeting de ces postures vers une main robotique dextre, optimisation des contacts par fermeture de force sur l'effecteur cible, puis filtrage par vérification à chaque étape. Les keyframes résultantes alimentent des démonstrations de saisie-levée mais aussi des tâches de manipulation complexes : versement de thé, prise de photos, jeu de flûte, toutes conçues via des agents VLM (Vision-Language Model). Sur une plateforme bimane à 36 degrés de liberté, SynManDex atteint 86,4 % de stabilité de saisie, un score de naturalité humaine de 4,67/5 (soit 93,4 %), 80,7 % de succès en simulation et 83,3 % en conditions réelles (25 succès sur 30 essais). Ce résultat est notable parce que le transfert des interactions main-objet humaines vers les mains robotiques échoue généralement face aux contraintes de morphologie, de contact et d'atteignabilité. SynManDex attaque ce "morphology gap" en traitant les pré-saisies humaines comme des propositions affordance-aware, puis en délégant la résolution de contact à une optimisation native au robot. L'écart quasi nul entre simulation (80,7 %) et réel (83,3 %) suggère un sim-to-real solve solide, un résultat qui contredit l'hypothèse courante selon laquelle les pipelines synthétiques se dégradent significativement au passage au monde physique. Pour un intégrateur ou un responsable R&D en manipulation, cela ouvre la voie à la génération automatique de données de démonstration sans télé-opération humaine coûteuse. La manipulation dextre reste l'un des verrous majeurs de la robotique humanoïde et de la cobotique industrielle, aux côtés de travaux comme DexGrasp, UniDexGrasp ou les approches par imitation diffusion. SynManDex se distingue en exploitant explicitement la posture pré-saisie humaine comme prior fonctionnel plutôt que de partir d'un espace de configurations robotiques brut. Le papier est une soumission académique (pas un produit commercialisé), et les tâches testées restent des démonstrateurs de laboratoire. Les prochaines étapes probables incluent l'extension à des objets déformables, à des environnements encombrés et à des architectures de mains plus variées.

RecherchePaper
1 source
LightTact : un capteur tactile-visuel de bout de doigt pour la détection de contact sans déformation
126arXiv cs.RO 

LightTact : un capteur tactile-visuel de bout de doigt pour la détection de contact sans déformation

LightTact est un capteur tactile-visuel de bout de doigt conçu pour détecter les contacts sans déformation mécanique de surface. Là où les capteurs conventionnels (GelSight du MIT, DIGIT de Meta, Tactip) s'appuient sur la déformation d'un élastomère pour inférer un contact, LightTact exploite une configuration optique à blocage de lumière ambiante: seule la lumière diffusée aux points de véritables contacts traverse le système, laissant les pixels non-contactés à une valeur de gris moyenne inférieure à 3 sur 255. Les images brutes produites sont à fort contraste, chaque zone de contact préservant l'apparence naturelle de la surface touchée. La robustesse annoncée couvre les variations de propriétés matérielles, de force de contact, d'apparence de surface et d'éclairage ambiant, sans calibration spécifique au matériau. Ce verrou adresse un angle mort structurant de la manipulation robotique fine: les contacts dits "légers" avec des liquides, semi-liquides ou matériaux ultra-mous ne génèrent pas de déformation macroscopique et restent donc invisibles pour la plupart des capteurs actuels. LightTact démontre des comportements jusque-là difficiles à automatiser: étalement d'eau sur une surface, prélèvement de crème cosmétique, interaction avec des films minces souples. Pour les intégrateurs ciblant la cosmétique, l'agroalimentaire ou la manutention de produits fragiles, c'est un point de blocage technique levé. Fait significatif: les images visuelles et tactiles, spatialement alignées, sont directement interprétables par des vision-language models (VLMs), ce qui abaisse la barrière d'intégration avec les pipelines d'IA multimodaux sans couche de traitement intermédiaire dédiée. Le travail est publié en préprint sur arXiv (référence 2512.20591, troisième version), ce qui le situe au stade de la recherche académique: aucun produit commercial ni déploiement industriel n'est annoncé. Dans le panorama des capteurs tactiles visuels, LightTact occupe une niche distincte de celle de GelSight et ses dérivés, ou des solutions capacitives comme Xela Robotics, qui ciblent des régimes de contact avec déformation mesurable. Du côté européen, Pollen Robotics ou Wandercraft ne proposent pas de capteur tactile propre à ce niveau de spécificité. Les prochaines étapes logiques incluent une validation en boucle fermée sur plateforme robotique réelle et un test de durabilité de la surface optique face à des matériaux agressifs en usage répété.

UEAucun impact direct documenté à ce stade de préprint, mais les acteurs FR/EU ciblant la manipulation fine (Pollen Robotics, intégrateurs agroalimentaire/cosmétique) pourraient bénéficier de cette approche pour des contacts légers avec matériaux mous ou liquides.

RecherchePaper
1 source
ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration
127arXiv cs.RO 

ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration

Des chercheurs présentent ReGIL (Retrieval-Guided Imitation Learning), un framework d'apprentissage par imitation capable d'entraîner un robot manipulateur à partir d'une seule démonstration. La méthode traite cette démonstration unique comme une mémoire externe statique, interrogée en continu durant l'entraînement pour guider simultanément l'exploration, générer un buffer de régularisation et construire les récompenses. Le calcul de récompense repose sur un alignement temporel local entre la trajectoire courante et le segment récupéré, fournissant un feedback pas-à-pas plutôt qu'un signal binaire succès/échec. Évalué sur les benchmarks LIBERO et Meta-World, ReGIL surpasse les baselines antérieures en taux de réussite et en efficacité d'entraînement. Sur robot réel, avec une seule démonstration et moins d'une heure d'entraînement en ligne, le système atteint plus de 75 % de taux de réussite sur trois tâches de manipulation avec randomisation à la fois de la pose initiale du robot et de la position cible. Ces résultats sont issus d'un preprint arXiv (2606.09381) et n'ont pas encore été soumis à revue par les pairs. Le principal défi que ReGIL cherche à résoudre est connu sous le nom de "compounding error" : en imitation learning classique (behavior cloning), les petites déviations par rapport à la trajectoire démontrée s'accumulent et mènent rapidement à l'échec, ce qui oblige généralement à collecter des centaines, voire des milliers de démonstrations. Ramener ce seuil à une seule démonstration plus moins d'une heure d'interaction en ligne représente un gain opérationnel significatif pour le déploiement industriel, où la collecte de données est coûteuse. Le taux de 75 % obtenu avec randomisation de pose et de cible est un indicateur de robustesse plus solide qu'une démonstration en conditions fixes, même si l'absence de détails sur les tâches spécifiques et la complexité des scènes limite l'interprétation. L'apprentissage par imitation à faible nombre de démonstrations est un axe de recherche très actif, concurrencé notamment par les modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou les politiques de diffusion (Diffusion Policy, ACT). Ces approches misent sur des grandes quantités de données préentraînées pour compenser la rareté des démos spécifiques à une tâche, là où ReGIL propose une alternative radicalement data-light. Le benchmark LIBERO est devenu un standard de fait pour comparer ces méthodes en simulation, et Meta-World permet d'évaluer la généralisation multi-tâches. La prochaine étape logique serait une validation sur des tâches de manipulation plus complexes et une publication dans une conférence de robotique (ICRA, CoRL, RSS) pour valider les claims de manière indépendante.

RecherchePaper
1 source
Génération et exécution de mouvements sûrs, fluides et acceptables pour l'interaction humain-robot en milieu industriel
128arXiv cs.RO 

Génération et exécution de mouvements sûrs, fluides et acceptables pour l'interaction humain-robot en milieu industriel

Des chercheurs ont publié sur arXiv (preprint 2606.08741, juin 2026) une étude portant sur la génération de mouvements pour robots collaboratifs en environnements manufacturiers partagés avec des opérateurs humains. L'équipe propose un cadre de contrôle prédictif par modèle (MPC, Model Predictive Control) capable de produire quatre comportements distincts intégrant des contraintes sociales, au-delà des seules garanties de sécurité physique. Ces comportements varient selon des paramètres de mouvement identifiés comme influençant la perception humaine : fluidité de trajectoire, vitesse d'approche, lisibilité de l'intention, et niveau de confort perçu par l'opérateur. Une étude utilisateur a ensuite été menée auprès de participants non-experts pour évaluer et valider chaque mode comportemental et mesurer leur impact social. Le résultat central est que les variations de comportement du robot affectent significativement son acceptabilité sociale perçue, indépendamment des critères de sécurité technique. Ce constat a des implications directes pour les intégrateurs de cobots en milieu industriel : une cellule de travail conforme aux normes ISO/TS 15066 (vitesse et séparation) peut malgré tout générer friction, inconfort ou méfiance chez les opérateurs, réduisant l'adoption réelle. L'étude apporte une validation empirique à l'hypothèse que la dimension psycho-cognitive doit être traitée comme une contrainte de conception à part entière, et non comme un ajustement cosmétique post-déploiement. C'est un argument concret pour les décideurs B2B qui peinent à justifier le passage de robots en cage à la collaboration directe. Ce travail s'inscrit dans un champ de recherche en pleine expansion autour de l'interaction humain-robot (HRI) socialement intelligente, porté notamment par des laboratoires européens actifs sur la thématique cobot-manufacturing. Le MPC est une approche mature en robotique industrielle, mais son application explicite à des objectifs de confort social reste peu documentée à cette échelle. Des acteurs comme Universal Robots, Franka Robotics ou, côté français, Pollen Robotics travaillent sur des cobots à vocation collaborative, mais sans encore intégrer formellement ce type de métriques comportementales dans leurs pipelines de contrôle. Les prochaines étapes naturelles seraient des validations en conditions réelles de production et une quantification du retour sur investissement lié à l'amélioration de l'acceptabilité.

UELes résultats concernent directement des fabricants européens comme Franka Robotics et Pollen Robotics (FR), dont les pipelines de contrôle cobot pourraient intégrer ces métriques comportementales pour réduire la friction opérateur et accélérer la transition vers la collaboration directe en usine.

RecherchePaper
1 source
HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents
129arXiv cs.RO 

HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08610) HARBOR, un framework agentique conçu pour automatiser les pipelines d'apprentissage par renforcement (RL) appliqués à la robotique. Partant d'une spécification de tâche et d'une base de code simulateur, le système prend en charge l'ensemble du workflow : configuration de l'environnement, conception des fonctions de récompense, entraînement de la politique et tuning des hyperparamètres. HARBOR décompose ces objectifs de haut niveau en étapes bornées confiées à des agents spécialisés, coordonnés via des commandes standardisées, des artefacts persistants et des portes d'exécution vérifiables. Il scale l'itération par essais parallèles décentralisés et capitalise sur l'expérience accumulée entre les runs. Le framework a été évalué sur 6 benchmarks couvrant 16 tâches de manipulation, locomotion et contrôle bimanuel dextère. Les politiques entraînées en simulation ont ensuite été transférées sur de vrais robots. L'intérêt principal de HARBOR tient à ce qu'il attaque directement le principal frein à l'adoption du RL en robotique industrielle : la charge d'ingénierie experte requise pour chaque nouvelle tâche. Reward shaping, sélection d'algorithmes, tuning fin des hyperparamètres représentent aujourd'hui des semaines de travail spécialisé avant d'obtenir une politique viable. En automatisant ce cycle de bout en bout à un coût pratique en tokens et en temps de calcul, HARBOR abaisse concrètement la barrière d'entrée pour les intégrateurs et les équipes R&D industrielles. Le fait que les politiques se transfèrent au robot réel adresse le "sim-to-real gap", un verrou persistant du secteur. Les résultats publiés indiquent que le framework égale ou surpasse les configurations par défaut sur les benchmarks testés, bien que les conditions exactes d'évaluation méritent d'être examinées dans le papier complet avant d'en tirer des conclusions généralisées. HARBOR s'inscrit dans une tendance émergente qui consiste à utiliser des LLMs comme orchestrateurs de pipelines ML complexes, dans la lignée de travaux comme Eureka (NVIDIA, 2023), qui utilisait GPT-4 pour générer automatiquement des reward functions via evolutionary search, ou des approches AutoRL de Berkeley et Google DeepMind. HARBOR semble aller plus loin en couvrant l'intégralité du workflow plutôt que le seul reward design. Les auteurs ne sont pas identifiés dans l'abstract disponible, et aucune affiliation institutionnelle ni application industrielle spécifique n'est mentionnée : il s'agit d'un preprint de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles concerneront l'intégration avec des simulateurs standards (Isaac Sim, MuJoCo), des validations sur des plateformes humanoïdes complexes, et une éventuelle ouverture du code.

RecherchePaper
1 source
PRISM : échantillonnage guidé par les priors dans les modèles du monde
130arXiv cs.RO 

PRISM : échantillonnage guidé par les priors dans les modèles du monde

Une équipe de chercheurs a publié PRISM (PRior-guided Imagination Sampling in world Models), un framework de planification basée sur les modèles du monde pour le contrôle continu en robotique. L'approche cible un angle précis : dans la planification par MPC (Model Predictive Control), la qualité des actions candidates générées pour évaluation compte autant que la précision du simulateur lui-même. PRISM repose sur un modèle de monde latent de style JEPA (Joint Embedding Predictive Architecture) auquel est attaché un MLP léger branché sur l'encodeur gelé du modèle. Ce MLP prédit un prior gaussien conditionné à l'état courant ; au moment de la planification, PRISM fusionne ce prior dans la distribution d'échantillonnage via une mise à jour Product-of-Gaussians pondérée par précision, une opération en forme fermée sans paramètres additionnels. Les gains mesurés atteignent +35 points de pourcentage sur la tâche Cube et +32 points sur PushT face à un MPC standard sur modèle du monde, sans surcoût d'inférence significatif. Pour les praticiens du contrôle robotique, l'enjeu est concret. Les planificateurs existants compensent l'inefficacité d'exploration en important des encodeurs visuels indépendants ou des VLMs (Vision Language Models) de grande taille pour construire un prior d'actions, ce qui alourdit l'architecture et complique le déploiement embarqué. PRISM extrait ce prior directement des représentations apprises par le modèle du monde, depuis le même jeu de données d'entraînement, sans composant externe. Le mécanisme s'auto-régule naturellement : le prior est confiant là où les données sont denses, et s'efface là où elles sont rares. Pour un ingénieur en manipulation industrielle ou un intégrateur système, c'est un gain d'efficacité d'échantillonnage sans refonte de l'infrastructure existante. PRISM s'inscrit dans la lignée des travaux sur les modèles du monde pour le contrôle incarné, dont JEPA (Meta/LeCun), TD-MPC2 et Dreamer v3 sont des jalons récents, et dont l'efficacité en phase de planification reste un problème ouvert. Les approches concurrentes privilegient des modèles de grande taille intégrant nativement un prior d'action, comme les VLA (Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA), une philosophie diamétralement opposée à la compacité revendiquée par PRISM. Point de vigilance : les benchmarks utilisés, Cube et PushT, sont des environnements de manipulation simulés relativement standards. La validation sur hardware réel et en manipulation dextre en conditions non structurées reste à venir, ce qui tempère la portée opérationnelle des gains annoncés.

RecherchePaper
1 source
Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes
131arXiv cs.RO 

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08725) une méthode de planification de trajectoire en temps réel pour la téleopération sans collision de bras manipulateurs. Le problème central : en téleopération, l'opérateur ne contrôle que la pose de l'effecteur terminal (position et orientation de l'outil), sans piloter individuellement les articulations. Cela provoque régulièrement des auto-collisions du bras sur lui-même ou des collisions avec les obstacles de l'environnement de travail. L'approche proposée reformule les contraintes d'évitement de collision en les rendant différentiables via la dualité en optimisation convexe, une formulation récente adaptée ici au contexte de la téleopération. Le robot est représenté géométriquement par des capsules (cylindres à extrémités hémisphériques), l'environnement par des polytopes. La méthode a été validée en simulation sur des scénarios à nombre variable d'obstacles, puis testée physiquement sur un bras UR5e de Universal Robots dans une session de téleopération réelle. Les résultats indiquent des temps de calcul inférieurs aux méthodes de référence, tout en autorisant une modélisation géométrique plus fidèle, produisant des trajectoires plus lisses et garantissant l'absence de collision. L'enjeu industriel est direct : les approches existantes contraignent les développeurs à choisir entre précision géométrique et performance de calcul. Approximer robot et obstacles par des sphères simplifie la différentiabilité mais introduit des marges de sécurité artificiellement larges, restreignant l'espace de travail utile. À l'inverse, approximer les dérivées dégrade la convergence du solveur et augmente la latence, incompatible avec les exigences temps réel de la téleopération. En utilisant la dualité convexe, ce travail contourne les deux compromis simultanément. Pour un intégrateur déployant des cellules robotisées téléopérées, cela représente potentiellement moins de zones interdites inutiles et une meilleure réactivité du système. La téleopération connaît un regain d'intérêt important depuis 2023, portée par les besoins en collecte de données pour l'apprentissage par imitation dans les robots humanoïdes et par les applications en environnements dangereux ou médicaux. Les méthodes concurrentes incluent les contrôleurs réactifs basés sur des champs de potentiel, les planificateurs par échantillonnage (RRT, CHOMP) et les approches de contrôle optimal à horizon glissant avec modèles en sphères. L'approche ici, fondée sur la programmation différentiable et les contraintes duales convexes, s'inscrit dans une tendance plus large d'intégration des outils d'optimisation différentiable dans la robotique de manipulation. Le travail est un preprint non encore évalué par les pairs ; les prochaines étapes probables concernent l'extension à des configurations à plus grand nombre de degrés de liberté et à des environnements dynamiques.

UEApplicable aux intégrateurs européens déployant des cellules téléopérées (chirurgie, environnements dangereux), mais aucun acteur FR/EU n'est directement impliqué dans ce preprint.

RecherchePaper
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
132arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet
133arXiv cs.RO 

EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet

Des chercheurs ont publié en juin 2026 sur arXiv un framework baptisé EgoAERO, capable d'apprendre la manipulation dextre à partir d'une unique démonstration vidéo RGB-D égocentrique humaine, sans recourir à aucun asset 3D de l'objet manipulé. Le pipeline enchaîne trois modules : un tracking et une reconstruction de l'objet sans asset préalable, une compensation du mouvement égocentrique de la caméra, et une optimisation adaptative des contacts main-objet. Les trajectoires cohérentes obtenues sont ensuite converties en politiques robotiques via un apprentissage résiduel en deux étapes. Les auteurs introduisent également un mécanisme d'évaluation de qualité en ligne et publient EgoDex-R, un dataset de 4,3 millions de frames RGB-D pour l'entraînement de politiques dextres. En simulation comme en conditions réelles, EgoAERO atteint des performances proches des reconstructions assistées par modèles CAD sur le benchmark HOI4D, référence standard pour l'interaction main-objet. Le verrou technique levé ici est structurant pour la robotique dextre : jusqu'ici, les méthodes d'imitation à partir de vidéo humaine exigeaient soit des scans 3D préalables des objets, soit plusieurs démonstrations, soit des marqueurs visuels. Or, scanner chaque objet d'un environnement industriel ou domestique est un frein majeur à la scalabilité des systèmes. EgoAERO suggère qu'une caméra RGB-D standard (de type Intel RealSense ou intégrée à des lunettes connectées) et une seule prise vidéo suffisent pour bootstrapper une politique robotique fonctionnelle. C'est un signal fort en faveur d'une démocratisation de la collecte de données dextres, potentiellement réalisable par des opérateurs non spécialisés plutôt que par des sessions de télé-opération coûteuses. Ce travail s'inscrit dans une vague de recherche visant à exploiter les corpus vidéo égocentrique à grande échelle (Ego4D, HOI4D, EPIC-Kitchens), jusqu'ici sous-utilisés pour le robot learning faute de géométrie objet exploitable. Les approches concurrentes en manipulation dextre reposent encore largement sur la télé-opération avec gants haptiques (Physical Intelligence avec pi0, Dexterous Manipulation Lab de CMU) ou sur des assets CAD (DITTO, DexMV). EgoAERO n'est à ce stade qu'un preprint, sans déploiement industriel annoncé ni validation sur une large variété d'objets du monde réel : les expériences rapportées restent sur des scènes contrôlées du benchmark HOI4D, et la robustesse à des objets déformables ou transparents reste à démontrer.

RecherchePaper
1 source
PACT : alignement de sécurité physique auto-évolutif pour les politiques de diffusion en manipulation incarnée
134arXiv cs.RO 

PACT : alignement de sécurité physique auto-évolutif pour les politiques de diffusion en manipulation incarnée

Une équipe de chercheurs publie PACT (Physical safety Alignment for Constrained Trajectories), un cadre d'alignement post-entraînement destiné à rendre les politiques de diffusion robotique conformes à des contraintes physiques strictes, sans accéder aux données de démonstration ni aux récompenses de tâche (arXiv:2606.08414). Les politiques de diffusion, qui génèrent des trajectoires motrices par débruitage itératif, ont connu des succès notables en manipulation robotique mais peinent à satisfaire des contraintes de sécurité fermes en déploiement réel. PACT projette les politiques pré-entraînées dans des régions faisables en distillant des gradients de contrainte via un objectif KL inverse, avec supervision dense à chaque pas de temps du processus de débruitage. Un curriculum progressif resserre graduellement les contraintes tout en maintenant un écart théoriquement borné par rapport à la politique d'origine, limitant l'oubli catastrophique. Sur des benchmarks de manipulation simulée et réelle, PACT réduit les violations de sécurité de 31,0% en moyenne et améliore simultanément le taux de réussite des tâches de 30,7%. Ces résultats interpellent directement les intégrateurs : sécuriser une politique robotique impliquait jusqu'ici soit de contraindre l'entraînement dès le départ, au prix de l'expressivité, soit d'ajouter des garde-fous externes à l'inférence, nuisant à la scalabilité. PACT propose une troisième voie, post-entraînement et sans données supplémentaires, qui permettrait en théorie d'aligner n'importe quelle politique de diffusion existante. Le fait que sécurité et performance progressent conjointement contredit l'hypothèse d'un compromis structurel entre les deux, pourtant largement admise dans le secteur. À noter : l'article ne précise pas les configurations matérielles ni les volumes de données des tests réels, ce qui limite la portée des comparaisons directes. Les politiques de diffusion ont connu une montée en puissance récente, portée notamment par Pi-0 (Physical Intelligence) et d'autres architectures VLA de grands laboratoires. PACT s'inspire des techniques d'alignement post-entraînement développées pour les LLM, de type RLHF, adaptées aux contraintes physiques plutôt qu'aux préférences humaines, et se positionne face aux approches par apprentissage par renforcement contraint et aux filtres CBF (Control Barrier Functions). Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit d'un résultat purement académique, sans pilote industriel annoncé. La validation sur des plateformes humanoïdes complètes et l'intégration dans des pipelines VLA de production restent à démontrer.

RecherchePaper
1 source
Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement
135arXiv cs.RO 

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

Une équipe de chercheurs a publié RE-GoT (Reward Evolution with Graph-of-Thoughts), un cadre de conception automatique de fonctions de récompense pour l'apprentissage par renforcement (RL). La méthode, présentée dans l'article arXiv:2509.16136 (version 5), associe des grands modèles de langage (LLM) à des modèles visuels (VLM) via un raisonnement structuré en graphe. RE-GoT décompose d'abord la tâche cible en un graphe d'attributs textuels, génère une fonction de récompense correspondante, puis la raffine itérativement en exploitant les retours visuels fournis par un VLM, sans intervention humaine. Évalué sur 10 tâches RoboGen et 4 tâches ManiSkill2, le système améliore le taux de succès moyen de 32,25 % sur RoboGen par rapport aux baselines LLM existantes, et atteint 93,73 % de taux de succès sur les quatre tâches de manipulation de ManiSkill2, dépassant même les récompenses conçues manuellement par des experts. L'enjeu est significatif : la conception des fonctions de récompense représente l'un des principaux goulots d'étranglement du RL appliqué à la robotique, et elle exige aujourd'hui une expertise humaine considérable ainsi que de nombreuses itérations manuelles. RE-GoT adresse deux faiblesses chroniques des approches LLM existantes : les hallucinations, que la structure en graphe réduit en contraignant le raisonnement, et l'incapacité à traiter des tâches multi-étapes complexes. Le fait que RE-GoT surpasse les récompenses expertes sur ManiSkill2 est notable, bien qu'il convienne de nuancer : les expériences restent dans des environnements simulés, et la question du sim-to-real gap, cruciale pour les industriels souhaitant déployer ces méthodes sur des robots physiques, n'est pas traitée dans ce travail. Ce travail s'inscrit dans une dynamique de recherche active depuis 2023, notamment portée par Eureka (NVIDIA, octobre 2023), qui utilisait GPT-4 pour générer des fonctions de récompense sur IsaacGym, ou par FunsSearch (DeepMind). RE-GoT se distingue en introduisant le paradigme Graph-of-Thoughts, une extension du Chain-of-Thought qui organise le raisonnement en graphe plutôt qu'en chaîne linéaire, permettant une analyse plus exhaustive des dépendances entre sous-tâches. Les prochaines étapes naturelles concernent la validation sur robots physiques et l'intégration à des pipelines sim-to-real comme ceux utilisés par Figure AI, Agility Robotics ou Boston Dynamics dans leurs boucles d'entraînement.

RecherchePaper
1 source
PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement
136arXiv cs.RO 

PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement

Une équipe de recherche a publié PhysGraph en juin 2026 sur arXiv (référence 2606.08655), un cadre algorithmique qui construit des graphes de scène 3D physiquement ancrés à partir d'images RGB-D, caméras couleur couplées à un capteur de profondeur. Là où la plupart des systèmes de perception 3D se limitent à identifier sémantiquement les objets (reconnaissance, segmentation, récupération), PhysGraph modélise simultanément leurs propriétés physiques et cinématiques : masse, matériaux, et articulations (degrés de liberté, points de pivot). Le pipeline décompose chaque objet en parties fonctionnelles distinctes, associe les instances d'objets entre plusieurs prises de vue, puis infère via un raisonnement visuel les propriétés mécaniques de chaque composant. Évalué sur des jeux de données synthétiques et réels, le système revendique des résultats state-of-the-art en segmentation sémantique, en estimation de masse multi-objet, et en prédiction d'articulations. L'enjeu dépasse la taxonomie académique. Pour la manipulation robotique en environnement industriel ou domestique, savoir qu'un objet est « un tiroir » n'est pas suffisant, le robot doit connaître son axe de rotation, la force nécessaire à son ouverture, et la localisation des poignées préhensibles. PhysGraph cible précisément ce gap en produisant des représentations exploitables pour la planification de tâches et la prédiction d'affordances sous contraintes physiques. L'application de transfert réel-vers-simulation (real-to-sim) est stratégiquement critique : convertir automatiquement une scène réelle en environnement simulé fidèle réduit le coût de génération de données d'entraînement pour les robots apprenants. Il convient cependant de nuancer : l'abstract ne précise ni les latences de traitement ni les conditions opérationnelles testées, ce qui rend difficile l'évaluation de la viabilité temps-réel. Ce travail s'inscrit dans un espace de recherche dense autour des graphes de scène 3D ouverts, ConceptGraphs, OpenMask3D, et les travaux sur la manipulation d'objets articulés alimentés par les datasets PartNet et SAPIEN font figure de références directes. La prédiction d'articulations reste l'un des problèmes les plus ouverts de la robotique incarnée, aux côtés du fossé sim-to-real. Aucun partenaire industriel ni déploiement pilote n'est mentionné : PhysGraph en est au stade de contribution de recherche, sans timeline de productisation annoncée. Les prochaines étapes naturelles seraient la validation sur des manipulateurs réels en boucle fermée et la publication du code.

RecherchePaper
1 source
ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives
137arXiv cs.RO 

ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives

Des chercheurs ont publié ActProbe (arXiv:2606.08508), un détecteur de défaillances léger pour les politiques robotiques génératives, ces systèmes qui produisent des séquences d'actions continues comme les politiques de diffusion ou les architectures ACT déployées sur des robots tels que Figure 03 ou entraînés avec pi-0. Plutôt que d'accéder aux états internes du modèle ou d'introduire un rééchantillonnage coûteux à l'exécution, ActProbe opère exclusivement sur les chunks d'actions émis lors d'un seul passage avant (forward pass). Deux signaux suffisent : l'erreur de cohérence temporelle (TCE), qui mesure l'incohérence entre deux chunks consécutifs, et l'amplitude du chunk courant (ACM). Ces métriques alimentent une architecture LSTM-MLP légère conditionnée par la tâche, produisant une probabilité de défaillance par étape. Sur un ensemble diversifié de benchmarks, ActProbe améliore le front de Pareto précision (F1)/précocité d'un gain en hypervolume de +12,7 % par rapport aux méthodes existantes, et affiche un avantage de +9,0 % en ROC-AUC sur des tâches non vues à l'entraînement. L'intérêt opérationnel tient à une contrainte réelle : les politiques commerciales comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ne donnent pas accès à leurs états internes. Un détecteur purement black-box est donc la seule option viable en déploiement industriel. ActProbe émet ses alertes avant que la défaillance ne soit visuellement reconnaissable, ce qui est critique pour interrompre une action irréversible avant qu'elle ne soit engagée. Côté fine-tuning par renforcement (PPO), le système réduit de 2,9 fois le nombre d'interactions nécessaires avec l'environnement, un gain direct lorsque chaque interaction implique un robot physique. Le transfert sur des tâches de saisie réelles non vues lors de l'entraînement valide la généralisation hors simulateur. ActProbe s'inscrit dans les travaux ciblant le fossé entre démonstration en laboratoire et déploiement à l'échelle, l'obstacle central à la commercialisation des robots généralistes depuis 2023. Les approches concurrentes, qu'elles reposent sur le monitoring d'incertitude interne ou sur des signaux côté observation, souffrent d'un manque d'accès aux internals ou d'une latence incompatible avec le temps réel. La prochaine étape logique serait l'intégration dans des boucles de contrôle réactives pour robots humanoïdes industriels, terrain où Figure AI, Apptronik et Agility Robotics accélèrent leurs déploiements en entrepôt en 2026. ActProbe reste à ce stade une publication académique préliminaire, sans produit ni partenariat industriel annoncé.

RechercheOpinion
1 source
Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA
138arXiv cs.RO 

Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA

Des chercheurs ont entraîné des Sparse Autoencoders (SAE) sur les activations de couches cachées de modèles Vision-Language-Action (VLA) pour sonder mécanistiquement leurs représentations internes. Les SAE apprennent des dictionnaires épars sur ces activations, révélant des directions interprétables dans l'espace de représentation du modèle. L'équipe a identifié des features correspondant à des primitives de mouvement et à des concepts sémantiques, subdivisées selon une métrique proposée en deux catégories : les primitives générales transférables entre tâches, et les mémorisations épisodiques propres à un contexte particulier. Ces features se révèlent causalement pilotables : amplifier une feature générale induit des comportements cohérents avec sa sémantique, tandis que l'ablater dégrade significativement les performances du modèle. Les expériences ont été conduites sur le benchmark de simulation LIBERO et sur du matériel réel DROID, ce qui distingue ce travail de nombreuses contributions purement synthétiques. L'enjeu central est de comprendre quand et pourquoi un VLA généralise à de nouveaux objets, scènes ou instructions, une question que les benchmarks de performance bruts ne permettent pas de trancher. La distinction primitives-générales/mémorisations-épisodiques fournit aux développeurs un outil diagnostique pour évaluer ce qu'un modèle a réellement internalisé après entraînement, plutôt que de se fier à des métriques de réussite de tâche. Plus significatif encore, le steering par SAE ouvre une voie de contrôle orthogonale au prompting textuel : le robot peut être guidé dans des directions comportementales impossibles à exprimer via des instructions en langage naturel, sans réentraînement du modèle. Ce travail s'inscrit dans la continuité des recherches en interprétabilité mécanistique qui ont d'abord ciblé les grands modèles de langage, notamment les travaux publiés par Anthropic sur les SAE appliqués aux LLM, et tente de transposer cette méthodologie aux modèles agissants multimodaux. Les VLA dominent aujourd'hui la manipulation robotique généraliste, qu'il s'agisse de Pi-0 (Physical Intelligence), d'OpenVLA (UC Berkeley), de GR00T N2 (NVIDIA) ou des architectures de Google DeepMind, et tous font face au même déficit d'interprétabilité interne. La validation sur DROID, benchmark réel à forte diversité de scènes et de manipulations, renforce la portée des résultats au-delà du sim-to-real classique. Les suites naturelles incluent l'intégration de ces outils dans des pipelines de fine-tuning ciblé ou de sélection de données d'entraînement, voire dans des systèmes de supervision comportementale en production.

RechercheOpinion
1 source
Apprentissage par renforcement dans un espace d'embedding linéaire pour un contrôle généralisable sur différentes configurations de robots souples
139arXiv cs.RO 

Apprentissage par renforcement dans un espace d'embedding linéaire pour un contrôle généralisable sur différentes configurations de robots souples

Une équipe de chercheurs présente, dans un préprint arXiv déposé en juin 2026 (arXiv:2606.08104), un système de contrôle généraliste pour robots souples capables de s'adapter à 33 configurations mécaniques distinctes sans réentraînement complet. La méthode repose sur un espace d'embedding linéaire dit de Koopman, dans lequel la dynamique du robot est encodée indépendamment de sa morphologie. L'apprentissage par renforcement est appliqué dans cet espace partagé, ce qui permet au contrôleur de se transférer d'une configuration à une autre avec 75 fois moins d'échantillons de transfert que les approches conventionnelles. Le système maintient des performances robustes sous contraintes sévères : mouvements rapides, charges utiles élevées et pannes simultanées de plusieurs actionneurs. Le verrou que ce travail cherche à lever est structurel dans le domaine des robots souples : chaque changement de configuration (matériau, rigidité, morphologie) impose aujourd'hui une refonte du contrôleur spécifique, rendant la reconfiguration coûteuse en temps ingénieur et en données d'entraînement. En découplant la politique de contrôle de la morphologie via l'espace de Koopman, les auteurs ouvrent la voie à des robots souples reconfigurables à la demande, exploitables en production industrielle ou en milieu médical sans pipeline de réentraînement long. La réduction de 75x du coût de transfert est significative, mais le préprint ne précise pas les conditions opérationnelles exactes des 33 configurations testées ni si les évaluations couvrent des tâches réelles ou des benchmarks en simulation. Les robots souples, inspirés des pieuvres et des trompes d'éléphants, font l'objet d'une recherche matériaux intense depuis une décennie, mais leur contrôle restait l'obstacle principal à tout déploiement à l'échelle. Sur le front concurrent, les approches classiques par modèles (éléments finis, modèles de Cosserat) peinent à généraliser, tandis que les méthodes d'apprentissage profond nécessitent typiquement des jeux de données configuration-spécifiques massifs. L'opérateur de Koopman, déjà utilisé en robotique rigide pour linéariser des systèmes non linéaires, fait ici son entrée dans le contrôle de robots souples à grande échelle. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans le préprint ; les suites naturelles seront la validation sur des tâches de manipulation réelle et l'extension à des configurations hybrides rigides-souples, segment sur lequel des spinoffs de laboratoires académiques européens et des acteurs comme Wandercraft cherchent à se positionner.

UEImpact indirect : des équipes académiques et spinoffs européens en robotique souple pourraient exploiter cette méthode Koopman pour réduire leur coût de réentraînement morphologique, mais aucun partenariat industriel ou déploiement européen n'est identifié à ce stade.

RecherchePaper
1 source
FiberTune : préserver les résidus visuels des fibres d'action dans le fine-tuning des modèles VLA
140arXiv cs.RO 

FiberTune : préserver les résidus visuels des fibres d'action dans le fine-tuning des modèles VLA

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.08653) une méthode de fine-tuning baptisée FiberTune, visant à corriger un défaut structurel des politiques VLA (vision-language-action) lors de leur adaptation supervisée. Le constat de départ est précis : lorsqu'on fine-tune un modèle VLA sur des démonstrations d'actions, l'optimisation ne contraint que les directions de l'espace de features qui influencent directement les actions prédites. Les directions visuelles orthogonales à ces actions, dites "fibres d'action locales", restent libres de se dégrader silencieusement, phénomène formalisé ici comme "effondrement des résidus visuels". FiberTune y répond avec une approche en trois temps : une sonde d'action en ligne estime les directions features prédictives d'action, ces directions sont filtrées des représentations intermédiaires de tokens visuels, et les résidus ainsi filtrés sont alignés sur un teacher visuel gelé avec régularisation du rang effectif. Testé sur six configurations de simulation couvrant deux benchmarks (CALVIN ABC-to-D pour les tâches longue-horizon, et un second non nommé explicitement) et deux architectures, pi_0.5 de Physical Intelligence et OpenVLA-OFT, FiberTune affiche des gains systématiques, notamment +10,7 points de pourcentage en SR(5) sur CALVIN ABC-to-D. Sur robot physique (bras SO-101, tâche pick-and-place), le taux de succès passe de 72,7 % à 78,1 %. Ces résultats intéressent particulièrement les intégrateurs qui cherchent à adapter des fondations VLA génériques à leurs process sans réentraîner depuis zéro. L'absence d'overhead à l'inférence est un argument concret pour le déploiement embarqué. Plus fondamentalement, FiberTune illustre que le fine-tuning action-supervisé seul peut dégrader la représentation perceptuelle du modèle sur des tâches complexes ou longue-horizon, un point qui contredit l'intuition simple "plus de données de démonstration = meilleure politique". La cohérence des gains sur six settings distincts renforce la crédibilité de l'hypothèse des fibres d'action, même si les améliorations restent modestes et que les conditions expérimentales (sélection des vidéos de démonstration, paramètres de simulation) ne sont pas entièrement détaillées dans le résumé disponible. Le contexte est celui de la course au fine-tuning efficace des VLA grand public : pi0 (Physical Intelligence, plus de 400 millions de dollars levés) et OpenVLA (Stanford/Berkeley) sont les deux architectures de référence testées ici. CALVIN ABC-to-D est devenu le benchmark standard pour évaluer la généralisation séquentielle des politiques manipulatrices. FiberTune s'inscrit dans un spectre de méthodes concurrentes allant de LoRA adaptatif aux approches de distillation comportementale. Il s'agit pour l'instant d'un preprint non peer-reviewed ; aucun déploiement industriel ni partenariat n'est annoncé à ce stade.

RechercheOpinion
1 source
Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire
141arXiv cs.RO 

Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire

Des chercheurs présentent dans un preprint arXiv publié en juin 2026 (2606.08542) une formalisation et une solution partielle à un problème mal documenté de la planification robotique : les grands modèles de vision-langage actuels (VLMs, LLMs multimodaux incarnés) ne savent pas lire les traces d'exploration robotique. Le cas typique : un robot tire sur un tiroir verrouillé, échoue, puis réussit après avoir ouvert le verrou. Cet échec initial n'est pas du bruit, c'est la preuve d'une précondition latente (le tiroir était verrouillé), et donc la clé pour inférer la séquence minimale d'actions correcte. Les auteurs formalisent ce problème sous le nom EMT-QA (Exploratory Manipulation Trace QA) et proposent la Closed-Loop Trace Distillation : un agent de codage par tâche inspecte les traces d'entraînement étiquetées et en distille une heuristique de lecture en une seule ligne de langage naturel, appelée DRH (Distilled Reading Heuristic). À l'inférence, pas d'agent invoqué, pas de mise à jour de poids : un VLM figé reçoit la trace brute augmentée du DRH. Sur cinq tâches (trois en simulateur, deux sur robot réel), le DRH améliore la précision de la chaîne d'actions de +0,38 à +0,47 par rapport aux meilleures baselines en modalité brute. Ce résultat contredit une hypothèse courante dans le secteur : que des VLMs suffisamment puissants "verront" naturellement les préconditions cachées dans une vidéo d'exécution. L'étude démontre que ni la vidéo brute, ni la proprioception, ni leur combinaison ne suffisent. Pour les équipes qui intègrent des VLMs comme backbone de planification dans des systèmes de manipulation industrielle, cela signifie qu'une couche de distillation d'heuristiques peut s'avérer indispensable, sans nécessiter de fine-tuning ni d'infrastructure supplémentaire à l'inférence. Fait notable : le même DRH sert également de spécification unique pour des classifieurs programmatiques one-shot qui égalent les performances du VLM prompté, ouvrant une voie vers des pipelines de validation auditables et plus légers. Ces travaux s'inscrivent dans la dynamique des politiques robotiques fondées sur la vidéo et le langage (VLA), portée notamment par Physical Intelligence (Pi-0), NVIDIA (GR00T N2) ou Google DeepMind, qui s'appuient tous sur des VLMs comme planificateurs. La lecture fiable des traces d'exécution est un angle mort reconnu dans la communauté, souvent masqué dans les démos par des conditions expérimentales favorables. Le périmètre de validation reste restreint (cinq tâches au total), et la généralisation à des préconditions plus complexes ou à des chaînes d'actions plus longues n'est pas encore établie. Les suites naturelles incluent l'évaluation sur des benchmarks de manipulation plus larges et, surtout, la génération de DRH sans traces étiquetées en amont, condition nécessaire à la scalabilité réelle de l'approche.

RechercheOpinion
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
142arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
Revisiter la perception des parties articulées en manipulation robotique
143arXiv cs.RO 

Revisiter la perception des parties articulées en manipulation robotique

Des chercheurs ont déposé en juin 2026 (arXiv:2606.08103) une nouvelle approche pour la perception des parties articulées d'objets du quotidien, portes, boîtes et poignées, baptisée GPS (Geometric Primary Structure). Ce cadre représente la géométrie des parties mobiles sous une forme abstraite et générique, collectée via un dispositif de réalité virtuelle portable : l'annotation d'une séquence d'objets prend moins d'une minute, contre plusieurs dizaines de minutes pour les pipelines de labellisation manuelle classiques. Appliqué sur 234 objets répartis en six classes de parties, le système a constitué un corpus de 41 000 frames. Le modèle GPS entraîné accepte en entrée une unique image RGB-D et, sans aucun fine-tuning spécifique au domaine, atteint un taux de réussite de 73 % sur 270 états initiaux couvrant 9 objets en manipulation robotique réelle, à partir d'une politique heuristique basée sur la prédiction GPS. Ce résultat illustre un point clé pour les intégrateurs et les équipes R&D industrielles : la qualité de la représentation perceptive conditionne directement la robustesse de la politique de manipulation. Les deux approches dominantes présentent des compromis défavorables. Les méthodes basées sur la pose nécessitent une annotation intensive et ne passent pas à l'échelle, tandis que les méthodes affordance-based, qui extraient le mouvement futur par point tracking, souffrent de données bruitées ou incomplètes. GPS tente d'occuper le terrain intermédiaire. Un taux de 73 % sans fine-tuning in-domain est une indication sérieuse de généralisation réelle, même si la validation sur 9 objets seulement invite à la prudence avant de conclure que le fossé entre démonstration et déploiement industriel est comblé. Le problème de la manipulation d'objets articulés constitue un verrou reconnu depuis les travaux fondateurs sur WHERE2ACT et les datasets de type OPD (OpenDoors-Dataset). GPS s'inscrit dans un mouvement plus large visant à remplacer les bases de connaissances statiques par des systèmes de perception apprenants et annotables à faible coût. Les auteurs rendent publics le code, les données et l'outil VR (enlighten0707.github.io/gps), ce qui favorise la reproductibilité et l'adoption en recherche. Les extensions naturelles incluent l'intégration avec des politiques de type VLA (Vision-Language-Action), la généralisation à des parties déformables, et la validation sur des objets industriels hors distribution.

RecherchePaper
1 source
Objectifs définis par ensembles, pas par états : des buts de robots interrogeables via le réétiquetage rétrospectif par ensemble d'objectifs
144arXiv cs.RO 

Objectifs définis par ensembles, pas par états : des buts de robots interrogeables via le réétiquetage rétrospectif par ensemble d'objectifs

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (référence 2606.09476) une méthode baptisée Goal-Set Hindsight Relabeling (GS-HER), qui reformule le problème du ré-étiquetage a posteriori en apprentissage robot hors-ligne. Là où la technique standard HER (Hindsight Experience Replay) convertit chaque état final atteint en objectif singleton exact, GS-HER opère au niveau des prédicats : une requête binaire spécifie quelles variables de l'état définissent le succès, transformant le critère d'objectif en paramètre configurable à l'inférence plutôt qu'en constante d'entraînement. Le système a été évalué sur les benchmarks OGBench avec cinq algorithmes d'apprentissage offline orientés objectifs (GCRL), et améliore les performances sur l'ensemble des configurations testées lorsque les objectifs en pleine dimension sont pénalisés par des variables parasites -- les "nuisance dimensions" -- qui n'ont aucun impact sur le succès réel de la tâche. L'intérêt de GS-HER pour un intégrateur ou un déploiement industriel tient dans sa modularité : un unique checkpoint entraîné peut répondre à plusieurs définitions d'objectifs sans nécessiter de ré-entraînement. Concrètement, une même politique apprise peut être interrogée différemment selon le contexte opérationnel, en modifiant uniquement la requête à l'inférence. La méthode adresse aussi une limite bien connue du GCRL offline : dans les tâches réelles, la définition exacte d'un état-but final est souvent impossible à spécifier sans introduire de contraintes artificielles. GS-HER relaxe cette sur-contrainte en ne demandant au robot de vérifier que les dimensions effectivement pertinentes au succès, ce qui rapproche la formulation théorique de la réalité opérationnelle. HER a été introduit par Andrychowicz et al. (OpenAI) en 2017 et est devenu l'une des pierres angulaires du GCRL, notamment pour la manipulation robotique. Des variantes ont depuis émergé pour gérer les trajectoires sous-optimales et les objectifs bruités, mais peu s'attaquaient à la sur-contrainte dimensionnelle. GS-HER se positionne comme une couche de généralisation compatible avec les algorithmes GCRL existants, ce qui limite la friction d'adoption. La limite principale à ce stade : les résultats sont exclusivement issus de simulations (OGBench), sans validation sur hardware réel -- l'écart sim-to-real reste donc à démontrer. Aucun acteur européen n'est impliqué dans la publication selon les informations disponibles.

RecherchePaper
1 source
SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques
145arXiv cs.RO 

SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques

Des chercheurs ont publié SynthICL (arXiv:2606.08154), un framework d'apprentissage par imitation en contexte (ICIL) capable d'entraîner une politique robotique entièrement à partir de données synthétiques RGB. Le principe de l'ICIL consiste à conditionner une politique pré-entraînée sur quelques démonstrations fournies au moment du test, sans réentraînement, à l'image du prompting en contexte des grands modèles de langage. SynthICL construit un pipeline de génération de données pour produire des jeux d'entraînement ICIL haute fidélité, puis entraîne un transformer basé sur le flow-matching sur ce corpus. Le modèle intègre également un module de prédiction de sous-objectifs visuels (subgoal prediction), qui génère des images intermédiaires cibles pour ancrer visuellement le contrôle. Évalué sur 16 tâches de manipulation inédites en environnement réel, SynthICL atteint un taux de succès moyen de 79 % avec une seule démonstration fournie à l'inférence, surpassant les méthodes comparables. Le résultat le plus significatif n'est pas tant le score brut que ce qu'il ne requiert pas : ni capteur de profondeur, ni calibration précise de caméra, ni données d'entraînement collectées en conditions réelles. Ces trois contraintes constituent des frictions majeures dans le déploiement de politiques robotiques généralisables, en particulier pour les intégrateurs industriels qui opèrent sur des lignes hétérogènes. Un taux de transfert sim-to-real de 79 % sur des tâches non vues, avec une seule démonstration, commence à réduire sérieusement le fossé entre preuve de concept et déploiement opérationnel, même si les 16 tâches testées restent des manipulations relativement contraintes et que les conditions de tournage des vidéos de démonstration ne sont pas détaillées dans l'abstract. Le champ de l'ICIL robotique s'est structuré en parallèle de l'essor des VLA (Vision-Language-Action models). Des approches comme Octo (UC Berkeley), RT-2 (Google DeepMind) ou pi-zero de Physical Intelligence explorent des paradigmes comparables de généralisation multi-tâches, mais s'appuient en grande partie sur des données réelles coûteuses à collecter. La dépendance croissante aux simulateurs physiques (IsaacSim, Genesis, MuJoCo) pour générer des données d'entraînement est une tendance de fond que SynthICL illustre directement. Le projet dispose d'une page dédiée (synth-icl.github.io) ; aucun partenariat industriel ni calendrier de déploiement n'est mentionné à ce stade, ce qui en fait pour l'instant une contribution académique solide plutôt qu'un produit annoncé.

RechercheActu
1 source
Politiques de récupération sensibles aux différences pour l'apprentissage par imitation
146arXiv cs.RO 

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

Une équipe du Weird Lab de l'Université de Washington publie sur arXiv (arXiv:2606.09758, juin 2026) une méthode appelée DARP (Difference-Aware Retrieval Policies for Imitation Learning), une approche semi-paramétrique d'apprentissage par imitation. Le principe central : plutôt que d'apprendre un mapping global état-action via un réseau de neurones pur (behavior cloning standard), DARP entraîne un modèle à prédire des actions en s'appuyant sur les k plus proches voisins (k-NN) extraits des démonstrations expertes, leurs actions associées, et les vecteurs de distance relative entre les états voisins et l'état requête courant. En reformulant le problème d'imitation en termes de structure de voisinage local plutôt que de mappings directs, la méthode revendique des gains de performance de 15 à 46 % sur behavior cloning standard, mesurés sur des benchmarks de contrôle continu et de manipulation robotique, y compris avec des représentations visuelles haute dimension. L'amplitude de cette fourchette suggère des variations importantes selon les tâches et les domaines évalués. L'intérêt concret de DARP réside dans sa capacité à atténuer le problème de "compounding errors" : lors du déploiement, un agent entraîné par behavior cloning accumule des erreurs en rencontrant des états hors distribution, dégradant rapidement les performances. En réutilisant les données d'entraînement au moment de l'inférence, DARP introduit une forme de mémoire épisodique sans nécessiter de collecte de données supplémentaires, de feedback expert en ligne, ni de connaissance spécifique à la tâche. C'est là la distinction clé vis-à-vis de méthodes comme DAgger (Ross et Bagnell, 2011), qui résolvent la distribution shift mais exigent des requêtes à l'expert pendant l'entraînement, une contrainte souvent rédhibitoire en robotique industrielle réelle. Le behavior cloning reste une méthode de référence pour son absence de contraintes opérationnelles, mais sa fragilité face à la distribution shift en limite la portée pour des déploiements à grande échelle. DARP s'inscrit dans un courant de méthodes semi-paramétriques qui connaît un regain d'intérêt avec la montée des politiques génératives : l'idée de conserver explicitement une mémoire des démonstrations plutôt que de tout comprimer dans des poids de réseau est cohérente avec les architectures hybrides actuelles, comme les VLA Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les résultats sur représentations visuelles haute dimension ouvrent la voie à des applications sur des manipulateurs avec vision RGB, domaine où les approches purement paramétriques montrent encore des limites significatives. Le code et les démonstrations sont disponibles publiquement via le site des auteurs.

RecherchePaper
1 source
Planification et commande de mouvement sûres par polytopes imbriqués et fonctions de barrière de contrôle
147arXiv cs.RO 

Planification et commande de mouvement sûres par polytopes imbriqués et fonctions de barrière de contrôle

Des chercheurs présentent dans un preprint arXiv (2606.09719) une méthode de planification de mouvement locale pour robots mobiles autonomes évoluant dans des espaces confinés. L'approche repose sur la représentation polytopique du footprint du robot : modéliser sa géométrie réelle par un polygone convexe plutôt que de la simplifier à un point ou un cercle. La condition de sécurité, le robot doit rester à l'intérieur d'une région libre convexe continuellement mise à jour, est formulée comme un ensemble de contraintes de type Control Barrier Function (CBF) intégrées dans un contrôleur prédictif à modèle (MPC). Les expériences sur matériel embarqué, avec un robot non-holonome équipé de LiDAR et de grilles d'occupation, valident le système à 10 Hz en temps réel, avec évitement réactif d'obstacles dynamiques. L'analyse comparative affiche une réduction du temps de calcul pouvant atteindre 91x face à une formulation classique basée sur la détection d'obstacles, lorsque la densité de l'environnement augmente. L'intérêt pour les intégrateurs de systèmes AMR tient à deux propriétés distinctes. Le nombre de contraintes de sécurité dépend uniquement de la complexité géométrique locale et de la forme du robot, pas du nombre d'obstacles, ce qui garantit une tenue en temps réel dans des environnements denses. Par ailleurs, l'absence de nécessité de détecter ou segmenter les obstacles individuellement simplifie le pipeline de perception. La validation sur hardware, et pas seulement en simulation, place ce travail au-delà d'un résultat purement théorique, même si la montée en charge vers des environnements industriels à grande échelle reste à démontrer. La fréquence de 10 Hz sur ordinateur embarqué est un indicateur crédible de déployabilité réelle. Les approches classiques de navigation sûre pour robots à empreinte non-triviale recourent soit à des simplifications conservatives, soit à des formulations obstacle-par-obstacle dont le coût de calcul croît avec la densité de la scène, un problème bien documenté dans les entrepôts opérés par des acteurs comme Exotec ou dans la navigation maritime autonome. Les CBF appliqués à la planification en espace libre s'inscrivent dans une tendance croissante aux côtés de méthodes comme MPPI ou les planificateurs basés sur des tubes de sécurité. Ce preprint n'a pas encore été soumis à révision par les pairs, mais la démonstration embarquée sur robot réel constitue un signal d'applicabilité sérieux pour les équipes R&D robotique cherchant à naviguer dans des couloirs étroits sans surestimer les marges de sécurité.

UELes équipes R&D d'intégrateurs AMR européens (dont Exotec en France) pourraient bénéficier de cette méthode pour améliorer la navigation en environnements confinés sans surcoût computationnel, mais le travail reste un preprint non encore validé par les pairs.

RecherchePaper
1 source
EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes
148arXiv cs.RO 

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (réf. 2606.08495) EgoPriMo, un cadre unifié d'apprentissage de prior de mouvement pour robots humanoïdes, entraîné exclusivement à partir de démonstrations humaines en vue égocentrique (caméra portée sur la personne). Le système prend en entrée une séquence vidéo égocentrique et un prompt texte, puis reconstruit, génère ou prédit des mouvements corps entier au format SMPL (Skinned Multi-Person Linear model, le standard académique de représentation du squelette humain). L'architecture centrale est un Triple-stream Diffusion Transformer (DiT) qui modélise conjointement la dynamique corporelle, le contexte visuel égocentriique et le langage naturel via un seul checkpoint partagé, des masques de conditionnement de tâche routant les trois cas d'usage sans architecture distincte. Évalué sur les datasets Nymeria et EgoExo4D, EgoPriMo surpasse UniEgoMotion sur la génération égocentrique, et les trajectoires SMPL produites ont été exécutées avec succès sur le contrôleur humanoïde Unitree (probablement G1 ou H1). Il s'agit d'un papier de recherche, pas d'un déploiement industriel. L'intérêt de cette approche tient à son vecteur de données : les vidéos égocentrique humaines (Nymeria, EgoExo4D) sont disponibles à grande échelle, contrairement aux démonstrations téléopérées sur robots qui restent coûteuses et lentes à collecter. En utilisant le langage comme signal de contrôle haut niveau plutôt que comme spécification complète du mouvement, EgoPriMo vise la généralisation comportementale sans avoir à décrire exhaustivement chaque trajectoire, ce qui est l'un des verrous historiques des systèmes VLA (Vision-Language-Action). Le fait qu'un seul checkpoint gère reconstruction, génération et prévision simplifie le déploiement et réduit la dette de maintenance. La validation sur Unitree démontre une transition sim-to-real partielle, bien qu'aucun chiffre de robustesse en environnement non contrôlé ne soit communiqué dans l'abstract. Ce travail s'inscrit dans une compétition dense autour des priors de mouvement pour humanoïdes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Figure (03) investissent massivement dans des pipelines VLA capables de généraliser à des tâches variées. L'originalité d'EgoPriMo est de contourner la dépendance aux données robot en exploitant l'observation humaine égocentrique, une direction explorée également par des travaux issus de CMU et Stanford sur l'imitation via vidéo. Le choix de Unitree comme cible hardware est cohérent avec sa diffusion large dans les labos académiques. Les prochaines étapes naturelles seraient une validation en environnement semi-industriel et une intégration dans une boucle de contrôle fermée, deux dimensions absentes de ce preprint.

RechercheOpinion
1 source
UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)
149arXiv cs.RO 

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (référence 2602.18020v2) une méthode baptisée UAOR (Uncertainty-aware Observation Reinjection), conçue pour améliorer les modèles VLA (Vision-Language-Action) sans nécessiter de réentraînement ni de données supplémentaires. Le principe repose sur la mesure de l'entropie d'action à chaque couche du modèle de langage sous-jacent : lorsqu'une couche présente une incertitude élevée, le module réinjecte les informations d'observation clés dans le réseau Feed-Forward (FFN) de la couche suivante, via un mécanisme d'attention retrieval. Les auteurs exploitent ici une propriété connue des transformeurs où les FFN se comportent comme des mémoires clé-valeur, et l'appliquent de façon adaptative et conditionnelle à l'état d'incertitude du modèle. Les expériences couvrent à la fois des environnements simulés et des tâches de manipulation réelle, sans précisions chiffrées sur les volumes ou les délais de cycle dans l'abstract publié. L'intérêt pratique est réel pour les équipes qui cherchent à améliorer des pipelines VLA existants : la plupart des approches actuelles exigent l'ajout de capteurs (nuages de points, cartes de profondeur) ou de modules auxiliaires (détecteurs d'objets, encodeurs spécialisés), impliquant collecte de données et phases d'entraînement coûteuses. UAOR se branche en plug-and-play sur des modèles déjà entraînés, ce qui réduit significativement le coût d'intégration. Cette approche "training-free" est particulièrement pertinente dans un contexte industriel où le fine-tuning sur données propriétaires reste un frein. Cela dit, l'abstract ne communique pas de métriques précises (taux de succès, amélioration relative), ce qui rend l'évaluation de l'amplitude des gains difficile avant lecture complète du papier. Les VLA sont devenus un axe central de la robotique de manipulation généraliste depuis 2024, portés par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). UAOR s'inscrit dans une dynamique de recherche qui cherche à extraire davantage de performance des architectures existantes plutôt qu'à en construire de nouvelles, une tendance d'optimisation à moindre coût computationnel. La prochaine étape naturelle serait une évaluation comparative sur des benchmarks standardisés comme RLBench ou FurnitureBench, et un test d'intégration sur des modèles open-source populaires tels qu'OpenVLA ou Octo.

RechercheOpinion
1 source
VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées
150arXiv cs.RO 

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées

Des chercheurs ont publié en juin 2026 sur arXiv (référence 2606.09286) VAIC, un cadre de contrôle unifié pour robots humanoïdes capable d'interagir avec des objets en milieu non structuré. La contribution principale est l'élimination de deux hypothèses restrictives qui limitent la transposition terrain des contrôleurs existants : les trajectoires de référence denses et l'observabilité complète de l'état. VAIC opère exclusivement à partir d'un flux de profondeur embarqué et de la proprioception historique, via une interface de commandes découplées composée de cibles de vitesse multi-axes et d'un indicateur d'interaction par segment corporel. L'apprentissage suit un paradigme de distillation en deux étapes : une politique "enseignant" privilégiée, entraînée avec accès complet à la cinématique des objets et à l'état environnemental exact, transfère ses compétences à une politique "étudiant" déployable qui reconstruit implicitement la dynamique des objets depuis le flux de profondeur brut via un module d'adaptation récurrent. Sur robot humanoïde (non nommé dans le preprint), cette politique unique exécute en conditions réelles trois familles de tâches dynamiques : transport de carton, interaction avec un chariot, et skateboard, surpassant selon les auteurs les approches baseline comparées. Ce résultat, s'il se confirme à plus grande échelle, adresse directement le "deployment gap" qui freine la commercialisation des humanoïdes : la quasi-totalité des démos publiques repose encore sur des systèmes de capture de mouvement externe ou sur des objets instrumentés avec tracking précis. Proposer une politique unique généraliste, sans trajectoires de référence et fonctionnant sur capteurs embarqués bas coût, réduirait significativement la friction d'intégration pour les opérateurs industriels et les intégrateurs robotiques. La distillation enseignant-étudiant avec module d'adaptation récurrent n'est pas une architecture inédite, mais son application à des tâches aussi hétérogènes sur un humanoïde réel constitue un pas mesurable vers la généralisation. À noter que le preprint ne fournit ni métriques de cycle time par tâche, ni taux de succès quantifiés, ni spécification du robot utilisé, ce qui limite l'évaluation indépendante des performances annoncées. Ce travail s'inscrit dans une course aux contrôleurs généralisés qui oppose des équipes académiques (Berkeley, CMU, ETH Zurich) aux acteurs commerciaux : Figure Robotics avec son pipeline VLA sur Figure 02/03, Physical Intelligence et sa politique Pi-0, 1X Technologies et Unitree, tous actifs simultanément sur le sim-to-real et les architectures polyvalentes. L'approche de VAIC, centrée sur la profondeur et la proprioception plutôt que sur les vision-language models à grande échelle, constitue un positionnement différenciant en termes de coût de calcul embarqué et de simplicité sensorielle. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé dans ce preprint : il s'agit à ce stade d'une démonstration de recherche, dont la validation sur plusieurs plateformes robotiques et environnements variés reste entièrement à mener.

RecherchePaper
1 source