Aller au contenu principal

Recherche — page 7

1617 articles · page 7 sur 33

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Segmentation de pièces fondée sur l'occupation pour les graphes de scène 3D hiérarchiques
301arXiv cs.RO RecherchePaper

Segmentation de pièces fondée sur l'occupation pour les graphes de scène 3D hiérarchiques

Une équipe de recherche a publié sur arXiv (réf. 2606.13727, juin 2026) un pipeline baptisé OccuSG, conçu pour construire des graphes de scènes 3D hiérarchiques (3DSG) pour robots d'intérieur en ancrant la couche « pièce » à des régions de libre espace extraites d'une décomposition d'occupancy. Contrairement aux approches existantes qui s'appuient sur des clusters de lieux, des plans de murs ou des sorties de segmentation directe (sans critère géométrique commun permettant de comparer leurs résultats), OccuSG attribue à chaque nœud-pièce un contour polygonal explicite. Le pipeline a été évalué sur 12 scènes du jeu de données Matterport3D, en faisant correspondre les polygones prédits aux instances de pièces annotées, et comparé à Hydra, méthode de référence fondée sur la connectivité par lieux. Les graphes de scènes 3D hiérarchiques constituent une couche d'abstraction critique pour les robots naviguant en environnement résidentiel ou tertiaire : ils relient la perception au niveau objet (détection, segmentation) au raisonnement à l'échelle d'une pièce (navigation sémantique, planification de tâches). OccuSG affiche un rappel nettement supérieur à Hydra (davantage d'instances de pièces correctement retrouvées), mais au prix d'une précision plus faible, se traduisant en pratique par des pièces fantômes ou mal délimitées. Pour un intégrateur robotique ou un développeur AMR, le compromis est net : meilleure couverture sémantique, fidélité géométrique moindre. Les deux méthodes échouent par ailleurs à restituer des frontières de pièces précises au niveau des murs, un problème ouvert que les auteurs reconnaissent explicitement. La recherche sur les 3DSG pour robots d'intérieur est dominée depuis plusieurs années par Kimera et Hydra, développés au MIT dans le groupe de Luca Carlone, références académiques incontournables du domaine. OccuSG adopte une voie différente en privilégiant la géométrie d'occupancy plutôt que la topologie de connectivité pour représenter la pièce. Il s'agit d'un preprint arXiv et non d'un produit déployé : les expériences sont limitées à Matterport3D, un corpus de scans intérieurs statiques qui ne reflète pas les conditions dynamiques d'un robot réel. Le code est publié sur GitHub (crcz25/OccuSG), facilitant la reproduction indépendante. Les prolongements naturels incluent des évaluations sur flux temps réel et l'intégration dans des pipelines robotiques complets comme Hydra ou Kimera.

1 source
$\mu_0$ : un modèle du monde 3D évolutif par traces d'interaction
302arXiv cs.RO 

$\mu_0$ : un modèle du monde 3D évolutif par traces d'interaction

Des chercheurs présentent μ₀ (mu-zéro), un modèle mondial 3D à base de traces d'interaction, publié en préprint sur arXiv (2506.13769) en juin 2025. Plutôt que de reconstruire des pixels denses comme les modèles vidéo, ou d'exiger des étiquettes d'action spécifiques à chaque morphologie robotique, μ₀ prédit des trajectoires 3D lisses pour des points saillants : objets, outils, mains et zones de contact, encodées en points de contrôle B-spline. Le système TraceExtract extrait automatiquement cette supervision depuis des vidéos diversifiées, en sélectionnant des points clés, construisant des traces alignées globalement et associant chaque segment à des légendes linguistiques hiérarchiques. L'architecture couple un backbone vision-langage préentraîné à un expert de traces modulaire. Dans les expériences de laboratoire, μ₀ dépasse les baselines en prédiction de traces 2D et 3D, y compris les approches VLM tokenisées. L'enjeu central est l'interopérabilité cross-embodiment : permettre à une politique robotique d'opérer sur différentes morphologies sans données d'action spécifiques. Les VLA comme π₀ de Physical Intelligence ou GR00T N2 de NVIDIA nécessitent des téléopérations coûteuses pour étiqueter les actions, freinant la scalabilité. μ₀ contourne ce verrou en apprenant une représentation intermédiaire agnostique à l'embodiment, couplable ensuite à des experts d'action légers par morphologie cible. Résultat notable : malgré un préentraînement entièrement sans étiquettes d'action, les politiques trace-conditionnées atteignent des performances compétitives avec π₀, un VLA entraîné avec supervision d'action complète. Si cette généralisation se confirme à l'échelle, des politiques de manipulation pourraient être entraînées massivement sur des vidéos génériques, humaines ou issues de la simulation, sans collecte de données robot-spécifiques. La robotique de manipulation cherche depuis des années à s'affranchir des données proprioceptives labellisées, coûteuses à collecter. Deux approches dominent actuellement : les modèles vidéo pixel-dense comme UniSim ou Genie, et les VLA directs comme OpenVLA, π₀ ou GR00T N2, chacun présentant ses propres limites de scalabilité ou de spécificité. μ₀ propose un troisième espace latent, la trace 3D compacte, entraînable sur des vidéos brutes. Les concurrents les plus proches incluent les travaux de point-tracking tels que TAPIR et CoTracker, ainsi que les modèles d'action en espace latent. Le papier reste un préprint de laboratoire sans déploiement industriel annoncé, et la robustesse en environnement réel non contrôlé reste à démontrer. Les prochaines étapes logiques incluent la validation sur des flottes multi-robots hétérogènes et l'intégration dans des pipelines d'imitation learning à grande échelle.

RechercheOpinion
1 source
Robots d'assistance personnalisés par LLM : apprentissage des préférences en langage naturel pour personnes paralysées
303arXiv cs.RO 

Robots d'assistance personnalisés par LLM : apprentissage des préférences en langage naturel pour personnes paralysées

Une équipe de chercheurs a publié sur arXiv (réf. 2604.01463) un cadre d'apprentissage des préférences conçu pour personnaliser les robots d'assistance physique à partir de retours en langage naturel, sans imposer de charge cognitive aux utilisateurs atteints de paralysie. Le système, entièrement hors ligne, traduit des commentaires vocaux non structurés en politiques de contrôle robotique déterministes. La validation a été menée avec 10 adultes tétraplégiques dans une étude simulée de préparation de repas. Le pipeline s'appuie sur des grands modèles de langage (LLM) ancrés dans l'Occupational Therapy Practice Framework (OTPF), référentiel clinique standard de l'ergothérapie américaine, pour déchiffrer les réactions subjectives des utilisateurs en besoins physiques et psychologiques explicites, puis les convertir en arbres de décision lisibles. Une étape de vérification automatisée, dite "LLM-as-a-Judge", contrôle la sûreté structurelle du code généré avant tout déploiement. L'enjeu est direct pour les intégrateurs de robotique d'assistance : les méthodes classiques d'apprentissage des préférences, notamment les comparaisons par paires exhaustives issues du paradigme RLHF, sont pratiquement inapplicables à des utilisateurs présentant des déficiences motrices sévères, tant la fatigue physique et cognitive est élevée. Ce travail propose une alternative qui réduit significativement la charge utilisateur selon les mesures rapportées, et dont les politiques générées ont été jugées sûres et fidèles aux préférences des patients par des ergothérapeutes certifiés. L'ancrage dans un cadre clinique structuré, plutôt qu'une simple inférence LLM libre, est le point différenciant : il impose une traçabilité entre le discours du patient et les paramètres de contrôle robot. Les arbres de décision produits restent interprétables, ce qui facilite la validation réglementaire. Le cadre s'inscrit dans une littérature croissante sur la personnalisation des robots d'assistance, domaine où Physical Intelligence (pi.ai) ou des acteurs académiques comme Stanford et Carnegie Mellon explorent les politiques VLA généralisables. Ici, l'approche est délibérément ciblée et offline, ce qui la distingue des pipelines end-to-end en ligne. La taille de l'étude reste limitée (10 participants, environnement simulé), et aucune timeline de déploiement clinique réel n'est annoncée, ce qui maintient ce travail au stade de la preuve de concept prometteuse plutôt que d'un produit shipped. La prochaine étape naturelle serait une validation en environnement réel avec un robot physique instrumenté.

RecherchePaper
1 source
Relaxations semi-définies pour la planification de mouvement sans collision
304arXiv cs.RO 

Relaxations semi-définies pour la planification de mouvement sans collision

Une équipe de chercheurs a soumis sur arXiv (identifiant 2606.14063) une analyse théorique des relaxations semi-définies (SDP) appliquées à la planification de trajectoires sans collision. Le problème étudié est volontairement élémentaire : un robot ponctuel doit rejoindre une cible en évitant des obstacles sphériques dans R^n, sous contraintes de continuité de trajectoire et avec un coût sur les dérivées au carré. Ce problème est d'abord formulé exactement comme un problème non-convexe sur des courbes polynomiales, puis une relaxation semi-définie naturelle est construite. Les benchmarks montrent un gain de vitesse de 10 à 100 fois par rapport aux solveurs de programmation non-linéaire directs SNOPT et IPOPT, avec une variance des temps de résolution nettement plus faible. La méthode est validée comme fonction de pilotage convexe dans un planificateur RRT pour des trajectoires quadrirotor à snap minimal avec continuité C^4 (jusqu'à la 4e dérivée). Les deux contributions théoriques constituent, selon les auteurs, la première analyse formelle des SDP pour ce problème. La première établit que résoudre la relaxation convexe revient à résoudre globalement un problème de planification connexe dans un espace de dimension potentiellement supérieure, ce qui donne des conditions nécessaires et suffisantes de tightness ainsi qu'une intuition géométrique claire des cas où la relaxation est lâche. La seconde identifie une réduction de symétrie décisive : les tailles des cônes semi-définis positifs (PSD) évoluent linéairement avec le degré polynomial et sont indépendantes de la dimension ambiante, évitant ainsi l'explosion combinatoire typique des méthodes NLP en haute dimension. La planification sans collision reste un verrou fondamental de la robotique, où les solveurs NLP classiques souffrent de sensibilité aux initialisations et de convergence vers des minima locaux sous-optimaux. Des frameworks comme Drake (groupe Tedrake, MIT CSAIL) utilisent déjà des relaxations convexes de type GCS ou DSOS, mais sans les garanties théoriques que ce travail commence à formaliser. L'extension aux obstacles non-sphériques et aux robots articulés à degrés de liberté multiples reste entière, deux généralisations indispensables avant tout déploiement industriel. Des applications en navigation de drones en intérieur ou en planification de mouvement pour bras manipulateurs constituent les prochaines étapes logiques.

RecherchePaper
1 source
Friction asymétrique dans la locomotion géométrique
305arXiv cs.RO 

Friction asymétrique dans la locomotion géométrique

Des chercheurs ont soumis sur arXiv (référence 2512.22484, version 2) une extension formelle des modèles de mécanique géométrique appliqués à la locomotion. Ces modèles décrivent comment robots et animaux convertissent des changements de forme interne en déplacement net, une relation encodée dans une "carte de motilité". Le cadre classique reposait sur une friction anisotrope (coefficients différents selon les axes avant/arrière et gauche/droite), formalisée via des métriques riemanniennes sur chaque segment corporel. L'approche sous-riemannienne permettait d'identifier la vitesse de position qui minimise la puissance dissipée par friction pour une vitesse de forme donnée. La contribution du papier consiste à lever l'hypothèse de symétrie : la friction peut désormais être asymétrique, c'est-à-dire avec des coefficients distincts pour le mouvement vers l'avant et vers l'arrière sur un même axe. Formellement, les métriques riemanniennes sont remplacées par des métriques de Finsler, et l'approche sous-riemannienne se généralise en une approche sous-finslérienne. Cette distinction a des conséquences pratiques directes. De nombreux locomoteurs opèrent sur des surfaces à friction asymétrique : les serpents se propulsent via des écailles dont la résistance au glissement avant et arrière est délibérément différente ; les pattes équipées de crampons, les robots rampants (crawling robots) et certains micro-robots présentent le même profil. Dans les modèles riemanniens classiques, cette asymétrie était ignorée ou approximée, ce qui introduit des erreurs systématiques dans la carte de motilité. Le papier démontre que la propriété "géométrique" fondamentale se maintient dans le cadre finslerian : le déplacement final dépend uniquement de la séquence de formes parcourues, pas de la vitesse d'exécution. Les auteurs identifient également l'analogue de la courbure de contrainte, un invariant clé qui caractérise les capacités de déplacement net du système. Le cadre de mécanique géométrique appliqué à la locomotion a été principalement développé par Ross Hatton et Howie Choset à Carnegie Mellon University dans les années 2010, avec des applications à la locomotion serpentiforme et aux organismes microscopiques en régime à faible nombre de Reynolds. Ce travail s'inscrit dans cette lignée en levant une hypothèse restrictive qui en limitait le domaine d'applicabilité. Les approches concurrentes (méthodes numériques directes, apprentissage par renforcement) modélisent la friction asymétrique sans offrir les mêmes garanties d'interprétabilité analytique. La prochaine étape naturelle serait de valider ce cadre sub-finslerian sur des plateformes robotiques réelles à friction asymétrique prononcée, et d'explorer son apport pour la planification de trajectoires dans ces environnements.

RecherchePaper
1 source
Commande prédictive par modèle à impédance corps entier pour l'interaction physique humain-robot sûre sur base flottante
306arXiv cs.RO 

Commande prédictive par modèle à impédance corps entier pour l'interaction physique humain-robot sûre sur base flottante

Des chercheurs ont publié sur arXiv (réf. 2606.14617, juin 2026) une architecture de contrôle à trois niveaux pour robots à base flottante - bipèdes et humanoïdes - conçue pour maintenir l'équilibre tout en tolérant l'interaction physique soutenue avec des opérateurs humains (pHRI, physical human-robot interaction). Le premier niveau est un MPC centroïdal qui planifie les forces de contact sur un horizon de 500 millisecondes. Le deuxième est un contrôleur corps entier (WBC) qui traduit l'équilibre en couples articulaires par projection dans l'espace nul cohérente avec les contraintes de contact. Le troisième est un programme quadratique (QP) à horizon fuyant qui prédit et rejette les perturbations de contact à l'aide d'un état augmenté par filtre de Kalman. Une linéarisation par retour d'état réduit la dynamique de l'effecteur à un double intégrateur à matrice constante dans chaque mode de contact, permettant une précalculation hors-ligne des matrices de coût et une exécution à plus de 1 kHz. Les validations ont été conduites en simulation sur un biped à 17 degrés de liberté et sur l'humanoïde Unitree G1. L'apport central est une garantie formelle d'erreur nulle en régime permanent sous des forces de contact humain soutenues et bornées - une limite connue des contrôleurs WBC à gain fixe, qui accumulent une dérive statique lorsqu'un opérateur guide ou pousse le robot en continu. La cadence à 1 kHz, rendue possible par la précalculation hors-ligne, s'inscrit dans les contraintes temps réel de la robotique industrielle. Un théorème d'équivalence d'impédance établit que la limite horizon infini du contrôleur retrouve une loi d'impédance classique en espace tâche, avec masse, amortissement et raideur effectifs qui s'adaptent automatiquement à la posture et à la configuration de contact - ce qui facilite le réglage intuitif pour des ingénieurs familiers des contrôleurs d'impédance conventionnels. Ce travail étend une architecture Impedance MPC à deux couches pour base fixe publiée antérieurement par les mêmes auteurs. Le passage à la base flottante est non trivial : le robot doit simultanément gérer sa propre stabilité dynamique et absorber les perturbations externes. L'Unitree G1, humanoïde commercialisé autour de 16 000 dollars par Unitree Robotics, sert de banc de validation en simulation. Il faut souligner que l'ensemble des résultats est simulé - aucun essai physique sur robot réel n'est rapporté, ce qui constitue l'étape attendue. Dans un paysage où Boston Dynamics (Atlas), Agility Robotics (Digit) et Figure (03) développent leurs propres solutions WBC pour la coopération humain-robot, cette approche apporte une contribution méthodologique formellement fondée, mais dont la robustesse en conditions réelles reste à démontrer.

RecherchePaper
1 source
Le Navigateur de Schrödinger : imaginer un ensemble de futurs pour la navigation vers des objets en zéro-shot
307arXiv cs.RO 

Le Navigateur de Schrödinger : imaginer un ensemble de futurs pour la navigation vers des objets en zéro-shot

Des chercheurs ont présenté sur arXiv (2512.21201, v3, déposé en décembre 2025) Schrödinger's Navigator, un système de navigation zéro-shot d'objets (ZSON) pour robots mobiles. Le principe : à l'inférence, le système génère plusieurs "futurs 3D imaginés" le long de trajectoires candidates, maintenant une superposition de représentations plausibles de la scène plutôt que de s'engager sur une carte unique. Un échantillonneur adaptatif concentre l'effort sur les zones occultées et incertaines, tandis qu'une Future-Aware Value Map (FAVM) agrège ces projections pour sélectionner des waypoints proactifs et conscients des risques. Les expériences ont été menées en simulation et sur un quadrupède physique Unitree Go2 dans des scènes encombrées à forte occlusion, avec des résultats supérieurs aux meilleures baselines ZSON actuelles en termes de détection de cibles cachées. Le fossé simulation-réel est l'un des obstacles structurels de la robotique de service : les systèmes efficaces en simulation se dégradent souvent dans des environnements réels encombrés, où les zones inexplorées rendent l'inférence sur une scène unique fragile et risquée. Schrödinger's Navigator attaque ce verrou en raisonnant sur des futurs hypothétiques à l'inférence, sans retraining, ce qui ouvre la voie à une navigation autonome sans cartographie préalable dans des entrepôts, hôpitaux ou bâtiments publics non structurés. La validation sur hardware physique (Go2) plutôt qu'exclusivement en simulation renforce la crédibilité de l'approche, même si les métriques précises (taux de succès chiffrés, nombre de scènes testées) n'apparaissent pas dans le résumé publié. La ZSON est un champ actif mobilisant laboratoires et équipes R&D industrielles, avec des approches concurrentes basées sur des modèles de langage visuel (VLM) ou des représentations sémantiques 3D comme les NeRF ou le Gaussian Splatting. L'originalité de cette proposition est l'usage d'un modèle de monde 3D conditionné par la trajectoire pour projeter des futurs probables, une transposition directe du paradoxe de Schrödinger à la planification sous incertitude. La recherche, déjà en troisième version sur arXiv, reste purement académique : aucun déploiement commercial ni pilote industriel n'est annoncé. Elle constitue néanmoins un signal pertinent pour les équipes travaillant sur la navigation autonome en environnements dynamiques et non structurés, en particulier dans le contexte de l'essor des robots de service et des humanoïdes de deuxième génération.

RecherchePaper
1 source
Les modèles vision-langage apprennent aux robots à lire les émotions humaines
308IEEE Spectrum Robotics 

Les modèles vision-langage apprennent aux robots à lire les émotions humaines

Des chercheurs de l'Université de Melbourne ont entraîné un robot collaboratif à reconnaître les émotions humaines en combinant analyse faciale et facteurs contextuels, via un modèle de langage visuel (VLM, ou Vision Language Model). Les résultats, publiés le 18 mai 2026 dans IEEE Robotics and Automation Letters, montrent que cette approche surpasse les systèmes classiques de reconnaissance d'expression : le VLM obtient un score de similarité de 0,86 sur 1, contre 0,77 pour les outils d'analyse faciale et de suivi d'objets conventionnels. L'étude a été conduite par Seung Chan Hong dans le cadre de sa thèse de licence, avec une cohorte de 40 volontaires. Pour entraîner le modèle, des participants ont d'abord visionné des vidéos de robots effectuant des transferts d'objets à des humains avec des degrés de succès variés, puis décrit les émotions perçues en tenant compte de la scène complète : posture, gestes (doigts qui tambourinent, lèvres pincées), position dans l'espace, et non plus seulement l'expression du visage. Dans un second test, le robot équipé du VLM a intentionnellement commis une erreur, puis proposé soit une excuse adaptée à l'état émotionnel perçu, soit une formule pré-scriptée. Résultat : 31 personnes sur 40 ont préféré la réponse contextuelle. Le résultat le plus significatif n'est pourtant pas le gain de performance du VLM, mais la limite qu'il révèle. Même avec une excuse personnalisée et émotionnellement cohérente, la confiance des participants envers le robot avait chuté après l'erreur, indépendamment de la qualité de la réponse sociale. Les auteurs en tirent une conclusion directe pour les intégrateurs et les équipes de conception : l'adaptivité émotionnelle agit comme un lubrifiant social, elle n'efface pas un déficit fonctionnel. Pour les COO et décideurs qui évaluent des déploiements de cobots en environnement humain, cela signifie que l'investissement dans la fiabilité mécanique reste prioritaire sur les couches d'intelligence émotionnelle. En revanche, dans les scénarios où des erreurs sont inévitables, un module de reconnaissance émotionnelle contextuelle peut atténuer les effets négatifs sur la relation opérateur-robot, ce qui est pertinent dans les environnements d'assemblage ou de logistique. Le VLM utilisé dans l'étude fonctionne sur un principe similaire aux grands modèles de langage comme ChatGPT, mais avec une entrée visuelle permettant une lecture de scène au-delà de la seule mimique faciale. La recherche en interaction humain-robot (HRI) investit depuis plusieurs années dans les modèles de reconnaissance d'affect, mais les approches classiques restaient cantonnées à l'analyse des expressions faciales ou au suivi de posture. L'intégration des VLMs dans ce domaine suit la vague des modèles de vision-langage généralistes issus de Google DeepMind, OpenAI ou Meta. L'étude de Melbourne se distingue par une validation empirique sur sujets humains réels avec une tâche collaborative concrète, plutôt qu'une évaluation sur benchmark. Les prochaines étapes pour ce type de recherche incluront probablement des tests en environnement industriel contrôlé, pour vérifier si la perception émotionnelle reste robuste sous pression temporelle et dans des scènes visuellement chargées.

RecherchePaper
1 source
Les robots souples s'équipent d'une micro-pompe souple pour se mouvoir
309New Atlas Robotics 

Les robots souples s'équipent d'une micro-pompe souple pour se mouvoir

Des chercheurs de l'Université de Bristol ont développé une micro-pompe souple capable d'alimenter hydrauliquement des robots mous sans recourir à des compresseurs volumineux ni à des pompes mécaniques rigides. L'appareil pèse l'équivalent d'une seule graine de courge séchée, soit quelques grammes tout au plus, et intègre du métal liquide pour générer une pression hydraulique suffisante à animer des systèmes de robotique souple. L'annonce ne précise pas les valeurs exactes de pression ni de débit, ce qui limite l'évaluation indépendante des performances revendiquées. Le problème central de la robotique souple est une incompatibilité structurelle que les chercheurs qualifient de "cardiovasculaire" : les corps peuvent se déformer et se plier, mais les actionneurs restaient rigides et encombrants, limitant l'autonomie, la miniaturisation et le déploiement dans des environnements confinés (chirurgie mini-invasive, manipulation d'objets fragiles, exosquelettes légers). Une pompe de la même compliance mécanique que le reste du système ouvre la voie à des robots entièrement souples, sans compromis structurel sur l'enveloppe ou la portabilité. Bristol est un acteur établi en robotique souple, dans un champ concurrentiel qui inclut le Wyss Institute de Harvard (robots octopoïdes, pneumatique souple), le MIT CSAIL et, en Europe, l'ETH Zurich. L'utilisation du métal liquide, vraisemblablement un alliage gallium-indium de type EGaIn, est une approche émergente qui combine fluidité, conductivité électrique et biocompatibilité potentielle. Aucun partenariat industriel ni calendrier de transfert technologique n'est mentionné dans cette publication.

RecherchePaper
1 source
MassRobotics annonce les lauréats du Robotics Medal 2026 et des prix Rising Star
310The Robot Report 

MassRobotics annonce les lauréats du Robotics Medal 2026 et des prix Rising Star

MassRobotics a annoncé les lauréates de ses prix annuels Robotics Medal et Rising Star lors de la conférence IEEE ICRA de Vienne, en juin 2026. La 4e édition du Robotics Medal, sponsorisée par Amazon Robotics et dotée de 50 000 dollars, a été remise à la professeure Allison Okamura, titulaire de la chaire Richard W. Weiland à l'École d'ingénierie de Stanford, également affiliée au département de génie mécanique et à la Hoover Institution. Okamura est récompensée pour ses travaux fondateurs en haptics, en robotique médicale et en conception de robots, ainsi que pour ses contributions à l'éducation robotique en accès libre et à la promotion des femmes dans le domaine. Le Rising Star Medal, doté de 5 000 dollars, est attribué à Ayoung Kim, professeure à l'Université nationale de Séoul, pour ses travaux pionniers sur le Scan Context appliqué à la reconnaissance de lieux par lidar, et sur le SLAM multi-capteurs résilient (localisation et cartographie simultanées) pour la navigation autonome en environnements complexes. La remise officielle des distinctions aura lieu lors d'un gala au MIT Samberg Conference Center de Cambridge (Massachusetts) le 7 novembre 2026. Ces deux prix pointent vers des domaines de recherche qui conditionnent directement la fiabilité des systèmes robotiques déployés en production. Les contributions d'Okamura en haptics alimentent des applications médicales concrètes, de la chirurgie mini-invasive aux dispositifs de réhabilitation, là où le retour de force reste un verrou technique non résolu à grande échelle. Les algorithmes SLAM de Kim, diffusés via des jeux de données publics largement adoptés, constituent une brique d'infrastructure pour les flottes d'AMR (robots mobiles autonomes) et les véhicules autonomes opérant en environnements dégradés. Ces distinctions illustrent aussi une réalité structurelle du secteur : les femmes ne représentent que 16 % des effectifs en ingénierie et robotique selon le National Girls Collaborative Project, contre 35 % de l'ensemble de la main-d'oeuvre STEM et 48 % de la population active totale aux États-Unis. MassRobotics, hub robotique basé dans la région de Boston, organise ce prix depuis quatre ans pour valoriser les chercheuses ayant un impact mesurable sur le champ. Les précédentes lauréates sont issues d'institutions comme l'UC San Diego, l'USC, l'UIUC, Boston University, le MIT et l'EPFL (Lausanne), ce qui traduit une portée internationale réelle. Le jury, composé d'experts du secteur et supervisé par MassRobotics, a cette année évalué des candidatures couvrant des problématiques aussi variées que les matériaux de préhension, les exosquelettes, les technologies d'assistance et le planning de mouvement. Daniela Rus, directrice du CSAIL au MIT et membre du conseil d'administration de MassRobotics, a souligné que la diversité des approches de recherche est un accélérateur direct pour résoudre les défis techniques les plus complexes du domaine. Le gala de novembre ouvrira billets individuels, tables réservées et opportunités de sponsoring au grand public.

RecherchePaper
1 source
Un chercheur primé entraîne des robots à formuler des hypothèses éclairées
311IEEE Spectrum Robotics 

Un chercheur primé entraîne des robots à formuler des hypothèses éclairées

Yen-Ling Kuo, professeure assistante en informatique à l'Université de Virginie à Charlottesville, a reçu l'année dernière le tout premier prix "Outstanding Women in Robotics and Automation Early Career Contribution Award" de l'IEEE Robotics and Automation Society. Cette distinction, créée dans le cadre du programme WiRA (Women in Robotics and Automation), récompense son article intitulé "Diff-DAgger: Uncertainty Estimation with Diffusion Policy for Robotic Manipulation". La méthode présentée permet à un robot de mieux évaluer et gérer l'incertitude lorsqu'il est confronté à des situations sur lesquelles il n'a pas été entraîné. Concrètement, le système réduit le besoin de supervision humaine tout en améliorant le taux de succès dans les tâches de manipulation. Membre IEEE, Kuo est titulaire d'un bachelor et d'un master en informatique de la National Taiwan University (respectivement 2009 et 2012), avant d'intégrer Google en 2012 comme ingénieure logicielle, puis d'embrasser une carrière académique à l'Université de Virginie. Diff-DAgger s'attaque à l'un des obstacles persistants du déploiement robotique en environnements réels : la capacité d'un robot à reconnaître qu'il se trouve hors de sa zone de compétence. Plutôt qu'échouer silencieusement ou répéter indéfiniment une action erronée, un robot équipé de cette approche peut estimer son propre niveau de confiance et solliciter une intervention humaine ciblée uniquement lorsque nécessaire. Cette architecture réduit la charge de collecte de données d'entraînement et ouvre la voie à l'intégration de modèles plus complexes, notamment les politiques de diffusion (diffusion policy), une famille de modèles génératifs appliquée au contrôle robotique, dans les boucles d'apprentissage interactif. Pour les intégrateurs industriels et les équipes R&D en robotique, l'enjeu est concret : moins de démonstrations humaines requises pour généraliser un comportement, et une robustesse accrue face aux variantes imprévues en production. Le parcours de Kuo illustre la convergence entre sciences cognitives et informatique qui irrigue aujourd'hui la recherche en robotique incarnée. Après ses études à Taipei, elle passe l'été 2011 chez Google à Kirkland (Washington) avant de rejoindre brièvement le MIT Media Lab sur le projet Open Mind Common Sense, un effort pionnier de représentation du sens commun pour les machines. Recrutée à temps plein chez Google en 2012, elle pilote l'initiative Shop the Look, qui connectait contenus de réseaux sociaux et résultats de recherche via vision par ordinateur et traitement du langage naturel, un précurseur direct des expériences shopping actuelles propulsées par l'IA. C'est dans ce contexte qu'elle commence à travailler avec les premiers outils de réseaux de neurones profonds, soulevant des questions sur leur interprétabilité et leur fiabilité qui orienteront sa trajectoire de recherche. Son travail sur l'incertitude en manipulation s'inscrit dans un écosystème académique actif, aux côtés d'équipes comme celles de Chelsea Finn (Stanford) ou Sergey Levine (Berkeley), qui explorent des approches similaires d'apprentissage par imitation robuste face à la distribution shift.

RecherchePaper
1 source
Les recherches montrent que la personnalité d'un robot dans les jeux dépend du timing et de l'alternance des tours
312Interesting Engineering 

Les recherches montrent que la personnalité d'un robot dans les jeux dépend du timing et de l'alternance des tours

Des chercheurs de l'université norvégienne de sciences et technologie (NTNU) ont mené une série d'expériences en laboratoire sur les interactions entre humains et robots humanoïdes dans un contexte ludique. L'étude, conduite au département Design du campus de Gjøvik sous la direction de Yavuz Inal, maître de conférences, a utilisé Pepper, le robot social de SoftBank Robotics, dans une variante physique du basketball-poubelle : les participants lançaient des boules de papier froissé dans une corbeille depuis des positions calibrées pour offrir un niveau de défi comparable entre humain et robot. Deux modes de jeu ont été évalués, coopératif (joueurs alliés vers un objectif commun) et compétitif (adversaires directs), croisés avec deux ordres de passage (humain ou robot en premier). Les variables mesurées incluaient l'engagement, la motivation, le plaisir de l'activité physique et les réponses émotionnelles. Résultat principal : des paramètres en apparence anodins, comme l'ordre du premier tour ou le cadre coopératif contre compétitif, suffisent à faire basculer l'expérience de positive à frustrante. Le mode coopératif a généré les retours les plus favorables, mais le mode compétitif s'est révélé tout aussi engageant lorsque l'humain prenait le premier tour, ce qui renforçait son sentiment de contrôle sur l'interaction. Plusieurs joueurs ont trouvé une réelle satisfaction à surpasser le robot, et certains ont admis que regarder Pepper rater un tir contribuait au plaisir. En revanche, la frustration montait fortement quand le robot ouvrait en mode compétitif : les longues pauses avant chaque tir, le rythme lent de Pepper et sa détermination à gagner heurtaient les attentes de fluidité sociale que les joueurs projettent spontanément sur un partenaire humanoïde. Un participant a comparé l'expérience à jouer contre "une imprimante surchargée avec des bras". Pour les concepteurs de robots sociaux, ces résultats pointent un enjeu de conception majeur : la tolérance à l'imperfection technique est bien plus haute quand le robot respecte les codes implicites du tour-par-tour et de la réciprocité sociale, indépendamment de ses performances motrices réelles. Pepper a été commercialisé par SoftBank Robotics à partir de 2015 et s'est imposé comme plateforme de référence pour la recherche en interaction humain-robot (HRI) dans les contextes éducatifs, hospitaliers et de service au public. Cette étude s'inscrit dans un champ de recherche plus large qui cherche à définir les conditions comportementales, au-delà des seules capacités motrices, nécessaires à une intégration réussie des robots dans des espaces sociaux partagés. Les plateformes concurrentes sur ce segment incluent NAO (également SoftBank Robotics) et Furhat Robotics, spécialiste suédois des robots conversationnels à tête expressive, sans qu'aucune ne cible explicitement le jeu physique à visée thérapeutique ou récréative. Inal indique que les travaux futurs porteront sur l'adaptation dynamique du comportement du robot au profil individuel du joueur. Les débouchés applicatifs visés incluent la rééducation motrice assistée et les environnements de soins aux personnes âgées, deux segments où la robotique sociale peine encore à démontrer son efficacité à l'échelle commerciale.

UELa recherche de l'NTNU (Norvège) et la mention de Furhat Robotics (Suède, EU) renforcent l'écosystème européen de robotique sociale, avec des débouchés applicatifs ciblant la rééducation motrice et les soins aux personnes âgées, deux domaines prioritaires des politiques de santé en France et en UE.

RecherchePaper
1 source
Vidéo du vendredi : la découverte de mouvements robotiques révèle des comportements inattendus
313IEEE Spectrum Robotics 

Vidéo du vendredi : la découverte de mouvements robotiques révèle des comportements inattendus

La semaine robotique de mi-juin 2026 a été marquée par la présentation de MotionDisco, un framework conçu pour découvrir des comportements de loco-manipulation "contact-rich" sur des horizons longs, sans recourir à la téléopération ni au retargeting de démonstrations humaines. Contrairement aux approches classiques fondées sur des milliers d'exemples capturés par mocap, MotionDisco génère ces comportements moteurs à partir de zéro en explorant l'espace des configurations physiques de manière autonome. Les séquences produites incluent des comportements qualifiés d'"atypiques" même par leurs auteurs, dont certains surprennent par leur aspect non-anthropomorphe. En parallèle, ROBOTIS a dévoilé AI Sapiens, un pipeline permettant à un humanoïde d'apprendre des mouvements depuis une vidéo capturée par smartphone, sans équipement de motion capture professionnel, avec une mise en open source annoncée. LUMOS Robotics a lancé Project EDGE en proposant 100 robots NIX gratuits à des partenaires universitaires et laboratoires sélectionnés à l'échelle mondiale. L'ESA a diffusé un timelapse du robot Dextre, positionné en bout de Canadarm2 sur l'ISS, opéré depuis le sol pour décharger des équipements depuis le compartiment non pressurisé de la capsule Dragon de SpaceX. L'intérêt de MotionDisco pour les équipes d'ingénierie tient à sa promesse de contourner le principal goulot d'étranglement du développement en robotique humanoïde : la collecte de données de démonstration. Les approches VLA (Vision-Language-Action) et les méthodes par imitation requièrent des volumes importants de données de haute qualité, coûteuses à produire par téléopération ou mocap. Un framework capable de "découvrir" des comportements moteurs complexes sans données humaines initiales réduirait ce coût d'entrée, avec un impact direct pour les intégrateurs qui externalisent aujourd'hui cette phase à des prestataires spécialisés. Cela dit, aucune métrique de robustesse, de taux de succès ni de généralisation n'est fournie dans la présentation publique, ce qui limite l'interprétation : les vidéos sélectionnées montrent des résultats visuellement convaincants, pas une validation de déploiement. L'annonce d'AI Sapiens par ROBOTIS signale une démocratisation possible du motion learning : si un smartphone suffit pour entraîner un humanoïde, le besoin en infrastructure de mocap type Vicon ou OptiTrack disparaît pour les laboratoires à budget limité. MotionDisco s'inscrit dans un axe de recherche en expansion depuis 2024, porté par des travaux comme DeepMimic (UC Berkeley) et AMP (Adversarial Motion Priors), qui cherchent à automatiser la génération de comportements locomoteurs sans supervision humaine directe. ROBOTIS, fabricant coréen connu pour la gamme de servos Dynamixel et ses plateformes humanoïdes éducatives (OP3, DARWIN), positionne AI Sapiens comme une brique accessible pour les labos dépourvus de pipelines téléopérés coûteux, face à des acteurs comme Unitree ou Fourier Intelligence qui misent eux aussi sur la réduction du coût de collecte de données. LUMOS Robotics reste peu documentée publiquement : Project EDGE ressemble davantage à un programme d'early adopters qu'à un déploiement commercial établi. Les opérations Dextre sur l'ISS rappellent que la téléopération spatiale demeure le segment le plus mature pour la manipulation dextère à distance dans des conditions réelles contraintes. Les étapes à surveiller : la publication éventuelle du code MotionDisco et le calendrier de la mise en open source du pipeline ROBOTIS.

UEL'ESA est le seul acteur européen cité, avec une opération de routine du robot Dextre sur l'ISS ; aucun impact opérationnel ou commercial direct pour la France ou l'UE.

RecherchePaper
1 source
Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot
314arXiv cs.RO 

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot

Des chercheurs ont publié le 12 juin 2026 (arXiv:2606.12475) une étude sur l'usage de modèles vision-langage-action (VLA) entraînés par imitation learning pour la collaboration humain-robot (HRC) implicite, sans signal explicite déclenchant l'assistance robotique. Évaluant deux VLA de référence sur des tâches d'assemblage collaboratif, l'équipe identifie un défaut propre aux politiques d'action-chunking : la "fuite d'actions de démonstration" (demonstration action leakage). Ce phénomène survient lorsque des chunks d'actions enjambent des transitions latentes de sous-tâches, poussant le robot à assister l'humain trop tôt, comme tendre un outil avant que l'opérateur soit prêt à le saisir. Pour corriger ce comportement sans réentraîner le modèle, les auteurs proposent un pilotage à l'inférence (inference-time steering). Une étude à 16 participants sur une tâche d'assemblage longue horizon confirme que le steering réduit les interventions prématurées, accélère la collaboration et diminue les échecs par rapport à une politique à horizon court. Ce résultat ouvre une voie concrète pour l'intégration des VLA dans des workflows industriels collaboratifs, jusqu'ici dépendants de pipelines codés à la main, peu scalables vers de nouvelles tâches. La fuite d'actions constitue un avertissement direct pour les équipes déployant des politiques ACT ou diffusion en mode HRC : allonger l'horizon d'exécution, souvent souhaitable pour la fluidité du mouvement, aggrave le problème. Le steering à l'inférence fournit un correctif opérationnel sans modification du modèle entraîné, ce qui le rend attractif pour un déploiement rapide. Les VLA généralistes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) ont prouvé leur efficacité en manipulation autonome, mais leur usage en HRC implicite restait peu documenté. Cette publication comble ce manque méthodologique. En Europe, des acteurs comme Enchanted Tools et Wandercraft, dont les robots sont conçus pour opérer aux côtés d'humains, pourraient réduire leur charge d'ingénierie manuelle en s'appuyant sur ces résultats. La prochaine étape sera d'étendre la méthode à des environnements industriels non contrôlés et à des tâches encore plus longues, afin d'évaluer la robustesse du steering face à la variabilité réelle des comportements humains.

UEEnchanted Tools et Wandercraft, acteurs européens de la robotique collaborative, pourraient réduire leur charge d'ingénierie manuelle en adoptant le steering à l'inférence pour corriger la fuite d'actions dans leurs déploiements VLA, sans réentraîner leurs modèles.

RechercheOpinion
1 source
EquiDexFlow : un modèle génératif de préhension habile équivariant SE(3) ancré dans le contact
315arXiv cs.RO 

EquiDexFlow : un modèle génératif de préhension habile équivariant SE(3) ancré dans le contact

Une équipe de chercheurs publie EquiDexFlow, un modèle génératif de préhension dextère intégrant les contraintes physiques de contact directement dans l'architecture, sans étape de vérification séparée. Publié sur arXiv en juin 2026, il exploite le flow-matching avec équivariance SE(3) pour prédire simultanément la pose du poignet, les angles articulaires, les contacts du bout des doigts, les normales de surface et les forces de contact à partir d'un nuage de points de l'objet. Contrairement aux générateurs classiques qui traitent les forces comme un filtre a posteriori, EquiDexFlow projette les contacts sur la surface de l'objet et les forces dans le cône de friction de Coulomb par construction, sans terme de pénalité dans la fonction de perte. Entraîné sur 8 100 saisies en fermeture de force sur 81 objets pour la main Allegro à 16 degrés de liberté (DDL), il atteint zéro violation de frottement et le plus faible résidu de torseur parmi toutes les variantes d'ablation, avec une équivariance SE(3) vérifiée sur 200 rotations et des résidus de poignet inférieurs à 0,04 degré. Retransposé vers une main LEAP à 16 DDL par cinématique inverse doigt par doigt, le modèle réussit en boucle ouverte sur six objets physiques, y compris des objets asymétriques à la pose canonique et après une co-rotation de 120 degrés. Le verrou adressé est structurel : dans la plupart des pipelines de préhension dextère appris, un générateur produit une pose cinématiquement valide qu'un module aval filtre selon des critères physiques, laissant potentiellement passer des saisies plausibles mais instables au contact réel. En intégrant le cône de Coulomb dans l'architecture même, EquiDexFlow élimine cette classe d'erreurs par construction plutôt que par filtrage, ce qui réduit le taux de rejet et simplifie le pipeline de déploiement pour les intégrateurs industriels. Le retargeting réussi de la main Allegro vers la main LEAP suggère en outre une généralisation de la représentation des contacts au-delà de la main d'entraînement, propriété encore rare dans les systèmes de préhension dextère actuels, même si l'évaluation sur six objets reste un périmètre de test limité. La préhension dextère multi-doigt demeure un verrou central de la manipulation généraliste en robotique. Des travaux récents comme DexGraspNet ou UniGrasp ont progressé sur la génération de poses, mais la modélisation explicite des forces dans la boucle générative reste peu courante. Le flow-matching, popularisé dans les modèles VLA (Vision-Language-Action), est ici appliqué avec une contrainte d'équivariance formellement démontrée, ce qui constitue une contribution méthodologique distincte. Code, checkpoints et vidéos sont disponibles sur equidexflow.github.io. Des acteurs comme Enchanted Tools ou Wandercraft, qui développent des systèmes de manipulation à actionnement avancé, pourraient s'appuyer sur ce formalisme pour leurs propres pipelines de préhension.

UEEnchanted Tools et Wandercraft, acteurs français de la manipulation avancée, pourraient directement intégrer ce formalisme de préhension physique (cône de Coulomb dans la boucle générative) dans leurs pipelines R&D, le code et les checkpoints étant publiquement disponibles.

RecherchePaper
1 source
Intégrer la conformité à la norme ISO 10218 dans les robots via les fonctions barrière de contrôle pour la collaboration homme-robot
316arXiv cs.RO 

Intégrer la conformité à la norme ISO 10218 dans les robots via les fonctions barrière de contrôle pour la collaboration homme-robot

Des chercheurs ont publié sur arXiv (réf. 2606.13203) une approche de contrôle permettant d'intégrer nativement la conformité à la norme ISO 10218 dans les robots industriels collaboratifs, en s'appuyant sur une Fonction Barrière de Contrôle (CBF). Le système a été validé en simulation et en conditions réelles sur un bras UR10e d'Universal Robots. Plutôt que de se contenter des hypothèses conservatives des modules SSM (Speed and Separation Monitoring) classiques, qui supposent une vitesse humaine constante, la CBF proposée intègre les données d'accélération humaine pour prédire analytiquement la distance de séparation minimale humain-robot le long d'une trajectoire d'arrêt en cas de pire scénario. Deux méthodes sont présentées : Method I, un filtre de sécurité PD contraint par CBF, et Method II, un contrôleur SQP (Sequential Quadratic Programming) qui impose une contrainte de tube spatial sur la trajectoire. Method II réduit l'erreur de trajectoire moyenne de 63 % par rapport à Method I, et supprime les manoeuvres évasives excessives qui dégradent le débit opérationnel. L'enjeu industriel est direct : les modules SSM standard génèrent des arrêts préventifs fréquents parce qu'ils surestiment le risque de collision, faute de pouvoir anticiper les mouvements humains. Dans un contexte d'atelier où des cobots travaillent aux côtés d'opérateurs, ces arrêts non nécessaires représentent un coût de productivité réel. La méthode proposée déplace le curseur : au lieu d'un filtre de vitesse binaire (go/stop), le contrôleur module dynamiquement la vitesse d'exécution et la déviation spatiale du robot en temps réel, en restant dans les limites de la norme. C'est un pas vers des cobots réellement compétitifs en termes de cycle time, sans sacrifier la conformité réglementaire. La norme ISO 10218, qui régit la sécurité des robots industriels, est aujourd'hui au coeur des déploiements de cobots chez des fabricants comme FANUC, KUKA, ABB ou Universal Robots. Le SSM est l'approche la plus répandue pour y répondre, mais son conservatisme est documenté depuis plusieurs années. Les CBF, issues de la théorie du contrôle, émergent comme alternative formellement vérifiable, et plusieurs groupes académiques (MIT, ETH, TU Munich) explorent cette direction. La prochaine étape probable est l'intégration de ces contraintes dans des environnements multi-robots et des scénarios à personnes multiples, plus représentatifs de la réalité des ateliers.

UELa norme ISO 10218 étant centrale pour les déploiements de cobots chez KUKA (Allemagne) et ABB (Suisse-Suède), cette approche CBF pourrait réduire les arrêts non productifs dans les ateliers européens et renforcer la compétitivité des intégrateurs face aux contraintes de la directive Machines révisée.

RecherchePaper
1 source
SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle
317arXiv cs.RO 

SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle

Des chercheurs du groupe Intuitive Robots ont publié sur arXiv (réf. 2606.13497) SPARC, acronyme de Spatial Annotations from Robot Demonstrations with Reliability Calibration. Il s'agit d'un pipeline automatique qui annote des démonstrations robotiques avec des métadonnées spatiales structurées -- boîtes englobantes, trajectoires d'objets, labels de phase de manipulation -- tout en attribuant à chaque annotation un score de fiabilité calibré. Évalué sur 1 700 démonstrations annotées manuellement, couvrant des morphologies et des scénarios variés, SPARC conserve trois fois plus d'échantillons aux points de fonctionnement haute précision par rapport aux pipelines de détection classiques, tout en surpassant ces mêmes baselines sur la précision de localisation. L'équipe introduit également IA-Bench (Interaction-Aware Bench), un benchmark dédié à mesurer la précision des modèles dans la localisation des objets manipulés au fil d'une démonstration. Le code, les données et les modèles sont disponibles publiquement. L'enjeu est directement lié à la scalabilité de l'entraînement des politiques robotiques et des modèles de fondation incarnés (embodied foundation models). Les pipelines d'annotation automatique existants produisent des labels en volume, mais sans signal de qualité fiable : la confiance du détecteur est mal calibrée pour prédire la correction d'une annotation, ce qui oblige les équipes ML à choisir entre bruit et perte de données. SPARC contourne ce dilemme en exploitant la structure spatio-temporelle propre aux tâches robotiques pour générer un signal de fiabilité intrinsèque. Les politiques entraînées sur ces annotations surpassent les baselines dans des scènes réelles encombrées et visuellement ambiguës, ce qui suggère que la qualité du signal d'annotation compte autant que le volume brut de données -- une hypothèse que le secteur commence seulement à tester systématiquement. Le problème de l'annotation à grande échelle est un goulot d'étranglement bien identifié dans la robotique d'apprentissage par imitation, notamment depuis l'émergence des Visual Language Action models (VLA) tels que pi-0 de Physical Intelligence ou OpenVLA de Berkeley. Ces architectures consomment des milliers de démonstrations annotées avec précision, et la vérification humaine ne passe pas à l'échelle. SPARC s'inscrit dans un effort plus large, parallèle aux travaux de Google DeepMind sur RoboAgent ou aux pipelines de données de Hugging Face LeRobot, pour industrialiser la production de datasets robotiques de qualité. La prochaine étape logique sera de valider SPARC sur des distributions d'environnements plus larges et sur des tâches de manipulation longue durée, deux axes où le sim-to-real gap reste ouvert.

UELes laboratoires européens (CEA-List, INRIA, universités) travaillant sur l'apprentissage par imitation peuvent directement exploiter ce pipeline open-source pour améliorer la qualité de leurs datasets robotiques sans coût d'annotation humaine supplémentaire.

RecherchePaper
1 source
Fibre de détection de contrainte et de toucher, peu coûteuse, facile à fabriquer et très flexible, pour la robotique
318arXiv cs.RO 

Fibre de détection de contrainte et de toucher, peu coûteuse, facile à fabriquer et très flexible, pour la robotique

Des chercheurs ont publié sur arXiv (réf. 2606.13352) la description d'une fibre conductrice multifonctionnelle pour la robotique, fabriquée uniquement avec des composants grand public : fil conducteur à 0,07 dollar par pied, tube en silicone à 0,94 dollar par pied et une aiguille à tricoter vendue 2 dollars. Un segment de 20 centimètres se produit en deux minutes sans équipement spécialisé. La fibre fonctionne soit en capteur de déformation résistif, soit en capteur capacitif selon sa configuration. Cinq applications ont été validées expérimentalement : déclenchement de prise d'un doigt assistif pneumatique, estimation de pose d'une sangle robotique gonflable, reconstruction de forme d'un solide flexible, activation par contact d'un bras industriel commercial, et suivi en champ proche d'une main en mouvement. Les capteurs capacitifs sont tricotés, ce qui leur confère une flexibilité mécanique élevée adaptée aux surfaces non rigides. Pour les intégrateurs et fabricants de robots, l'enjeu est direct : les capteurs de contact et d'élongation existants butent généralement sur au moins un verrou, coût matière, équipement de fabrication spécialisé ou temps de cycle trop long. Cette fibre contourne les trois obstacles simultanément. Elle ouvre une voie concrète vers une instrumentation dense et bon marché de surfaces souples, un prérequis pour la manipulation dextre et les interfaces physiques homme-machine. La démonstration du suivi de main sans marqueur visuel repositionne aussi ce type de capteur comme alternative crédible aux systèmes de vision dans les environnements occludés ou à faible éclairage, point non négligeable pour l'industrie. Les fibres conductrices intégrées dans des élastomères constituent un champ de recherche actif depuis une décennie, avec des contributions notables du Soft Robotics Toolkit de Harvard ou des équipes de l'EPFL sur les peaux électroniques. L'originalité de ces travaux tient à l'accent mis sur la réplicabilité sans laboratoire spécialisé, ce qui rapproche le dispositif d'un composant open hardware. Les auteurs abordent également les compromis liés à l'industrialisation à plus grande échelle et proposent une méthode de réparation après coupure de la fibre. Les applications naturelles incluent les gants haptiques et les préhenseurs à doigts souples, deux segments en forte croissance où aucun standard technologique ne s'est encore imposé.

UELa technologie open hardware décrite pourrait bénéficier aux équipes de robotique douce européennes et aux intégrateurs FR/EU de préhenseurs souples, mais aucun acteur européen n'est central dans cette publication arXiv.

RecherchePaper
1 source
Recherche à horizon adaptatif basée sur les conflits pour la planification de chemins multi-agents en boucle fermée
319arXiv cs.RO 

Recherche à horizon adaptatif basée sur les conflits pour la planification de chemins multi-agents en boucle fermée

Des chercheurs ont publié sur arXiv (arXiv:2602.12024v2) un algorithme nommé ACCBS (Adaptive-Horizon Conflict-Based Search), conçu pour résoudre en temps réel le problème de coordination de flottes de robots dans des entrepôts automatisés. Le Multi-Agent Path Finding (MAPF) consiste à calculer des trajectoires sans collision pour des dizaines à des centaines d'AGV ou AMR opérant simultanément dans un même espace. ACCBS est un planificateur en boucle fermée qui adapte dynamiquement son horizon de planification en fonction du budget computationnel disponible, et réutilise un arbre de contraintes unique pour passer fluidement d'un horizon à l'autre. L'algorithme exhibe un comportement "anytime" : il retourne une solution faisable de bonne qualité très rapidement, puis l'améliore jusqu'à l'optimalité asymptotique si le temps de calcul le permet. L'enjeu industriel est direct. Les approches actuelles se divisent en deux familles peu satisfaisantes : les planificateurs en boucle ouverte, qui génèrent des trajectoires fixes et s'effondrent dès qu'un robot tombe en panne ou qu'un opérateur traverse une allée, et les heuristiques en boucle fermée, qui réagissent aux perturbations mais sans garantie de performance formelle, ce qui les exclut des déploiements à contraintes de sécurité. ACCBS propose un compromis crédible : la robustesse aux perturbations d'un système réactif combinée aux garanties théoriques d'un solveur optimal. Pour un intégrateur ou un COO logistique, cela signifie potentiellement pouvoir dimensionner une flotte plus serrée sans sacrifier la fiabilité SLA, et certifier le comportement du système face aux auditeurs. ACCBS s'appuie sur CBS (Conflict-Based Search), un algorithme de référence académique pour le MAPF optimal, et y greffe un mécanisme d'horizon variable inspiré du Model Predictive Control (MPC) et de l'iterative deepening. Ce domaine est activement disputé : Amazon Robotics, Geek+ et Exotec (acteur français, qui déploie des flottes Skypod dans plusieurs dizaines d'entrepôts en Europe et Amérique du Nord) investissent massivement dans la coordination de flottes à grande échelle. La contribution reste à ce stade un résultat de recherche avec études de cas simulées, aucun déploiement réel n'est annoncé, et les auteurs ne précisent pas le nombre d'agents testé ni les temps de cycle obtenus, ce qui limite l'évaluation de la maturité industrielle.

UEExotec, acteur français leader des flottes Skypod déployées dans des dizaines d'entrepôts en Europe, opère précisément dans le domaine adressé par ACCBS ; si l'algorithme atteint la maturité industrielle, il pourrait renforcer la compétitivité des solutions européennes de coordination de flottes AMR face aux acteurs américains et asiatiques.

RecherchePaper
1 source
Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)
320arXiv cs.RO 

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 12 juin 2026 un article (arXiv:2606.12978) introduisant une nouvelle classe d'attaques adversariales sur les politiques robotiques de type VLA (Vision-Language-Action), ces architectures qui combinent un modèle de langage, une vision par caméra et un contrôleur moteur pour exécuter des tâches de manipulation à partir d'instructions textuelles. L'attaque baptisée "command-preserving trajectory redirection" (redirection de trajectoire préservant la commande) consiste à modifier subtilement le prompt d'entrée de façon à ce qu'il reste visuellement et sémantiquement proche de l'instruction légitime, mais provoque un résultat physique entièrement différent. Le modèle de menace est strict : l'attaquant ne modifie ni les poids du modèle, ni l'environnement, il choisit un seul prompt avant l'épisode, et ce prompt reste dans la norme syntaxique de la commande originale, sans mots-cibles ni langage correctif. Les auteurs proposent une méthode de recherche "on-policy" qui exploite des rollouts réels du robot pour identifier les perturbations textuelles dont le comportement en boucle fermée dévie vers une tâche cible. Les expériences sont conduites en simulation et sur robot physique, confirmant le transfert de l'attaque au monde réel. Ce résultat est significatif pour les intégrateurs et les décideurs industriels qui évaluent l'adoption des VLA en production, notamment dans les contextes de manipulation collaborative ou d'assemblage. La vulnérabilité exploite une propriété structurelle des VLA en boucle fermée : le même prompt est réappliqué à chaque étape de re-planification, et chaque action conditionnée modifie les observations futures sur lesquelles la politique agit. Un prompt malveillant peut donc cumuler ses effets sur toute une trajectoire, là où les attaques précédentes se limitaient à des perturbations action-par-action ou à la persistance d'actions basses. Cela contredit implicitement l'hypothèse que la robustesse visuelle d'un VLA suffit à garantir son intégrité comportementale, et soulève des questions concrètes sur la validation de sécurité avant déploiement. Les modèles VLA sont au coeur de plusieurs développements récents : pi0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, ou encore les politiques embarquées sur les humanoïdes Figure et 1X. La recherche en sécurité adversariale sur ces architectures était jusqu'ici dominée par des attaques sur les observations visuelles ou sur les actions individuelles ; ce travail ouvre formellement le champ des attaques au niveau de l'instruction textuelle à horizon long. Les auteurs n'annoncent pas de correctif ni de contre-mesure validée, ce qui laisse ouverte la question de la robustification des pipelines VLA. Les prochaines étapes attendues dans la communauté concerneront vraisemblablement la détection de prompts adversariaux à la volée et l'évaluation de ce vecteur d'attaque sur des modèles déployés commercialement. Le site projet est accessible à l'adresse indiquée dans le papier.

RechercheOpinion
1 source
Attaques trojans sur les contrôleurs de réseaux de neurones pour systèmes robotiques
321arXiv cs.RO 

Attaques trojans sur les contrôleurs de réseaux de neurones pour systèmes robotiques

Des chercheurs ont publié sur arXiv (référence 2602.05121v2) une démonstration de faisabilité d'attaques par backdoor, dites attaques "Trojan", ciblant des contrôleurs neuronaux embarqués dans des systèmes robotiques. Le vecteur d'attaque étudié est un robot mobile à propulsion différentielle, dont le contrôleur de suivi de trajectoire et de stabilisation de pose est implémenté sous forme de réseau de neurones. Les auteurs ont conçu un module Trojan parallèle, léger, conçu pour être inséré dans le réseau principal sans modifier ses poids. Ce module reste inactif en fonctionnement normal, puis s'active dès qu'une condition de déclenchement très précise est détectée, définie conjointement par la pose courante du robot et ses paramètres objectifs. À l'activation, le module corrompt directement les commandes de vitesse des roues, provoquant des comportements non désirés, potentiellement dangereux. L'attaque est validée en simulation selon deux scénarios distincts. Ce travail met en lumière un risque souvent sous-estimé dans la robotique industrielle et les AMR (robots mobiles autonomes) : la chaîne d'approvisionnement en modèles neuronaux. Dès lors qu'un contrôleur est fourni par un tiers, entraîné sur une infrastructure externe, ou acquis via un pipeline de fine-tuning non audité, l'intégrateur ne peut pas garantir l'absence de modules cachés. La discrétion du Trojan, dormant jusqu'à un trigger très spécifique, le rend difficilement détectable par les tests fonctionnels classiques. Pour les COO industriels et les équipes sécurité, cela signifie que les approches de validation de modèles actuelles, orientées performance, sont insuffisantes face à des attaques intentionnelles. Les attaques par backdoor sur les réseaux de neurones sont documentées depuis 2017 dans le domaine de la classification d'images, mais leur transposition aux systèmes de contrôle robotique en temps réel est plus récente et plus critique : une erreur de classification est bénigne, une dérive de trajectoire sur un robot industriel peut provoquer des dommages matériels ou humains. Ce papier s'inscrit dans un corpus croissant qui questionne la robustesse des architectures VLA (Vision-Language-Action) et des contrôleurs neuronaux génériques. Les suites logiques sont des méthodes de détection (analyse spectrale des poids, tests adversariaux ciblés) et des protocoles de certification des modèles embarqués, un chantier encore largement ouvert pour les organismes de standardisation comme l'ISO ou l'IEC.

UELes intégrateurs européens d'AMR et robots industriels utilisant des contrôleurs neuronaux fournis par des tiers sont directement exposés à ce vecteur d'attaque ; les travaux de normalisation ISO/IEC sur la certification des modèles embarqués deviennent un chantier prioritaire pour le marché européen.

RechercheOpinion
1 source
μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA
322arXiv cs.RO 

μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA

Des chercheurs ont publié sur arXiv (arXiv:2606.12497) une étude d'isolation contrôlée baptisée muVLA, une famille de variantes du modèle OpenVLA-OFT augmentées de récurrence minimale. Le principe : injecter un petit ensemble de tokens mémoire apprenables dans le transformer, transportés d'un pas de temps au suivant et mis à jour par auto-attention, sans loss auxiliaire ni modification architecturale. L'entraînement se fait de bout en bout avec rétropropagation tronquée dans le temps (TBPTT), paramétrée par la largeur mémoire m et la longueur de troncature K, avec deux règles de mise à jour comparées -- gradients inter-pas ou EMA détachée. Sur le benchmark MIKASA-Robo, muVLA porte le taux de succès moyen sur cinq tâches d'entraînement de 0,42 à 0,84 dans la configuration la plus forte, et atteint 0,23 sur des tâches hors distribution contre 0,07 pour la baseline sans mémoire. Sur LIBERO, environnement à observabilité complète, la variante récurrente la plus forte atteint 96,2 % de succès moyen -- sans régression par rapport au modèle de base. Ce travail apporte une contribution méthodologique précise à un champ encombré d'ablations mal contrôlées. La quasi-totalité des VLA à mémoire existants couplent récurrence, retrieval, compression et objectifs hiérarchiques dans un seul système, rendant impossible d'attribuer les gains à un mécanisme isolé. muVLA démontre que la récurrence seule -- sans aucune machinerie additionnelle -- suffit à doubler le taux de succès sur des tâches à observabilité partielle, c'est-à-dire les situations où une partie de l'état pertinent a disparu du champ de vision. Pour les intégrateurs robotiques travaillant sur des cellules avec occlusions ou des séquences d'assemblage multi-étapes, c'est un signal clair : le goulot n'est pas la puissance brute du modèle de base, mais la capacité à maintenir un état latent persistant. Le résultat sur LIBERO indique également que l'ajout de mémoire ne dégrade pas les performances en pleine observabilité, ce qui lève un frein souvent cité à l'adoption de ces architectures en production. OpenVLA est un modèle open-source lancé fin 2024 par une collaboration Stanford/Berkeley/Toyota Research Institute, positionné comme alternative ouverte aux VLA propriétaires comme RT-2 (Google DeepMind) ou pi0 (Physical Intelligence). OpenVLA-OFT en est une variante fine-tunée pour l'exécution rapide. La question de la mémoire dans les VLA est activement travaillée par plusieurs équipes -- RoboVLMs, SpatialVLA, Helix (Figure AI) -- mais avec des architectures nettement plus lourdes. muVLA se distingue par sa minimalité revendiquée et son protocole d'isolation rigoureux, ce qui en fait un outil de calibration plus qu'un système prêt au déploiement. Les auteurs délimitent explicitement le "régime de suffisance" de la récurrence minimale : elle fonctionne pour les tâches où la structure mémoire requise est homogène entre entraînement et évaluation, et atteint ses limites dès que les tâches hors distribution exigent une structure mémorielle différente. Les prochaines étapes naturelles -- combinaison avec des mécanismes de retrieval ou de compression -- sont implicitement balisées par ces résultats.

RechercheOpinion
1 source
Commande prédictive adaptative d'un robot continu souple par réseau neuronal informé par la physique (tiges de Cosserat)
323arXiv cs.RO 

Commande prédictive adaptative d'un robot continu souple par réseau neuronal informé par la physique (tiges de Cosserat)

Des chercheurs ont publié sur arXiv (2508.12681) un framework de contrôle prédictif par modèle (MPC) non linéaire pour robots continus souples, capables de se déformer en flexion continue plutôt que par articulations rigides. Le coeur du système est un réseau de neurones physiquement informé à découplage de domaine (DD-PINN), entraîné comme substitut du modèle dynamique de tige de Cosserat, la référence mathématique pour la mécanique des structures élancées déformables. Ce substitut atteint un facteur d'accélération de 44 000 par rapport au modèle complet, ce qui permet de faire tourner le MPC en temps réel à 70 Hz sur GPU. En parallèle, un filtre de Kalman non parfumé (UKF) exploite le DD-PINN pour estimer en ligne les états internes du robot et la compliance en flexion, à partir des seules mesures de position de l'effecteur terminal. En simulation, les erreurs de position restent inférieures à 3 mm, soit 2,3 % de la longueur de l'actionneur. Sur le robot physique, le contrôleur atteint des accélérations jusqu'à 3,55 m/s², avec une précision comparable. Ce résultat est notable parce qu'il démontre un contrôle dynamique (et non quasi-statique) d'un robot souple en conditions réelles, à une fréquence compatible avec les exigences industrielles. La majorité des approches antérieures, dont les méthodes basées sur l'opérateur de Koopman, sacrifient soit la précision de forme globale, soit l'adaptabilité aux variations de rigidité. Ici, le DD-PINN reconstruit la forme complète du robot et adapte en ligne la compliance, ce qui ouvre la voie à des manipulateurs souples capables de compenser vieillissement matériau ou déformations sous charge variable. Pour un intégrateur ou un décideur industriel, c'est la convergence entre modèle physique et inférence rapide qui est structurante : on cesse de choisir entre fidélité du modèle et temps réel. Les robots continus souples sont étudiés depuis une quinzaine d'années, principalement pour des applications médicales (endoscopes actifs, outils chirurgicaux), l'inspection en espace confiné, et la manipulation de pièces fragiles. Le modèle de Cosserat est le standard théorique du domaine, mais son coût computationnel avait jusqu'ici limité son usage au contrôle quasi-statique ou offline. Les PINN, réseaux intégrant des équations différentielles comme contraintes de loss, constituent depuis 2019 une piste active pour contourner ce verrou. Ce preprint ne mentionne pas de partenaires industriels ni de calendrier de déploiement ; il s'agit à ce stade d'un résultat de recherche académique, sans produit ni pilote terrain annoncé. Les prochaines étapes naturelles concernent la robustesse aux perturbations externes, l'extension à des structures à plusieurs segments, et une validation sur des cas d'usage médicaux ou d'assemblage délicat.

RecherchePaper
1 source
Mana : manipulation habile d'outils articulés
324arXiv cs.RO 

Mana : manipulation habile d'outils articulés

Des chercheurs présentent Mana (Manipulation Animator), un framework sim-to-real conçu pour la manipulation dextre d'outils articulés, c'est-à-dire des outils dotés de degrés de liberté internes comme des ciseaux, des pinces ou des instruments à charnières. Publié en preprint sur arXiv (réf. 2606.13677), le travail comble une lacune notable : la quasi-totalité des recherches antérieures en robotique dextre s'est concentrée sur des objets rigides, laissant de côté les outils dont les parties mobiles exigent une coordination fine entre préhension et manipulation in-hand. Le pipeline repose sur une approche coarse-to-fine inspirée de l'animation par ordinateur : des keyframes de préhension générées procéduralement sont transformées en trajectoires de manipulation via planification de mouvement et apprentissage par renforcement. La génération de données est largement automatisée, spécifier les affordances fonctionnelles d'un nouvel outil ne demandant que quelques clics de souris, soit moins d'une minute par outil. Testé sur quatre outils articulés couvrant différentes échelles et types de liaisons cinématiques, Mana obtient un transfert sim-to-real zéro-shot pour la préhension comme pour la manipulation in-hand, sans fine-tuning supplémentaire sur robot réel. Ce résultat est significatif à plusieurs titres. Le transfert zéro-shot reste un défi ouvert en manipulation dextre, particulièrement pour des objets dont la dynamique de contact varie selon l'état interne de l'outil. La scalabilité du pipeline constitue également un argument fort : moins d'une minute d'annotation par outil contraste avec les pipelines d'imitation classiques qui nécessitent des heures de démonstrations humaines par tâche. Il convient toutefois de nuancer, les résultats étant ceux d'un preprint académique évalué sur quatre outils seulement, sans données de robustesse à grande échelle ni validation industrielle. Si les chiffres se confirment sur un éventail plus large, cela modifie le calcul économique pour les intégrateurs robotiques cherchant à déployer des manipulateurs dextres sur des lignes de production diversifiées. L'approche s'inscrit dans un courant qui cherche à réduire le sim-to-real gap via des pipelines de génération de données synthétiques plutôt que par le domain randomization seul. Les travaux concurrents incluent des frameworks VLA comme pi0 de Physical Intelligence ou les approches de manipulation généraliste développées à CMU et Stanford, qui misent davantage sur la généralisation via de larges datasets de démonstrations humaines. Mana prend un pari différent en substituant l'animation procédurale à la téléopération. Les prochaines étapes naturelles consisteraient à valider le framework sur des outils industriels concrets comme des tournevis ou des clés à cliquet, et à tester sa robustesse face aux variations de fabrication et aux conditions réelles de production.

RecherchePaper
1 source
AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique
325arXiv cs.RO 

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion
1 source
Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique
326arXiv cs.RO 

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique

Des chercheurs ont publié EmboCoach-Bench, un benchmark évaluant la capacité d'agents LLM à automatiser l'ingénierie de politiques pour systèmes robotiques incarnés. Présenté sur arXiv (arXiv:2501.21570), le cadre couvre 32 tâches conçues par des experts en apprentissage par renforcement (RL) et apprentissage par imitation (IL), avec le code exécutable comme interface universelle entre l'agent et l'environnement de simulation. Plutôt que de générer des solutions statiques, les agents opèrent en boucle fermée: ils proposent du code, l'exécutent dans le simulateur, analysent le retour d'environnement, puis itèrent pour corriger et optimiser. Les tâches couvrent des aspects allant de la conception de fonctions de récompense informées par la physique aux architectures de politiques avancées, notamment les diffusion policies. Les résultats quantitatifs méritent attention: les agents autonomes ont surpassé les baselines conçues manuellement par des humains de 26,5% en taux de succès moyen, contestant l'hypothèse selon laquelle l'expertise humaine en reward shaping serait difficilement substituable pour les politiques incarnées. Deuxième enseignement: le workflow agentique avec retour d'environnement réduit substantiellement l'écart de performance entre modèles open-source et propriétaires, ce qui suggère que la boucle de feedback itératif est plus déterminante que le modèle sous-jacent. Enfin, les agents démontrent une capacité de self-correction sur des cas pathologiques d'ingénierie, récupérant des tâches en quasi-échec total via un débogage itératif en simulation. Pour les équipes robotiques, cela représente une voie potentielle pour réduire le temps ingénieur consacré au tuning manuel des hyperparamètres et à la conception artisanale de fonctions de récompense. Ce travail s'inscrit dans une tendance plus large: l'application des workflows agentiques LLM, prouvés dans l'automatisation logicielle et la découverte scientifique, au domaine de l'IA incarnée. Le goulot d'étranglement identifié, à savoir la supervision manuelle intensive pour le réglage des simulations, est un problème structurel bien connu des équipes travaillant sur Optimus (Tesla), GR00T N2 (NVIDIA) ou les systèmes de Figure AI. La contribution différenciante d'EmboCoach-Bench est de proposer un cadre d'évaluation standardisé pour mesurer ce que les agents LLM peuvent réellement automatiser, plutôt que des démos ciblées. Les extensions naturelles incluent l'intégration à des backends hétérogènes (Isaac Lab, MuJoCo, Genesis) et la validation sim-to-real pour confirmer si ces gains en simulation se transfèrent aux systèmes physiques, ce qui reste le test décisif pour une adoption industrielle.

RecherchePaper
1 source
RoboProcessBench : un benchmark pour évaluer la compréhension des processus dans la manipulation robotique vision-langage
327arXiv cs.RO 

RoboProcessBench : un benchmark pour évaluer la compréhension des processus dans la manipulation robotique vision-langage

Des chercheurs ont publié le 16 juin 2026 sur arXiv (référence 2606.13040) RoboProcessBench, un benchmark conçu pour évaluer la compréhension processuelle des modèles vision-langage (VLM) appliqués à la manipulation robotique. L'outil décompose cette capacité en deux axes complémentaires : la surveillance statique (static monitoring) et le raisonnement dynamique (dynamic reasoning), déclinés en 12 familles de questions diagnostiques couvrant la phase d'exécution, le contact physique, le mouvement, la coordination, la progression locale, l'ordre temporel, les résultats et les transitions entre primitives. Le corpus associé, ProcessData, regroupe environ 58 000 paires questions-réponses extraites de 260 tâches de manipulation physiquement simulées, divisé en deux sous-ensembles : ProcessData-SFT pour le fine-tuning et ProcessData-Eval pour l'évaluation. Appliqué à plusieurs VLM représentatifs du marché, le benchmark révèle des lacunes systématiques sur la quasi-totalité des 12 familles de tâches. Toutefois, après fine-tuning sur ProcessData-SFT, les modèles Qwen2.5-VL-7B (Alibaba) et InternVL-3-8B (Shanghai AI Lab) affichent des gains mesurables sur la détection d'état local, de mouvement, de progression et de primitives. Ce travail pointe une faille structurelle dans l'usage croissant des VLM comme critiques visuels, générateurs de récompenses et détecteurs d'échecs dans les pipelines de contrôle robotique : ces modèles sont habituellement évalués sur le succès final d'une tâche, pas sur la qualité de son déroulement. Or, pour un intégrateur ou un COO industriel qui déploie un bras manipulateur en production, la capacité d'un modèle à détecter un contact mal positionné en milieu de séquence ou un désalignement temporel entre deux primitives est aussi critique que le résultat terminal. RoboProcessBench fournit un cadre d'évaluation granulaire là où les benchmarks existants restaient aveugles à cette dimension intermédiaire. Les résultats montrent que les gains obtenus après fine-tuning ciblé sont réels mais localisés, ce qui suggère que la compréhension processuelle fine n'émerge pas spontanément à partir des données d'entraînement généralistes actuels. L'initiative s'inscrit dans une tendance de fond : depuis 2024, les laboratoires de robotique cherchent à intégrer les VLM comme modules de supervision autonomes, à la suite des travaux sur les Visual Language Action models (VLA) comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Le benchmark comble un angle mort laissé par des suites comme RoboSuite, LIBERO ou BehaviorBench, qui mesurent principalement les taux de succès end-to-end. Côté compétiteurs directs dans l'espace des benchmarks de compréhension robotique, on citera MECCANO et ProcTHOR, mais aucun n'adresse explicitement le suivi de primitives en contexte de manipulation physique. La page projet est publiquement accessible, et les données ProcessData sont présentées comme réutilisables pour l'entraînement, ce qui pourrait accélérer leur adoption dans les pipelines de RL basés sur des récompenses apprises. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'un preprint académique.

RecherchePaper
1 source
Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines
328arXiv cs.RO 

Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines

Des chercheurs ont déposé le 12 juin 2026 sur arXiv (référence 2606.12759) Sparse2Act, un cadre de pré-entraînement pour encodeurs de nuages de points 3D épars appliqués à la manipulation robotique. La méthode exploite les actions de l'effecteur terminal en espace tâche comme supervision géométrique : des tokens 3D masqués sont entraînés à organiser les features de scène autour du mouvement de l'espace de travail associé à l'observation. Sur le benchmark LIBERO-10, le système atteint 86,9 % de taux de succès moyen après seulement 500 étapes de fine-tuning. Le même encodeur pré-entraîné permet un transfert inter-domaines de LIBERO vers Meta-World, avec 73,4 % de succès moyen sur le benchmark Meta-World-5. En condition réelle, après pré-entraînement en simulation suivi d'un fine-tuning limité sur données réelles, le système obtient 72,5 % de succès sur quatre tâches de manipulation distinctes. Ce que démontre Sparse2Act, c'est qu'un encodeur 3D peut être pré-entraîné de façon générique et réutilisé tel quel par des politiques aux architectures et espaces d'action différents, y compris des commandes en espace articulaire. C'est un changement de paradigme par rapport aux représentations 3D apprises via des objectifs de tâche spécifiques, qui restent liées à une distribution de données particulière et ne se transfèrent pas. Le sim-to-real à 72,5 % avec fine-tuning limité est un résultat concret que les pipelines VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou OpenVLA peinent à reproduire proprement sur des tâches de manipulation fine. Les ablations publiées dans le papier confirment que le gain provient du signal d'alignement action-masque, et non de la capacité du décodeur, ce qui oriente les futures architectures vers une supervision géométrique légère. L'intérêt pour les représentations 3D explicites en manipulation robotique s'est accentué depuis 2023, en réponse aux limites des politiques purement pixel-based sur les saisies occludées ou en précision sub-centimétrique. Sparse2Act s'inscrit dans le courant du pré-entraînement de représentations robotiques génériques, aux côtés de R3M, MVP ou SPA, mais se distingue par l'usage des actions comme signal de supervision géométrique plutôt que du contrastif visuel ou de la reconstruction d'image. Les concurrents directs incluent les fondations visuelles fine-tunées (DINO, SAM) adaptées à la manipulation et les politiques diffusion-based comme Pi-0.2 ou RDT-1B. La prochaine étape naturelle pour ce travail est l'extension à des morphologies variées (bras bimanuel, robot mobile) et à des scènes hors environnements tabletop standardisés comme LIBERO et Meta-World.

RecherchePaper
1 source
GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable
329arXiv cs.RO 

GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable

Des chercheurs ont publié GAE (Generalizable Action Expert), un modèle généraliste conçu pour découpler la planification cognitive des modèles de vision-langage (VLM) de la génération d'actions robotiques précises. L'architecture repose sur une interface géométrique parcimonieuse : le VLM prédit des waypoints 3D discrets codant l'intention de haut niveau, tandis que GAE traduit ces repères en trajectoires d'action continues en s'appuyant sur des observations en nuage de points en temps réel. Le module est pré-entraîné sur un corpus de 150 000 trajectoires issues à la fois de simulations et de robots réels, via un schéma baptisé APPF (Action Pre-training, Pointcloud Fine-tuning), qui sépare explicitement l'apprentissage de la dynamique d'action du grounding géométrique. Une fois pré-entraîné, GAE est gelé et réutilisé tel quel sur de nouvelles tâches, seul le VLM amont nécessitant un fine-tuning léger. L'enjeu architectural est le découplage raisonnement-action, un point de friction documenté dans les approches VLA bout-en-bout comme Pi-0 de Physical Intelligence ou OpenVLA, où raisonner et agir partagent les mêmes poids et contraignent mutuellement la généralisation. En faisant de GAE un expert réutilisable et figé, les auteurs réduisent le coût d'adaptation à de nouveaux domaines visuels, angles de caméra et instructions en langage naturel. Les résultats rapportés vont dans ce sens, bien que le protocole d'évaluation comparatif reste à préciser dans la version finale, et que les expériences soient menées en laboratoire sans déploiement industriel annoncé. Cet article s'inscrit dans une vague de recherche post-RT-2 qui cherche à dépasser les limites des architectures monolithiques vision-langage-action. Les approches concurrentes incluent Pi-0 et Pi-0.5 (Physical Intelligence), Octo (UC Berkeley), RoboFlamingo, OpenVLA et RoboVLMs. La représentation intermédiaire par waypoints 3D rappelle des travaux sur les keyposes ou UniPi, mais étendue aux nuages de points pour une robustesse accrue aux variations de point de vue. La préprint arXiv:2510.03896, déposé en octobre 2024 et mis à jour en v2, n'est associé ni à un partenariat industriel ni à un produit commercialisé : il s'agit d'une contribution de recherche académique, pas d'un système shipé.

RechercheOpinion
1 source
Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs
330arXiv cs.RO 

Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs

Une équipe de recherche a publié en juin 2026 un preprint arXiv (2606.12910) présentant GRASP (Grounded Reasoning and Symbolic Planning), un framework de manipulation tabulaire à vocabulaire ouvert pour robots. Le système repose sur un Vision-Language Model (VLM) pré-entraîné qui traduit des requêtes en langage naturel -- par exemple "pose l'objet sur l'étagère du haut" -- en états-buts neuro-symboliques, ancrés dans l'espace physique via un pipeline de détection par bounding boxes. Sur 90 essais en conditions réelles, à trois niveaux de difficulté progressifs, GRASP atteint un taux de succès global de 73,3 %. Aucun entraînement spécifique à la tâche n'est requis : le modèle fonctionne en zero-shot, sans fine-tuning. Ce résultat interpelle parce qu'il propose une alternative crédible aux deux approches dominantes en Task and Motion Planning (TAMP) piloté par VLM : les pipelines lourds computationnellement (type SayCan ou RT-2) et les méthodes data-hungry qui exigent des milliers de démonstrations supervisées. En substituant des coordonnées de bounding boxes à des listes de couleurs codées en dur ou à des repères fixes, GRASP permet d'interpréter des concepts spatiaux abstraits sans recalibrage. Pour un intégrateur industriel ou un laboratoire travaillant sur des cobots, la valeur est directe : réduire le coût d'onboarding d'une nouvelle tâche de manipulation non structurée. Le 73,3 % reste un chiffre à contextualiser -- les auteurs ne détaillent pas les temps de cycle ni les types d'objets testés, et les vidéos de démonstration sélectionnées dans les preprints arXiv ne constituent pas une validation déployée en production. Le contexte de cette publication s'inscrit dans une course dense autour des VLA (Vision-Language-Action models) et du grounding symbolique. Des travaux concurrents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les architectures Open-X-Embodiment misent sur l'entraînement à grande échelle pour généraliser ; GRASP parie à l'inverse sur la légèreté architecturale et la planification symbolique. Aucune entreprise industrielle n'est associée à ce preprint, qui semble issu d'un groupe académique non encore identifié publiquement. Les prochaines étapes naturelles seraient une extension au-delà de la manipulation tabulaire (scènes 3D complexes, objets articulés), une évaluation comparative rigoureuse face aux baselines VLA actuelles, et une validation sur des plateformes robotiques standardisées comme le Franka Research 3 ou le UR5.

RechercheOpinion
1 source
GeoHAT : un transformeur hybride adaptatif à la géométrie pour la manipulation mobile
331arXiv cs.RO 

GeoHAT : un transformeur hybride adaptatif à la géométrie pour la manipulation mobile

Des chercheurs ont publié le 16 juin 2026 sur arXiv (arXiv:2606.13394) GeoHAT, un framework end-to-end basé sur la diffusion pour la manipulation mobile whole-body. L'architecture atteint 79,3 % de taux de succès moyen sur le benchmark de simulation ManiSkill-HAB, surpassant la baseline précédente la plus forte de 23,7 points. Le coeur du système repose sur un encodeur spatial Fourier léger qui projette les coordonnées 3D pixel par pixel en tokens géométriques, sans backbone 3D dédié, puis les injecte sélectivement dans les features d'un modèle de vision de fondation via une fusion gated par token, modulée par la validité de profondeur. Pour la génération d'actions, un Hybrid Whole-Body Action Decoder décompose les commandes du bras et de la base mobile en sous-espaces distincts, chacun relié à son contexte visuel propre via cross-attention sparse. Des expériences en environnement réel sur tâches variées confirment les gains observés en simulation. Le verrou visé est structurel: coordonner base mobile et bras manipulateur exige de gérer des points de vue changeants et des régimes de contrôle fondamentalement différents. Les politiques existantes encodent bras et base dans un unique vecteur d'action, écrasant leurs contraintes propres, et s'appuient sur des représentations 3D parses ou des features 2D qui manquent de structure spatiale dense. La décomposition en sous-espaces d'action que propose GeoHAT est une réponse directe à ce mélange contre-productif. Le signal le plus intéressant pour les intégrateurs n'est pas le score sur benchmark, mais la confirmation en conditions réelles: le sim-to-real gap, souvent fatal aux approches académiques, semble partiellement contenu. Cela suggère qu'une politique de manipulation mobile généraliste pourrait être déployée sans recalibration majeure entre simulation et terrain, ce qui reste rare dans la littérature récente. GeoHAT s'inscrit dans la lignée des politiques de diffusion pour la robotique, dont Diffusion Policy (Chi et al., 2023) et Pi-0 de Physical Intelligence sont les références les plus citées, étendues ici à la manipulation mobile. Le benchmark ManiSkill-HAB, maintenu par l'équipe de Hao Su à l'UC San Diego, est devenu une mesure standard pour les agents mobilise-manipulateurs en scènes domestiques simulées. Les travaux concurrents les plus proches incluent Mobile ALOHA (Stanford, 2024) et les approches VLA comme OpenVLA-OFT. La légèreté computationnelle de GeoHAT, obtenue en évitant un backbone 3D séparé, le distingue des stratégies de fusion dense qui risquent de corrompre les représentations préentraînées. Aucun déploiement industriel ni partenariat n'est annoncé; il s'agit d'un résultat de recherche avec validation réelle, préalable nécessaire avant toute mise en production.

RechercheOpinion
1 source
Apprentissage de la sécurité robotique à partir de rares retours humains par prédiction conforme
332arXiv cs.RO 

Apprentissage de la sécurité robotique à partir de rares retours humains par prédiction conforme

Des chercheurs ont publié sur arXiv (référence 2501.04823v2) une méthode permettant d'apprendre les préférences de sécurité d'un opérateur humain à partir de retours binaires très limités, puis de les traduire en garanties statistiques formelles pour un robot autonome. Le principe : un humain visionne des trajectoires effectuées par le robot et signale simplement les comportements jugés dangereux. L'algorithme applique ensuite la prédiction conforme (conformal prediction) sur ces annotations pour délimiter, dans l'espace d'état du robot (ou dans un espace latent appris), une zone suspecte dont il est garanti qu'elle contiendra au moins une fraction spécifiée des futures erreurs de la politique. Un système d'alerte se déclenche dès que le robot pénètre cette zone. La méthode a été validée expérimentalement sur des quadrirotor en vol libre : 30 vols répartis sur 6 tâches de navigation, avec pour objectif de franchir un portique désigné en suivant une politique visuomotrice. Le classifieur par plus proches voisins, combiné à la prédiction conforme, détecte de manière fiable quand la politique va rater le franchissement, sans nécessiter de jeu de données de calibration séparé. L'intérêt industriel de cette approche réside dans deux points souvent négligés dans les déploiements robotiques actuels : la subjectivité de la sécurité et la fragilité des politiques entraînées sur données "sûres". Un robot formé sur des trajectoires correctes peut produire des comportements dangereux hors distribution, et les contraintes définies manuellement ratent systématiquement les cas limites. Ici, la garantie de taux de manqués (miss rate) est mathématiquement contrôlée par l'utilisateur, ce qui est exploitable dans un cahier des charges de déploiement. La méthode est également "sample-efficient" : elle évite la pratique courante en prédiction conforme de geler une partie des données de calibration, ce qui compte lorsque les retours humains sont coûteux à collecter. Pour un intégrateur déployant des robots mobiles ou des drones d'inspection, c'est un outil de qualification potentiellement plus réaliste que les approches par fonctions de barrière de contrôle (CBF) ou vérification formelle, qui supposent des modèles analytiques précis. La prédiction conforme gagne depuis 2022 une traction notable en robotique apprise, notamment pour quantifier l'incertitude dans les politiques de type Vision-Language-Action (VLA) et les planificateurs model predictive control (MPC) -- c'est précisément ce dernier que les auteurs améliorent ici. Les approches concurrentes incluent les CBFs (moins flexibles avec des politiques neuronales), le safe reinforcement learning avec contraintes Lagrangiennes, et les méthodes de détection d'anomalies par reconstruction. L'article ne mentionne pas de partenaire industriel ni de timeline de transfert ; il s'agit d'un preprint académique, code et vidéos publiés, sans peer review finalisé à ce stade. Les suites naturelles seraient une validation sur des robots manipulateurs ou des AMR en environnement d'entrepôt, et l'extension à des retours humains plus granulaires que le binaire safe/unsafe.

RecherchePaper
1 source
Contrôle de robots souples par apprentissage sur sous-variétés spectrales adiabatiques
333arXiv cs.RO 

Contrôle de robots souples par apprentissage sur sous-variétés spectrales adiabatiques

Une équipe de chercheurs a publié sur arXiv (référence 2503.10919, version 3) une stratégie de contrôle prédictif pour robots souples entièrement construite à partir de données, fondée sur la théorie des sous-variétés spectrales adiabatiques (aSSMs). Ces structures géométriques de faible dimension émergent le long du chemin désiré du robot dès lors que ses vibrations internes se dissipent bien plus vite que la vitesse de déplacement cible, condition caractéristique des robots fortement amortis. La méthode est validée sur des modèles haute fidélité d'un robot tronc souple en éléments finis et de bras élastiques décrits par la mécanique des tiges de Cosserat, avec des tests complémentaires en présence de bruit expérimental. Les modèles réduits à cinq ou six dimensions obtenus par aSSM surpassent les autres approches data-driven par un facteur allant jusqu'à dix en précision de suivi de trajectoire sur l'ensemble des tâches testées en boucle fermée. Ce résultat s'attaque à un verrou bien documenté du secteur : les modèles linéaires data-driven, notamment les opérateurs de Koopman et les régressions classiques, échouent dès que le robot explore des chemins spatialement étendus sollicitant des régimes fortement non linéaires. L'aSSM contourne ce problème en réduisant la dynamique à une variété invariante attractante de petite dimension, sans nécessiter d'identification paramétrique d'un modèle physique analytique. Pour un intégrateur de systèmes robotiques souples, cette approche ouvre la voie à des contrôleurs prédictifs embarquables sur des robots déformables, avec des débouchés directs en manipulation de précision, inspection industrielle ou chirurgie mini-invasive. La théorie des sous-variétés spectrales (SSM) a été formalisée par George Haller et collaborateurs à partir de 2016 ; l'extension adiabatique pour systèmes à chemin variable constitue une contribution plus récente. Les approches concurrentes incluent les réseaux neuronaux récurrents, le Koopman étendu et les méthodes de réduction d'ordre par projection physique. La validation reste majoritairement numérique, les expériences physiques mentionnées se limitant à tester la robustesse au bruit sans description détaillée d'un banc d'essai réel, ce qui invite à la prudence avant toute extrapolation industrielle. L'article étant un preprint arXiv non encore évalué par les pairs, les performances annoncées méritent confirmation indépendante.

RecherchePaper
1 source
Main bionique MCR : structures anatomiques au service de la manipulation habile
334arXiv cs.RO 

Main bionique MCR : structures anatomiques au service de la manipulation habile

Une équipe de recherche publie sur arXiv (référence 2606.13601, juin 2026) la MCR-Bionic Hand, une main robotique biomimétique reproduisant à l'échelle 1:1 l'architecture musculo-squelettique de la main humaine. Le système intègre un poignet à deux rangées de huit os, des tendons croisés au poignet, un routage anatomique des fléchisseurs superficiels (FDS) et profonds (FDP), des contraintes de plaque palmaire et de ligaments collatéraux, le capuchon extenseur dorsal, ainsi que les voies musculaires intrinsèques (lombricaux, interosseux). L'architecture repose sur deux formes de "raisonnement structurel" : la génération de postures par défaut via la ténodèse poignet-doigts, qui transforme des entrées à faible dimension en configurations de préhension pré-formées et assure la coordination IPP-IPD ; et la modulation musculaire fine, qui règle la posture MCP, la stabilité distale et les trajectoires de force des doigts autour de cet état par défaut. Les démonstrations expérimentales couvrent des tâches de contact riche : rotation de pièce de monnaie, transfert de stylo, retournement dorsal de pièce et manipulation de cube. L'intérêt tient à un changement de paradigme dans la conception des mains robotiques. L'état de l'art traite la dextérité comme un problème de contrôle actif à haute dimension, où chaque degré de liberté est piloté par des algorithmes. Ici, la géométrie de la structure mécanique encode elle-même une partie du contrôle : la posture du poignet induit passivement une pré-mise en forme multi-articulaire, sans commande explicite, et le capuchon extenseur couple le mouvement IPP à une réponse IPD de manière entièrement mécanique. Ce mécanisme allège la charge de calcul et simplifie les pipelines de contrôle, ce qui est directement pertinent pour les intégrateurs cherchant à déployer des manipulateurs en environnements non structurés. La démonstration sur tâches à contact riche indique que le "sim-to-real gap" peut partiellement se résorber si la morphologie physique absorbe la complexité que le contrôleur devrait autrement gérer. Ce travail s'inscrit dans une ligne de recherche où dominent des systèmes comme la Shadow Hand (Shadow Robot, Royaume-Uni), l'Allegro Hand (Wonik Robotics) ou les mains embarquées sur des humanoïdes commerciaux tels que le Figure 03 ou l'Optimus Gen 3 de Tesla, la plupart s'appuyant sur un grand nombre d'actionneurs et des contrôleurs appris. La MCR-Bionic Hand, présentée comme preprint académique et non comme produit commercialisé, plaide pour un retour aux structures anatomiques fonctionnelles plutôt qu'à la simple ressemblance visuelle, une distinction que le secteur des prothèses actives, notamment Ottobock (Allemagne), pourrait exploiter. La suite naturelle serait une évaluation de robustesse sur cycles répétés et une intégration à des pipelines de manipulation apprise de type VLA, pour déterminer si ces priors structurels améliorent la généralisation hors distribution.

UEOttobock (Allemagne), leader européen des prothèses actives, est l'acteur EU le mieux positionné pour exploiter cette architecture musculo-squelettique dans ses futures générations de mains prothétiques.

RecherchePaper
1 source
Perception sémantique active
335arXiv cs.RO 

Perception sémantique active

Des chercheurs ont publié sur arXiv (2510.05430v2) une méthode de perception sémantique active permettant à un robot mobile d'explorer un environnement intérieur en raisonnant sur les zones qu'il n'a pas encore observées. Le système construit un graphe de scène multi-couches et compact, structurant l'environnement à plusieurs niveaux d'abstraction : pièces, objets, murs, fenêtres, avec leur géométrie fine. En s'appuyant sur un grand modèle de langage (LLM), le pipeline génère des graphes de scène plausibles pour les régions inexplorées, en maintenant la cohérence avec les observations partielles déjà accumulées. L'approche calcule ensuite le gain d'information attendu à chaque point de passage candidat, afin de guider la trajectoire d'exploration. Les expériences ont été menées à la fois en simulation sur des appartements 3D réalistes et sur un robot quadrupède Unitree Go 2 en conditions réelles. L'intérêt principal de cette approche réside dans la capacité à exploiter des connaissances sémantiques commonsense pour anticiper la topologie d'une scène non encore visitée. Plutôt que de se limiter à une cartographie géométrique réactive, le robot raisonne sur la probabilité qu'une porte donne sur une cuisine plutôt qu'une chambre selon le contexte observé, un type de raisonnement spatial jusqu'ici difficile à formaliser en robotique mobile. Pour les intégrateurs d'AMR (autonomous mobile robots) et les équipes R&D en navigation intérieure, cette architecture ouvre la voie à des explorations plus efficaces dans des environnements inconnus, avec moins de déplacements redondants. Les résultats quantitatifs montrent une localisation plus rapide et plus précise des informations sémantiques hautes et basses résolutions par rapport aux méthodes existantes, bien que les benchmarks retenus méritent une lecture critique puisqu'ils restent essentiellement contrôlés par les auteurs. Ce travail s'inscrit dans un courant actif combinant graphes de scène hiérarchiques et LLMs pour la navigation sémantique, aux côtés de travaux comme SayPlan (Rana et al.) ou SceneGraph-Nav. Le Unitree Go 2, robot quadrupède à faible coût devenu plateforme standard pour la recherche en mobilité intérieure, sert ici de démonstrateur physique. Les acteurs concurrents incluent les approches par représentations neurales implicites (NeRF sémantiques) et les méthodes de frontier-based exploration enrichies par vision-langage. Le code n'est pas encore publié à la date de soumission, et aucun partenariat industriel ni calendrier de transfert n'est mentionné dans le papier.

RecherchePaper
1 source
Contrôle PI basé sur Lyapunov pour le suivi robuste de trajectoire d'un robot à quatre roues indépendantes : conception et validation expérimentale
336arXiv cs.RO 

Contrôle PI basé sur Lyapunov pour le suivi robuste de trajectoire d'un robot à quatre roues indépendantes : conception et validation expérimentale

Des chercheurs ont publié sur arXiv (référence 2602.15424v2) une loi de commande de type PI synthétisée par méthode de Lyapunov pour le suivi robuste de trajectoire d'un robot mobile à quatre roues indépendamment motorisées et directrices (4WID-4WIS, pour four-wheel independently driven and steered). Le modèle mathématique du robot est structurellement vérifié, ce qui permet une conception systématique avec des garanties formelles de stabilité, adaptées à l'implémentation temps réel. La loi de commande combine une structure PI classique avec une compensation anticipatrice fondée sur le modèle (feedforward model-based). Elle a été validée expérimentalement sur une plateforme 4WID-4WIS physique dans des conditions d'opération horizontales et verticales, et comparée à un régulateur PI standard ainsi qu'à un contrôleur en mode glissant (SMC, sliding-mode controller). L'apport principal de ces travaux est la combinaison de garanties formelles de stabilité et d'une architecture légère, déployable sur des microcontrôleurs embarqués standard. L'analyse de stabilité pratique augmentée fournit des bornes explicites sur les dynamiques d'erreur de vitesse et d'erreur intégrale, ce qui permet à un intégrateur de dimensionner les marges opérationnelles sans simulation extensive. La loi de commande proposée surpasse le PI classique et l'approche par mode glissant en robustesse face aux dynamiques résiduelles dépendantes de la configuration et aux effets non modélisés. Pour un industriel ou un intégrateur de robots mobiles autonomes (AMR), cela signifie un contrôleur implémentable sur matériel embarqué standard, avec des garanties prouvables et sans la complexité d'ajustement propre au mode glissant. Les robots 4WID-4WIS offrent une maniabilité omnidirectionnelle que les architectures différentielles ou Ackermann n'atteignent pas, mais leur dynamique couplée complique la synthèse de régulateurs performants et stables. Ces travaux s'inscrivent dans un courant visant à rendre rigoureusement prouvables des lois de commande déjà utilisées empiriquement en industrie. Côté positionnement concurrentiel, les contrôleurs en mode glissant garantissent une robustesse comparable mais souffrent du chattering et d'un réglage plus délicat; les approches MPC (Model Predictive Control) offrent une optimalité supérieure au prix d'une charge de calcul souvent incompatible avec les plateformes embarquées légères. Aucun partenaire industriel ni déploiement commercial n'est annoncé dans cette publication purement académique, dont la suite logique serait une validation sur des cycles opérationnels réels en environnement logistique ou de service.

RecherchePaper
1 source
Vers une préhension séquentielle fiable d'objets en environnement encombré : solution finaliste du RGMC 2025
337arXiv cs.RO 

Vers une préhension séquentielle fiable d'objets en environnement encombré : solution finaliste du RGMC 2025

Une équipe de chercheurs a présenté à l'ICRA 2025, la principale conférence mondiale en robotique, un système de préhension séquentielle en environnement encombré, décrochant la deuxième place dans la piste "Pick-in-Clutter" de la 10e édition du Robotic Grasping and Manipulation Competition (RGMC 2025). Le système s'évalue sur le Cluttered Environment Picking Benchmark (CEPB), un protocole standardisé conçu pour des scénarios de ramassage séquentiel d'objets hétérogènes entremêlés. La solution combine une pince multifonctionnelle sur mesure, un module de reconnaissance d'objets, des stratégies de désencombrement actif et une approche de préhension multimodale capable de traiter à la fois des pièces rigides et des objets déformables. L'architecture produit une représentation explicite de la distribution spatiale des objets et de leurs relations d'occlusion, permettant au robot de planifier l'ordre de saisie le plus efficace tout en évitant les collisions. Ce résultat est significatif pour les intégrateurs industriels parce qu'il adresse un verrou applicatif précis : non plus saisir un objet isolé avec un taux de succès élevé, mais rechercher et extraire séquentiellement des cibles dans un tas désordonné, cas d'usage courant en picking e-commerce, en tri logistique ou en désassemblage. La gestion des objets déformables (sachets, textiles, pièces souples) reste un différenciateur rare : la plupart des systèmes commerciaux contournent ce cas. Les auteurs distinguent explicitement les "taux de succès élevés sur la saisie unitaire" déjà atteints dans la littérature des "solutions matures pour le tri séquentiel", un écart que ce travail cherche à combler. La validation en conditions de compétition sous contrainte temps, avec des objets non sélectionnés par l'équipe, renforce la crédibilité par rapport aux démonstrations en conditions contrôlées. Le RGMC est organisé annuellement depuis 2011 en marge de l'ICRA et constitue l'une des références de benchmark en manipulation robotique. Sur ce segment, les concurrents directs incluent des systèmes basés sur des grippers adaptatifs (Robotiq, OnRobot) et des solutions de bin-picking comme celles de Photoneo, Mech-Mind ou Roboception, souvent couplées à des pipelines de vision 3D. Aucun acteur européen n'est mentionné dans ce travail. L'article, déposé sur arXiv sous l'identifiant 2606.12954, ne précise pas l'affiliation institutionnelle de l'équipe ni de feuille de route vers une commercialisation. Les prochaines étapes naturelles seraient la mise en open source du benchmark CEPB et une validation sur un spectre plus large d'objets industriels réels.

RecherchePaper
1 source
Repenser la régularisation pour un lissage efficace des politiques
338arXiv cs.RO 

Repenser la régularisation pour un lissage efficace des politiques

Un article soumis sur arXiv (référence 2606.13169) propose une refonte de la régularisation pour le lissage des politiques en apprentissage par renforcement (RL). L'approche cible la continuité de Lipschitz des fonctions de politique : idéalement globale, bornant la variation du comportement sur l'ensemble de l'espace d'états, mais réduite en pratique à une version locale en raison d'un compromis inévitable entre lissage et expressivité du réseau. Les auteurs identifient trois défauts précis dans l'implémentation originale, proposent un correctif pour chacun, et valident la méthode sur plusieurs tâches de contrôle et algorithmes de RL distincts. L'évaluation culminante porte sur un robot quadrupède en transfert sim-to-real, où la politique lissée démontre une robustesse accrue face aux changements brusques de commande de vitesse cible. L'enjeu est concret pour quiconque déploie des robots en environnement opérationnel : les politiques apprises en simulation produisent fréquemment des commandes articulaires saccadées qui, appliquées sur hardware, usent les actionneurs, génèrent des oscillations mécaniques, ou provoquent des chutes au moindre changement de consigne. Le lissage par régularisation Lipschitz constitue une solution théoriquement fondée, mais le fossé entre la formulation mathématique et son implémentation dans des réseaux de neurones profonds a jusqu'ici limité son impact pratique. Ce travail démontre que corriger trois erreurs d'implémentation précises suffit à franchir ce fossé, en obtenant un contrôle à la fois plus fluide et plus performant sans sacrifier la capacité du modèle à représenter des comportements complexes. La régularisation Lipschitz appliquée au RL locomoteur s'inscrit dans une lignée de travaux cherchant à combler le sim-to-real gap sans s'appuyer exclusivement sur la randomisation de domaine. Les approches concurrentes incluent la normalisation spectrale (Miyato et al.), les architectures ICNN (input-convex neural networks), ou encore les curricula de friction utilisés par ETH Zurich sur la plateforme ANYmal. La contribution reste ici méthodologique : les auteurs ne précisent ni le nom ni les spécifications exactes du quadrupède testé, ce qui rend difficile l'évaluation de la portée industrielle immédiate. La prochaine étape naturelle serait d'étendre ce cadre aux architectures de type VLA (vision-language-action), où le lissage des sorties moteur devient critique à mesure que la complexité perceptuelle augmente.

RecherchePaper
1 source
Apprentissage de réseaux d'oscillateurs visuellement interprétables pour robots souples continus à partir de vidéos
339arXiv cs.RO 

Apprentissage de réseaux d'oscillateurs visuellement interprétables pour robots souples continus à partir de vidéos

Des chercheurs présentent sur arXiv (arXiv:2511.18322) une méthode entièrement data-driven pour apprendre la dynamique des robots souples continus (soft continuum robots, SCR) depuis la vidéo, sans connaissance a priori du système mécanique. Deux contributions structurent le travail : l'Attention Broadcast Decoder (ABCD), un module enfichable pour auto-encodeurs qui génère des cartes d'attention pixel-précises localisant la contribution de chaque dimension latente tout en filtrant les arrière-plans statiques ; et les Visual Oscillator Networks (VONs), un réseau d'oscillateurs 2D couplé à ces cartes permettant de visualiser directement sur l'image les masses apprises, la rigidité de couplage et les forces. Sur un robot à deux segments, ABCD réduit l'erreur de prédiction multi-pas de 5,8 fois pour les opérateurs de Koopman et de 3,5 fois pour les réseaux d'oscillateurs par rapport aux baselines sans ce module. Les VONs, laissés libres de s'organiser, font émerger de façon autonome une structure en chaîne d'oscillateurs, cohérente avec la topologie physique de l'objet. L'enjeu n'est pas la performance brute mais l'interprétabilité mécanique, un verrou structurel pour le déploiement de modèles deep learning en robotique de précision. Les approches existantes imposent un choix binaire : modèle basé sur la physique, fidèle mais exigeant une conception manuelle et une connaissance a priori des matériaux ; ou modèle purement data-driven, flexible mais opaque. ABCD associé aux VONs rompt ce dilemme en produisant des représentations latentes spatialement ancrées, lisibles par un ingénieur et potentiellement exploitables pour la synthèse de lois de commande. Pour les intégrateurs actifs sur la manipulation douce (chirurgie assistée, assemblage de composants fragiles), disposer d'un modèle dynamique compact et vérifiable sans calibration physique représente un gain opérationnel concret. Les SCR posent un problème de modélisation structurellement difficile : degrés de liberté théoriquement infinis, non-linéarités prononcées des matériaux (silicone, élastomères), et vision souvent seul capteur praticable en environnement non contrôlé. Les travaux antérieurs misaient principalement sur les opérateurs de Koopman pour linéariser la dynamique dans un espace latent, ou sur des réseaux récurrents sans garantie d'interprétabilité. Aucun acteur français ou européen n'est associé à cette publication, mais des équipes comme INRIA Defrost ou Pollen Robotics travaillent sur des problématiques adjacentes en robotique souple. Les auteurs mentionnent explicitement l'intégration en boucle de commande comme prochaine étape, sans annoncer de déploiement ni de timeline industrielle : il s'agit à ce stade d'un résultat de recherche validé en laboratoire, pas d'un produit expédié.

RecherchePaper
1 source
G-MAPP : planification et perception multi-agents accélérées par GPU pour la génération de mouvement réactif
340arXiv cs.RO 

G-MAPP : planification et perception multi-agents accélérées par GPU pour la génération de mouvement réactif

G-MAPP (GPU-accelerated Multi-Agent Planning and Perception) est un framework de génération de mouvement réactif présenté dans un preprint arXiv (2606.12579) publié en juin 2026. Le systeme cible un problème persistant en robotique manipulatrice : produire des trajectoires sans collision en temps réel dans des environnements non structurés et dynamiques. L'architecture repose sur deux composants GPU : un moteur de modélisation du monde alimenté par des capteurs de profondeur grand public, et un planificateur par champs vectoriels permettant une exploration parallèle quasi-globale des états. Validé sur un bras Franka Emika 7 axes (7-DoF), le systeme affiche un gain de vitesse mesuré jusqu'à 5x par rapport à la version CPU équivalente, avec des évitements de collision réussis dans des configurations physiques simples et complexes. Le point dur que G-MAPP tente de résoudre est double : la charge de calcul pour planifier sur des représentations haute fidélité du monde, et le délai d'intégration entre la perception et le planificateur. Historiquement, les architectures existantes choisissaient entre planification globale (précise mais lente, réservée aux environnements statiques) et planification locale conservative (rapide mais myope). En fusionnant les deux boucles sur GPU, G-MAPP vise à éliminer ce compromis. Pour un intégrateur industriel ou un COO de ligne d'assemblage, cela ouvre la voie à des cellules robotiques reconfigurables sans reprogrammation manuelle, avec des bras capables de coexister avec des opérateurs humains en mouvement, à condition que les performances tiennent sur des géométries de charge plus représentatives. La génération de mouvement réactif mobilise depuis plusieurs années des approches concurrentes : planificateurs neuronaux (MPINETS, MotionBenchMaker), champs de potentiel riemanniens (RMP-Flow, STORM), et méthodes MPC sur horizon glissant. G-MAPP se positionne dans la lignée des planificateurs par champs vectoriels accélérés, avec la particularité de traiter la perception et la planification dans le même pipeline GPU. Le Franka Emika reste une plateforme académique standard, et aucun partenariat industriel ni roadmap de commercialisation n'est mentionné dans le preprint : il s'agit d'une contribution de recherche à confirmer sur des bras à charge utile plus élevée, des vitesses d'obstacles plus importantes, et des environnements multi-agents. Les prolongements naturels incluent les architectures multi-bras et l'intégration avec des pipelines de perception sémantique.

RecherchePaper
1 source
Y-BotFrame : un cadre extensible d'agents incarnés pour robots quadrupèdes assistants
341arXiv cs.RO 

Y-BotFrame : un cadre extensible d'agents incarnés pour robots quadrupèdes assistants

Des chercheurs du groupe XDEI ont publié en juin 2026, via arXiv (2606.13049), les spécifications de Y-BotFrame, un framework open-source conçu pour transformer un robot quadrupède générique en assistant mobile autonome piloté par le langage naturel. L'architecture intègre trois modalités de perception en parallèle, microphone (commandes vocales), caméra RGB-D (vision) et LiDAR (cartographie 3D), et repose sur un grand modèle de langage (LLM) comme noyau cognitif central. Ce LLM prend en charge la compréhension de l'environnement, le raisonnement contextuel et la planification de tâches, puis convertit les instructions en langage naturel en unités d'action exécutables par le robot. Le système supprime le besoin d'une télécommande physique, remplacée par une interface voix et un retour visuel temps réel. Il s'agit pour l'instant d'une annonce académique accompagnée d'une vidéo de démonstration, pas d'un produit commercialisé. L'intérêt industriel de Y-BotFrame réside dans son architecture modulaire dite "plug-and-play" : chaque sous-système (navigation, perception, interaction) peut être remplacé ou mis à niveau indépendamment, ce qui abaisse le coût d'intégration pour des déploiements sectoriels spécifiques (inspection, logistique d'entrepôt, assistance en environnement structuré). La chaîne voix-vers-action sans contrôleur dédié réduit la barrière de qualification opérateur, un argument concret pour les déployeurs B2B. Reste que les métriques de performance concrètes, latence de la boucle LLM, robustesse en conditions dégradées, autonomie, sont absentes du résumé publié, ce qui est typique des papiers arXiv en phase préliminaire. Les robots quadrupèdes à LLM embarqué forment un segment en effervescence : Unitree (Go2, H1) et Boston Dynamics (Spot) dominent le hardware, tandis que des frameworks comme LeRobot (HuggingFace), Open-X Embodiment ou π₀ (Physical Intelligence) se disputent la couche logicielle d'apprentissage généraliste. Y-BotFrame se positionne non pas comme un modèle VLA entraîné, mais comme une couche d'orchestration système, plus proche de ROS 2 avec un LLM que d'un modèle de politique end-to-end. La prochaine étape logique pour l'équipe XDEI sera de publier des benchmarks sur un hardware cible identifié et des résultats de déploiement réel hors laboratoire.

RecherchePaper
1 source
AIR-VLA+ : découplage mouvement-manipulation par décodeurs bi-actions en cascade avec MoE asymétrique pour robots aériens
342arXiv cs.RO 

AIR-VLA+ : découplage mouvement-manipulation par décodeurs bi-actions en cascade avec MoE asymétrique pour robots aériens

Une équipe de chercheurs a publié en juin 2026 AIR-VLA+, une architecture de génération d'actions par flow matching conçue spécifiquement pour la manipulation aérienne, soit des systèmes combinant un drone (UAV) et un bras manipulateur embarqué. L'architecture repose sur deux décodeurs d'action en cascade distincts : l'un dédié à la manipulation du bras, l'autre au déplacement du UAV. Le décodeur de mouvement peut observer l'intention du manipulateur (via un projecteur visuel de saisie implicite), mais l'inverse n'est pas vrai, limitant l'impact du bruit de navigation sur la stabilité du bras. Un module MoE (Mixture of Experts) asymétrique, opérant au niveau des features plutôt qu'au niveau des tokens, permet à différents experts de mouvement de se spécialiser spontanément selon les phases de tâche au cours de l'entraînement. Sur le benchmark standardisé AIR-VLA, AIR-VLA+ obtient un score global de 48,0, soit une progression de 80,2 % par rapport à la politique single-head pi-0.5, surpassant tous les baselines testés. Ce résultat pointe un problème structurel longtemps sous-estimé dans les VLA appliqués à la robotique composite : le couplage de représentation. Un drone et un bras manipulateur diffèrent radicalement en échelle d'action, en dynamique et en objectifs de contrôle. Les architectures end-to-end classiques, en traitant les deux dans le même espace de représentation, génèrent des conflits de gradient qui dégradent la stabilité de la manipulation. AIR-VLA+ démontre qu'un découplage asymétrique explicite -- avec flux d'information unidirectionnel -- permet de résoudre ce conflit sans sacrifier la coordination globale de la tâche. Pour les intégrateurs industriels travaillant sur l'inspection d'infrastructure ou la logistique verticale, c'est un signal que les politiques génériques entraînées sur des robots bipèdes ou mobiles au sol ne sont pas directement transférables. La manipulation aérienne reste un sous-domaine peu industrialisé par rapport aux AMR au sol ou aux bras fixes. Les VLA de référence -- pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure) -- sont tous conçus pour des plateformes terrestres ou humanoïdes. AIR-VLA+ s'inscrit dans un effort de benchmarking spécifique à ce segment, avec la publication conjointe d'un benchmark dédié (AIR-VLA). Aucun déploiement terrain ni partenaire industriel n'est mentionné dans le preprint, ce qui le positionne clairement comme une contribution de recherche en amont. Les prochaines étapes logiques seraient une validation sim-to-real sur des tâches de saisie en environnement non structuré et une comparaison avec des architectures diffusion-based comme Diffusion Policy.

RechercheOpinion
1 source
IA multimodale et multi-agents pour l'alignement cognitif robotique via interface cerveau-ordinateur non invasive : exploration de concept
343arXiv cs.RO 

IA multimodale et multi-agents pour l'alignement cognitif robotique via interface cerveau-ordinateur non invasive : exploration de concept

Une équipe de recherche a publié en juin 2026 sur arXiv (réf. 2606.13190) un framework en preuve de concept pour synchroniser les communications de systèmes multi-agents robotiques avec l'état cognitif en temps réel de l'opérateur. L'architecture repose sur un casque EEG grand public (interface cerveau-ordinateur non invasive) qui surveille en continu les puissances spectrales des bandes EEG, indicateurs de charge mentale et d'engagement. Lorsqu'un engagement élevé est détecté, un mécanisme de signalisation HTTP place les entrées sensorielles et les sorties audio de l'agent principal en file d'attente, pendant que des agents secondaires traitent des tâches déléguées en arrière-plan. Dès que la charge cognitive revient à un niveau basal, les messages sont libérés. Le démonstrateur couple LLMs et robots physiques dans cette boucle fermée, sans que la publication ne précise les modèles utilisés ni ne fournisse de métriques quantifiées de performance. Le problème ciblé est réel dans les déploiements multi-agents : les systèmes proactifs interrompent fréquemment les opérateurs à des moments inopportuns, engendrant surcharge cognitive et baisse de performance. En conditionnant les interruptions robotiques à l'état neurophysiologique mesuré, ce framework propose une alternative aux approches classiques basées sur les pauses vocales, les gestes ou les patterns d'interaction. Pour un intégrateur de cobots ou un responsable d'atelier automatisé, l'enjeu concret est de limiter les erreurs liées aux changements de contexte forcés. Les auteurs revendiquent la "faisabilité" du concept, terme qui signale une exploration préliminaire, pas une validation industrielle. La recherche BCI est longtemps restée confinée aux applications médicales et aux laboratoires de pointe. L'usage de casques EEG grand public, comme ceux d'Emotiv, ouvre une piste de scalabilité sans équipement clinique, bien que les conditions de bruit EEG en milieu industriel restent un défi que le papier ne traite pas. Des approches concurrentes détectent la charge cognitive par vision (eye tracking, micro-expressions) ou capteurs physiologiques (GSR, fréquence cardiaque). En HRI, des groupes académiques nord-américains et européens explorent des problématiques voisines, notamment autour des conférences IEEE RAS et de labos de robotique cognitive en Allemagne, au Royaume-Uni et en France. Les prochaines étapes logiques incluent des expérimentations sur cohortes élargies, des benchmarks en conditions de bruit réel, et une intégration avec des plateformes robotiques industrielles identifiées.

UEDes laboratoires de robotique cognitive en Allemagne, au Royaume-Uni et en France travaillent sur des problématiques HRI similaires ; ce concept BCI pourrait alimenter leurs travaux, mais sans déploiement ni partenariat européen identifié à ce stade.

RecherchePaper
1 source
EgoMoD : prédire des cartes globales de dynamiques à partir d'observations égocentrées locales
344arXiv cs.RO 

EgoMoD : prédire des cartes globales de dynamiques à partir d'observations égocentrées locales

EgoMoD (arXiv:2603.00167v2) est une méthode de navigation robotique qui prédit des cartes globales de dynamique de mouvement, appelées Maps of Dynamics (MoDs), depuis de courtes séquences vidéo égocentrées collectées par le robot lui-même. Les MoDs représentent de façon structurée les tendances de mouvement dans un espace donné, offrant un support pour la planification à long terme. L'architecture, conditionnée par la vidéo et la pose du robot, est entraînée par supervision privilégiée : des MoDs calculées depuis des capteurs externes servent de signal d'apprentissage, mais à l'inférence, seuls les capteurs embarqués standards sont requis. Les expériences couvrent de grands environnements simulés, et une validation sur images réelles démontre un transfert zéro-shot sans fine-tuning. L'enjeu pour les robots mobiles autonomes (AMR) déployés dans des environnements peuplés est concret : la navigation réactive, limitée au champ de vision immédiat, contraint la fluidité des déplacements dans des espaces denses comme les entrepôts ou les hôpitaux. Les MoDs permettent une planification préemptive en anticipant la position probable des personnes avant qu'elles n'entrent dans le périmètre de détection. Jusqu'ici, ce type de carte dynamique exigeait une infrastructure fixe (caméras de surveillance, systèmes de suivi centralisés), incompatible avec des déploiements agiles. EgoMoD supprime cette contrainte : la carte prédictive se construit depuis les données d'opération courante, ce qui ouvre la voie à des déploiements sans modifier l'infrastructure existante. Les MoDs s'inscrivent dans un champ de recherche actif sur les représentations dynamiques, au-delà des cartes d'occupation statiques ; les approches antérieures nécessitaient des capteurs fixes sur de longues périodes, ce qui ralentissait le déploiement opérationnel. EgoMoD rejoint une tendance à exploiter des architectures vidéo pour inférer des priors dynamiques, terrain partagé avec des modèles comme Trajectron++ ou Social-LSTM. À noter : les résultats quantitatifs principaux sont issus de simulations ; la validation sur images réelles démontre le transfert zéro-shot mais sans évaluation end-to-end de navigation complète. Aucun partenaire industriel ni calendrier de production n'est mentionné dans la publication, et la disponibilité du code source reste à confirmer.

RecherchePaper
1 source
EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon
345arXiv cs.RO 

EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon

Des chercheurs ont soumis EA-WM (Event-Aware World Model) sur arXiv le 12 juin 2026 (arXiv:2606.13053), un cadre de planification robotique pour la manipulation à long horizon. Le système articule deux couches : une dynamique en espace de caractéristiques visuelles gelée (pretrained visual features) sur laquelle vient se greffer un module de prédiction et vérification d'événements ancré dans la spécification de tâche. EA-WM déroule des futurs candidats dans cet espace, les décode en états d'événements structurés (objet déplacé, état de contact changé, prédicat de placement satisfait), puis les score selon quatre critères : progression de la tâche, cohérence sémantique, faisabilité physique et incertitude. Le vérificateur guide l'exploration par échantillonnage et filtre les actions candidates. Dans le benchmark LIBERO, scénario wine-rack sensible aux contacts, il sélectionne parmi des propositions générées par PPO (Proximal Policy Optimization). Les évaluations couvrent navigation, manipulation d'objets déformables, contraintes murales et instructions en langage naturel. L'apport principal est de combler un angle mort structurel des modèles du monde visuels : prédire un futur visuellement plausible ne garantit pas qu'il satisfasse des conditions relationnelles de tâche (prédicats du type "le tiroir est ouvert", "l'objet est posé à l'emplacement cible"). En ajoutant une vérification explicite au niveau événementiel, EA-WM rend les modèles du monde en espace latent à la fois plus interprétables et mieux alignés avec la progression réelle des tâches, sans exiger de nouvelles données de démonstration massives. Pour un intégrateur ou un ingénieur robotique, cela ouvre un potentiel de planification robuste sans dépendre exclusivement de politiques bout-en-bout coûteuses à entraîner. Les modèles du monde en robotique connaissent une accélération depuis DreamerV3 (Google DeepMind) et les architectures VLA comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA. EA-WM se positionne dans un créneau intermédiaire : il ne remplace pas les politiques d'action mais renforce la phase de planification amont, en s'appuyant sur LIBERO comme benchmark multi-tâches désormais standard dans la communauté. À noter que ces résultats restent entièrement en simulation ; la validation sur du matériel réel et le sim-to-real transfer, points encore ouverts dans le domaine, constitueraient l'étape suivante naturelle pour démontrer une applicabilité industrielle effective.

RechercheOpinion
1 source
WOMBET : transfert d'expérience par modèle du monde pour un apprentissage par renforcement robuste et efficace
346arXiv cs.RO 

WOMBET : transfert d'expérience par modèle du monde pour un apprentissage par renforcement robuste et efficace

Une équipe de chercheurs présente WOMBET (World Model-Based Experience Transfer), un cadre d'apprentissage par renforcement (RL) publié sur arXiv sous la référence 2604.08958 (troisième version, indiquant un travail en révision active). Le constat de départ est simple : en robotique, collecter des données d'entraînement est coûteux et potentiellement risqué, ce qui freine l'adoption du RL réel. WOMBET répond à ce problème en deux temps. D'abord, un modèle du monde (world model) est appris sur une tâche source, et sert à générer synthétiquement un jeu de données hors-ligne via une planification pénalisée par l'incertitude épistémique. Les trajectoires générées sont ensuite filtrées selon deux critères : rendement cumulé élevé et faible incertitude. Ensuite, un agent s'affine en ligne sur la tâche cible, avec un échantillonnage adaptatif qui équilibre progressivement données offline (issues du world model) et données online (issues de l'environnement réel), assurant une transition stable. Les auteurs formalisent également que l'objectif pénalisé constitue une borne inférieure du rendement vrai, et décomposent l'erreur finie en termes de décalage de distribution et d'erreur d'approximation. Le gain pratique est réel : WOMBET améliore la vitesse de convergence et les performances finales sur des benchmarks de contrôle continu (probablement DeepMind Control Suite ou MuJoCo, non précisés dans l'abstract) par rapport à des baselines solides. Pour la robotique industrielle, où chaque heure de collecte sur robot physique se paie cher, la capacité à générer des données fiables via un modèle appris, tout en contrôlant leur qualité par l'incertitude, est un levier concret. La double garantie -- théorique et empirique -- est rare dans ce domaine et renforce la crédibilité de l'approche au-delà d'un simple résultat expérimental. Ce travail s'inscrit dans un courant actif qui associe world models et RL offline-to-online, où des systèmes comme DreamerV3 ou TD-MPC2 font référence. WOMBET se distingue en ciblant explicitement le problème du transfert inter-tâche, là où la majorité des approches existantes supposent un jeu de données fixe et pré-collecté. Aucune entreprise ni partenariat industriel n'est mentionné ; il s'agit de recherche académique à stade préprint. Trois versions déposées suggèrent des révisions significatives en cours, possiblement vers une soumission en conférence (NeurIPS, ICML, CoRL). Les prochaines étapes naturelles seraient une validation sur hardware réel et une comparaison avec des méthodes de sim-to-real transfer plus classiques.

RecherchePaper
1 source
Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques
347arXiv cs.RO 

Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques

MiDiGap (Mixture of Discrete-time Gaussian Processes) est une méthode d'apprentissage par imitation pour la manipulation robotique, publiée en mai 2025 en preprint arXiv (2505.03296v2) par des chercheurs de l'Université de Fribourg-en-Brisgau. Elle apprend des politiques de contrôle à partir de seulement cinq démonstrations, en utilisant uniquement des observations caméra, et converge en moins d'une minute sur CPU standard. Le spectre de tâches couvert est large: comportements à longue horizon comme préparer un café, mouvements très contraints comme ouvrir une porte, actions dynamiques comme manier une spatule, et tâches multimodales comme accrocher une tasse. Sur le benchmark simulé RLBench, la méthode affiche un gain de 76 points de pourcentage de succès sur les tâches contraintes, réduit le coût de trajectoire de 67%, et progresse de 48 points sur les tâches multimodales avec une efficacité d'échantillonnage multipliée par 20. En transfert cross-embodiment, c'est-à-dire l'adaptation d'une politique à un robot de morphologie différente sans réentraînement complet, le taux de succès est plus que doublé. Le code est publié en open-source. L'enjeu principal est le coût d'entrée à l'apprentissage par imitation. Les architectures actuellement dominantes, Diffusion Policy (Columbia), ACT (Stanford/Berkeley) ou les VLA comme Pi-0 de Physical Intelligence, nécessitent des milliers de démonstrations et des ressources GPU conséquentes. Une méthode compétitive opérant sur CPU en moins d'une minute élargit concrètement l'accès aux intégrateurs et PME robotiques sans infrastructure ML dédiée. La fonctionnalité de pilotage à l'inférence (inference-time steering) est aussi notable: en injectant des signaux de collision ou des contraintes cinématiques du robot directement à l'inférence, sans réentraînement, MiDiGap permet une adaptation dynamique aux contraintes physiques réelles, propriété rare dans les méthodes actuelles et potentiellement précieuse pour les déploiements industriels. L'Université de Fribourg-en-Brisgau s'impose ici comme un acteur européen de poids dans l'apprentissage robotique, aux côtés d'ETH Zurich et du DLR. MiDiGap entre en concurrence directe avec Diffusion Policy, ACT, mais aussi avec les fondations propriétaires comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). Un bémol important: toutes les métriques annoncées proviennent de RLBench, un benchmark entièrement en simulation. La robustesse sim-to-real, c'est-à-dire le maintien des performances sur des robots réels dans des conditions non contrôlées, reste à démontrer. La mise en open-source sur midigap.cs.uni-freiburg.de devrait permettre une évaluation indépendante et une validation sur plateformes réelles dans les prochains mois.

UEL'Université de Fribourg-en-Brisgau (Allemagne) produit un concurrent open-source direct aux fondations propriétaires américaines (Pi-0, GR00T N2), accessible sans GPU aux intégrateurs et PME robotiques européens, renforçant la capacité européenne en apprentissage robotique face aux acteurs US.

RecherchePaper
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
348arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source
L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes
349arXiv cs.RO 

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes

Une étude publiée sur arXiv le 11 juin 2026 (réf. 2606.11891) présente une comparaison rigoureuse de deux architectures de critique en apprentissage par renforcement multi-objectifs pour robots humanoïdes : un critique unifié (un seul réseau estimant la valeur combinée de tous les objectifs) contre des critiques duaux (deux réseaux distincts, chacun associé à un signal de récompense séparé, l'un pour la locomotion, l'autre pour la manipulation). Les expériences ont été conduites sur le Unitree G1, un humanoïde à 23 degrés de liberté actifs, dans le simulateur NVIDIA Isaac Lab, via un curriculum séquentiel de 13 niveaux progressant de l'atteinte stationnaire jusqu'à la marche avec des cibles à orientation variable. Résultat : les politiques entraînées avec critiques duaux atteignent leurs cibles 3,5 fois plus vite (6,5 pas de simulation contre 22,6), affichent un débit deux fois supérieur (14,3 contre 7,0 atteintes validées pour 1 000 pas), et un taux de réussite validé de 65,2 % contre 53,8 % pour le critique unifié. Ce que l'étude démontre, c'est que le choix de l'architecture du critique est un levier de conception primaire, souvent négligé, dont l'impact surpasse celui du reward engineering. Fait notable : l'ajout de mécanismes anti-gaming, conçus pour empêcher la politique d'exploiter les failles de la fonction de récompense, ne produit aucun gain au-delà du changement architectural seul (60,9 % contre 65,2 %). L'implication la plus immédiate concerne le fine-tuning RL de politiques pré-entraînées par imitation : lorsqu'on affine un modèle de manipulation déjà appris (style Pi-0 ou GR00T N2), un critique unifié risque de supprimer les comportements acquis par interférence des gradients de locomotion. Pour les équipes qui cherchent à spécialiser des modèles de fondation robotiques par RL, cette mise en garde est directement opérationnelle. Le Unitree G1, vendu autour de 16 000 dollars, est devenu un banc de test standard pour la recherche en humanoïde abordable, face aux plateformes de Figure AI, Agility Robotics ou 1X Technologies qui opèrent sur des gammes de prix bien supérieures. NVIDIA Isaac Lab, successeur d'Isaac Gym, s'est imposé comme l'environnement de référence pour l'entraînement sim-to-real. La question du découplage locomotion/manipulation en RL multi-objectifs est au coeur de plusieurs groupes de recherche (Stanford, CMU, ETH Zurich), et les résultats de cette étude, issus d'un cadre contrôlé et reproductible, offrent une base solide pour orienter les choix d'architecture avant tout entraînement coûteux sur robot réel.

RecherchePaper
1 source
Évaluation multimodale de la perception robotique en environnements naturels
350arXiv cs.RO 

Évaluation multimodale de la perception robotique en environnements naturels

Des chercheurs du CSIRO (Commonwealth Scientific and Industrial Research Organisation, Australie) ont publié en juin 2026 le benchmark WildCross, un jeu de données multi-modal destiné à évaluer les systèmes de perception robotique dans des environnements naturels non structurés. Le dataset comprend plus de 476 000 frames RGB séquentielles annotées avec profondeur semi-dense, normales de surface, pose 6DoF précise et sous-cartes lidar denses synchronisées. WildCross cible deux tâches clés : la reconnaissance de lieu (place recognition) et l'estimation de profondeur métrique, deux briques fondamentales pour la navigation autonome en extérieur. L'article, disponible en preprint sur arXiv (2606.11563), constitue une extension d'une publication précédente avec un focus particulier sur les expériences d'estimation de profondeur. Le benchmark révèle une faiblesse structurelle des modèles de vision actuels, notamment les vision foundation models (type DINOv2, SAM ou DepthAnything) : entraînés massivement sur des données urbaines structurées (routes, bâtiments, feux de signalisation), ils se dégradent significativement face aux textures répétitives, aux variations d'éclairage et à l'absence de repères géométriques nets caractéristiques des milieux forestiers, agricoles ou montagneux. Pour les intégrateurs en robotique de terrain (agriculture de précision, inspection d'infrastructures, opérations de recherche et sauvetage), cela confirme ce que les praticiens suspectent depuis longtemps : les benchmarks urbains comme KITTI ou NYUv2 ne prédisent pas les performances réelles sur le terrain. Le CSIRO Robotics est l'un des principaux laboratoires mondiaux sur la robotique en environnements difficiles, notamment via ses contributions au challenge DARPA Subterranean et au développement du robot Spot dans des mines australiennes. WildCross entre en compétition directe avec des initiatives comme RUGD, RELLIS ou le benchmark TartanAir sur la question du sim-to-real en outdoor, mais se distingue par l'intégration de lidar dense synchronisé permettant une vérité terrain de profondeur plus fiable. Le dataset et le code sont accessibles publiquement via csiro-robotics.github.io/WildCross. Les prochaines étapes annoncées incluent l'évaluation de modèles VLA (vision-language-action) sur ce corpus, ce qui pourrait élargir la portée du benchmark au-delà de la seule perception passive.

UELes équipes européennes en robotique de terrain (agriculture de précision, inspection d'infrastructures) peuvent utiliser ce benchmark open-source pour évaluer objectivement leurs modèles de perception en environnement non structuré, confirmant que les référentiels urbains classiques ne prédisent pas les performances réelles sur le terrain.

RecherchePaper
1 source