Aller au contenu principal

Dossier arXiv cs.RO — page 16

2263 articles · page 16 sur 46

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Passage de messages amélioré par flots normalisants pour la localisation collaborative multi-robots
751arXiv cs.RO RecherchePaper

Passage de messages amélioré par flots normalisants pour la localisation collaborative multi-robots

Des chercheurs proposent dans un preprint arXiv (identifiant 2606.29868, juin 2026) un algorithme de passage de messages pour la localisation collaborative distribuée de flottes multi-robots, en unifiant la propagation de croyances gaussiennes (GBP) et l'approximation champ moyen (MF). GBP préserve les dépendances entre les états des robots, tandis que MF estime dynamiquement les statistiques de bruit. Pour traiter les termes non conjugués issus de modèles de mesure non linéaires, l'algorithme intègre un estimateur de gradient basé sur des flux normalisants (NF), des modèles génératifs qui rendent l'échantillonnage paramétrique et entraînable de bout en bout, les paramètres du NF étant ajustés selon le comportement du passage de messages lors d'un entraînement global. La méthode est étendue aux espaces d'états sur groupes de Lie pour représenter correctement les rotations 3D, puis validée sur des véhicules de surface autonomes (ASV) en fusionnant odométrie, mesures GNSS et télémétrie inter-robots ultra-wideband (UWB). La nature distribuée de l'algorithme élimine tout point de défaillance centralisé : chaque robot maintient et propage ses propres estimations, ce qui est critique pour des flottes opérant en environnements dégradés ou à couverture GNSS partielle. L'intégration des flux normalisants comme estimateurs de gradient rend l'approximation adaptative, là où la linéarisation classique (EKF) perd en précision face à des non-linéarités fortes. La fusion odométrie/GNSS/UWB couvre explicitement les situations où le signal satellite seul est insuffisant, configuration typique en milieu maritime, portuaire ou en zone urbaine dense. La localisation collaborative multi-robots est un domaine actif depuis les années 2000, avec des approches allant des filtres particulaires décentralisés aux graphes de facteurs incarnés par des systèmes comme COVINS ou Kimera-Multi. L'apport des flux normalisants au cadre de passage de messages reste récent, et la validation expérimentale sur ASVs en simulation et en conditions réelles distingue ce travail des contributions purement théoriques. Les auteurs n'annoncent pas de déploiement opérationnel : l'étape suivante probable est la montée en échelle vers des flottes plus larges et l'intégration dans des pipelines de navigation pour l'inspection maritime ou la logistique portuaire autonome.

1 source
Modèles vision-langage pour la navigation de robots sociaux déployables : relier le raisonnement sémantique et le contrôle de bas niveau
752arXiv cs.RO 

Modèles vision-langage pour la navigation de robots sociaux déployables : relier le raisonnement sémantique et le contrôle de bas niveau

Des chercheurs ont publié fin juin 2026 une étude de synthèse (arXiv:2606.28760) consacrée à l'intégration des modèles vision-langage (VLM) dans les systèmes de navigation sociale pour robots mobiles. Le papier, qui recense l'état de l'art dans ce domaine encore fragmenté, structure les approches existantes autour de trois composantes interdépendantes : le raisonnement de haut niveau assuré par le VLM, les modules de planification et de contrôle bas niveau, et les mécanismes intermédiaires qui assurent la traduction entre les deux couches. Les auteurs proposent en parallèle une feuille de route structurée couvrant l'ancrage spatial, les représentations intermédiaires, les évaluateurs sémantiques et les modules de contrôle, avec une revue des jeux de données et plateformes d'évaluation disponibles pour la navigation sociale. L'enjeu mis en évidence est précisément celui qui bloque le passage en production de nombreux robots de service : les méthodes classiques de navigation (SLAM, planification métrique, évitement d'obstacles) sont fiables mais aveugles aux normes sociales, aux intentions humaines et au contexte situationnel. Un robot qui calcule la trajectoire optimale dans un couloir d'hôpital ne sait pas, sans couche sémantique, qu'il coupe la route à un soignant pressé ou s'arrête trop près d'un patient. Les VLMs apportent ce raisonnement commun et la compréhension du langage naturel, mais leur latence et leur non-déterminisme les rendent difficiles à coupler directement à des boucles de contrôle temps-réel et safety-critical. L'article argumente que des architectures hybrides, VLM pour le raisonnement, contrôleurs classiques pour l'exécution, sont aujourd'hui la seule voie viable vers le déploiement. Ce travail s'inscrit dans un mouvement plus large d'hybridation entre fondation models et robotique embarquée, porté ces deux dernières années par des papiers comme RT-2 (Google DeepMind), SayCan (Everyday Robots) et les travaux de navigation sémantique de CMU et Stanford. Côté industriel, les plateformes de robots de service (Keenon, Pudu, Bear Robotics côté asie-pacifique ; Enchanted Tools en France avec Miroki) cherchent précisément à résoudre ce passage de l'interaction naturelle au mouvement contraint. Le survey ne décrit pas un système déployé mais un cadre de référence académique, à lire comme une cartographie des briques disponibles plutôt que comme une validation terrain.

UEEnchanted Tools (Miroki, France) est directement concerné par cette feuille de route : le survey valide l'approche hybride VLM + contrôle classique comme voie viable pour les robots de service sociaux, fournissant un cadre de référence utilisable par les équipes R&D européennes travaillant sur le déploiement en milieux contraints.

IA physiqueOpinion
1 source
WoVR : des modèles du monde comme simulateurs fiables pour l'entraînement post-déploiement des politiques VLA par renforcement
753arXiv cs.RO 

WoVR : des modèles du monde comme simulateurs fiables pour l'entraînement post-déploiement des politiques VLA par renforcement

Des chercheurs ont publié sur arXiv (référence 2602.13977v2) un framework nommé WoVR, conçu pour entraîner via du reinforcement learning (RL) des politiques de type Vision-Language-Action (VLA) sans recourir à des milliers d'heures d'interaction physique réelle. Le principe : substituer le robot réel par un modèle du monde appris, c'est-à-dire un modèle vidéo conditionné par les actions qui prédit le comportement de l'environnement. WoVR articule trois mécanismes distincts : un modèle vidéo action-conditionné à stabilité contrôlée, une stratégie baptisée Keyframe-Initialized Rollouts qui réinitialise les trajectoires imaginées à partir d'images-clés pour limiter l'accumulation d'erreurs sur l'horizon, et une co-évolution conjointe du modèle du monde et de la politique pour maintenir leur cohérence dans le temps. Les expériences rapportées montrent des gains sur le benchmark LIBERO et des améliorations mesurées sur plusieurs plateformes robotiques physiques. Ce travail s'attaque à un verrou central du post-entraînement des VLA : le RL promet d'aller au-delà de l'imitation learning, mais ses besoins en données d'interaction rendent son application directe sur robot physique quasi prohibitive. La contribution de WoVR est de montrer qu'un modèle du monde imparfait peut néanmoins servir de simulateur RL fiable, à condition de contrôler explicitement ses hallucinations plutôt que de les ignorer. C'est un signal positif pour la thèse que le sim-to-real, appliqué non au niveau du rendu physique mais au niveau de la prédiction vidéo apprise, peut débloquer l'optimisation de politiques à grande échelle. La nuance importante : les résultats sont publiés sous forme de papier de recherche, les démonstrations sont disponibles sur wovr-corl.github.io, mais aucun déploiement industriel n'est revendiqué. WoVR s'inscrit dans une vague de recherche qui cherche à reproduire pour la robotique ce que le RL a accompli pour les grands modèles de langage. Les VLA comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA ont montré des capacités impressionnantes en imitation, mais leur amélioration par RL reste un problème ouvert. D'autres approches concurrentes misent sur des simulateurs physiques classiques (Isaac Lab, MuJoCo) ou sur du RL directement en conditions réelles, avec des cycles de collecte longs et coûteux. WoVR propose une troisième voie via les world models vidéo, dans la lignée des travaux de type DIAMOND ou DreamerV3 appliqués à la robotique. La soumission cible CORL, conférence de référence du domaine, ce qui suggère une prochaine validation par les pairs et potentiellement une intégration dans les pipelines d'entraînement open-source des équipes académiques et industrielles dès 2026.

RechercheOpinion
1 source
Mémoire analytique centrée sur les concepts pour la manipulation incarnée à base d'agents
754arXiv cs.RO 

Mémoire analytique centrée sur les concepts pour la manipulation incarnée à base d'agents

Une équipe de recherche a soumis le 30 juin 2026 sur arXiv (arXiv:2606.29774) un cadre de mémoire structurée pour agents de manipulation robotique à long horizon. Baptisé "analytic concept-centric memory", le système organise l'expérience autour de concepts analytiques : chaque objet est représenté par ses parties sémantiques, des gabarits paramétriques, des poses ancrées dans l'espace, ses affordances et ses états de manipulation. Deux couches supplémentaires complètent l'architecture : une mémoire de transitions enregistrant les effets des actions sur l'état de scène, et une mémoire de compétences (skill memory) stockant des politiques réutilisables ancrées dans ces gabarits. À l'exécution, l'agent effectue une récupération coarse-to-fine pour identifier objets pertinents, états courants et compétences applicables. Les auteurs valident leur approche sur des tâches de manipulation dépendantes de la mémoire, la généralisation à des objets articulés (portes, tiroirs) et une évaluation en environnement réel. La gestion de mémoire reste un goulet d'étranglement critique en manipulation longue durée. Les agents actuels, y compris ceux fondés sur des architectures VLA (Vision-Language-Action), peinent à réutiliser les connaissances acquises lors d'interactions passées, forçant une replanification coûteuse à chaque nouvelle tâche. Ce cadre montre que structurer explicitement la mémoire autour de concepts physiques améliore le taux de complétion de tâches, la précision de récupération, la réidentification d'objets et la généralisation de compétences inter-objets, par rapport aux baselines non structurées et aux représentations vectorielles par embeddings. Pour les intégrateurs industriels, c'est un signal que la réutilisabilité des compétences sans réentraînement complet commence à devenir atteignable, ce qui réduit potentiellement les coûts de déploiement dans des environnements variables. La manipulation robotique à long horizon est un chantier actif chez plusieurs acteurs majeurs : Google DeepMind avec ses architectures RT-2 et SayCan, Physical Intelligence et son modèle Pi-0, Boston Dynamics, ainsi que des laboratoires comme Stanford et ETH Zurich. Ce travail s'inscrit dans une lignée cherchant à concilier planification symbolique structurée et politiques neuronales, deux paradigmes longtemps opposés. Ce preprint n'a pas encore été soumis à revue par les pairs, et les benchmarks restent des environnements de laboratoire contrôlés. La démonstration sur une plateforme industrielle réelle, avec la diversité des objets, le bruit sensoriel et les contraintes temps réel, reste à établir. Les prochaines étapes naturelles incluent l'intégration avec des VLA à grande échelle et l'évaluation sur des manipulateurs ou humanoïdes en contexte de production semi-réelle.

RechercheOpinion
1 source
CORE : régularités communes issues de démonstrations visuelles sans actions pour la manipulation robotique
755arXiv cs.RO 

CORE : régularités communes issues de démonstrations visuelles sans actions pour la manipulation robotique

Des chercheurs ont publié fin juin 2026 CORE (Common Outcome Regularities from Action-Free Visual Demonstrations), un cadre d'apprentissage de politique robotique conçu pour exploiter des vidéos humaines sans annotations de mouvements, afin d'entraîner des robots manipulateurs. La méthode s'appuie sur une observation clé : bien que les trajectoires menant à une même tâche varient, leurs états terminaux partagent des configurations d'objets stables, des relations spatiales et des contraintes de contact reproductibles. CORE entraîne d'abord un encodeur d'état terminal par apprentissage contrastif et objectifs temporels auxiliaires, agrège ensuite les embeddings terminaux réussis en prototypes visuels de but (visual goal prototypes), puis injecte ces prototypes comme conditions globales dans la politique de contrôle du robot. Les gains de taux de succès mesurés sur les benchmarks de référence sont de +3,9 points de pourcentage sur Meta-World, +11,1 pp sur RoboTwin 2.0, et jusqu'à +17,0 pp en manipulation réelle. L'enjeu est direct pour les intégrateurs : collecter des démonstrations robotiques est coûteux en équipement, en opérateurs et en temps de setup, tandis que des millions d'heures de vidéos humaines d'assemblage, de logistique ou de cuisine existent déjà. L'écart morphologique entre la main humaine et un préhenseur robotique a jusqu'ici rendu ces vidéos inutilisables pour l'apprentissage par imitation direct. CORE contourne le problème en ne cherchant pas à transférer les actions elles-mêmes, mais uniquement les régularités des états finaux. Le gain de +17 pp en conditions réelles est particulièrement notable car il indique une réduction du fossé sim-to-real sans contrainte sur la morphologie du robot. En surpassant les variantes conditionnées par texte (architecture VLA classique), CORE suggère que les prototypes visuels de but apportent des contraintes géométriques et physiques plus exploitables que les instructions en langage naturel, une nuance importante pour la calibration de politiques multi-tâches. L'apprentissage par imitation depuis des vidéos humaines est un axe de recherche actif, porté notamment par Google DeepMind avec RT-2, Physical Intelligence avec pi-0, et Meta FAIR. Des méthodes comme R3M ou VIP apprennent des représentations visuelles transférables depuis des vidéos humaines, mais CORE cible spécifiquement les états terminaux plutôt que les représentations d'observation générales, ce qui constitue sa distinction architecturale principale. Les benchmarks retenus, Meta-World et RoboTwin 2.0, sont reconnus sans être universellement adoptés, ce qui limite les comparaisons directes avec les résultats concurrents. Aucun partenariat industriel ni déploiement commercial n'est mentionné : il s'agit d'un preprint arXiv, dont les suites dépendront de réplications indépendantes et d'extensions vers des tâches plus complexes, notamment la manipulation en chaîne longue ou en environnements non structurés.

RechercheOpinion
1 source
Limites de stabilité et performance motrice dans les interactions dyadiques médiées par robot avec délai
756arXiv cs.RO 

Limites de stabilité et performance motrice dans les interactions dyadiques médiées par robot avec délai

Une équipe de chercheurs publie sur arXiv (référence 2510.14511, troisième révision) un cadre analytique permettant de déterminer avec précision les frontières de stabilité dans les systèmes d'interaction haptique à distance entre deux opérateurs humains médiatisés par un robot. La méthode repose sur une approche de passage par zéro dans le domaine fréquentiel, qui contourne les approximations conservatives habituellement employées dans la littérature pour extraire des limites de stabilité explicites, directement liées aux dynamiques matérielles du robot et à la raideur de couplage entre les interfaces. Les auteurs étendent ensuite l'analyse d'un couplage élastique simple vers une topologie de proxy virtuel asymétrique et complexe, démontrant la généralité du framework. Le résultat théorique central est que la raideur d'interaction contraint de manière non linéaire la marge de stabilité du système: augmenter la rigidité du couplage accroît la sensibilité aux délais réseau, ce qui est contre-intuitif pour des concepteurs habitués aux systèmes mécaniques passifs. Ce résultat est validé expérimentalement par des essais montrant une corrélation directe entre les marges de stabilité analytiques et les performances motrices empiriques mesurées lors d'interactions dyadiques avec délai. Pour les intégrateurs de solutions haptiques téléopérées -- rééducation neuromotrice, chirurgie à distance, collaboration industrielle distribuée -- ce travail fournit des règles de conception rigoureuses et pose les conditions préalables à l'élaboration de stratégies effectives de compensation du délai. Ce papier s'inscrit dans un champ de recherche actif sur la téléhaptique et le contrôle bilatéral à distance, où les approches classiques comme les variables d'onde (wave variables) ou les modèles passifs souffrent souvent d'un conservatisme excessif qui pénalise les performances. Le problème du délai réseau est critique au-delà d'environ 100 ms de latence aller-retour, seuil au-delà duquel les systèmes haptiques conventionnels basculent vers l'instabilité. Cette contribution, sous forme de preprint en troisième itération, n'est pas encore un produit déployé mais un outil théorique destiné aux chercheurs et concepteurs de systèmes d'interaction haptique distante, avec une application potentielle directe en robotique médicale et dans les environnements collaboratifs industriels géographiquement distribués.

RecherchePaper
1 source
KYON : quadrupède semi-modulaire roues-pattes aux capacités bimanuelles agiles
757arXiv cs.RO 

KYON : quadrupède semi-modulaire roues-pattes aux capacités bimanuelles agiles

KYON est un robot quadrupède hybride roue-jambes, doté d'un torse bimanel, présenté dans un preprint arXiv (2606.30243) publié fin juin 2026 par une équipe dont l'affiliation institutionnelle n'est pas précisée dans l'abstract. La plateforme adopte une architecture semi-modulaire : les membres inférieurs sont reconfigurables, permettant de basculer entre locomotion sur roues et locomotion sur pattes selon le terrain. Plutôt que de distribuer les actionneurs le long des membres, KYON les concentre dans le châssis central et transmet le mouvement via des mécanismes de transmission, ce qui réduit l'inertie distale et améliore l'agilité dynamique. Le système de contrôle combine un cadre de contrôle du corps entier (whole-body control) avec une politique d'apprentissage par renforcement (RL), traitant séparément mais de façon coordonnée les tâches de locomotion et de manipulation. Les résultats expérimentaux rapportés valident la capacité du robot à opérer en locomotion dynamique et en manipulation bimane dans des environnements non structurés -- aucun chiffre précis de charge utile, de degrés de liberté ou de temps de cycle n'est communiqué dans l'abstract. L'intérêt de KYON pour les intégrateurs industriels et les décideurs B2B tient à la combinaison rare d'une base mobile à double mode (roue/patte) et d'une capacité de manipulation à deux bras sur un même châssis compact. La réduction de l'inertie distale via la centralisation des actionneurs est un choix de conception déjà validé sur des plateformes comme l'ANYmal de ANYbotics ou le MIT Cheetah, et son application à un système bimane à mobilité hybride constitue un apport méthodologique tangible. L'usage du RL pour absorber les perturbations dynamiques sans recalibration manuelle est cohérent avec les avancées récentes en sim-to-real, bien que les conditions exactes de test et les métriques de robustesse ne soient pas détaillées, ce qui limite l'évaluation externe à ce stade. Le marché des quadrupèdes mobiles est aujourd'hui dominé par Boston Dynamics (Spot), ANYbotics (ANYmal C/D), Unitree (B2, Go2) et, en France, des acteurs comme Wandercraft sur le segment bipède. La niche hybride roue-patte est occupée par peu de plateformes commerciales matures, ce qui positionne KYON comme un candidat de recherche dans un espace encore peu peuplé. Publié en preprint sans validation par les pairs, ce travail reste au stade de prototype de laboratoire : aucun partenaire industriel, aucun déploiement ni calendrier de commercialisation ne sont mentionnés. Les prochaines étapes naturelles seraient une publication en conférence (ICRA, IROS, RSS) et des tests en conditions réelles d'entrepôt ou de logistique.

RecherchePaper
1 source
CSAR : architecture système conteneurisée pour la robotique
758arXiv cs.RO 

CSAR : architecture système conteneurisée pour la robotique

Des chercheurs ont publié en juin 2026 CSAR (Containerized System Architecture for Robotics), un cadre architectural décrit dans un preprint arXiv (identifiant 2606.30293). L'architecture s'appuie sur la conteneurisation système via LXC/LXD, la communication inter-processus ROS 2/DDS, et une infrastructure edge organisée en trois couches : Infrastructure Core, Platform and Multi-User Orchestration, et Compute and Acceleration. Ces couches visent à créer des environnements d'exécution persistants et "hardware-affines", découplés des charges expérimentales volatiles. CSAR a été déployé et évalué dans un laboratoire de robotique académique à travers deux cas d'usage représentatifs : du SLAM 3D déporté sur serveur edge et de la cartographie sémantique accélérée par GPU. Les templates de déploiement, fichiers de configuration et documentation sont publiés en open source sur GitHub (goyoambrosio/CSAR). L'intégration logicielle en robotique distribuée souffre depuis des années de frictions récurrentes : isolation des dépendances défaillante, incompatibilités entre environnements embarqués et cloud, partage inefficace des GPU dans les équipes multi-utilisateurs. CSAR apporte une réponse structurée en séparant explicitement les couches d'infrastructure stables des workloads expérimentaux. Selon les auteurs, les résultats observés incluent une meilleure utilisation des ressources partagées, une intégration logicielle simplifiée et un prototypage plus sûr. Pour un intégrateur ou un responsable R&D, l'enjeu est concret : réduire le phénomène "works on my machine" et raccourcir le cycle test-déploiement sur des architectures edge hétérogènes, un problème chronique dans les labo multi-robots ou multi-chercheurs. L'adoption de Docker et Kubernetes en robotique s'est faite de manière ad hoc, sans tenir compte des contraintes spécifiques du secteur : latence temps-réel, accès direct au matériel (GPU, capteurs), et partage de ressources entre utilisateurs concurrents. CSAR s'inscrit dans un courant de travaux "devops for robotics" qui inclut AWS RoboMaker, les environnements CI Gazebo, ou encore des projets académiques sur la robotics cloud infrastructure. Il faut noter que CSAR reste pour l'instant une contribution de recherche avec un déploiement en labo académique, sans adoption industrielle annoncée. Les suites naturelles seraient une validation à plus grande échelle, sur des architectures multi-sites, ou une intégration dans des pipelines de déploiement de flottes robotiques réelles.

InfrastructureOpinion
1 source
PA-BiCoop : un cadre coopératif principal-auxiliaire pour la manipulation bimanuelle généraliste
759arXiv cs.RO 

PA-BiCoop : un cadre coopératif principal-auxiliaire pour la manipulation bimanuelle généraliste

Des chercheurs ont publié le 29 juin 2026 sur arXiv (arXiv:2606.28192) PA-BiCoop, un framework de manipulation bimanualle à modèle unique reposant sur une différenciation dynamique des rôles "primaire-auxiliaire". L'architecture déploie un encodeur de caractéristiques global partagé alimentant deux décodeurs spécialisés : le décodeur primaire génère la pose du bras principal en coordonnées absolues ainsi que des heatmaps d'affordance pour la tâche centrale, tandis que le décodeur auxiliaire produit la pose relative du bras de support dans le repère du bras primaire. Un module d'assignation dynamique des rôles détermine automatiquement quel bras (gauche ou droit) prend la position primaire ou auxiliaire à chaque étape de la tâche, sans pré-définition manuelle. Les benchmarks rapportés indiquent une progression de 48 % en moyenne sur les tâches de simulation RLBench2 par rapport aux meilleures baselines existantes, et de plus de 50 % sur des tâches en environnement réel. Ces résultats, s'ils se confirment à l'échelle, adressent un verrou bien identifié dans la manipulation bimanualle : la quasi-totalité des approches actuelles traitent les deux bras comme des agents symétriques et interchangeables, ce qui force des synchronisations coûteuses et empêche l'émergence d'une division du travail naturelle. L'asymétrie primaire-auxiliaire est au contraire la norme dans la manipulation humaine, que ce soit pour visser un couvercle, positionner une pièce ou assembler un connecteur. Un gain de 50 % sur des tâches réelles est une affirmation forte : les benchmarks RLBench2 sont réputés pour permettre des optimisations d'artefacts de simulation, et les auteurs ne précisent pas le nombre de tâches réelles testées ni les conditions d'évaluation, deux points qui mériteront une vérification indépendante avant toute intégration industrielle. La manipulation bimanualle mobilise actuellement plusieurs équipes de premier plan : Physical Intelligence (pi) avec Pi-0, Figure AI avec le modèle embarqué sur Figure 02 et 03, et les équipes de recherche de Boston Dynamics, Toyota Research Institute et NVIDIA (GR00T N2) travaillent toutes sur des politiques bimanuelles généralisables. PA-BiCoop se distingue par son approche à modèle unique, là où des concurrents recourent à des architectures hiérarchiques séparées ou à du reinforcement learning multi-agent. Il s'agit pour l'instant d'une publication de recherche sans déploiement annoncé, ni code public ni partenaire industriel identifié ; la prochaine étape logique serait une validation sur des manipulateurs commerciaux type Franka, UR ou Kinova dans un contexte de production réelle.

IA physiquePaper
1 source
Apprentissage résiduel multi-échelle et adaptation en ligne pour manipulateurs aériens
760arXiv cs.RO 

Apprentissage résiduel multi-échelle et adaptation en ligne pour manipulateurs aériens

Des chercheurs présentent, dans un preprint arXiv (2603.11638v2, juin 2026), un cadre de modélisation adaptative en temps réel pour les manipulateurs aériens autonomes (AAMs), c'est-à-dire des drones équipés de bras robotiques destinés à l'inspection, la saisie ou l'assemblage en environnements difficiles d'accès. L'architecture repose sur deux modules : le Factorized Dynamics Transformer (FDT), qui traite chaque variable physique comme un token indépendant et sépare explicitement les effets inertiels à court terme des effets aérodynamiques à long horizon, et le Latent Residual Adapter (LRA), qui adapte les résidus de dynamique en temps réel dans l'espace latent via les Moindres Carrés Récursifs (RLS). Les expériences en conditions réelles, avec des charges utiles inédites non vues à l'entraînement, montrent une meilleure fidélité de prédiction, une atténuation des perturbations plus rapide et une précision de suivi en boucle fermée supérieure aux baselines de l'état de l'art, tout en respectant la contrainte temps réel. Ce travail adresse un verrou central de la manipulation aérienne : la dynamique d'un AAM change brutalement lors de la reconfiguration du bras ou d'une variation de charge, ce que ni les modèles analytiques à paramètres fixes ni les modèles ML statiques ne gèrent correctement. En factorisant explicitement les couplages inter-variables et en adaptant les résidus sans ré-entraînement complet, le framework réduit le coût computationnel tout en préservant la représentation non-linéaire apprise hors-ligne. Pour les intégrateurs industriels, c'est un signal que le gap sim-to-real des AAMs peut être partiellement comblé par adaptation en ligne, évitant des cycles coûteux de re-collecte de données sur site. Les AAMs font l'objet de recherches actives depuis le milieu des années 2010, avec des débouchés visés dans l'inspection d'infrastructures électriques, la construction et la logistique verticale. Les approches concurrentes misent sur le MPC robuste ou les réseaux récurrents pour la compensation de dynamiques résiduelles. Ce preprint n'est pas encore évalué par les pairs, et les résultats constituent des validations en laboratoire sur charges limitées, pas un déploiement industriel. Les prochaines étapes naturelles incluent des tests sur des configurations de bras plus complexes, des amplitudes de payload plus importantes, et une validation sur sites opérationnels réels.

RecherchePaper
1 source
Apprendre à lancer : livraison agile et précise de charge utile suspendue par câble avec un quadrirotor
761arXiv cs.RO 

Apprendre à lancer : livraison agile et précise de charge utile suspendue par câble avec un quadrirotor

Des chercheurs présentent dans un preprint arXiv (2606.27603) une méthode permettant à un quadrirotor de lancer avec précision des charges utiles suspendues par câble vers des cibles prédéfinies, une capacité critique pour la livraison médicale d'urgence et les missions de recherche et sauvetage. La solution repose sur un environnement de simulation hybride : un modèle analytique haute-fidélité du quadrirotor est couplé à un solveur physique dédié aux interactions corde-charge, les forces étant échangées entre les deux domaines à chaque pas de temps. Une politique de contrôle est ensuite entraînée par apprentissage par renforcement profond (deep RL) dans cet environnement. Déployée sans adaptation sur matériel réel (zero-shot), elle réduit l'erreur d'atterrissage jusqu'à 50 % et la durée du lancer jusqu'à 30 % par rapport à la référence model-based. Une variante utilisant uniquement des observations visuelles, sans estimateur d'état explicite, atteint une précision comparable à la politique basée sur l'état. Le simulateur sera mis en open source à l'acceptation de l'article. Le verrou technique adressé est la modélisation du relâché dynamique, la phase de libération agressive d'une charge en fin de vol, jusqu'ici largement ignorée au profit des phases de transport et de traversée. Les approches model-based classiques (optimisation de trajectoire, commande prédictive MPC) se heurtent à la difficulté de modéliser analytiquement les cordes flexibles, ce qui impose des contraintes de faisabilité conservatrices et dégrade l'agilité effective du système. La contribution clé est de démontrer qu'un simulateur hybride bien couplé suffit à fermer le gap sim-to-real pour des dynamiques aussi non-linéaires : le transfert zero-shot tient sur matériel réel sans fine-tuning. C'est un argument concret pour les équipes de livraison par drone qui envisagent de remplacer leur pipeline de contrôle analytique par des politiques apprises, en particulier dans des contextes où la rapidité de livraison est contrainte. Le transport de charges suspendues par drone est un sujet de recherche actif depuis plus d'une décennie, mais les travaux existants se concentraient sur la stabilisation et la planification de trajectoires, pas sur la balistique du relâché. Cette publication s'inscrit dans une vague plus large de politiques RL pour la manipulation aérienne agile, parallèle aux recherches sur le vol acrobatique menées notamment à l'ETH Zurich et à Carnegie Mellon. Aucun partenaire industriel ni acteur français ou européen n'est mentionné dans le preprint. Les prochaines étapes annoncées se limitent à la mise en open source du simulateur, qui pourrait abaisser la barrière d'entrée pour la communauté travaillant sur la manipulation aérienne dynamique. Les applications visées, livraison médicale et missions SAR, restent au stade de la démonstration académique : aucun déploiement opérationnel n'est annoncé à ce stade.

RecherchePaper
1 source
DexCompose : réutiliser des politiques dextériques pour la manipulation multi-tâche avec une seule main
762arXiv cs.RO 

DexCompose : réutiliser des politiques dextériques pour la manipulation multi-tâche avec une seule main

DexCompose est un framework de composition de politiques robotiques présenté dans une prépublication arXiv (identifiant 2606.28323) en juin 2026. Son objectif : permettre à une main robotique dextère d'enchaîner plusieurs tâches sans réentraîner les politiques existantes depuis zéro. Le système atteint un taux de succès composite moyen de 77,4 % sur 16 tâches combinées, construites en croisant quatre compétences de rétention d'objet avec quatre interactions aval. L'ensemble de l'évaluation est conduit en simulation ; aucune validation sur hardware réel n'est présentée dans ce papier. Le problème central que DexCompose attaque est celui de l'interférence destructive entre politiques : lorsqu'une main doit simultanément maintenir une prise (tâche 1) et exécuter une nouvelle action (tâche 2), les deux politiques se disputent le contrôle des mêmes doigts, avec des conflits de modes de contact qui dégradent les deux. La réponse proposée est une notion de propriété d'action au niveau du doigt (finger-level action ownership) : le système identifie d'abord quels doigts sont nécessaires au maintien du résultat de la première compétence via des tests de relâche sur des masques candidats, puis entraîne deux modules résiduels asymétriques. Un stabilisateur résiduel borné préserve la tâche en cours ; un résiduel contextuel n'adapte la politique aval que dans le sous-espace d'action assigné à la nouvelle tâche. Pour les ingénieurs en manipulation, cela réduit potentiellement le coût de réentraînement à chaque nouvelle combinaison de tâches, sans toucher aux politiques de base préentraînées. La manipulation dextère multi-tâches avec une seule main est un problème ouvert depuis des années, les approches classiques de chaînage de politiques (policy chaining) échouant précisément sur ces conflits de contact. Des groupes chez Stanford, CMU ou Google DeepMind travaillent sur des architectures voisines, et des mains commerciales comme la Shadow Hand ou l'Allegro Hand constituent les bancs de test habituels du domaine. DexCompose se positionne comme une alternative structurée au fine-tuning complet ou aux hiérarchies de contrôleurs. Le gap sim-to-real sur la manipulation dextère reste cependant le défi non résolu de la discipline, et ce papier, encore en prépublication, n'y répond pas : une validation physique sur hardware réel constituerait l'étape déterminante avant toute considération industrielle.

RecherchePaper
1 source
DIM-WAM : modélisation monde-action avec mémoire d'événements historiques diversifiés
763arXiv cs.RO 

DIM-WAM : modélisation monde-action avec mémoire d'événements historiques diversifiés

Des chercheurs du CASIA (Institute of Automation de l'Académie des sciences chinoise) ont publié fin juin 2026 sur arXiv un préprint décrivant DiM-WAM, un modèle de type "world-action model" augmenté d'une mémoire multi-échelle conçue pour les tâches de manipulation robotique à longue séquence. Sur le benchmark RMBench, l'architecture fait passer le taux de succès moyen de 28,4 % (baseline LingBot-VA) à 69,8 %, dépassant nettement la baseline à mémoire explicite Mem-0 qui plafonnait à 42,0 %. Sur quatre tâches réelles exécutées sur bras Franka, DiM-WAM améliore le succès par étape de 70,7 % à 91,5 % et le succès complet de tâche de 52,5 % à 80,0 %, soit un gain absolu de 27,5 points. Ce résultat est notable car il attaque directement l'un des points d'échec systématiques des modèles vision-langage-action actuels : l'oubli des événements antérieurs lors de séquences longues. Contrairement aux architectures VLA classiques qui se limitent à un contexte court (quelques frames récentes), DiM-WAM maintient plusieurs banques mémoire mises à jour par fusion basée sur la similarité, et conditionne conjointement la dénoisation vidéo et la génération d'action sur ce contexte historique long. Un signal d'entraînement inédit, la "progress supervision", pousse les tokens mémoire à encoder non seulement les événements passés mais aussi l'étape courante de la tâche et ses implications sur la suite. Pour un intégrateur industriel, cela adresse un prérequis concret : permettre à un robot de reprendre une séquence après une interruption ou de conditionner une action sur un état observé plusieurs secondes plus tôt. Les world-action models constituent une évolution récente des VLA, inspirée des travaux sur la prédiction vidéo (world models) appliqués à la robotique, avec des architectures comme celles de Physical Intelligence (Pi-0) ou DreamerV3 adaptés au contrôle. DiM-WAM se positionne dans ce champ en ajoutant la dimension mémoire longue, un problème que le domaine reconnaît mais peu de travaux ont quantifié en conditions réelles. La validation sur Franka, robot académique standard à 7 DOF, reste modeste en échelle (quatre tâches, environnement contrôlé), et le preprint n'annonce pas de déploiement industriel ni de partenariat commercial. Les prochaines étapes probables incluent une évaluation sur des benchmarks plus larges comme SimplerEnv ou des plateformes humanoïdes, et une ouverture du code source évoquée via la page projet.

💬 28 % à 70 % de taux de succès sur des séquences longues, c'est pas un artefact de benchmark, c'est enfin quelqu'un qui s'attaque au vrai problème : un robot qui oublie ce qu'il vient de faire n'a aucune valeur en contexte industriel réel. La "progress supervision" est l'idée maline du lot, parce qu'elle force la mémoire à encoder non pas juste le passé mais où en est la tâche à l'instant T. Reste à voir si ça tient au-delà du Franka en environnement contrôlé, mais le signal est là.

IA physiqueOpinion
1 source
PhysisForcing : simulateur du monde renforcé par la physique pour la manipulation robotique
764arXiv cs.RO 

PhysisForcing : simulateur du monde renforcé par la physique pour la manipulation robotique

Une équipe de chercheurs propose PhysisForcing (arXiv 2606.28128, juin 2026), un cadre d'entraînement conçu pour corriger les incohérences physiques des modèles de génération vidéo utilisés comme simulateurs du monde pour la manipulation robotique. Ces modèles, généralistes ou affinés sur des données robotiques, produisent régulièrement des artefacts problématiques : trajectoires discontinues, déformations d'objets en mouvement et interactions robot-objet illogiques lors des contacts. PhysisForcing intègre deux mécanismes : une perte d'alignement de trajectoire au niveau pixel (supervision des features DiT via des trajectoires de points de référence) et une perte d'alignement sémantique relationnel (alignement avec les relations inter-régions d'un encodeur vidéo figé). Sur les benchmarks R-Bench, PAI-Bench et EZS-Bench, les gains atteignent +22,3 % sur Wan2.2-I2V-A14B et +9,2 % sur Cosmos3-Nano par rapport aux baselines, soit +7,1 % et +3,7 % au-dessus du fine-tuning classique. Le variant Cosmos3-Nano obtient le meilleur score global. Dans le protocole de planification en boucle fermée WorldArena, le taux de succès passe de 16,0 % à 24,0 %. Ce résultat valide une hypothèse importante : la fidélité physique d'un simulateur vidéo se répercute directement sur les performances des politiques robotiques en aval. Le bond de 8 points sur WorldArena n'est pas un indicateur de génération d'image, c'est un signal de planification-exécution dans un simulateur. Pour les équipes de recherche et les intégrateurs, cela signifie que les world models vidéo peuvent désormais servir de banc d'essai crédible, réduisant la dépendance aux trajectoires réelles. Le framework étant applicable aux architectures DiT existantes sans modification structurelle, son adoption potentielle est large. Cela suggère aussi que le "demo gap" des world models vidéo est adressable par une supervision ciblée, et non par davantage de données brutes. PhysisForcing s'inscrit dans le sillage de Cosmos (NVIDIA, fin 2024), qui a lancé la dynamique des simulateurs vidéo généralistes pour la robotique. Des travaux concurrents comme UniSim (Google DeepMind) ou IRASim explorent des directions similaires. Aucun acteur européen n'est impliqué dans ce papier. Il s'agit d'un preprint non encore évalué par des pairs, sans code open-source annoncé ni déploiement industriel. Les prochaines étapes naturelles incluent la validation sim-to-real sur matériel réel et l'intégration dans des pipelines de politiques VLA (Vision-Language-Action).

IA physiqueOpinion
1 source
StereoVLA : améliorer les modèles vision-langage-action grâce à la vision stéréoscopique
765arXiv cs.RO 

StereoVLA : améliorer les modèles vision-langage-action grâce à la vision stéréoscopique

Des chercheurs ont publié sur arXiv (référence 2512.21970v2) StereoVLA, un modèle Vision-Language-Action (VLA) qui intègre la stéréovision dans les pipelines de manipulation robotique généraliste. L'architecture repose sur un encodeur visuel GeoSem (Geometric-and-Semantic), qui extrait en parallèle des indices géométriques issus des disparités entre vues stéréoscopiques et des représentations sémantiques classiques à partir des pixels RGB. Le modèle intègre deux objectifs de co-entraînement : l'Interaction-Region Depth Estimation, pour affiner le raisonnement spatial lors des saisies, et la Camera Parameter Estimation, pour aligner implicitement les repères de perception et d'action du robot. Entraîné sur des données stéréo synthétiques à grande échelle, StereoVLA atteint un gain absolu de 33,4 points de pourcentage en taux de succès en conditions réelles par rapport aux baselines monoculaires, et démontre une robustesse marquée à des angles de caméra proches de l'hémisphère supérieur. Ce gain de 33,4 % est substantiel dans un domaine où les progrès incrémentaux dominent la littérature. Il confirme une hypothèse structurelle : les encodeurs visuels préentraînés sur lesquels s'appuient les VLA actuels (CLIP, SigLIP) sont optimisés pour l'alignement sémantique, au détriment de la représentation géométrique 3D indispensable à la manipulation fine. Pour un intégrateur ou un COO industriel, cette démonstration repositionne le choix du capteur (stéréo vs monoculaire) comme décision architecturale critique dans toute cellule robotisée guidée par VLA. La robustesse aux angles hémisphériques est également un signal de maturité opérationnelle : en déploiement réel, la posture du bras et les contraintes d'encombrement imposent des perspectives de caméra qui mettent en défaut les VLA classiques. Les VLA (Pi-0 de Physical Intelligence, OpenVLA, GR00T N2 de NVIDIA) constituent depuis 2024 le nouveau paradigme de contrôle généraliste pour la manipulation, mais reposent tous sur des encodeurs conçus pour la vision sémantique, non géométrique. StereoVLA adresse directement ce goulot d'étranglement en exploitant la stéréovision, technologie éprouvée dans les AMR et les caméras industrielles de profondeur (RealSense, ZED), mais restée jusqu'ici absente des pipelines VLA. L'étude demeure au stade de la recherche académique : aucun déploiement industriel ni partenariat constructeur n'est annoncé. La validité externe du gain de 33,4 % devra être éprouvée sur des bras commerciaux variés (Franka, UR, xArm) et dans des environnements moins contrôlés avant de conclure à une transférabilité industrielle.

IA physiqueOpinion
1 source
Affinage par renforcement des politiques de flux pour les modèles vision-langage-action (VLA)
766arXiv cs.RO 

Affinage par renforcement des politiques de flux pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (papier 2510.09976v2) un algorithme baptisé Flow Policy Optimization (FPO), conçu pour affiner par renforcement les modèles Vision-Language-Action (VLA) basés sur le flow-matching, en particulier le modèle π₀ (Pi-0) de Physical Intelligence. L'évaluation porte sur deux benchmarks de simulation robotique standards : LIBERO et ALOHA. FPO intègre quatre composants : une attribution de crédit sensible à la structure du réseau (structure-aware credit assignment), des objectifs surrogate clippés à la manière de PPO, une exploration latente multi-étapes, et un ensemble de Q-functions (Q-ensemble) pour estabiliser l'estimation de valeur. Les résultats montrent des gains constants sur le prior d'imitation et sur des baselines concurrentes, dont π₀-FAST, des approches RL autorégressive et diffusion, dans un régime de récompenses éparses. Le verrou technique résolu par FPO est fondamental : les méthodes de policy gradient classiques (PPO, GRPO) requièrent le calcul explicite de ratios de probabilité entre l'ancienne et la nouvelle politique (importance sampling), ce qui est mathématiquement intractable pour les modèles à flow-matching continu comme π₀. FPO contourne ce problème en reformulant l'importance sampling à partir des variations par échantillon de l'objectif conditionnel de flow-matching. C'est un déblocage algorithmique, pas un simple réglage d'hyperparamètres. Cela signifie que la famille de modèles la plus performante actuellement pour la manipulation généraliste, les VLA basées sur des politiques diffusion/flow, devient désormais accessible au fine-tuning par RL en ligne, sans qu'il faille revenir à des architectures autorégressive ou gaussiennes moins expressives. Le contexte est celui d'une course intense pour convertir la généralisation des grands modèles VLA en performance réelle sur tâches industrielles. π₀, développé par Physical Intelligence (ex-chercheurs de Google DeepMind et Stanford, fondée en 2023), a démontré une polyvalence remarquable sur données multi-robot, mais reste contraint par la qualité de ses démonstrations supervisées. FPO s'inscrit dans une tendance plus large, après RFT sur LLMs (DeepSeek-R1, Qwen), d'appliquer le fine-tuning par renforcement aux politiques robotiques. Les concurrents directs incluent OpenVLA (Berkeley), Octo (également Berkeley), et les approches RL sur modèles diffusion comme DPPO. Le papier reste pour l'instant en simulation ; le transfert sim-to-real sur π₀ avec FPO n'est pas encore documenté, ce qui constitue la prochaine étape critique avant tout déploiement industriel.

💬 Ce qui bloquait le fine-tuning par RL sur π₀, c'était mathématiquement intractable, pas un détail de tuning. FPO contourne ça proprement, et le résultat c'est que la famille de modèles VLA la plus expressive devient enfin accessible au renforcement en ligne, sans avoir à rétrograder vers des architectures moins capables. La prochaine étape, c'est le sim-to-real, et là j'attends de voir.

IA physiqueOpinion
1 source
RelAfford6D : graphes d'affordance 6D relationnels pour la manipulation robotique guidée par contraintes
767arXiv cs.RO 

RelAfford6D : graphes d'affordance 6D relationnels pour la manipulation robotique guidée par contraintes

Des chercheurs ont déposé en juin 2026 sur arXiv (référence 2606.27036) RelAfford6D, un framework sans entraînement pour la manipulation robotique d'objets articulés. Le système s'appuie sur un graphe d'affordances 6D relationnel : à partir d'une consigne en langage naturel, il déduit une topologie sémantique reliant la partie principale d'interaction d'un objet à son ancre physique. Ces noeuds topologiques sont ensuite convertis en poses métriques précises dans l'espace SE(3), soit six degrés de liberté complets en position et orientation, via des modèles de vision fondamentaux pré-entraînés. L'exécution est formulée comme un problème de satisfaction de contraintes cinématiques : le robot génère des trajectoires continues en suivant des variétés physiques strictement définies, qu'il s'agisse d'orbites rotoïdes (rotation) ou prismatiques (translation). Un mécanisme de suivi en boucle fermée assure la replanification en temps réel face aux perturbations. L'approche tranche avec la majorité des politiques data-driven actuelles, comme les VLA basés sur l'imitation ou les méthodes à affordances latentes, qui extraient des points de contact isolés sans contraintes cinématiques explicites. En formulant la manipulation comme satisfaction de contraintes, RelAfford6D obtient des taux de succès zero-shot supérieurs aux baselines data-driven testées, avec une généralisation inter-catégories documentée sur des objets articulés variés (tiroirs, portes, manettes) aussi bien en simulation que dans des environnements physiques réels. Pour les intégrateurs industriels, l'absence d'entraînement spécifique à la tâche est significative : le framework peut s'adapter à de nouveaux mécanismes sans collecter de données de démonstration supplémentaires. La manipulation d'objets articulés en open-world reste l'un des verrous majeurs de la robotique de service et industrielle. Les approches récentes à base de VLA ont progressé sur la flexibilité sémantique mais peinent à garantir la précision géométrique requise pour des mécanismes contraints comme des vannes, portes ou tiroirs industriels. RelAfford6D s'inscrit dans une tendance émergente combinant fondations visuelles pré-entraînées et raisonnement géométrique analytique, sans fine-tuning coûteux. Parmi les travaux concurrents figurent CabiNet, les méthodes à affordance implicite comme GNFactor ou F3RM, et les approches VLA récentes telles que Pi-0. Ce preprint constitue une démonstration académique validée sur banc réel, sans partenariat industriel ni timeline de déploiement annoncé à ce stade.

RecherchePaper
1 source
PhysReflect-VLA : faisabilité physique et régulation auto-réflexive pour des modèles VLA fiables
768arXiv cs.RO 

PhysReflect-VLA : faisabilité physique et régulation auto-réflexive pour des modèles VLA fiables

Une équipe de chercheurs a publié fin juin 2026, via arXiv (2606.27146), PhysReflect-VLA, un module d'exécution conçu pour être greffé sur n'importe quel modèle Vision-Language-Action (VLA) existant sans réentraînement complet. L'architecture repose sur trois composants : un opérateur de faisabilité (Feasibility Operator) qui évalue si une action candidate produit une transition d'état dynamiquement cohérente avant exécution, un opérateur d'explication d'action (Action Explanation Operator) qui vérifie la cohérence de la transition, et un module de réflexion basé sur un LLM qui analyse les écarts d'état observés pour générer des corrections à la volée. Le tout s'intègre dans une boucle de contrôle fermée via une procédure d'entraînement en deux étapes. Sur des tâches de manipulation multi-étapes impliquant des contacts riches en environnement réel, PhysReflect-VLA affiche un gain moyen de 5,4 % de taux de succès par rapport aux baselines VLA représentatifs testés. Ce résultat, modeste en valeur absolue, adresse un point structurel des VLA actuels : ils fonctionnent en mode feed-forward, sans mécanisme d'auto-correction en ligne. Le problème est connu dans le domaine sous le terme de "recovery from disturbances", dès qu'un contact imprévu perturbe la trajectoire, la politique ne sait pas diagnostiquer l'échec et continuer. L'approche plug-and-play est stratégiquement intéressante pour les intégrateurs : elle évite de requalifier un modèle VLA entier (coût computationnel et données considérables) pour améliorer la robustesse en déploiement. Les ablations confirment que les deux composants, faisabilité et réflexion, contribuent indépendamment au gain, ce qui suggère une modularité réelle plutôt qu'un effet de combinaison artificiel. Cela dit, un gain de 5,4 % sur des benchmarks internes, sans précision sur le nombre de tâches, de répétitions, ni le profil de défaillance évité, mérite prudence avant généralisation. Les VLA comme pi0 (Physical Intelligence), OpenVLA (Berkeley), ou les variantes GR00T N2 de NVIDIA constituent le terrain sur lequel ce module se pose. La tendance récente dans la recherche en manipulation est précisément de dépasser le "sim-to-real gap" et de rendre ces politiques robustes aux perturbations contact, deux problèmes que PhysReflect-VLA cible explicitement. L'abstract ne mentionne pas l'institution d'origine ni de code public disponible, ce qui limite l'évaluation indépendante à ce stade. Les prochaines étapes naturelles seraient une intégration sur des VLA à grande échelle comme pi0 ou OpenVLA-OFT, et des tests sur plateformes humanoïdes où les transitions d'état en contact sont particulièrement critiques. Ce type de framework d'exécution supervisée pourrait également intéresser des acteurs européens actifs sur la couche contrôle, comme Enchanted Tools (Mirokaï) ou les équipes robotique d'IRT Jules Verne.

UEDes acteurs français comme Enchanted Tools (Mirokaï) et l'IRT Jules Verne pourraient bénéficier de ce module plug-and-play pour renforcer la robustesse de leurs couches de contrôle VLA, mais aucun déploiement ou partenariat européen n'est établi à ce stade.

💬 5,4 % de gain sur des benchmarks internes sans code public ni institution connue, je reste prudent. Mais le problème qu'ils ciblent est réel : les VLA actuels ne savent pas se rattraper quand un contact imprévu perturbe la trajectoire, c'est un défaut structurel de toute l'approche feed-forward. Ce que j'attendais, c'est ce genre de module de supervision plug-and-play, parce que requalifier un VLA complet pour chaque déploiement c'est hors budget pour 99 % des intégrateurs.

IA physiqueOpinion
1 source
RouterVLA : des tests de fumée transformés en supervision pour la sélection de modèles VLA hétérogènes
769arXiv cs.RO 

RouterVLA : des tests de fumée transformés en supervision pour la sélection de modèles VLA hétérogènes

RouterVLA, présenté dans un preprint arXiv déposé en juin 2026 (identifiant 2606.27355), s'attaque à un problème concret souvent ignoré dans le déploiement robotique : comment choisir, parmi plusieurs politiques vision-language-action (VLA) candidates, celle que l'on installe réellement sur le robot. Les équipes robotiques effectuent systématiquement des "smoke tests" - des séries d'essais courts avant déploiement - pour comparer les candidats, puis retiennent un seul vainqueur global. RouterVLA propose de capitaliser sur ces essais déjà réalisés via une technique dite de "cross-fitting à résultats disjoints" : les essais enregistrés construisent un profil de performance pour chaque politique expert gelée, tandis qu'un essai distinct, non inclus dans ce profil, sert à noter l'expert retenu. Évalué sur 34 752 enregistrements de rollouts issus du benchmark LIBERO-Plus, une règle transparente basée sur le taux de succès des probes fait passer le taux de succès hors-échantillon de 0,4686 à 0,6149, soit un gain de 14,64 points de pourcentage. Le résultat le plus saillant n'est pas le gain lui-même, mais ce qui le produit. Sous les profils scalaires étudiés, les scoreurs appris sont statistiquement indiscernables de la simple règle de succès-probe, ce qui implique que la valeur de routage vient du processus de commissionnement - les smoke tests eux-mêmes - et non d'une capacité ML supplémentaire. Ajouter des couches d'apprentissage pour scorer les politiques ne crée donc pas de valeur additionnelle si les profils restent scalaires. Tout aussi important pour l'intégrité des benchmarks : réutiliser le même essai pour sélectionner et évaluer l'expert gonfle artificiellement le gain mesuré par un facteur de 1,87. Ce résultat constitue un avertissement méthodologique direct pour la communauté, car de nombreux papiers comparatifs en robotique pourraient souffrir de ce biais de contamination si la séparation des outcomes n'est pas garantie. LIBERO-Plus est un environnement de simulation pour la manipulation robotique de table, largement utilisé pour évaluer des politiques de généralisation. RouterVLA s'inscrit dans le champ croissant de la sélection hétérogène de politiques VLA, un problème qui devient critique à mesure que les fondations VLA se multiplient : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), ou les politiques maison des labs comme Google DeepMind. La question de savoir quel modèle router selon la tâche est un vrai enjeu d'industrialisation, distinct de celui d'entraîner de meilleurs modèles individuels. Ce preprint ne mentionne ni déploiement réel ni partenaire industriel : il s'agit d'une contribution méthodologique évaluée en simulation. Les suites naturelles seraient d'étendre l'analyse à des profils non-scalaires (embeddings, séquences temporelles) et de valider la séparation des outcomes en manipulation physique réelle.

RechercheOpinion
1 source
ReaDy-Go : simulation dynamique réel-vers-sim par Gaussian Splatting 3D pour la navigation visuelle avec obstacles mobiles
770arXiv cs.RO 

ReaDy-Go : simulation dynamique réel-vers-sim par Gaussian Splatting 3D pour la navigation visuelle avec obstacles mobiles

Des chercheurs présentent dans un preprint arXiv (référence 2602.11575, troisième version) un pipeline baptisé ReaDy-Go qui vise à combler l'écart simulation-réalité pour la navigation visuelle robotique en environnements dynamiques. Le principe : reconstruire une scène réelle cible (domicile, restaurant, usine) sous forme de nuage de gaussiennes 3D (Gaussian Splatting, ou GS), puis y insérer des avatars humains animables, eux aussi représentés en GS photoreáliste, dont les mouvements sont synthétisés à partir de trajectoires 2D. Un planificateur expert dédié aux représentations GS dynamiques, couplé à un planificateur humain, génère ensuite automatiquement des milliers de scénarios de navigation depuis des points de vue arbitraires. Les politiques de navigation entraînées sur ces datasets sont ensuite déployées sur robot physique. Les auteurs rapportent des gains de performance en simulation et en conditions réelles face à des obstacles mobiles, ainsi qu'un transfert zero-shot dans un environnement inédit, ce qui suggère une capacité de généralisation au-delà des scènes d'entraînement. L'enjeu industriel est significatif pour les intégrateurs de robots de service et les concepteurs de systèmes AMR (autonomous mobile robots) en environnements non contrôlés. Le verrou principal que ReaDy-Go cherche à lever est double : les méthodes classiques souffrent d'un sim-to-real gap important parce que les scènes d'entraînement sont génériques, et les obstacles dynamiques y sont soit absents, soit représentés par des mannequins non photoréalistes issus de simulateurs comme Isaac Sim ou Gazebo. En ancrant la simulation dans une reconstruction GS de l'environnement cible réel et en peuplant cette scène d'avatars humains photoréalistes et cinématiquement plausibles, l'approche réduit la distance de distribution entre entraînement et déploiement. Il s'agit d'une contribution méthodologique, pas d'un produit commercialisé ; les résultats restent à ce stade des démonstrations académiques, et les métriques annoncées (temps de cycle, taux de succès) gagneraient à être contextualisées par des conditions de test plus variées. Le Gaussian Splatting a émergé comme technique de reconstruction 3D rapide et photoréaliste depuis les travaux de Kerbl et al. en 2023, et plusieurs groupes l'ont depuis exploré pour la simulation robotique, notamment pour la manipulation (voir les travaux de RoboGSim ou GaussianWorld). ReaDy-Go se distingue en ciblant la navigation en présence de piétons, un cas d'usage critique pour les robots de livraison indoor et les plateformes de service en espace public. Sur ce segment, les concurrents directs incluent les pipelines basés sur NeRF (plus lents à l'entraînement), les simulateurs procéduraux type NVIDIA Omniverse, et des approches comme UniSim ou HabitatSim. Aucun acteur européen n'est cité dans le preprint, mais des équipes comme Enchanted Tools (robotique de service, France) ou les labos de navigation de l'INRIA pourraient trouver dans ReaDy-Go une brique de simulation réutilisable. La page projet est accessible et le code pourrait être publié ; les prochaines étapes naturelles seraient des tests à plus grande échelle avec diversité de populations et d'environnements, et une intégration dans des stacks de navigation open-source comme Nav2.

UECette méthode de simulation photoréaliste à base de Gaussian Splatting pourrait être réutilisée par des équipes européennes de navigation robotique (INRIA, Enchanted Tools) pour réduire le sim-to-real gap sans dépendre de simulateurs propriétaires comme Isaac Sim ou NVIDIA Omniverse.

RecherchePaper
1 source
TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence
771arXiv cs.RO 

TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence

Des chercheurs ont publié sur arXiv (papier 2601.14945, version 2) un cadre architectural nommé TIDAL, Temporally Interleaved Diffusion and Action Loop, qui s'attaque directement au goulot d'étranglement en latence des modèles Vision-Language-Action (VLA). Le problème est précis : les VLA actuels basés sur la diffusion tournent typiquement à environ 2,4 Hz sur hardware embarqué, imposant un paradigme "batch-and-execute" où le robot planifie en bloc puis exécute en boucle ouverte. TIDAL introduit une architecture à double fréquence qui découple le raisonnement sémantique (boucle basse fréquence qui met en cache les embeddings d'intention) de l'actuation motrice (boucle haute fréquence qui entrelace intégration de flux à un pas et exécution). Résultat mesuré : environ 9 Hz de mises à jour de contrôle sur edge hardware, soit 4x la fréquence de feedback des baselines, avec un gain de performance 2x sur des tâches d'interception dynamique. La méthode ajoute également un prédicteur différentiel de mouvement pour compenser l'insensibilité à la vélocité des encodeurs visuels statiques, et une stratégie d'entraînement à désalignement temporel pour apprendre à compenser la latence résiduelle. L'impact concret pour les intégrateurs robotiques réside dans ce que le papier nomme "l'angle mort d'exécution" : quand une cible se déplace pendant la fenêtre d'exécution en boucle ouverte, les baselines VLA échouent systématiquement sous protocole d'inférence non-pausée, TIDAL reste opérationnel. C'est architectural et orthogonal aux optimisations système (quantification, batching), ce qui signifie qu'il peut s'empiler sur d'autres gains de performance. La régression marginale sur les tâches statiques (cibles immobiles) est honnêtement reconnue par les auteurs, ce qui est de bonne pratique évaluative. Pour un décideur B2B, la question pertinente reste ouverte : les gains sont mesurés en simulation et sur tâches de laboratoire, pas sur déploiement réel. TIDAL s'inscrit dans une compétition dense autour de la latence des VLA, portée par les modèles Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA. Ces architectures partagent le défi structurel du sim-to-real et de la fréquence de contrôle insuffisante pour les environnements industriels dynamiques (convoyeurs, pièces en mouvement, collaboration humain-robot). TIDAL est un travail de recherche académique sans annonce de déploiement ni partenaire industriel identifié, ce qui tempère toute projection immédiate. La prochaine étape naturelle serait une validation sur hardware réel, bras manipulateur ou humanoïde, avec métriques de robustesse en conditions non-contrôlées.

IA physiqueOpinion
1 source
ARTOO-DARTU : étude de la collaboration humain-robot en réalité augmentée avec atténuation des occlusions pour les tâches d'entrepôt
772arXiv cs.RO 

ARTOO-DARTU : étude de la collaboration humain-robot en réalité augmentée avec atténuation des occlusions pour les tâches d'entrepôt

Des chercheurs ont publié sur arXiv (arXiv:2606.25202) un système de réalité augmentée baptisé ARTOO-DARTU, conçu pour améliorer la collaboration humain-robot (HRC) en entrepôt logistique. Le principe : superposer en temps réel des informations sur l'état et les intentions du robot directement dans le champ de vision de l'opérateur via un casque AR, tout en évitant que ces couches graphiques n'occultent des éléments critiques du monde réel. L'équipe a développé pour cela un pipeline ODM (Obstruction Detection and Mitigation) qui repositionne dynamiquement les éléments AR lorsque le robot mobile se déplace. L'évaluation a mobilisé 34 participants sur un scénario gamifié appelé Pocket MonstARs, abstraction contrôlée d'une tâche de picking en entrepôt où des monstres virtuels servent de proxies pour les cibles de prélèvement, tandis que des boîtes étiquetées préservent les contraintes d'identification du monde réel. Résultats : avec l'ODM actif, les participants ont affiché une efficacité globale supérieure de 46 % sur la tâche HRC, et se sont révélés 61 % plus rapides sur les sous-tâches nécessitant une visibilité directe du terrain. Ces chiffres méritent d'être mis en perspective : le gain de 46 % n'est observé que lorsque le pipeline ODM est enclenché, ce qui indique que l'AR sans gestion des obstructions peut dégrader les performances plutôt que les améliorer. Pour les intégrateurs logistiques et les équipes de déploiement d'AMR (autonomous mobile robots), le message est structurant : la valeur des analytics AR situationnels est conditionnelle à la qualité de leur intégration perceptuelle, pas seulement à la richesse des données affichées. Cela valide l'hypothèse que le sim-to-real gap en HRC n'est pas uniquement mécanique, mais aussi cognitif : l'interface compte autant que le robot. Le domaine de l'AR appliquée à la robotique industrielle reste fragmenté. Des travaux antérieurs ont exploré les overlays statiques ou les interfaces sur tablette, mais peu traitent le cas dynamique des robots mobiles où la position de l'annotation change en continu. ARTOO-DARTU s'inscrit dans un effort plus large pour rendre les floors robotisés auditable et sûrs sans mobiliser des opérateurs hautement qualifiés. Côté concurrentiel, des acteurs comme RealWear (casques AR industriels), PTC Vuforia ou encore des startups françaises comme Immersion se positionnent sur des segments adjacents. L'étude reste cependant dans un cadre académique contrôlé et gamifié : aucun déploiement réel en entrepôt n'est annoncé à ce stade, et la robustesse de l'ODM face à des environnements industriels bruités (éclairage variable, occlusions dynamiques multiples) reste à démontrer.

UELa startup française Immersion opère sur un segment adjacent à l'AR industrielle, mais l'étude reste un préprint académique sans déploiement annoncé en France ou en Europe.

RecherchePaper
1 source
PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes
773arXiv cs.RO 

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes

Une équipe de chercheurs a publié PhyGile (arXiv:2603.19305v2), un framework unifié visant à combler le fossé entre la génération de mouvements en texte naturel et l'exécution physiquement réaliste sur robots humanoïdes réels. Le problème central que ce travail adresse est connu dans le secteur sous le nom de "reality gap" : les modèles text-to-motion existants sont entraînés sur des captures de mouvement humain, ce qui leur confère des priors biomécaniques incompatibles avec les robots (distribution de masse, stratégies de contact, actuation). Résultat : les trajectoires générées paraissent géométriquement correctes (limites articulaires respectées, continuité de pose), mais violent la faisabilité physique dès qu'on tente de les exécuter. PhyGile génère directement des mouvements natifs-robot dans un espace squelettique à 262 dimensions, guidé par des "physics prefixes" calculés à l'inférence, éliminant ainsi l'étape de retargeting et ses artefacts. Le contrôleur General Motion Tracking (GMT) est d'abord entraîné avec un schéma curriculum à mixture-of-experts, puis affiné sur des données de mouvement non étiquetées pour améliorer la robustesse, avant une phase d'adaptation fine guidée par les préfixes physiques. Des expériences offline et sur robots réels valident l'approche sur des mouvements agiles et à haute dynamique dépassant la marche ou les locomotions lentes habituellement testées. Sur le plan de l'impact sectoriel, ce papier s'attaque à l'un des problèmes les plus résistants de la commande humanoïde : le sim-to-real pour des mouvements expressifs et agiles, pas seulement pour la marche stable. La démonstration sur robots réels (et pas uniquement en simulation) est notable, même si les vidéos sélectionnées restent une métrique partielle et difficile à généraliser sans benchmarks standardisés. Pour les intégrateurs et les équipes R&D, l'approche mixture-of-experts combinée à une adaptation post-entraînement sur données non étiquetées représente une voie pragmatique pour étendre la couverture de mouvement sans collecter massivement de nouvelles données étiquetées. Ce travail s'inscrit dans un contexte de compétition intense autour du contrôle locomoteur humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi-0), NVIDIA (GR00T N2) et Agility Robotics travaillent tous sur des pipelines VLA (Vision-Language-Action) ou text-to-motion à large échelle. PhyGile se distingue en ciblant explicitement les mouvements agiles entiers du corps, là où la plupart des travaux récents se concentrent sur la manipulation ou la locomotion basique. Le papier étant une révision arXiv (v2), il n'y a pas encore d'annonce de déploiement industriel ni de partenariat commercial associé.

HumanoïdesOpinion
1 source
Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service
774arXiv cs.RO 

Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service

Des chercheurs ont publié sur arXiv (référence 2602.22346) un framework de perception sociale destiné aux robots de service mobiles autonomes, comme les robots tondeuses ou les robots nettoyeurs opérant dans des espaces fréquentés par des humains. Le système repose sur une architecture en deux étapes : une première phase identifie les paires d'individus susceptibles d'interagir en s'appuyant uniquement sur des indices géométriques et de mouvement (positions relatives, trajectoires, orientations corporelles), puis une seconde phase classe le type d'interaction à l'aide d'un réseau relationnel (relation network). L'approche a été évaluée sur le dataset JRDB, benchmark de référence pour la perception sociale en robotique, ainsi que sur le Collective Activity Dataset (CAD) et, en évaluation zero-shot, sur un jeu de données collecté directement par une tondeuse autonome en conditions réelles. L'enjeu est concret pour les intégrateurs de robots de service : détecter qu'un groupe de personnes interagit entre elles, qu'il s'agisse d'une discussion, d'un attroupement ou d'une interaction dynamique, permet au robot de planifier une trajectoire socialement acceptable sans interrompre ni gêner ces échanges. Les approches existantes reposent souvent sur des modèles de reconnaissance d'activité de groupe qui mobilisent des réseaux d'analyse visuelle coûteux en calcul, inadaptés aux plateformes embarquées à ressources limitées. Ce framework démontre que des indices géométriques simples suffisent à obtenir des performances compétitives tout en réduisant significativement la taille du modèle et le coût computationnel. Ce résultat remet en question l'hypothèse largement répandue selon laquelle l'analyse visuelle par apparence serait indispensable pour ce type de tâche de perception sociale. Ce travail s'inscrit dans le champ de la navigation socialement consciente (socially aware navigation), où des frameworks comme SARL, CrowdNav ou ORCA constituent les références historiques. Le dataset JRDB, produit par Stanford, reste le principal benchmark pour ce type de tâche en environnement robotique réel. Le code est publié en open source, ce qui facilitera son intégration dans des pipelines ROS existants. La limite notable est que l'évaluation porte sur des interactions coarse-grained, c'est-à-dire des catégories comportementales larges plutôt que des gestes fins, ce qui suffit pour la navigation mais exclut les applications nécessitant une compréhension sociale plus granulaire. La prochaine étape naturelle serait une validation à plus grande échelle sur des plateformes réelles déployées en environnements semi-publics, comme des aéroports, des centres commerciaux ou des entrepôts à occupation mixte.

RecherchePaper
1 source
MinInter : minimiser l'interpolation de trajectoire lors de l'augmentation de données pour l'apprentissage par imitation
775arXiv cs.RO 

MinInter : minimiser l'interpolation de trajectoire lors de l'augmentation de données pour l'apprentissage par imitation

Une équipe de chercheurs a publié en juin 2026 sur arXiv (arXiv:2606.24078) une méthode baptisée MinInter (Minimizing Interpolation), destinée à améliorer la qualité des données synthétiques générées lors de l'apprentissage par imitation pour la manipulation robotique. Le principe est ciblé : lorsqu'un pipeline d'augmentation de données recompose des démonstrations d'experts à partir de configurations initiales variées, il doit typiquement intercaler des segments d'interpolation entre les morceaux de trajectoire, segments qui ne correspondent à aucun comportement expert et dégradent la qualité des données générées. MinInter résout ce problème en sélectionnant, pour chaque configuration initiale échantillonnée, la démonstration source qui nécessite le moins d'interpolation pour former une trajectoire complète. Sur le benchmark MimicGen, la méthode a été évaluée sur 12 tâches de manipulation couvrant 26 variantes, et améliore systématiquement à la fois les taux de succès de génération de données et les taux de succès des politiques apprises, avec les gains les plus importants sur les tâches dites contact-rich (en contact physique intensif), long-horizon (longues séquences d'actions) et high-variance (configurations initiales très dispersées). L'intérêt principal de MinInter réside dans sa capacité à améliorer la qualité des données sans modifier l'architecture du pipeline d'augmentation existant : la méthode est compatible avec les frameworks actuels et agit uniquement sur la stratégie de sélection de trajectoire. C'est un levier pratique pour les laboratoires qui cherchent à réduire le coût humain de la collecte de démonstrations tout en maintenant la qualité des politiques apprises. Les résultats sur les tâches contact-rich sont particulièrement notables, car ce type de tâche est historiquement difficile à traiter par augmentation synthétique, les dynamiques de contact étant sensibles aux discontinuités introduites par les segments d'interpolation. La surperformance face à SkillGen, un framework récent et plus complexe, questionne l'utilité d'approches sophistiquées quand une heuristique de sélection bien ciblée suffit. Le contexte est celui de la montée en puissance de l'apprentissage par imitation (IL) comme alternative au reinforcement learning pour la robotique de manipulation, notamment avec des méthodes comme BC (Behavioral Cloning), ACT ou Diffusion Policy. MimicGen, le benchmark utilisé, est devenu une référence du domaine pour comparer les méthodes d'augmentation de trajectoire. MinInter s'inscrit dans la même lignée que SkillGen (2024), mais avec une philosophie de minimalisme algorithmique. La prochaine étape logique serait de valider ces gains sur du matériel réel, où les dynamiques de contact et la variabilité du monde physique dépassent largement ce que les simulateurs capturent, et où le sim-to-real gap reste la principale incertitude non résolue.

UELes laboratoires européens travaillant sur l'apprentissage par imitation (INRIA, CEA-List, universités techniques) peuvent intégrer directement MinInter dans leurs pipelines d'augmentation MimicGen sans modifier leur architecture existante.

RecherchePaper
1 source
CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle
776arXiv cs.RO 

CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle

Des chercheurs ont publié sur arXiv (référence 2505.17006, version 3) une méthode baptisée CoMo, pour "Continuous Motion", conçue pour extraire automatiquement des représentations continues du mouvement à partir de vidéos issues d'Internet, et les réutiliser comme étiquettes d'action pour entraîner des politiques robotiques. CoMo repose sur deux mécanismes distincts : une différence temporelle précoce (Td) appliquée en amont de l'encodeur pour rendre plus difficile l'apprentissage par raccourcis visuels (les modèles ont tendance à coder l'arrière-plan statique plutôt que le mouvement lui-même), et un apprentissage contrastif temporel (Tcl) qui construit des paires positives avec un décalage temporel réduit vers le futur, et des paires négatives en inversant la direction du temps. Le résultat est un espace latent continu, entraîné sur des vidéos à grande échelle, capable de générer des pseudo-étiquettes d'action pour des vidéos jamais vues en phase d'inférence. Des expériences en simulation et en conditions réelles montrent des gains de performance par rapport aux approches discrètes, aussi bien avec des architectures diffusion que autorégressives. L'enjeu industriel est direct : l'un des goulots d'étranglement du robot learning est la rareté des démonstrations téléopérées, coûteuses à collecter. Si une méthode peut extraire un signal d'action utilisable depuis des vidéos YouTube ou des caméras industrielles non étiquetées, elle réduit mécaniquement le coût de constitution des datasets. La contribution principale de CoMo face aux méthodes discrètes par quantification vectorielle (VQ) est de supprimer la perte d'information liée à la projection dans un codebook de petite taille, et surtout de combler le fossé de distribution entre un espace discret de tokens visuels et un espace d'actions continues à valeurs réelles, fossé qui pénalise l'apprentissage conjoint d'une politique unifiée. La généralisation zéro-shot annoncée est la prétention la plus forte : elle signifie que CoMo pourrait étiqueter des vidéos de nouveaux environnements ou tâches sans ré-entraînement, ce qui reste à valider sur des benchmarks standardisés ; l'abstract ne cite pas de métriques numériques précises. Ce travail s'inscrit dans un axe de recherche très actif depuis 2023, qui cherche à exploiter Internet comme source de supervision pour les robots, aux côtés de méthodes comme RT-2 de Google DeepMind, Pi-0 de Physical Intelligence, ou encore les travaux sur les VLA (Vision-Language-Action models) d'UC Berkeley et du MIT. Les approches discrètes concurrentes (type GROOT ou méthodes VQ-VAE appliquées à la vidéo) souffrent précisément des limitations que CoMo prétend résoudre. La prochaine étape naturelle serait une validation sur des benchmarks robotiques communautaires comme RLBench, LIBERO ou BridgeData V2, et un test à l'échelle de données réellement "internet-scale" pour confirmer si la généralisation zéro-shot tient face à la diversité des distributions visuelles du monde réel.

RecherchePaper
1 source
Fail-RAG : un cadre fondé sur la RAG pour l'identification des défaillances des robots
777arXiv cs.RO 

Fail-RAG : un cadre fondé sur la RAG pour l'identification des défaillances des robots

Des chercheurs ont publié sur arXiv (2606.19598, juin 2026) Fail-RAG, un framework de détection automatique de pannes pour robots industriels combinant RAG (Retrieval Augmented Generation) et modèles vision-langage (VLM). Le principe : des images de défaillances et leurs métadonnées contextuelles sont indexées dans une base vectorielle ; lors d'un incident, le système calcule la similarité entre l'événement observé et les entrées de cette base, puis soumet les cas les plus proches à un VLM qui analyse la situation en suivant un gabarit d'instructions structuré. Les expériences ont porté sur cinq types d'opérations courantes en logistique entrepôt, testées à la fois en simulation et en environnement physique, sur des bras robotiques fixes et un manipulateur mobile. Résultat mesuré : +25 points de précision en moyenne par rapport à l'utilisation directe d'un VLM généraliste sans couche RAG. Le gain de 25 points est significatif dans un contexte où les VLM "out-of-the-shelf" peinent à fiabiliser la détection de pannes en conditions réelles, notamment face à la diversité des échecs possibles dans des environnements dynamiques. Les méthodes à base de règles (classiques en automatisation industrielle) se révèlent fragiles dès que les tâches ou l'environnement évoluent, un problème structurel dans les entrepôts à forte variabilité. Fail-RAG répond à ce défaut en construisant une mémoire des défaillances passées plutôt qu'en codant des règles figées, ce qui le rend potentiellement plus robuste aux variantes nouvelles. C'est une approche pertinente pour les intégrateurs cherchant à réduire les arrêts non planifiés sans avoir à réentraîner un modèle complet à chaque nouveau type d'incident. Le contexte académique de ce travail est celui de la montée des robots généralistes et de l'IA incarnée dans les contextes manufacturiers, portée notamment par la pénurie de main-d'oeuvre en logistique. La recherche sur la détection de pannes par vision reste un chantier ouvert : des acteurs comme Boston Dynamics, Intrinsic (Google) ou les labos universitaires travaillant sur des VLA (Vision-Language-Action models) s'intéressent à des approches similaires de résilience autonome. Fail-RAG reste à ce stade un prototype de recherche avec validation expérimentale limitée en termes de diversité de scènes et d'équipements. Les prochaines étapes naturelles seraient un déploiement pilote chez un opérateur logistique et une évaluation sur des robots mobiles autonomes (AMR) à plus large échelle.

💬 25 points de précision en plus juste en ajoutant une mémoire des pannes passées, c'est le genre de résultat qui devrait faire réfléchir les intégrateurs robotiques avant de coder leur prochaine règle métier en dur. Le principe est simple mais efficace : plutôt que de réentraîner un modèle complet à chaque nouveau type d'incident, le système récupère les cas similaires et demande au VLM de trancher en contexte. Proto de recherche pour l'instant, mais l'architecture a du sens.

IA physiquePaper
1 source
Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences
778arXiv cs.RO 

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

Une équipe de recherche propose FAFM (Frequency-Aware Flow Matching), une méthode de génération d'actions robotiques présentée en préprint arXiv (2606.20135, juin 2026), qui reformule le problème du flow matching pour la manipulation robotique dans le domaine fréquentiel. Le principe : plutôt que de prédire directement des séquences d'actions discrètes (des "chunks"), FAFM applique une transformée en cosinus discrète (DCT) sur ces séquences pour les convertir en coefficients fréquentiels, effectue le flow matching sur ces coefficients, puis reconstruit des actions continues via expansion en base cosinus. Pour garantir la cohérence temporelle, la méthode ajoute une contrainte de type Sobolev sur la dérivée temporelle du premier ordre, ce qui pénalise les changements brusques et atténue les erreurs hautes fréquences. L'approche s'applique sans paramètres réseau supplémentaires, aussi bien aux politiques de flow matching autonomes qu'aux modèles vision-langage-action (VLA). Les résultats sont validés sur les benchmarks LapGym, LIBERO et évitement d'obstacles, ainsi qu'en déploiement réel sur un bras Franka. L'intérêt industriel est direct : la fragmentation des fréquences de contrôle est un problème concret lors de l'agrégation de données de démonstration provenant de robots différents (certains à 10 Hz, d'autres à 50 Hz), et les méthodes actuelles de diffusion policy ou de flow matching standard y sont explicitement vulnérables. Les actions temporellement incohérentes qui en résultent dégradent la stabilité du contrôle en boucle fermée, un facteur bloquant pour le déploiement en production. Le fait que FAFM améliore simultanément le taux de succès, la fluidité du mouvement, la robustesse aux biais mécaniques et la vitesse de convergence sans modifier l'architecture existante est une proposition de valeur claire pour les intégrateurs : pas de refonte du pipeline, pas de surcoût computationnel. La compatibilité avec les VLA est également notable, car ces modèles dominent les annonces récentes (pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) et souffrent précisément de ce type d'artefacts temporels à l'inférence. Le flow matching s'est imposé ces dix-huit derniers mois comme alternative crédible à la diffusion policy (Chi et al., 2023, Columbia), avec des temps d'inférence plus courts et une meilleure expressivité multimodale. Les travaux récents de Physical Intelligence (pi-0, pi-0.5) et de Figure AI ont largement adopté ce paradigme pour leurs politiques générales. FAFM s'inscrit dans une tendance de raffinement de ces fondations plutôt que de rupture : on optimise la stabilité et la généralisation inter-fréquences, deux verrous identifiés lors des premiers déploiements industriels à grande échelle. La validation sur Franka reste modeste en termes de diversité de tâches, et le code est disponible sous revue anonyme, ce qui signifie que la méthode n'est pas encore auditée par la communauté. Les prochaines étapes naturelles seraient une validation sur des plateformes humanoïdes multi-articulées et sur des datasets hétérogènes à grande échelle, là où la question des fréquences mixtes est la plus aiguë.

RecherchePaper
1 source
VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage
779arXiv cs.RO 

VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage

Des chercheurs présentent dans un preprint arXiv (2606.20056) VFILC, une méthode d'apprentissage par imitation pour robots qui résout le problème de l'extrapolation en fréquence de mouvement. Les approches classiques à base de réseaux de neurones pour les mouvements à vitesse variable se limitaient à interpoler dans la plage d'entraînement ou produisaient des trajectoires imprévisibles au-delà. VFILC combine VFIL (Variable-Frequency Imitation Learning), qui couple la fréquence d'échantillonnage du modèle à la fréquence de mouvement souhaitée, avec une commande par apprentissage itératif (ILC) dotée d'un terme feedforward et d'un terme feedback correcteur. Sur trois tâches de manipulation, les résultats montrent une réduction des erreurs de fréquence de 81 % sur une tâche d'essuyage et de 50 % sur une tâche de secouage, comparé à VFIL seul, lorsque le robot opère au double de la vitesse moyenne présente dans les données d'entraînement. Sur une tâche de malaxage riche en contacts, où la friction complexe perturbe le mouvement même en régime interpolé, VFILC améliore la précision de 27 % par rapport à VFIL seul. L'enjeu est la programmabilité par démonstration à des allures variables, cas courant en robotique manufacturière : adapter la cadence d'une tâche apprise sans recollecter de nouvelles démonstrations. Le fait que le composant ILC feedback corrige les erreurs de fréquence sans déstabiliser le comportement global est significatif pour les tâches à contact (essuyage, assemblage par insertion), où la dynamique réelle diverge du modèle nominal. Les réductions annoncées sont concrètes, mais les auteurs ne précisent pas le contexte de charge ni la durée des cycles, ce qui limite la comparabilité directe avec d'autres benchmarks de manipulation publiés. L'apprentissage par imitation est une approche de plus en plus adoptée pour programmer les robots manipulateurs sans modèle explicite, popularisée par des méthodes comme ACT (Action Chunking with Transformers, Stanford) ou Diffusion Policy. La gestion des vitesses variables y reste un angle mort : la plupart des méthodes supposent une fréquence de contrôle fixe. VFIL avait ouvert la voie en couplant fréquence d'échantillonnage et fréquence de mouvement, mais souffrait de son architecture en boucle ouverte. VFILC apporte la boucle de correction manquante via l'ILC, technique bien établie en contrôle industriel (presses, robots de soudage à répétition). La prochaine étape logique serait l'intégration dans des pipelines VLA (Vision-Language-Action) pour adapter dynamiquement la cadence sur commande en langage naturel, une direction que Physical Intelligence, CMU et ETH Zurich explorent activement.

RecherchePaper
1 source
One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras
780arXiv cs.RO 

One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras

Des chercheurs ont publié le 24 juin 2026 sur arXiv (2606.19897) ExS2D, un framework hiérarchique permettant à un robot bras unique d'exécuter des tâches bimanuelle sans aucune démonstration en configuration deux bras. Le système décompose d'abord des instructions textuelles en sous-tâches structurées, en capturant explicitement les dépendances temporelles entre elles. Un module de grounding traduit ensuite chaque sous-tâche en actions exécutables via une cartographie guidée par l'observation. Enfin, un coordinateur basé sur un grand modèle de langage multimodal (MLLM) orchestre l'allocation des actions entre les deux bras et planifie les trajectoires sans collision. En simulation, ExS2D réduit le nombre moyen d'étapes d'exécution de 54,4 % tout en maintenant un taux de succès comparable au baseline mono-bras. Des expériences sur robot réel portant sur quatre tâches distinctes confirment la fiabilité du système, entraîné uniquement sur quelques échantillons mono-bras en régime few-shot. L'enjeu principal ici est le coût de collecte des données bimanuelles, qui constitue l'un des principaux freins à la manipulation duale en robotique industrielle et service. Les systèmes comme ALOHA ou les plateformes de télé-opération bimanuelle nécessitent des configurations spécialisées et des opérateurs formés, rendant le passage à l'échelle difficile. ExS2D contourne ce goulot d'étranglement en réutilisant des démonstrations mono-bras existantes, potentiellement déjà disponibles dans les parcs robotiques en production. La réduction de 54,4 % des étapes d'exécution représente un gain de débit concret pour des lignes d'assemblage ou de tri, bien que les conditions expérimentales exactes (vitesse, complexité des objets, variabilité de la scène) ne soient pas détaillées dans l'abstract, ce qui invite à nuancer cette métrique avant toute extrapolation industrielle. La manipulation bimanuelle attire des investissements croissants de la part d'acteurs comme Figure AI (Figure 03), Physical Intelligence (pi0) ou Apptronik, tous confrontés au même problème de données. La tendance actuelle est d'utiliser des VLA (Vision-Language-Action models) entraînés sur de vastes corpus de démonstrations humaines, mais la collecte bimanuelle reste coûteuse même pour ces acteurs. ExS2D s'inscrit dans une direction complémentaire, celle du transfer learning structural depuis des données mono-bras, une approche qui pourrait intéresser les intégrateurs travaillant sur des cellules robotiques existantes en mono-bras. Il s'agit pour l'instant d'un travail académique sans déploiement commercial annoncé ; la prochaine étape logique serait une validation sur des tâches industrielles plus complexes et avec une plus grande variabilité d'objets.

RecherchePaper
1 source
VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP
781arXiv cs.RO 

VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP

Des chercheurs ont soumis sur arXiv (réf. 2606.19729) VOiLA, un framework de planification robotique qui apprend des modèles POMDP génériques via diffusion conditionnelle pour planifier sous incertitude partielle, sans nécessiter de modèles physiques codés manuellement. Les diffusion samplers sont distillés en générateurs feedforward compacts intégrés au planificateur VOPP, exploitant la parallélisation GPU pour réduire le coût d'échantillonnage de près de mille fois. Sur trois benchmarks standards, VOiLA atteint des performances égales ou supérieures à Recurrent Soft Actor Critic (RSAC) avec moins de 10 % de ses données d'entraînement. Sur robot physique, les modèles appris exclusivement en simulation permettent de réussir 10 tâches sur 10 en conditions réelles. Le résultat le plus saillant est ce taux de succès sim-to-real de 100 % : les modèles, entraînés sans aucune donnée réelle, fonctionnent en conditions physiques sans dégradation, validant directement la robustesse du transfert simulation-réalité. La frugalité en données est tout aussi notable : surpasser RSAC avec moins d'un dixième de ses données d'entraînement suggère que la structure imposée par les modèles de diffusion compense efficacement le manque de supervision. La généralisation à des configurations d'environnement inédites, documentée sur benchmarks, renforce la crédibilité de l'approche pour des déploiements industriels à conditions variables, là où les agents RL classiques montrent souvent leurs limites. La planification POMDP est un cadre théorique solide pour les agents en environnement partiellement observable, mais son adoption pratique a longtemps été freinée par la difficulté de construire des modèles fidèles. Les approches model-based comme DreamerV3 ou RSSM apprennent ces modèles sans intégrer de planification en ligne explicite calculable en temps réel. VOiLA comble ce fossé en combinant l'expressivité de la diffusion et la rapidité de la distillation pour rendre le POMDP tractable sur GPU, face à des concurrents directs comme RSAC, les planificateurs Monte Carlo Tree Search et les frameworks VLA. Aucun acteur français ou européen n'est impliqué dans ce travail, bien que des laboratoires comme l'INRIA ou le LAAS-CNRS pourraient directement exploiter ces résultats ; aucun partenariat industriel ni timeline de déploiement n'est annoncé dans ce preprint.

RecherchePaper
1 source
Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices
782arXiv cs.RO 

Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.19586) un cadre d'augmentation de données baptisé Action-View Augmentation, conçu pour améliorer la robustesse des politiques visuomotrices dans les tâches de manipulation robotique. Le système repose sur un préhenseur parallèle portable équipé d'une unique caméra fisheye montée en configuration eye-in-hand, capable de capturer des démonstrations réelles en milieu non contrôlé. À partir d'une seule démonstration humaine, le framework génère automatiquement des séquences d'images fisheye visuellement réalistes ainsi que des trajectoires d'actions physiquement cohérentes. Pour reconstruire et éditer la scène 3D en y introduisant des objets inédits, les auteurs ont développé une nouvelle formulation de Gaussian Splatting adaptée aux champs de vision larges des optiques fisheye. Une optimisation de trajectoire produit ensuite des chemins fluides, sans collision et compatibles avec le rendu de nouvelles vues caméra. Les expériences menées en simulation et en environnement réel montrent une amélioration du taux de succès sur plusieurs tâches de manipulation, aussi bien dans des scènes identiques qu'en présence d'obstacles requérant un évitement de collision. L'enjeu central est la fragilité des politiques visuomotrices actuelles face aux observations hors-distribution : une légère variation de configuration initiale ou un obstacle imprévu suffit à provoquer un échec d'exécution catastrophique. Collecter suffisamment de données pour couvrir ces variations est coûteux et chronophage, ce qui constitue l'un des principaux freins à l'industrialisation de la manipulation robotique. Le titre du papier résume l'ambition : multiplier artificiellement la valeur d'une seule démonstration réelle pour entraîner des politiques plus robustes. L'adaptation du Gaussian Splatting aux optiques fisheye, jusqu'ici peu traitée dans la littérature robotique, élargit le champ d'application à des setups matériels légers et peu coûteux. Ce type d'approche répond directement au problème du sim-to-real gap en générant des données synthétiques ancrées dans une scène réelle reconstruite, plutôt qu'en simulateurs déconnectés du terrain. Ce travail s'inscrit dans la dynamique des politiques de manipulation end-to-end, où des systèmes comme pi-0 de Physical Intelligence ou les architectures à diffusion (Diffusion Policy, ACT) ont prouvé que l'imitation de démonstrations humaines peut générer des comportements complexes, mais restent gourmands en données. Le Gaussian Splatting, popularisé à partir de 2023, s'est progressivement imposé en robotique grâce à sa capacité à synthétiser des vues nouvelles de haute qualité à partir de captures réelles. L'approche eye-in-hand à caméra fisheye se distingue des setups multi-capteurs fixes, réduisant le matériel embarqué à un seul composant. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit exclusivement d'un résultat académique, sans partenariat industriel déclaré ni timeline commerciale. Les prochaines étapes naturelles concerneraient l'évaluation à plus grande échelle et l'intégration dans des pipelines de fine-tuning pour des politiques de type VLA (Vision-Language-Action).

RecherchePaper
1 source
Coordination par dépliage profond
783arXiv cs.RO 

Coordination par dépliage profond

Des chercheurs ont présenté Deep Coordinator, un framework de deep-unfolding (arXiv:2606.19920) qui automatise le réglage des hyperparamètres d'ADMM-DDP, un solveur distribué populaire pour la planification de trajectoires multi-robots. L'architecture déroule un nombre fixe d'itérations de l'algorithme en couches d'un réseau de neurones, des fonctions apprenables calculant dynamiquement les hyperparamètres suivants à partir de l'état courant de l'optimiseur. Sur des simulations de flottes de voitures et de quadrotors, Deep Coordinator produit des trajectoires de qualité équivalente entre 6,18 et 9,44 fois plus vite que les solveurs conventionnels, et maintient ces gains sur des flottes jusqu'à 8 fois plus grandes que celles vues à l'entraînement. L'intérêt industriel est direct : l'optimisation distribuée est scalable et structurellement transparente, mais son calibrage fin par configuration freine systématiquement l'adoption. Deep Coordinator serait le premier framework de deep-unfolding à adapter les paramètres de pénalité d'un optimiseur non-convexe en temps-solve. Les auteurs signalent en outre que l'approche supervisée classique produit des solutions dégénérées dans ce contexte, et proposent un schéma d'apprentissage non supervisé. Pour les opérateurs de flottes denses (entrepôts, inspection par drone), une accélération d'un facteur 6 à 9 sur la planification collaborative ouvre la voie à des déploiements temps réel difficiles à atteindre avec les solveurs actuels. Le deep-unfolding hybride structure algorithmique classique et apprentissage profond en mappant les itérations d'un solveur en couches de réseau de neurones. ADMM est un standard de l'optimisation distribuée depuis Boyd et al. (2011), très utilisé pour la coordination multi-robot. Les concurrents directs incluent le Multi-Agent Reinforcement Learning (MARL) et le MPC centralisé, dont les limites de scalabilité ou de généralisation sont documentées. La bonne généralisation à des systèmes 8x plus grands est prometteuse, mais les résultats restent simulés ; une validation sur hardware réel, notamment en environnements dynamiques, sera l'étape déterminante pour confirmer la valeur opérationnelle du framework.

RecherchePaper
1 source
Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel
784arXiv cs.RO 

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Des chercheurs ont publié en décembre 2024 (arXiv:2512.20014) une méthode appelée Visual Attentive Prompting (VAP), conçue pour permettre aux modèles Vision-Language-Action (VLA) de répondre à des consignes personnalisées du type "apporte ma tasse". Le problème adressé est précis : un VLA classique, même performant sur des instructions génériques, échoue à identifier un objet spécifique parmi plusieurs visuellement identiques sans avoir été entraîné sur cet objet. VAP fonctionne sans ré-entraînement (training-free), c'est son argument central. Il prend quelques images de référence de l'objet cible, effectue une détection en vocabulaire ouvert dans la scène, compare les embeddings visuels pour localiser l'instance correcte, puis injecte cette localisation directement dans le flux d'entrée du VLA : surlignage de l'objet et réécriture de l'instruction. Les auteurs ont construit deux benchmarks en simulation (Personalized-SIMPLER et Personalized-VLABench) et un benchmark réel sur table pour valider l'approche sur plusieurs robots et tâches. VAP surpasse les politiques génériques et les baselines par apprentissage de tokens, à la fois en taux de succès global et en taux de manipulation du bon objet. L'enjeu industriel derrière ce travail est la personnalisation au niveau de l'instance, un verrou jusqu'ici sous-traité dans la recherche VLA. Pour un intégrateur ou un COO déployant des robots en environnement résidentiel ou hospitalier, la capacité à distinguer "la tasse de Paul" de "la tasse de Marie" sans pipeline d'apprentissage dédié par utilisateur représente un gain opérationnel significatif. VAP démontre que l'attention sélective top-down, couplée à une mémoire visuelle non-paramétrique, peut combler l'écart entre compréhension sémantique et contrôle au niveau de l'instance, un problème que les approches fondées sur le langage seul ne résolvent pas. L'absence de ré-entraînement est un avantage de déploiement réel, même si les benchmarks restent à l'échelle tabletop, loin de la chaîne logistique. Ce travail s'inscrit dans la dynamique post-RT-2 et post-OpenVLA : les VLA généralistes (π0 de Physical Intelligence, GR00T N2 de NVIDIA, ou encore les approches Octo et RoboFlamingo) excellent sur des distributions larges mais restent aveugles à la sémantique d'instance. VAP propose une surcouche légère compatible avec n'importe quel VLA gelé, ce qui le positionne comme un adaptateur potentiel pour des systèmes existants plutôt qu'un modèle concurrent. Les prochaines étapes naturelles incluent des tests hors tabletop (manipulation mobile, environnements encombrés), l'évaluation à plus grande échelle d'objets personnels, et l'intégration dans des frameworks open-source comme LeRobot d'Hugging Face. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans la publication.

UEImpact indirect limité via la mention de LeRobot (HuggingFace, entreprise franco-américaine) comme cible d'intégration naturelle, sans implication directe d'acteurs ou institutions français/européens dans la publication.

💬 Le vrai verrou des robots en environnement réel, c'est pas la compréhension du langage, c'est la sémantique d'instance : distinguer "ma tasse" de "ta tasse" sans ré-entraîner le modèle pour chaque utilisateur. VAP règle exactement ça, avec quelques photos de référence et une surcouche légère compatible avec n'importe quel VLA existant. Reste à voir ce que ça donne hors tabletop, mais comme brique vers des robots vraiment personnalisables en déploiement réel, c'est ce qui manquait.

IA physiqueOpinion
1 source
Étude comparative sur l'agilité, l'efficacité et l'absorption des chocs des robots bipèdes à orteils actifs
785arXiv cs.RO 

Étude comparative sur l'agilité, l'efficacité et l'absorption des chocs des robots bipèdes à orteils actifs

Des chercheurs ont publié sur arXiv en juin 2026 (2606.19699) une étude comparative portant sur un robot bipède à 14 degrés de liberté (DOF) équipé d'orteils actifs, conçus pour reproduire les caractéristiques humaines de légèreté, fort couple et robustesse. Pour évaluer objectivement l'apport des orteils, l'équipe a développé un environnement de simulation haute fidélité modélisant avec précision les actionneurs réels à transmissions couplées et la consommation électrique effective. Une fonction de récompense minimale en apprentissage par renforcement (RL) a été appliquée de manière identique aux deux configurations -- avec et sans orteils actifs -- pour garantir une comparaison équitable. À une vitesse de marche de 1,33 m/s, la configuration avec orteils réduit le coût de transport (CoT) de 17,5 % et la force de réaction au sol (GRF) lors de l'attaque du talon de 5,0 %. Sur les tests d'agilité, la déviation moyenne par rapport à la trajectoire cible chute de 25,0 % et la déviation maximale de 34,0 %. Ces résultats, bien qu'issus uniquement de simulation, apportent une validation quantitative rigoureuse là où la littérature précédente se contentait souvent de démonstrations qualitatives. La réduction du CoT est directement pertinente pour les déploiements industriels, où l'autonomie énergétique conditionne la durée des cycles opérationnels. La diminution du GRF au talon suggère par ailleurs une meilleure durabilité mécanique à long terme, un paramètre critique pour les intégrateurs industriels qui dimensionnent la maintenance préventive. La progression sur les métriques d'agilité confirme une hypothèse souvent avancée mais rarement chiffrée : les orteils contribuent significativement au contrôle dynamique en virage et sur trajectoires complexes, au-delà de la simple marche en ligne droite. Le débat sur l'utilité des orteils dans la robotique humanoïde est ancien. La majorité des plateformes commerciales actuelles -- Figure 02/03, Optimus Gen 2 ou Atlas de Boston Dynamics -- optent pour des pieds plats ou semi-rigides, privilégiant la simplicité mécanique et la robustesse. Des travaux antérieurs sur des robots comme ASIMO ou Cassie avaient exploré des pieds articulés sans aboutir à un consensus sur le gain réel. Cette étude repositionne la question en proposant un cadre d'évaluation reproductible et des métriques comparables. La prochaine étape critique sera la validation sim-to-real : les gains simulés tiennent rarement à l'identique sur hardware, notamment en raison du jeu mécanique et des effets de compliance non modélisés. Aucun déploiement physique ni partenaire industriel n'est annoncé à ce stade.

RecherchePaper
1 source
R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique
786arXiv cs.RO 

R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique

Des chercheurs ont publié sur arXiv en octobre 2024 (arXiv:2510.18085v2) une méthode baptisée R2BC (Round-Robin Behavior Cloning), conçue pour entraîner des systèmes multi-robots à partir de démonstrations réalisées par un seul opérateur humain. Le principe : l'humain téléopère un robot à la fois, de façon séquentielle en "round-robin", sans jamais avoir à contrôler plusieurs agents simultanément ni à fournir des démonstrations dans l'espace d'action conjoint. La méthode a été évaluée sur quatre tâches simulées multi-agents, puis déployée sur deux tâches physiques avec des démonstrations humaines réelles. Résultat : R2BC atteint, voire dépasse dans certains cas, les performances d'une approche oracle de behavior cloning entraînée sur des démonstrations synchronisées privilégiées, c'est-à-dire des données idéales rarement disponibles en pratique. L'intérêt de R2BC tient à son approche de la collecte de données d'imitation learning. En robotique collaborative multi-bras ou en manipulation industrielle coordonnée, constituer des démonstrations synchronisées entre plusieurs agents représente un goulot d'étranglement logistique majeur : cela exige plusieurs opérateurs, une coordination temporelle précise, et multiplie les coûts d'instrumentation. R2BC supprime cette contrainte en permettant à un seul technicien de construire progressivement un dataset multi-agent, ce qui rend la méthode directement applicable aux déploiements à budget contraint. Que R2BC tienne la comparaison face à un oracle entraîné sur des données idéales constitue une validation empirique solide, même si les tâches physiques testées restent relativement simples et que les détails sur les configurations matérielles ne sont pas communiqués dans le préprint. L'imitation learning par clonage comportemental s'est imposé comme une voie centrale pour l'apprentissage robot depuis les travaux fondateurs de DAgger (Ross et al., 2011) et, plus récemment, avec les architectures VLA (Vision-Language-Action) portées notamment par Physical Intelligence (pi0) et Google DeepMind. Son extension au multi-agent reste néanmoins peu explorée : la plupart des travaux existants supposent des démonstrations conjointes ou une coordination centralisée, là où des méthodes de renforcement multi-agent comme MAPPO ou QMIX opèrent sans contrainte de collecte humaine. R2BC occupe ce blanc de la littérature avec une approche pragmatique. Les suites naturelles seraient de tester la méthode sur des équipes de robots plus nombreuses, dans des environnements dynamiques proches des standards industriels, et d'évaluer sa robustesse sur des tâches longue-horizon.

RecherchePaper
1 source
Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots
787arXiv cs.RO 

Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots

Des chercheurs ont publié le 18 juin 2026 sur arXiv (2606.18328) un article présentant ReSYNC, pour Recovery-Driven Synthesis of Relational Concepts, un système d'apprentissage robotique capable d'extraire automatiquement des abstractions conceptuelles à partir de ses propres erreurs. Le principe repose sur un double cycle d'apprentissage incrémental : une phase d'apprentissage de compétences, où le robot utilise le renforcement (RL) pour récupérer d'échecs observés durant l'entraînement, et une phase d'apprentissage de concepts, où il construit et raffine des prédicats relationnels, c'est-à-dire des règles symboliques décrivant les états du monde pertinents pour éviter ces mêmes échecs. Testé sur quatre domaines simulés incluant des tâches de manipulation non préhensile (pousser, faire glisser des objets sans saisie ferme), ReSYNC surpasse les méthodes de référence de plus de 50 % sur des problèmes à horizon long et non vus à l'entraînement. Un transfert sim-to-réel est également démontré, avec exécution de comportements de manipulation en conditions physiques réelles. L'enjeu industriel central que pointe ce travail est l'inefficacité structurelle du RL classique face à la diversité des pannes : entraîner une politique distincte pour chaque mode d'échec ne passe pas à l'échelle. ReSYNC propose une alternative en transformant des récupérations locales, apprises sur des tâches spécifiques, en capacité d'évitement global sur des scénarios inédits. Pour les intégrateurs industriels ou les équipes de robotique mobile, cela suggère un chemin vers des robots capables de se "réparer" conceptuellement sans intervention humaine entre chaque environnement de déploiement. Le transfert sim-to-réel reste cependant présenté sur des tâches de manipulation relativement contraintes, et les vidéos de démonstration sélectionnées dans un preprint ne permettent pas encore d'évaluer la robustesse sur des cycles de production réels. ReSYNC s'inscrit dans un courant de recherche qui tente de réconcilier planification symbolique classique (TAMP, PDDL) et apprentissage par renforcement, un problème ouvert depuis plus d'une décennie. Des approches concurrentes incluent les méthodes guidées par LLM pour la génération de prédicats (Code as Policies, SayCan) ainsi que les travaux sur la découverte automatique de prédicats en TAMP (LEGO, GROOT). Ce qui distingue ReSYNC est son ancrage explicite dans l'expérience d'échec plutôt que dans des démonstrations d'expert. Le code et les environnements de simulation ne semblent pas encore publics au moment de la soumission, et aucun partenaire industriel ni calendrier de déploiement n'est mentionné, ce qui classe ce travail comme une contribution académique prometteuse plutôt qu'un produit opérationnel.

RecherchePaper
1 source
PAIWorld : un modèle fondation du monde en 3D cohérent pour la manipulation robotique
788arXiv cs.RO 

PAIWorld : un modèle fondation du monde en 3D cohérent pour la manipulation robotique

Des chercheurs ont soumis PAIWorld sur arXiv (2506.18375, juin 2026), un framework de modèle fondationnel de monde (world foundation model, WFM) conçu pour la manipulation robotique avec cohérence 3D multi-vues. L'architecture, construite sur un transformateur de diffusion (DiT), intègre trois composants : des blocs d'attention croisée géométriquement informés (Geometry-Aware Cross-View Attention), un encodage positionnel rotatif qui intègre directions de rayons caméra et poses extrinsèques (Geometric RoPE), et un module Latent 3D-REPA qui distille des représentations 3D à partir de modèles 3D figés. Sur les benchmarks publics, PAIWorld se classe premier sur le leaderboard WorldArena et deuxième sur l'AgiBot-Challenge2026, deux références communautaires pour les simulateurs de manipulation. Le problème que PAIWorld adresse est concret : les robots de manipulation utilisent typiquement plusieurs caméras simultanées (vue égocentrique, eye-to-hand, poignet), mais les modèles de monde existants se contentent de concaténer les tokens de chaque vue sans raisonnement géométrique, générant dérive d'objet entre vues, incohérence de profondeur et désalignement de texture. Ces artefacts dégradent l'entraînement de politiques dans les simulateurs et amplifient le sim-to-real gap, problème central pour tout industriel cherchant à transférer des comportements entraînés en simulation vers des robots physiques. En établissant un canal explicite de communication inter-vues combiné à un prior géométrique 3D, PAIWorld vise à améliorer la fidélité des simulateurs utilisés pour le post-entraînement de politiques multi-vues et la planification basée sur des modèles (model-based planning). Les world foundation models appliqués à la robotique constituent un axe de recherche en forte croissance en 2026, porté notamment par des travaux comme UniSim et Genie 2, ainsi que par les approches VLA (Vision-Language-Action) qui cherchent à intégrer simulation et apprentissage de politiques. L'AgiBot-Challenge2026, structuré autour de tâches de manipulation dextère, joue un rôle de référence communautaire croissant pour ces systèmes. Il s'agit d'une prépublication scientifique sans partenariat commercial ni déploiement industriel annoncé : les suites logiques restent l'évaluation sur des benchmarks de transfert sim-to-real avec des plateformes physiques et l'intégration dans des world action models complets.

RecherchePaper
1 source
GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée
789arXiv cs.RO 

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

Une équipe de chercheurs a publié fin juin 2026 un système baptisé GASE (Gaussian Splatting-Based Automated System for Reconstructing Embodied-Simulation Environments), conçu pour automatiser la construction de scènes de simulation photoréalistes destinées à l'entraînement de robots. Le pipeline exploite des réseaux de caméras panoramiques multivues pour capturer l'environnement réel, extrait automatiquement les objets de premier plan via une stratégie basée sur les poses de caméras dans le domaine 2D, puis reconstruit séparément objets et arrière-plan statique par 3D Gaussian Splatting avant de les importer dans un simulateur physique avec inpainting haute-fidélité des zones manquantes. Sur des benchmarks de segmentation, GASE surpasse les méthodes 3DGS concurrentes de plus de 10 %. Surtout, lors de déploiements réels sur des tâches de manipulation et de navigation, les politiques entraînées en simulation n'affichent qu'un écart de performance inférieur à 10 % par rapport à celles entraînées sur données réelles, arXiv:2606.17520. Ce résultat chiffré est l'argument central du papier. Le sim-to-real gap, soit la dégradation des performances lors du passage du simulateur au robot physique, reste l'un des obstacles majeurs au déploiement à grande échelle de l'apprentissage robotique. Un écart sous les 10 % suggère que la simulation générée automatiquement depuis des scans réels peut constituer un vecteur de data augmentation viable, réduisant la dépendance à des opérateurs qualifiés et à du matériel coûteux pour la collecte terrain. Pour les intégrateurs et les industriels engagés dans des projets de manipulation ou de navigation autonome, la promesse est de compresser significativement le coût des pipelines d'entraînement, à condition que la méthode tienne à l'échelle et sur des environnements plus complexes que ceux testés. GASE s'inscrit dans la trajectoire tracée par l'émergence du 3D Gaussian Splatting en 2023 comme alternative temps-réel aux NeRF pour la reconstruction de scènes. Les approches concurrentes, notamment SplatSim, Gaussian Grouping et les pipelines d'assets manuels dans Isaac Sim ou MuJoCo, progressent en parallèle, mais l'automatisation complète de l'acquisition jusqu'à l'import simulateur reste un problème ouvert. Le preprint ne mentionne ni institution ni partenaires industriels, ce qui rend difficile l'évaluation des perspectives de transfert applicatif. Le code doit être publié ultérieurement mais n'est pas encore disponible au moment de la soumission. Le périmètre limité des tâches testées et l'absence de comparaison avec des environnements synthétiques construits manuellement laissent plusieurs questions ouvertes à la communauté.

RecherchePaper
1 source
WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles
790arXiv cs.RO 

WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles

Une équipe de recherche a publié sur arXiv (ref. 2606.18097) WireCraft, un benchmark de simulation dédié à la manipulation industrielle d'objets linéaires déformables (DLO), typiquement les câbles et faisceaux électriques omniprésents dans les lignes d'assemblage. Le benchmark couvre trois familles de tâches représentatives du câblage industriel réel : l'insertion de connecteurs, le routage de clips et la mise en place de goulottes (channel seating). Il intègre deux modèles physiques complémentaires pour simuler le comportement des câbles, l'un articulé et l'autre véritablement déformable, et les trajectoires de référence proviennent à la fois de la simulation et d'un bras UR5 physique. Les auteurs ont évalué trois familles de politiques de contrôle : apprentissage par renforcement (RL), apprentissage par imitation (IL) et politiques vision-langage-action (VLA). Sous conditions de RL avec état privilégié (accès direct aux variables d'état internes de la simulation), chaque famille de tâches est résolue avec un taux de succès supérieur à 82 %, confirmant que les tâches sont bien posées et non artificiellement impossibles. Ces résultats exposent un écart critique entre manipulation sous état privilégié et manipulation guidée uniquement par la vision, un problème central pour tout intégrateur cherchant à déployer des cellules robotisées sur des opérations de câblage. Le vrai verrou identifié par WireCraft n'est pas la phase d'approche, mais la transition entre atteindre un connecteur et exécuter l'alignement en contact riche, où les politiques visuelles (RL vision, IL et VLA) échouent de façon significative. Cela contredit implicitement plusieurs narratifs optimistes autour des VLA polyvalents : malgré des performances impressionnantes sur des objets rigides, ces architectures peinent dès que la géométrie est déformable et que le retour d'état est limité à la perception visuelle. Pour un COO industriel ou un intégrateur, le message est pragmatique : les câbles ne sont pas encore un problème résolu, même en simulation propre avec des benchmarks bien construits. Le manque de benchmarks partagés et reproductibles pour les DLO freine depuis longtemps la comparaison objective des approches dans ce domaine. Les benchmarks existants sont généralement liés à du matériel propriétaire ou traitent des objets déformables génériques sans les contraintes de fixation propres au câblage industriel. WireCraft comble cette lacune avec des assets configurables en difficulté et des protocoles d'évaluation communs. Le code, les données et les outils seront mis en open source après acceptation de l'article. Côté concurrence, des acteurs comme OpenAI (avec ses travaux sur la manipulation déformable) ou des laboratoires comme Physical Intelligence (pi) avec Pi-0 poussent également sur la manipulation généraliste, mais aucun benchmark industriel câble de ce type n'était encore disponible publiquement. La prochaine étape naturelle sera le sim-to-real transfer systématique : WireCraft pose les rails, mais la question de savoir quelle architecture franchira le gap reste entièrement ouverte.

RecherchePaper
1 source
Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée
791arXiv cs.RO 

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper
1 source
OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes
792arXiv cs.RO 

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

OmniRetarget est un pipeline de génération de données pour l'apprentissage par renforcement (RL) sur robots humanoïdes, présenté dans un préprint arXiv (2509.26633, v3). Face au problème du retargeting, qui consiste à convertir des captures de mouvement humain en références cinématiques exploitables par un robot, les méthodes existantes produisent des artefacts physiquement incohérents comme le glissement des pieds (foot-skating) ou la pénétration de surfaces, et ignorent les interactions humain-objet et humain-environnement. OmniRetarget introduit un "interaction mesh", un maillage intermédiaire qui modélise et préserve explicitement les relations spatiales et de contact entre l'agent, le terrain et les objets manipulés, via une minimisation par déformation laplacienne sous contraintes cinématiques. Évalué sur les datasets OMOMO, LAFAN1 et des données MoCap propriétaires, il génère plus de 8 heures de trajectoires de meilleure qualité que les baselines de référence. Appliqué au robot humanoïde Unitree G1, il permet d'exécuter des tâches de parkour et de loco-manipulation sur des horizons allant jusqu'à 30 secondes, entraîné avec seulement 5 termes de récompense et sans curriculum d'apprentissage. L'intérêt pour les chercheurs et intégrateurs réside dans deux apports combinés : la qualité cinématique améliorée réduit le sim-to-real gap, tandis que la préservation des interactions permet d'augmenter une démonstration unique vers différentes morphologies de robots, terrains et configurations d'objets, multipliant l'efficacité de la donnée. Plus significatif encore, l'obtention de comportements de loco-manipulation longs et complexes avec seulement 5 termes de récompense partagés entre toutes les tâches contredit l'hypothèse sectorielle selon laquelle ce type de compétences exige un reward engineering élaboré ou un curriculum progressif. Le paradigme dominant pour l'apprentissage humanoïde repose sur le retargeting MoCap vers des références RL, aux côtés de la télé-opération et de l'imitation directe. Le Unitree G1, produit par le fabricant chinois Unitree Robotics, s'est imposé comme plateforme académique de facto dans ce domaine, face à l'Atlas de Boston Dynamics, aux humanoïdes de Figure AI et d'Agility Robotics. OmniRetarget reste à ce stade une contribution de recherche sans annonce de déploiement industriel ; sa robustesse dans des environnements non structurés, où la géométrie de contact est imprévisible, reste à démontrer hors laboratoire.

RecherchePaper
1 source
DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine
793arXiv cs.RO 

DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine

Une équipe de chercheurs a publié fin juin 2026 sur arXiv (arXiv:2606.17418) les spécifications techniques de la DexLink Hand, une main robotique anthropomorphe à 16 degrés de liberté intégrant 20 articulations commandées par 16 actionneurs indépendants. Le prototype, de la taille d'une main humaine, pèse 320 grammes et affiche un coût total inférieur à 400 dollars, un seuil rarissime pour ce niveau de polyvalence. L'architecture mécanique repose sur un système hybride de mécanismes à liaisons planes et spatiales, permettant des mouvements multidirectionnels découplés, des synergies articulaires biomimétiques et une forte capacité de charge passive sans actionnement. Le pouce intègre des caractéristiques biomimétiques supportant les mouvements de reconfiguration et d'opposition propres à la main humaine. Lors des évaluations expérimentales, la main a atteint le score de Kapandji maximal (référence standard en chirurgie et robotique pour évaluer l'amplitude de mouvement du pouce) et a reproduit les 33 types de préhension du catalogue Feix, couvrant l'intégralité des prises répertoriées sur des sujets humains. L'intérêt industriel du travail réside principalement dans le ratio coût/dextérité : les mains robotiques commerciales atteignant un niveau comparable (Shadow Dexterous Hand, Allegro Hand) se situent entre 5 000 et 70 000 dollars, rendant leur déploiement en série peu viable. Un module à moins de 400 dollars change les calculs pour les intégrateurs de robots humanoïdes ou de cellules de téléopération. La masse de 320 g est également compatible avec les bras des humanoïdes de nouvelle génération, dont les payloads distaux sont souvent contraints à moins de 500 g. La reproduction de l'intégralité des types Feix constitue une donnée concrète pour le robot learning : les datasets entraînés sur des démonstrations humaines deviennent directement exploitables sans remapping cinématique, ce qui réduit le gap sim-to-real pour les approches VLA (vision-language-action). Le défi de la main dextère est structurel dans le secteur : la majorité des plateformes humanoïdes commerciales (Figure 03, Tesla Optimus Gen 3, Agility Digit, Unitree H1) utilisent encore des mains simplifiées à 2 à 6 DOF pour des raisons de robustesse et de coût. Ce prototype reste pour l'heure un démonstrateur académique sans annonce de commercialisation ni partenariat industriel déclaré. Les chercheurs le positionnent explicitement pour la manipulation dextère, la téléopération et le robot learning en environnements centrés sur l'humain, des cas d'usage directement alignés avec les feuilles de route de Boston Dynamics, de 1X Technologies ou des équipes travaillant sur Pi-0 (Physical Intelligence). Aucune timeline d'intégration sur un bras complet ni d'évaluation en conditions industrielles n'est communiquée.

HumanoïdesPaper
1 source
Un cadre d'optimisation hybride pour la synthèse de saisie sous observations partielles
794arXiv cs.RO 

Un cadre d'optimisation hybride pour la synthèse de saisie sous observations partielles

Des chercheurs ont publié sur arXiv (référence 2606.18053) un framework hybride de synthèse de préhension robotique capable de générer des saisies robustes à partir de nuages de points partiels, c'est-à-dire des scènes où le robot ne perçoit qu'une vue incomplète de l'objet à manipuler. L'approche combine un modèle à énergie (EBM) entraîné par apprentissage avec une méthode géométrique analytique d'ICP (Iterative Closest Point), les deux étant intégrés dans un cadre d'optimisation SVGD (Stein Variational Gradient Descent) qui raffine itérativement les configurations de préhension candidates. Évalué sur 67 objets distincts avec 5 360 tentatives de saisie, le système atteint un taux de succès moyen de 60,9 %, contre 31,1 % pour AnyGrasp, 48,4 % pour Grasp Pose Detection et 56,6 % pour AS-ICP, son concurrent hybride le plus proche. Ces résultats adressent un problème central en robotique de manipulation industrielle : la dégradation des performances lorsque le capteur ne dispose que d'une vue partielle de la scène, situation quasi systématique en cellule de picking réel. Le gain de 4,3 points sur AS-ICP, méthode purement géométrique, et de près de 30 points sur AnyGrasp, approche purement data-driven, indique que l'hybridation n'est pas un compromis mais une complémentarité structurelle : l'EBM apporte une prior apprise sur la géométrie des objets, tandis que l'ICP ancre le résultat dans une contrainte physique vérifiable. Pour les intégrateurs B2B, cela réduit la dépendance à des datasets massifs spécifiques à chaque référence produit, un frein bien connu au déploiement en logistique et en assemblage. La synthèse de préhension sous observations partielles est un sujet actif depuis les travaux fondateurs de Dex-Net (Berkeley, 2017) et l'émergence des architectures VLA appliquées à la manipulation. AnyGrasp, développé par l'équipe de Hao Su (UC San Diego), reste une référence industrielle largement utilisée ; sa sous-performance ici sur nuages incomplets souligne une limite connue des méthodes purement apprises sans contrainte géométrique explicite. Ce travail n'est pas accompagné d'une annonce de déploiement ou de partenariat industriel ; il s'agit d'une contribution de recherche publiée en preprint, sans validation en environnement industriel réel déclarée. Les prochaines étapes naturelles seraient des tests sur robots physiques (bras 6-DOF type UR ou Franka) et une intégration dans des pipelines de bin picking.

RecherchePaper
1 source
Adaptation aux dommages en quelques secondes pour les matériaux architecturés
795arXiv cs.RO 

Adaptation aux dommages en quelques secondes pour les matériaux architecturés

Des chercheurs du Murphey Lab publient sur arXiv (référence 2606.17394, juin 2026) LEAP, un algorithme d'adaptation proprioceptive permettant à un robot souple de compenser des dommages catastrophiques, coupures, brûlures ou défaillances d'actionneurs, en moins d'une minute sans recours à la simulation. La démonstration porte sur une tâche de traçage menée par un poignet souple à 6 degrés de liberté (6DoF) à base d'actionneurs HSA (Handed Shearing Auxetic), une classe de matériaux dits architecturés dont la géométrie interne est conçue pour coupler rotation et translation. L'algorithme exploite uniquement des signaux proprioceptifs internes pour inférer une représentation latente des dommages dans un espace de faible dimension, puis une méthode d'ensemble robuste permet d'adapter le contrôle en temps réel à des dommages non anticipés lors de l'entraînement. Le résultat théorique central est que, pour les matériaux architecturés, la complexité d'échantillonnage nécessaire à l'apprentissage de représentations de dommages croît de façon linéaire plutôt qu'exponentielle, un avantage structurel par rapport aux composants rigides ou aux mécanismes souples continus. Pour les intégrateurs, l'absence de dépendance à un simulateur supprime le problème du sim-to-real gap, fréquemment bloquant en production réelle. La capacité à s'adapter à des dommages imprévus en moins d'une minute constitue un verrou critique pour l'autonomie longue durée des robots de service et industriels, que LEAP adresse ici sur un effecteur physique réel. À noter que la validation reste limitée à un unique type d'effecteur et à des scénarios de dommages relativement ciblés. LEAP s'inscrit dans la dynamique de la robotique souple où des acteurs comme Harvard (Soft Robotics Toolkit), l'EPFL (laboratoire Biorobotics) et Festo du côté européen travaillent sur la résilience matérielle et l'adaptation en service. Les actionneurs HSA sont une innovation issue de recherches antérieures sur les matériaux auxétiques, connus pour leur comportement mécanique non conventionnel. Ce travail est un preprint académique, pas un produit commercialisé ni un déploiement industriel annoncé. Les suites naturelles incluent l'intégration sur un bras complet, des tests hors laboratoire en environnement non structuré, et la validation sur des cycles de vie prolongés.

UEL'EPFL (laboratoire Biorobotics) et Festo, acteurs européens de la robotique souple résiliente, opèrent dans le même périmètre ; LEAP constitue une référence académique directement pertinente pour leurs travaux sur l'adaptation en service sans dépendance au simulateur.

RecherchePaper
1 source
Surveillance respiratoire sans contact sur robots mobiles hétérogènes : un cadre multimodal de calcul embarqué
796arXiv cs.RO 

Surveillance respiratoire sans contact sur robots mobiles hétérogènes : un cadre multimodal de calcul embarqué

Des chercheurs ont publié le 17 juin 2026 sur arXiv (réf. 2606.17376) un cadre logiciel de surveillance respiratoire sans contact déployé sur des robots mobiles hétérogènes embarquant des unités de calcul en périphérie (edge computing). Le système mesure la fréquence respiratoire (FR) d'une victime sans capteur porté ni contact physique, en combinant quatre modalités d'imagerie : RGB, thermique, proche infrarouge (NIR) et caméra basse lumière. Une sélection adaptative au niveau lumineux choisit automatiquement la modalité optimale, tandis qu'un module d'extraction de région d'intérêt thoracique guidé par points-clés squelettiques garantit la robustesse aux changements de posture. Un indice de qualité de signal (SQI) filtre les estimations peu fiables avant transmission. Le cadre a été évalué sur trois plateformes robotiques couvrant la locomotion quadrupède et à roues, sans recalibration algorithmique par plateforme. Les portées opérationnelles mesurées sont : RGB jusqu'à 8 m, NIR jusqu'à 6 m, thermique efficace uniquement à courte distance, basse lumière jusqu'à 8 m en obscurité totale. Ce travail répond à un verrou opérationnel concret : lors d'opérations de recherche et sauvetage (SAR) ou de triage en zone contaminée, équiper chaque victime d'un capteur porté est impraticable, et l'exposition des secouristes doit être minimisée. Démontrer qu'un robot mobile standard peut estimer la fréquence respiratoire de manière fiable à plusieurs mètres, sur des sujets en postures variées et dans des conditions d'éclairage dégradées, valide une brique essentielle du triage autonome. La portabilité sans retuning entre plateformes hétérogènes est un résultat notable : elle suggère une intégration possible sur des robots existants via une couche logicielle, sans exiger un matériel dédié. Les limites thermiques à courte portée restent cependant un point de vigilance pour les environnements chauds ou encombrés. Le domaine du triage autonome en SAR mobilise plusieurs équipes académiques et industriels depuis la catastrophe de Fukushima (2011), qui avait mis en évidence le manque de robots capables d'évaluer l'état de victimes sans intervention humaine directe. Dans l'espace des robots d'intervention, Boston Dynamics (Spot), ANYbotics (ANYmal) et Ghost Robotics fournissent des plateformes quadrupèdes sur lesquelles ce type de module pourrait se greffer. Côté français, les travaux du LAAS-CNRS et d'entreprises comme Shark Robotics (robots d'intervention COLOSSUS) s'inscrivent dans ce continuum. Les prochaines étapes logiques incluent la validation sur victimes réelles en exercice USAR (Urban Search and Rescue), l'intégration avec des modules de détection de signe de vie supplémentaires (pouls, mouvement), et le passage à des plateformes certifiées pour les environnements ATEX ou CBRN.

UELes équipes françaises LAAS-CNRS et Shark Robotics, actives sur les robots d'intervention, pourraient intégrer ce framework logiciel sans recalibration sur leurs plateformes existantes pour renforcer les capacités de triage autonome en opérations SAR.

RecherchePaper
1 source
WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive
797arXiv cs.RO 

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Des chercheurs ont publié WeaveLA (Weave Latent Memory for Vision-Language-Action Policies) sur arXiv (identifiant 2606.17463v1), un module de mémoire inter-sous-tâches qui se greffe sur un backbone VLA gelé, en l'occurrence π₀.₅ de Physical Intelligence, sans modifier ses poids. À chaque franchissement d'un sous-objectif, WeaveLA compresse le segment d'actions accompli en tokens latents via attention pooling guidé par requêtes, puis injecte ces tokens dans le chemin de génération d'actions du sous-objectif suivant. Évalué sur le benchmark RoboMME, le résultat le plus saillant porte sur la tranche "SwingXtimes" à N=3 répétitions : le taux de succès passe de 0 % à 47,8 %, tandis que les épisodes à exécution unique restent inchangés, confirmant que les gains sont strictement confinés aux tâches causalement dépendantes entre sous-objectifs. Ce résultat pointe une limite structurelle précise des VLA à fenêtre courte : l'absence d'un canal explicite pour propager l'état entre sous-tâches. Les architectures actuelles, qu'il s'agisse de π₀, OpenVLA ou des variantes à mémoire existantes, gèrent bien la manipulation pas-à-pas, mais peinent dès que la réussite d'une étape conditionne la suivante. WeaveLA montre qu'un module léger, déclenché uniquement sur les événements de complétion de sous-objectifs, suffit à corriger cette fragilité sans régression sur les tâches simples. C'est un signal favorable pour les intégrateurs industriels qui cherchent à déployer des politiques génériques sur des workflows multi-étapes sans réentraîner l'intégralité du modèle. Le backbone π₀.₅ utilisé est celui de Physical Intelligence, startup fondée à San Francisco en 2023 et ayant levé environ 400 millions de dollars, devenue référence de facto en manipulation généraliste. WeaveLA s'inscrit dans un courant visant à augmenter les VLA par des modules de mémoire externe plutôt que de les remplacer, une direction concurrente aux travaux de Google DeepMind (RT-2, RT-X), NVIDIA (GR00T N2) et Figure AI (Helix). Étant un preprint non relu par les pairs, le travail ne s'accompagne d'aucun calendrier de déploiement ni de partenariat annoncé, et ses résultats, obtenus en environnement simulé, restent à valider sur des plateformes réelles.

RechercheOpinion
1 source
Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées
798arXiv cs.RO 

Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées

Des chercheurs ont présenté Sequential Asymmetric Imitation (SAI), une méthode d'apprentissage par imitation pour entraîner deux robots manipulateurs mobiles bimanuels à collaborer physiquement sur des tâches conjointes impliquant des objets rigides ou déformables. Publiée en pré-impression sur arXiv (2606.16490v1), l'étude part d'un constat précis : les échecs en manipulation collaborative ne proviennent pas d'un manque de compétence individuelle, mais de problèmes de synchronisation, notamment les attentes mal timées, le cédage insuffisant et les conflits lors du saisissement ou du relâchement d'objets. SAI propose un curriculum en trois étapes piloté par un seul téléopérateur : Robot A est d'abord entraîné à partir de démonstrations unilatérales avec un partenaire humain compliant ; Robot B est ensuite entraîné contre la politique déployée de Robot A ; enfin, Robot A est affiné par des interventions ponctuelles ciblées sur les zones de défaillance de coordination. Les expériences en conditions réelles montrent des gains mesurés sur la réussite des tâches, la synchronisation de phase et le comportement de cédage adaptatif, par rapport à des baselines d'imitation indépendante. L'apport principal de SAI réside dans l'élimination de la contrainte des démonstrations synchronisées à deux opérateurs, un frein logistique majeur pour la collecte de données dans les systèmes multi-robots. En structurant le curriculum de manière asymétrique, la méthode expose progressivement chaque robot à des comportements partenaires de plus en plus réalistes, incluant délais, décalages de phase et résistance insuffisante, sans nécessiter de canal de communication explicite entre les robots. Pour les intégrateurs industriels, l'argument est concret : un seul opérateur qualifié suffit à générer un dataset multi-agent viable. L'étude suggère que la coordination physique peut émerger de la structure du curriculum d'imitation elle-même, plutôt que d'un mécanisme de coordination dédié, ce qui contredit l'hypothèse dominante selon laquelle la collaboration multi-robot nécessite obligatoirement une communication inter-agents ou des démonstrations co-téléopérées. Ce travail s'inscrit dans un corpus croissant sur la manipulation multi-robot en milieu non structuré, où les approches dominantes reposaient jusqu'ici soit sur des communications inter-robots explicites, soit sur des démonstrations co-téléopérées coûteuses. En n'utilisant aucun des deux, SAI propose une troisième voie potentiellement plus scalable pour les déploiements industriels impliquant des paires de bras robotiques. Il convient toutefois de souligner que la méthode n'est validée que sur un ensemble limité de tâches réelles, sans benchmark standardisé face à des méthodes récentes comme ACT ou Diffusion Policy en contexte multi-agent, et que ce document reste un pré-print non révisé par les pairs. La page projet est disponible sur GitHub (cyc0429.github.io/sai-project-page) ; les prochaines étapes naturelles incluront la généralisation à des topologies de tâches plus complexes et l'évaluation sur des horizons temporels plus longs.

RecherchePaper
1 source
Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1
799arXiv cs.RO 

Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1

Des chercheurs ont publié sur arXiv (référence 2606.15915) un modèle physique linéaire-en-paramètres permettant de prédire avec précision la consommation électrique du bras gauche à sept degrés de liberté (7-DOF) du robot humanoïde Unitree G1. Le modèle intègre des termes de pertes actuateur, une correction de couple de base capturant les variations de charge en compensation gravitationnelle, et des termes d'interaction par paires pour modéliser le couplage de puissance lors de mouvements multi-articulaires simultanés. Les paramètres ont été identifiés à partir de données expérimentales collectées sur un G1 physique, en utilisant les mesures de puissance embarquées comme cible de régression. Sur 897 trajectoires couvrant des mouvements mono-articulaires et coordonnés à plusieurs vitesses, le modèle atteint un R² de 0,933 avec un RMSE de 1,07 W. La validation sur 46 trajectoires à des vitesses non vues lors de l'entraînement donne un R² de 0,965, confirmant une bonne capacité de généralisation. Ces résultats sont directement utiles pour les équipes qui intègrent des humanoïdes dans des contextes industriels ou logistiques. Un modèle de consommation précis et léger à l'inférence constitue un prérequis pour la planification de mouvement énergétiquement consciente, la gestion de batterie en temps réel et la surveillance thermique des actionneurs, trois points critiques pour tout déploiement prolongé hors laboratoire. La performance du modèle sur des vitesses non vues suggère qu'il est exploitable sans recalibration systématique, ce qui réduit le coût d'intégration. L'analyse des paramètres identifiés révèle par ailleurs des signatures distinctes selon les articulations : les pertes par frottement visqueux dominent l'épaule en tangage et les trois articulations du poignet, les pertes cuivre dominent l'abduction d'épaule et le coude, tandis que le roulis d'épaule présente un profil atypique dominé par le frottement de Coulomb. Unitree, constructeur chinois connu pour ses robots quadrupèdes à prix agressifs, a élargi sa gamme aux humanoïdes avec le G1, positionné comme une plateforme de recherche abordable face au Spot de Boston Dynamics ou aux robots de Figure et Apptronik. Ce travail s'inscrit dans un effort croissant de la communauté académique pour produire des modèles physiques fiables sur du matériel commercial accessible, en complément des approches par apprentissage (comme les VLA ou les politiques neuronales). La prochaine étape logique serait d'étendre le modèle au bras droit et aux membres inférieurs, puis de l'intégrer dans une boucle de planification de trajectoire en ligne. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint.

UELes équipes de recherche européennes utilisant le Unitree G1 comme plateforme académique abordable peuvent réutiliser directement ce modèle sans recalibration pour réduire le coût d'intégration dans leurs pipelines de planification de mouvement.

RecherchePaper
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
800arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source