Aller au contenu principal

Recherche — page 6

1654 articles · page 6 sur 34

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Reconstruction couture-vers-graphe pour l'alignement de configuration de vêtements
251arXiv cs.RO RecherchePaper

Reconstruction couture-vers-graphe pour l'alignement de configuration de vêtements

Un réseau de neurones dédié à la détection des coutures de vêtements vient d'être proposé dans un preprint arXiv (référence 2606.15171, juin 2026), avec pour application directe le chargement automatisé de vêtements sur une platine de sérigraphie. Le système, baptisé Seam-to-Graph, s'appuie sur des réseaux de neurones à graphes (GNN) couplés à des mécanismes d'attention pour transformer des observations partielles de coutures en un graphe squelette encodant la topologie du vêtement. Ce graphe alimente en temps réel un estimateur d'état, même lorsque les coutures ne sont que partiellement visibles, condition fréquente en manipulation robotique. À partir de cette estimation, un contrôleur d'asservissement visuel hiérarchique, sensible aux déformations du tissu, aligne le vêtement sur la configuration cible. Des expériences sur un robot bimanuel réel démontrent une précision comparable au niveau humain, avec une variance d'erreur réduite, et une robustesse confirmée sur plusieurs types de vêtements. Ce travail s'attaque à l'une des problématiques les plus résistantes de la robotique industrielle : les objets déformables non rigides. Les coutures constituent des primitives structurelles physiquement stables, présentes sur quasiment tout vêtement, et leur topologie reflète l'architecture globale de la pièce, là où une estimation de pose classique échoue. La démonstration sur une tâche industrielle concrète, la sérigraphie, est un signal positif. Toutefois, l'abstract ne publie aucun chiffre absolu sur les taux de réussite ni sur les temps de cycle, ce qui rend la comparaison avec les benchmarks industriels existants difficile. La manipulation de vêtements par robot est un domaine actif depuis plus d'une décennie, avec des travaux notables à UC Berkeley, ETH Zurich et Imperial College, mais peu de déploiements industriels réels faute d'estimateurs d'état fiables sur objets déformables. Parmi les acteurs positionnés sur la manipulation textile automatisée, la startup allemande Sewts (linge industriel) et le britannique Dextrous Robotics explorent des approches vision, mais aucun n'a publié d'approche graphe de coutures à ce stade. Les suites naturelles seraient une validation sur un parc de vêtements plus large, des tests à cadence industrielle, et une évaluation sur occultations sévères.

UELa startup allemande Sewts, active sur la manipulation de linge industriel, est la concurrente européenne la plus directement concernée par cette avancée en estimation d'état sur objets textiles déformables.

1 source
Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1
252arXiv cs.RO 

Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1

Des chercheurs ont publié sur arXiv (référence 2606.15915) un modèle physique linéaire-en-paramètres permettant de prédire avec précision la consommation électrique du bras gauche à sept degrés de liberté (7-DOF) du robot humanoïde Unitree G1. Le modèle intègre des termes de pertes actuateur, une correction de couple de base capturant les variations de charge en compensation gravitationnelle, et des termes d'interaction par paires pour modéliser le couplage de puissance lors de mouvements multi-articulaires simultanés. Les paramètres ont été identifiés à partir de données expérimentales collectées sur un G1 physique, en utilisant les mesures de puissance embarquées comme cible de régression. Sur 897 trajectoires couvrant des mouvements mono-articulaires et coordonnés à plusieurs vitesses, le modèle atteint un R² de 0,933 avec un RMSE de 1,07 W. La validation sur 46 trajectoires à des vitesses non vues lors de l'entraînement donne un R² de 0,965, confirmant une bonne capacité de généralisation. Ces résultats sont directement utiles pour les équipes qui intègrent des humanoïdes dans des contextes industriels ou logistiques. Un modèle de consommation précis et léger à l'inférence constitue un prérequis pour la planification de mouvement énergétiquement consciente, la gestion de batterie en temps réel et la surveillance thermique des actionneurs, trois points critiques pour tout déploiement prolongé hors laboratoire. La performance du modèle sur des vitesses non vues suggère qu'il est exploitable sans recalibration systématique, ce qui réduit le coût d'intégration. L'analyse des paramètres identifiés révèle par ailleurs des signatures distinctes selon les articulations : les pertes par frottement visqueux dominent l'épaule en tangage et les trois articulations du poignet, les pertes cuivre dominent l'abduction d'épaule et le coude, tandis que le roulis d'épaule présente un profil atypique dominé par le frottement de Coulomb. Unitree, constructeur chinois connu pour ses robots quadrupèdes à prix agressifs, a élargi sa gamme aux humanoïdes avec le G1, positionné comme une plateforme de recherche abordable face au Spot de Boston Dynamics ou aux robots de Figure et Apptronik. Ce travail s'inscrit dans un effort croissant de la communauté académique pour produire des modèles physiques fiables sur du matériel commercial accessible, en complément des approches par apprentissage (comme les VLA ou les politiques neuronales). La prochaine étape logique serait d'étendre le modèle au bras droit et aux membres inférieurs, puis de l'intégrer dans une boucle de planification de trajectoire en ligne. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint.

UELes équipes de recherche européennes utilisant le Unitree G1 comme plateforme académique abordable peuvent réutiliser directement ce modèle sans recalibration pour réduire le coût d'intégration dans leurs pipelines de planification de mouvement.

RecherchePaper
1 source
Simplifier les contrôleurs ROS2 grâce à une architecture modulaire pour la génération de références indépendante du robot
253arXiv cs.RO 

Simplifier les contrôleurs ROS2 grâce à une architecture modulaire pour la génération de références indépendante du robot

Des chercheurs ont publié sur arXiv (référence 2601.08514v2) une architecture modulaire pour ROS2 qui sépare explicitement la logique de gestion des références de celle des lois de contrôle. Le composant central, baptisé Reference Generator, reçoit des références depuis des noeuds externes (planificateurs de trajectoire, operateurs humains) sous forme de points isolés ou de trajectoires complètes, puis écrit des références point-à-point à la période d'échantillonnage du contrôleur via le mécanisme de chaînage existant de ros2control. Deux générateurs de références ont été implémentés : un pour l'espace articulaire (joint-space) et un pour les références cartésiennes. Trois nouveaux contrôleurs accompagnent l'architecture : un contrôleur PD avec compensation de gravité, un contrôleur de pose cartésienne, et un contrôleur d'admittance. La validation a été conduite en simulation et sur du matériel réel, avec des manipulateurs Universal Robots et Franka Emika. L'enjeu n'est pas anodin pour les intégrateurs robotiques : aujourd'hui, chaque contrôleur ros2control qui veut gérer des trajectoires doit embarquer sa propre logique d'acquisition, de validation et d'interpolation de références, ce qui génère du code dupliqué difficile à maintenir et à faire évoluer. L'architecture proposée factorise ce code en un composant réutilisable et robot-agnostique, ce qui simplifie la construction de pipelines de contrôle complexes (par exemple, chaîner un contrôleur d'admittance en aval d'un planificateur cartésien). Les résultats montrent un suivi fiable des références dans tous les scénarios testés, sans dégradation des performances de contrôle, ce qui valide l'approche sur des plateformes industrielles courantes plutôt que sur du matériel expérimental. Le contexte est celui de la maturité croissante de l'écosystème ros2control, devenu le standard de fait pour le contrôle de manipulateurs sous ROS2. Universal Robots (UR3, UR5, UR10) et Franka Emika (Panda/FR3) sont les deux références canoniques du marché des cobots de recherche et d'intégration légère, ce qui donne à cette validation une portée pratique immédiate. L'approche s'inscrit dans une tendance plus large vers des architectures de contrôle composables, comparable aux efforts du projet ros2control community et aux frameworks comme mcrtc (CNRS/AIST). Les auteurs ne mentionnent pas de timeline de contribution upstream ni de release packagée, et il reste à voir si ce Reference Generator sera proposé en merge request dans le dépôt officiel ros2control.

UELa validation sur des cobots Universal Robots (danois) et Franka Emika (allemand), standards de l'intégration robotique européenne, et la parenté avec mcrtc (CNRS/AIST) rendent cette architecture directement applicable aux intégrateurs FR/EU travaillant sous ROS2.

RecherchePaper
1 source
LoComposition : locomotion quadrupède économe en énergie et adaptée au terrain, sans a priori de démarche
254arXiv cs.RO 

LoComposition : locomotion quadrupède économe en énergie et adaptée au terrain, sans a priori de démarche

Une équipe de chercheurs publie LoComposition (arXiv:2606.15896, juin 2026), une méthode d'apprentissage par renforcement pour la locomotion quadrupède qui décompose les objectifs en mécanismes distincts plutôt que de les fusionner dans une fonction de récompense monolithique. Le système confie à des composants séparés ce que les approches classiques entremêlent : les récompenses gèrent la spécification de tâche, des contraintes encadrent les limites opérationnelles, la minimisation d'énergie pilote les préférences de démarche, et la perception extéroceptive (cartographie d'élévation LiDAR) adapte la consommation énergétique à la difficulté du terrain. Par rapport à une baseline conventionnelle à récompense complexe, LoComposition atteint des performances comparables de franchissement de terrain tout en réduisant le coût de transport de 56 % et les violations de limites opérationnelles de 96 %. La politique entraînée en simulation se transfère ensuite en zero-shot sur un robot quadrupède Unitree Go2 physique sans recalibration manuelle. L'apport central est la suppression des gait priors explicites, c'est-à-dire les cibles de temps de vol, de nombre de contacts au sol et de clairance des pieds, au profit de comportements de démarche émergents. Pour les équipes d'intégration, cela signifie moins d'ingénierie manuelle des récompenses et une meilleure généralisation à des terrains non vus en entraînement. La réduction de 56 % du coût de transport est directement pertinente pour les déploiements sur batteries à autonomie prolongée, scénario typique de l'inspection industrielle ou de la surveillance de site. L'analyse par ablation des chercheurs, montrant que retirer chaque composant expose un mode d'échec distinct, valide la cohérence de l'architecture et confirme que les gains ne sont pas le résultat d'un ajustement opportuniste des hyperparamètres. Cette contribution s'inscrit dans la dynamique de locomotion quadrupède par renforcement dominée depuis 2020 par le Robotics Systems Lab de l'ETH Zurich (ANYmal, séries RMA et Parkour) et Carnegie Mellon University. Le Unitree Go2, plateforme commerciale accessible, est devenu un banc d'essai standard pour la recherche académique, ce qui facilite la reproductibilité des résultats. Du côté industriel, ANYbotics et Boston Dynamics (Spot) développent des solutions propriétaires sur des trajectoires similaires mais ne publient pas leurs méthodes. LoComposition reste à ce stade une contribution de recherche fondamentale : aucun pilote industriel ni timeline de commercialisation n'est annoncé dans le preprint.

RecherchePaper
1 source
La démonstration parfaite est un mauvais professeur : alignement robuste par segments de mouvement critiques
255arXiv cs.RO 

La démonstration parfaite est un mauvais professeur : alignement robuste par segments de mouvement critiques

Une étude publiée sur arXiv le 16 juin 2026 (réf. 2606.15587) remet en cause un postulat fondamental de l'apprentissage par imitation en robotique : les démonstrations expertes fluides ne sont pas nécessairement les meilleures données d'entraînement. Pour des tâches de manipulation fine (insertion, empilement, alignement), les chercheurs montrent qu'un opérateur habile compresse précisément les instants décisifs de correction dans une fenêtre temporelle très courte, noyant la politique apprise sous des mouvements de transit redondants et lui fournissant trop peu de supervision aux moments où la précision est déterminante. Expérimentalement, une politique entraînée sur des démonstrations fluides standard plafonne à 50,0 % de taux de succès sur ces tâches. Ce résultat a des implications directes pour les équipes qui constituent des datasets pour entraîner des modèles vision-langage-action (VLA) comme Pi-0 ou GR00T N2. Deux axes de correction sont testés. Au niveau des données, ralentir la capture autour des moments d'alignement et rééchantillonner les segments critiques améliore les performances, mais l'essentiel du gain vient de l'élargissement de la couverture des états de récupération, pas d'un simple rééquilibrage des frames existantes. Au niveau de la représentation, les auteurs introduisent STAIR (Spatio-Temporal feature As an Interface for Robot learning), un module compact qui s'intercale entre le backbone vision-langage et le réseau d'action, en distillant les dynamiques de mouvement à court horizon déjà enregistrées dans chaque trajectoire. Entraîné uniquement sur des données fluides, STAIR atteint 62,2 % de succès, contre 64,4 % pour les démonstrations délibérément ralenties. Ces travaux s'inscrivent dans une vague de recherche qui remet en question la stratégie de collecte de données pour l'imitation learning, notamment dans le sillage des politiques de diffusion (Diffusion Policy, ACT) et des architectures VLA à grande échelle. L'idée que "plus de données expertes = meilleure politique" est directement challengée : la learnability machine peut diverger de l'efficacité humaine. La prochaine étape logique est de valider STAIR sur des tâches de contact plus complexes (vis, connecteurs électroniques) et sur des robots physiques déployés en dehors de l'environnement de laboratoire, ce que le papier ne montre pas encore. À surveiller lors des soumissions de conférences de fin 2026 (CoRL, ICRA).

UELes équipes R&D européennes développant des modèles VLA pour la manipulation fine pourraient adapter leurs protocoles de collecte de données en ralentissant la capture sur les segments critiques d'alignement.

RechercheOpinion
1 source
λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes
256arXiv cs.RO 

λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes

Une équipe de chercheurs publie sur arXiv (arXiv:2606.16022, juin 2026) une nouvelle méthode d'analyse de sécurité pour robots humanoïdes à haute dimension, baptisée λ-Reachability. L'approche reformule les équations de Bellman Hamilton-Jacobi, qui permettent de délimiter le "safe set" d'un système dynamique, en remplaçant les mises à jour TD à un seul pas par un estimateur stochastique multi-pas à horizon géométrique. Un paramètre λ contrôle l'interpolation entre cohérence locale et objectifs sur horizon long, par analogie avec TD(λ) en apprentissage par renforcement. Un second paramètre δ < 1 garantit formellement que la mise à jour est une contraction, permettant l'apprentissage par différence temporelle avec convergence prouvée. Les auteurs appliquent la méthode à des humanoïdes en simulation et en conditions réelles, sur des tâches d'équilibre et d'évitement de collision, avec une amélioration significative de la classification des frontières du safe set et de l'estimation des marges de sécurité par rapport aux baselines TD à un seul pas. Le verrou que cherche à lever ce travail est central pour la commercialisation des humanoïdes : garantir formellement la sécurité d'un système à plusieurs dizaines de degrés de liberté opérant près d'humains. L'analyse Hamilton-Jacobi est mathématiquement rigoureuse mais ne passait pas à l'échelle au-delà de six ou sept dimensions. L'estimateur multi-pas à horizon géométrique améliore l'estimation de valeur de sécurité sans exploser la variance, un compromis que les méthodes à un seul pas gèrent mal sur des espaces d'état élevés. L'inclusion d'expériences sur vrai robot renforce la crédibilité des résultats, même si la nature précise du robot et les conditions expérimentales exactes ne sont pas détaillées dans le résumé du preprint. L'analyse de reachability Hamilton-Jacobi est un domaine actif depuis les années 1990, mais les toolboxes classiques (helperOC, BEACLS) butaient sur la malédiction de la dimensionnalité. Les méthodes concurrentes incluent les Control Barrier Functions (CBF), très utilisées dans les laboratoires de CMU, MIT et Berkeley, et le safe RL à contraintes Lagrangiennes. La connexion avec TD(λ) positionne ce travail à l'intersection du contrôle optimal et du deep RL, un territoire que convoitent Figure, 1X, Agility Robotics et Unitree pour obtenir des garanties de sécurité certifiables en déploiement industriel. Il s'agit d'un preprint académique sans partenariat industriel annoncé : les équipes robotique qui évaluent des approches de safety pour homologation auront intérêt à surveiller la suite de ces travaux.

UELes laboratoires européens comme le CEA-List et l'INRIA, actifs sur la vérification formelle des systèmes robotiques, pourraient intégrer cette approche à horizon géométrique dans leurs travaux de certification sécurité pour humanoïdes.

RecherchePaper
1 source
La curation localisée par phase n'améliore pas le filtrage de démonstrations : un résultat négatif
257arXiv cs.RO 

La curation localisée par phase n'améliore pas le filtrage de démonstrations : un résultat négatif

Une équipe de chercheurs publie sur arXiv (identifiant 2606.15064) un résultat négatif sur la curation de démonstrations pour l'apprentissage par imitation en robotique. L'hypothèse testée était la suivante : segmenter chaque trajectoire en phases temporelles, appliquer à chaque phase la métrique de qualité localement la plus informative, puis agréger les scores pour sélectionner les meilleures démonstrations. Les expériences portent sur trois tâches de saisie-dépose ("pick-and-place") de la suite de benchmarks LIBERO, avec un défaut structurel contrôlé dit "early-release" (relâchement prématuré de l'objet saisi), évalué sur cinq seeds aléatoires par condition. Résultat sans ambiguïté : la curation par phase n'est jamais la meilleure stratégie, et s'avère la pire sur deux tâches sur trois. Les chiffres sont nets : tâche 1, 86,0 % de taux de succès pour la méthode phasée contre 92,0 % pour la métrique globale unique ; tâche 3, 22,7 % contre 48,0 % pour l'application uniforme de la même métrique. Le mécanisme d'échec est tracé précisément : lorsque le signal de défaut est concentré dans une seule phase, l'agrégation des scores sur l'ensemble des phases dilue ce signal avec des valeurs non informatives issues des segments sans défaut, dégradant la sélection du sous-ensemble de démonstrations. Second problème structurel : les métriques gagnantes par phase ne se transfèrent pas d'une tâche à l'autre, aucune phase ne partageant la même métrique optimale entre deux tâches distinctes. La méthode est donc non réutilisable et exige une re-dérivation coûteuse pour chaque nouveau contexte. Pour les praticiens du "behavior cloning" et de l'apprentissage par imitation, ce résultat recadre une intuition répandue : la structure temporelle des démonstrations ne justifie pas une curation localisée quand le défaut est ponctuel. Ce travail s'inscrit dans la problématique croissante de la qualité des données en imitation learning. Des travaux antérieurs avaient établi qu'une métrique globale unique peut être le meilleur détecteur d'un défaut tout en étant le pire curateur de la politique résultante, tension qui avait motivé l'hypothèse phasée. La conclusion pratique est inverse : identifier une seule métrique informative sur le défaut et l'appliquer uniformément surpasse systématiquement la décomposition par phase. Le pipeline complet, les implémentations de métriques et les résultats par seed sont publiés en open source. Le sujet gagne en importance industrielle à mesure que les pipelines VLA (vision-language-action) et les systèmes de collecte téléopérée à grande échelle, notamment pour les robots humanoïdes en cours de déploiement chez Figure, 1X ou Apptronik, font du filtrage de démonstrations un levier critique pour la qualité des politiques apprises.

RecherchePaper
1 source
FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes
258arXiv cs.RO 

FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes

FlashNav, un framework d'entraînement de politiques de navigation robotique présenté dans une préprint arXiv (2606.15846) publiée en juin 2026, annonce un entraînement en moins de 20 secondes sur GPU pour des politiques de navigation déployables sur robots réels. Les auteurs ont testé le système sur deux plateformes matérielles : le robot à roues TurtleBot2 et le robot quadrupède Unitree Go2. Sur une carte RTX 5090, FlashNav atteint un taux de succès de 100 % en dessous de 20 secondes, et reste dans les dizaines de secondes sur des GPU de bureau grand public. L'architecture repose sur un simulateur bitmap batché et un pipeline d'entraînement entièrement résidant sur GPU, piloté par un algorithme baptisé FastDSAC, qui génère en parallèle un volume massif de transitions de navigation sans jamais quitter la mémoire GPU. La clé du gain de vitesse est architecturale : FlashNav aligne strictement la simulation sur le MDP (processus de décision markovien) de navigation, en conservant uniquement les composantes utiles à l'apprentissage, géométrie d'occupation, capteurs de distance (range sensing), contrôle conditionné par objectif, dynamique de mouvement, gestion des collisions, terminaison et réinitialisation, tout en éliminant le rendu graphique et les détails physiques haute-fidélité habituellement présents dans les simulateurs. Ce choix réduit drastiquement le coût computationnel sans sacrifier la transférabilité : les politiques apprises se transfèrent sur robots physiques, en environnement intérieur statique et dynamique. Pour les intégrateurs robotiques, c'est un signal fort : le sim-to-real gap reste gérable même avec une simulation volontairement appauvrie, à condition que le MDP soit correctement modélisé. Le deep reinforcement learning pour la navigation autonome souffrait jusqu'ici d'un frein majeur à l'adoption industrielle : des cycles d'entraînement de plusieurs heures, voire de plusieurs jours, incompatibles avec l'itération rapide en production. FlashNav attaque directement ce verrou. Sur le plan concurrentiel, il se positionne face aux approches de navigation basées sur des cartes (SLAM classique) et aux VLA (Vision-Language-Action models) qui nécessitent des ressources de calcul bien supérieures. La prochaine étape naturelle sera de valider le passage à l'échelle dans des environnements dynamiques plus complexes et sur des flottes de robots, ce que la préprint ne couvre pas encore.

RecherchePaper
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
259arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source
SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné
260arXiv cs.RO 

SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné

SAPS (Shared Autonomy for Policy Steering, arXiv:2606.15568) est un framework qui combine en temps réel les commandes d'un opérateur humain avec les actions d'un modèle Vision-Language-Action (VLA) préentraîné, au niveau de l'action elle-même. Sans réentraînement, sans modèle auxiliaire, sans modification architecturale, SAPS introduit trois stratégies d'arbitrage dont une basée sur la similarité cosinus: cet indice mesure l'accord géométrique entre la commande humaine et celle du modèle pour distribuer le contrôle de façon dynamique. Testé sur les benchmarks de simulation LIBERO, LIBERO-PRO et CALVIN, et sur du matériel réel, le framework améliore le taux de succès des tâches jusqu'à 82 % par rapport à l'exécution autonome seule, réduit les interventions humaines par rapport à la télé-opération pure, et raccourcit les temps de complétion dans les deux cas. Ce résultat touche au défaut structurel des VLA généralistes: leur fragilité face aux perturbations hors-distribution, qu'il s'agisse d'un objet déplacé de quelques centimètres ou d'une scène atypique. SAPS n'exige pas de modifier le modèle existant, ce qui est l'argument commercial central pour un intégrateur industriel: le framework se greffe indifféremment sur Pi-0, GR00T N2, OpenVLA ou tout autre VLA disponible. La réduction de charge cognitive par rapport à la télé-opération pure est également significative pour des applications d'assistance aux personnes à mobilité réduite et pour la collecte de données d'imitation, où chaque heure d'opérateur est coûteuse. Les métriques présentées sont issues d'un preprint non relu par des pairs, et les vidéos de démonstration réelles restent à évaluer avec prudence. L'autonomie partagée est un champ établi, mais son application agnostique au modèle au niveau action sur des VLA modernes est une voie distincte des approches concurrentes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et HuggingFace (LeRobot) misent sur la robustification des politiques par distillation et augmentation de données; SAPS propose une couche d'intervention humaine plug-and-play plutôt qu'un meilleur modèle. Le preprint n'annonce ni déploiement industriel ni partenariat commercial. Les extensions naturelles visent les plateformes humanoïdes (Figure 03, Unitree G1) et un usage dans des boucles de fine-tuning continu. Aucun acteur français ou européen n'est impliqué dans ce travail.

RechercheOpinion
1 source
Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques
261arXiv cs.RO 

Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques

Des chercheurs ont publié (arXiv:2602.02773, mise à jour juin 2026) les résultats d'un système permettant à des utilisateurs atteints de lésions cervicales de la moelle épinière (cSCI, quadriplégie) de piloter un manipulateur mobile domestique via des manchettes électromyographiques haute densité (HDEMG). Le dispositif consiste en deux manchettes textiles intégrées, portées sur les deux avant-bras, qui captent l'activité neuromotrice résiduelle de membres cliniquement paralysés et la convertissent en commandes gestuelles temps réel pour le robot. Sur deux participants avec cSCI, le système atteint un taux de classification des intentions motrices allant jusqu'à 98,0 %. L'étude s'est déroulée sur douze jours en conditions réelles, dans le domicile même des participants, pour des tâches quotidiennes de type ADL (activities of daily living). Ce résultat est significatif pour plusieurs raisons. D'abord, il démontre qu'une interface de contrôle non invasive et portable peut extraire un signal moteur exploitable depuis des membres dont la paralysie est établie cliniquement, ce qui remet en cause l'hypothèse selon laquelle les interfaces robustes nécessitent obligatoirement une implantation chirurgicale (BCI intracrânien) ou des capacités motrices résiduelles importantes. Ensuite, l'architecture d'autonomie partagée, combinant vision, langage naturel et planification de mouvement, réduit la charge cognitive de l'opérateur pour les tâches de navigation, qui sont habituellement les plus pénibles dans un environnement domestique non structuré. Pour un intégrateur ou un décideur industriel, cela valide un paradigme de téléopération augmentée où l'IA complète les intentions de l'utilisateur sans les supplanter. Ce travail s'inscrit dans un champ de recherche qui, depuis une décennie, explore l'EMG de surface pour le contrôle prothétique et robotique, mais qui peinait à franchir le cap du test en laboratoire vers un déploiement prolongé hors-lab. Côté concurrence, des acteurs comme Aescape, Wandercraft (exosquelettes) ou des programmes DARPA/NSF travaillent sur des interfaces haptiques et neurales, mais peu ont publié des études en domicile réel sur plusieurs jours. Les prochaines étapes probables incluent l'élargissement de la cohorte au-delà de n=2, l'intégration avec des plateformes commerciales comme le Stretch de Hello Robot ou le spot-arm de Boston Dynamics, et l'évaluation des effets d'adaptation sur le long terme.

UEImpact indirect pour les acteurs français comme Wandercraft qui développent des interfaces neuromotrices pour exosquelettes, mais l'étude provient de chercheurs non identifiés comme européens et ne cible pas le marché UE.

RecherchePaper
1 source
Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon
262arXiv cs.RO 

Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon

Des chercheurs ont soumis le 16 juin 2026 sur arXiv (2606.16178) une architecture transformer nommée PRISM, conçue pour doter les politiques visuomotrices entraînées par imitation learning d'une mémoire à court terme effective. Le système combine deux mécanismes : une attention filtrée (gated attention) qui supprime les corrélations parasites entre l'historique sensoriel et la prédiction d'action, et une architecture hiérarchique qui compresse les informations locales en tokens compacts pour capturer des dépendances temporelles étendues. PRISM maintient ainsi une mémoire opérationnelle sur environ deux minutes. Ses performances : 5 à 12 % de gains absolus sur les baselines les plus solides, et 11 à 15 % de mieux que sa variante sans mémoire sur RoboCasa et LIBERO, dépassant des modèles VLA fine-tunés comme GR00T-N1-3B (NVIDIA) et OpenVLA, sans aucun pré-entraînement à grande échelle. Les auteurs publient aussi ReMemBench, un benchmark de huit tâches de manipulation domestique couvrant quatre catégories mémorielles. La quasi-totalité des politiques visuomotrices actuelles n'exploitent que l'entrée sensorielle instantanée, les rendant incapables de gérer des tâches impliquant des objets temporairement occultés ou des actions à déclencher après un délai défini. PRISM démontre qu'une architecture mémoire soigneusement conçue peut surpasser des VLA massivement pré-entraînés, remettant en question l'hypothèse dominante selon laquelle la taille du corpus de pré-entraînement prime sur les choix architecturaux. Pour les intégrateurs et les décideurs industriels, ce résultat ouvre la voie à des politiques de manipulation longue séquence plus accessibles en calcul. PRISM s'inscrit dans un débat actif entre approches récurrentes (LSTM, Mamba) et architectures transformer pour les politiques de manipulation robotique. Les benchmarks RoboCasa et LIBERO font référence en simulation pour ce type de tâches, et des modèles comme GR00T-N1 de NVIDIA (3B paramètres) ou OpenVLA ont misé sur un pré-entraînement multimodal massif pour y performer. PRISM se positionne comme une alternative architecturale plus légère et sans pré-entraînement. Il faut toutefois souligner que tous les résultats sont obtenus en simulation : aucun transfert sim-to-real ni déploiement physique n'est annoncé, laissant ouverte la question de la robustesse sur robot réel.

RechercheOpinion
1 source
Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées
263arXiv cs.RO 

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Des chercheurs ont publié sur arXiv (2606.15550) Roken, pour "Robots as Tokens", un transformeur de diffusion unifié capable de générer simultanément des trajectoires coordonnées pour plusieurs robots mobiles. Contrairement aux approches dominantes, qui soit se limitent à la planification monorobot, soit enchaînent les trajectoires de façon séquentielle avant d'appliquer des post-traitements itératifs pour résoudre les conflits inter-robots, Roken produit l'ensemble des trajectoires en une seule passe feed-forward. Chaque robot est représenté comme un token discret dans le modèle, ce qui lui permet d'interagir naturellement avec les autres via la self-attention, et de se référer aux tokens de carte pour percevoir l'environnement par cross-attention. Des tâches auxiliaires fondées sur le théorème de Bayes fournissent une supervision spatio-temporelle multi-échelle pour apprendre la distribution conditionnelle. À l'inférence, le modèle supporte indifféremment la planification monorobot, la génération coordonnée multi-robot et la génération conditionnelle (en fixant certains tokens comme conditions). Les expériences, menées en simulation dans des environnements encombrés variés, montrent des taux de succès élevés sur des tâches de navigation avec contraintes de connectivité, dépassant le planificateur classique qui avait servi à générer les données d'entraînement. L'intérêt principal de Roken réside dans sa scalabilité et sa généralisation : le modèle est entraîné sur des équipes de tailles mixtes et se généralise à des équipes et des environnements non vus lors de l'entraînement, y compris en observation partielle. Pour les intégrateurs de flottes AMR ou les systèmes multi-agents en entrepôt, cette capacité à planifier pour N robots sans replanification itérative représente un gain de latence significatif. Que le modèle surpasse son propre générateur de données d'entraînement est notable, mais il faut souligner que toutes les expériences sont en simulation ; le transfert sim-to-real reste non démontré, ce qui est le verrou habituel pour ce type d'approche. Ce travail s'inscrit dans une vague de recherche qui transpose les succès des modèles génératifs (diffusion, transformeurs) du langage et de la vision vers la planification robotique. Des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) explorent des architectures similaires pour le contrôle mono-robot, mais la coordination multi-agents via des tokens partagés reste un territoire peu défriché. Roken propose une formalisation élégante du problème, mais son évaluation reste entièrement simulée à ce stade. Les prochaines étapes naturelles seraient une validation sur robots réels et une comparaison avec des planificateurs multi-agents classiques comme CBS (Conflict-Based Search) sur des métriques standardisées.

RecherchePaper
1 source
Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées
264arXiv cs.RO 

Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées

Des chercheurs ont présenté Sequential Asymmetric Imitation (SAI), une méthode d'apprentissage par imitation pour entraîner deux robots manipulateurs mobiles bimanuels à collaborer physiquement sur des tâches conjointes impliquant des objets rigides ou déformables. Publiée en pré-impression sur arXiv (2606.16490v1), l'étude part d'un constat précis : les échecs en manipulation collaborative ne proviennent pas d'un manque de compétence individuelle, mais de problèmes de synchronisation, notamment les attentes mal timées, le cédage insuffisant et les conflits lors du saisissement ou du relâchement d'objets. SAI propose un curriculum en trois étapes piloté par un seul téléopérateur : Robot A est d'abord entraîné à partir de démonstrations unilatérales avec un partenaire humain compliant ; Robot B est ensuite entraîné contre la politique déployée de Robot A ; enfin, Robot A est affiné par des interventions ponctuelles ciblées sur les zones de défaillance de coordination. Les expériences en conditions réelles montrent des gains mesurés sur la réussite des tâches, la synchronisation de phase et le comportement de cédage adaptatif, par rapport à des baselines d'imitation indépendante. L'apport principal de SAI réside dans l'élimination de la contrainte des démonstrations synchronisées à deux opérateurs, un frein logistique majeur pour la collecte de données dans les systèmes multi-robots. En structurant le curriculum de manière asymétrique, la méthode expose progressivement chaque robot à des comportements partenaires de plus en plus réalistes, incluant délais, décalages de phase et résistance insuffisante, sans nécessiter de canal de communication explicite entre les robots. Pour les intégrateurs industriels, l'argument est concret : un seul opérateur qualifié suffit à générer un dataset multi-agent viable. L'étude suggère que la coordination physique peut émerger de la structure du curriculum d'imitation elle-même, plutôt que d'un mécanisme de coordination dédié, ce qui contredit l'hypothèse dominante selon laquelle la collaboration multi-robot nécessite obligatoirement une communication inter-agents ou des démonstrations co-téléopérées. Ce travail s'inscrit dans un corpus croissant sur la manipulation multi-robot en milieu non structuré, où les approches dominantes reposaient jusqu'ici soit sur des communications inter-robots explicites, soit sur des démonstrations co-téléopérées coûteuses. En n'utilisant aucun des deux, SAI propose une troisième voie potentiellement plus scalable pour les déploiements industriels impliquant des paires de bras robotiques. Il convient toutefois de souligner que la méthode n'est validée que sur un ensemble limité de tâches réelles, sans benchmark standardisé face à des méthodes récentes comme ACT ou Diffusion Policy en contexte multi-agent, et que ce document reste un pré-print non révisé par les pairs. La page projet est disponible sur GitHub (cyc0429.github.io/sai-project-page) ; les prochaines étapes naturelles incluront la généralisation à des topologies de tâches plus complexes et l'évaluation sur des horizons temporels plus longs.

RecherchePaper
1 source
Planification du mouvement multi-robots à partir de la vision et du langage par diffusion inspirée de la chaleur
265arXiv cs.RO 

Planification du mouvement multi-robots à partir de la vision et du langage par diffusion inspirée de la chaleur

Des chercheurs ont présenté LHD (Language-conditioned Heat-inspired Diffusion), un framework de planification de mouvement multi-robots publié sur arXiv (réf. 2512.13090v2). Le système génère, en réponse à des commandes en langage naturel, des trajectoires sans collision pour plusieurs robots opérant simultanément dans un espace partagé, sans nécessiter de représentation explicite de l'environnement à l'inférence. LHD combine les priors sémantiques de CLIP, le modèle vision-langage d'OpenAI, avec un noyau de diffusion inspiré de l'équation de la chaleur. Ce noyau agit comme un biais inductif physique : en simulant la propagation thermique depuis les positions cibles, il délimite naturellement l'espace atteignable par chaque robot, guidant la planification à l'intérieur de la zone effectivement accessible. Les évaluations menées sur des environnements simulés inspirés du monde réel et des expériences en conditions physiques réelles montrent des gains en taux de succès et une réduction de la latence de planification par rapport aux planificateurs par diffusion antérieurs. L'enjeu industriel est direct : des systèmes multi-robots capables d'interpréter des instructions verbales sans reconfiguration manuelle représentent un levier clé pour les entrepôts et les lignes de production flexible. Les approches par diffusion existantes souffraient de deux limites bloquantes pour le déploiement réel : un coût computationnel élevé à l'inférence et une dépendance à une cartographie explicite des obstacles. LHD adresse les deux simultanément. Le système gère également les scénarios hors distribution en termes d'accessibilité physique : si une cible est hors de portée, il redirige le robot vers l'alternative accessible la plus proche sémantiquement, exactement le type de robustesse attendu en conditions industrielles. Ces résultats renforcent l'hypothèse que des VLA (Vision-Language-Action) peuvent opérer sans représentation géométrique explicite, sans constituer pour autant une preuve de déploiement à l'échelle commerciale. Ce travail s'inscrit dans une vague de planificateurs neuronaux multi-robots apparue depuis 2023, en concurrence directe avec les approches MAPF (Multi-Agent Path Finding) classiques et les méthodes d'apprentissage par renforcement multi-agent comme QMIX ou MAPPO. L'intégration de CLIP distingue LHD par son conditionnement sémantique flexible, là où la plupart des approches concurrentes raisonnent en coordonnées ou en graphes discrets. Aucun acteur industriel ou institutionnel européen n'est associé à cette publication, dont les affiliations d'équipe ne sont pas précisées dans l'abstract arXiv. Une page projet accompagnée de démos vidéo et de code est accessible à jebeom.github.io/lhdprojectpage/, mais des intégrations avec des flottes AMR commerciales restent à démontrer.

RechercheOpinion
1 source
TopoRetarget : retargeting préservant les interactions pour la manipulation dextérique
266arXiv cs.RO 

TopoRetarget : retargeting préservant les interactions pour la manipulation dextérique

Des chercheurs ont publié TopoRetarget, un framework de retargeting cinématique préservant les interactions pour l'apprentissage de la manipulation dextère par renforcement (RL). L'objectif est de réutiliser des démonstrations humaines main-objet comme références de mouvement pour entraîner des politiques RL sur des mains robotiques, sans dégrader la qualité des contacts critiques. La méthode construit un graphe d'interaction sparse sur les keypoints de la main et de l'objet, puis optimise une déformation laplacienne pondérée par la distance, combinée à des contraintes de cohérence directionnelle, de cinématique articulaire et de gestion des pénétrations. Sur le dataset ContactPose, TopoRetarget surpasse l'ensemble des baselines en précision de contact et en alignement de posture, avec un paramétrage unique valable pour des conditions de retargeting variées. La tâche Pen-Spin voit son taux de succès en entraînement augmenter de 40,6 points de pourcentage par rapport aux méthodes existantes. Plus significatif encore, le système permet un transfert zéro-shot vers le hardware Wuji Hand sur des tâches de réorientation de cube et de spinning de stylo, sans fine-tuning supplémentaire. Ce résultat adresse un verrou central dans la chaîne de données pour la manipulation dextère : le retargeting naïf de démonstrations humaines introduit des artefacts de contact et des configurations infaisables qui dégradent directement la politique RL apprise en aval. La capacité à préserver la topologie d'interaction main-objet avec un seul ensemble de paramètres, sans ajustement cas par cas, est un argument fort pour la scalabilité des pipelines de collecte de données. Le transfert zéro-shot vers un hardware physique valide également partiellement la réduction du sim-to-real gap : si la référence de mouvement est topologiquement cohérente, la politique généralisée mieux, y compris vers un robot non vu pendant l'entraînement. Le retargeting cinématique est un problème ancien dans l'animation et la robotique humanoïde, mais son application systématique à la manipulation dextère à partir de données humaines est plus récente, portée par l'essor des datasets de démonstration comme DEXYCB ou ContactPose. Les approches concurrentes incluent des méthodes d'optimisation directe de la posture (DexPilot, GRAB), ainsi que des frameworks basés sur l'apprentissage par imitation directe ou le mapping de contact. TopoRetarget se distingue par son traitement explicite de la structure topologique des contacts plutôt que de la seule géométrie de pose. Les prochaines étapes naturelles concernent la généralisation à des objets non vus, l'extension à des mains à plus de degrés de liberté, et l'intégration dans des pipelines de collecte de données à grande échelle pour l'entraînement de politiques VLA dextères.

RechercheOpinion
1 source
Prise de décision bio-inspirée dans les essaims de robots soumis à des biais
267arXiv cs.RO 

Prise de décision bio-inspirée dans les essaims de robots soumis à des biais

Des chercheurs présentent dans un preprint arXiv (2509.07561, version 2, juin 2026) une étude comparative sur les mécanismes de prise de décision collective dans les essaims de robots minimalistes. Le scénario central : des robots individuels commettent fréquemment des erreurs de perception environnementale, mais le groupe doit néanmoins converger rapidement et fiablement vers la meilleure option parmi n alternatives discrètes. L'étude compare deux règles canoniques issues de la dynamique d'opinion observée dans les systèmes biologiques, le "direct-switch" (bascule directe) et la "cross-inhibition" (inhibition croisée), en les soumettant à des biais asociaux, c'est-à-dire des prédispositions individuelles indépendantes de l'interaction sociale. Les modèles de champ moyen existants sont généralisés pour intégrer ces perturbations. Les résultats ont une implication directe pour quiconque conçoit des systèmes multi-agents décentralisés : la cross-inhibition, mécanisme inspiré des colonies d'insectes et des populations neuronales, surpasse systématiquement le direct-switch en présence de biais. Là où le direct-switch se révèle performant en conditions idéales, il conduit à des blocages décisionnels ("decision deadlocks") dès que des biais individuels entrent en jeu. La cross-inhibition, elle, produit des décisions plus rapides, plus cohésives, plus précises et plus robustes sur une large gamme de conditions biaisées, et ce à des échelles croissantes d'essaims. C'est un résultat concret contre l'hypothèse que des règles simples suffisent sans distinction dans des environnements bruités. Cette recherche s'inscrit dans un corpus plus large sur la robotique en essaim (swarm robotics), domaine porté notamment par des équipes comme celles de Marco Dorigo (Université Libre de Bruxelles) et Vito Trianni (CNR-ISTC, Rome), avec des applications visées en surveillance environnementale, réponse aux catastrophes et logistique médicale. Sur le plan compétitif, les approches centralisées (flottes AMR coordonnées par un orchestrateur central, comme chez Exotec ou 6 River Systems) offrent des performances prévisibles mais restent fragiles à la perte de communication. L'enjeu ici est de prouver qu'une architecture entièrement distribuée peut égaler cette fiabilité sans infrastructure centralisée. La prochaine étape naturelle serait la validation expérimentale sur robots physiques, absente de cette version de l'étude.

UELes équipes européennes porteuses de ces travaux (Marco Dorigo, ULB Bruxelles ; Vito Trianni, CNR-ISTC Rome) positionnent la recherche EU en tête sur la robotique en essaim décentralisée, avec des retombées potentielles pour les applications de logistique et de réponse aux catastrophes en Europe.

RecherchePaper
1 source
PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude
268arXiv cs.RO 

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Des chercheurs ont proposé PO-PDDL (arXiv:2606.15654, juin 2026), une formulation symbolique des processus de décision markoviens partiellement observables (POMDP) pour la planification robotique en conditions réelles. Le système étend PDDL, standard de facto en planification symbolique depuis les années 1990, en y intégrant explicitement l'observabilité partielle, la stochasticité des actions et la gestion des croyances (beliefs). Un pipeline d'apprentissage reconstruit automatiquement les trajectoires d'état symbolique latentes à partir de vidéos d'exécution de robot réel, détecte les incohérences entre états inférés et observations visuelles pour localiser les zones d'incertitude perceptive, puis apprend les modèles de transition et d'observation stochastiques correspondants. Les domaines générés sont réutilisables entre tâches et permettent une planification en ligne dans l'espace des croyances. Testée sur des tâches de manipulation longue durée (long-horizon) en environnement physique réel, la méthode surpasse les approches existantes d'apprentissage de modèles PDDL et POMDP, avec un coût de planification significativement réduit. L'apport concret pour les intégrateurs robotiques est de supprimer l'effort d'ingénierie lié à la construction manuelle des modèles POMDP, traditionnellement l'un des verrous de la planification symbolique déployable. Apprendre depuis des vidéos de robots réels plutôt que depuis des simulateurs contourne partiellement le gap sim-to-real qui fragilise nombre d'approches d'apprentissage. La syntaxe PDDL préservée ouvre une voie d'intégration avec des LLM pour la spécification de tâches, un axe actif en recherche (voir LLM+P, ProgPrompt). Le fait que les domaines soient réutilisables et que la planification opère en temps réel sous incertitude perceptive et d'exécution représente un pas vers des architectures neuro-symboliques exploitables hors laboratoire. La planification symbolique butte depuis longtemps sur la difficulté de paramétrer les POMDP pour des environnements physiques réels. Des travaux antérieurs comme FAMA ou LOCM ont progressé sur l'apprentissage de modèles PDDL déterministes, sans traiter simultanément stochasticité et observabilité partielle depuis des observations visuelles brutes. PO-PDDL se positionne aussi face aux politiques de bout en bout (VLA, politiques de diffusion) qui absorbent l'incertitude dans le réseau sans la modéliser explicitement. La lisibilité et débuggabilité du formalisme symbolique restent un argument différenciant pour le déploiement industriel. Il s'agit pour l'instant d'un preprint non évalué par les pairs ; les prochaines étapes naturelles incluent l'évaluation sur des manipulations plus complexes et l'intégration dans des stacks open-source comme ROS 2.

RecherchePaper
1 source
Entraînement et évaluation des politiques de diffusion avec de longs contextes
269arXiv cs.RO 

Entraînement et évaluation des politiques de diffusion avec de longs contextes

Une équipe de recherche a publié le 20 juin 2026 sur arXiv (arXiv:2606.16447) une étude systématique sur l'impact de la longueur de contexte dans l'apprentissage par imitation pour la manipulation robotique. Les politiques diffusion actuelles, celles qui apprennent des trajectoires motrices à partir d'observations RGB, ne conditionnent généralement les actions du robot que sur une courte fenêtre temporelle d'observations passées. Les auteurs ont construit un benchmark couvrant un spectre de tâches à stabilité locale et à exigences mémoire variables, en faisant varier progressivement la longueur du contexte de courte à longue, et ce dans plusieurs régimes de données. Leur résultat central : avec le bon backbone de débruitage (UNet avec cross-attention), les politiques single-task atteignent des taux de succès élevés même en scalant naïvement le contexte, y compris dans les régimes de données standards. Les chercheurs proposent également un algorithme d'entraînement qui entraîne conjointement les politiques sur plusieurs longueurs de contexte, réduisant ainsi la complexité d'échantillonnage de l'apprentissage à long contexte. Cette étude remet directement en cause un consensus répandu dans la littérature sur les VLA (Vision-Language-Action models) et les diffusion policies : l'idée que l'extension naïve du contexte serait fragile et nécessiterait des solutions architecturales spécifiques. Si ce résultat se confirme sur des benchmarks plus larges, il simplifie considérablement le pipeline de développement pour les intégrateurs robotiques, qui n'auraient plus besoin d'architectures mémoire spécialisées (LSTM, state-space models) pour résoudre des tâches séquentielles longues. C'est aussi un signal que le "memory gap" souvent invoqué pour justifier des approches complexes était peut-être surestimé, au moins dans les régimes de données courants. Les diffusion policies sont devenues un axe central de la robotique de manipulation depuis les travaux de Diffusion Policy (Chi et al., 2023) et leurs déclinaisons comme pi-0 de Physical Intelligence. La question du contexte long était jusqu'ici traitée par des approches ad hoc, recurrence, attention causale, mémoire externe. Cette étude offre la première analyse systématique à ce niveau de granularité, selon les auteurs eux-mêmes. Les prochaines étapes naturelles incluent la validation sur des tâches de manipulation industrielle réelle, la généralisation multi-tâche, et l'évaluation contre des baselines comme ACT ou des variantes de pi-0, dont les benchmarks publics permettraient une comparaison directe.

RecherchePaper
1 source
Elastic ODYN : optimisation différentiable pour le contrôle et l'apprentissage en robotique
270arXiv cs.RO 

Elastic ODYN : optimisation différentiable pour le contrôle et l'apprentissage en robotique

Une équipe de chercheurs publie sur arXiv en juin 2026 (arXiv:2606.16564) Elastic ODYN, un solveur de programmes quadratiques (QP) pour le contrôle robotique sous infaisabilité. Les contrôleurs de robots, humanoïdes comme quadrupèdes, formulent leurs commandes comme des QP soumis à des contraintes de forces de contact, de limites articulaires et d'objectifs de tâche. Lorsque ces contraintes se contredisent, par erreur de modèle ou contact dégénéré, les solveurs classiques échouent ou génèrent des gradients instables. Elastic ODYN adopte une relaxation élastique ℓ₂ dans un cadre primal-dual sans point intérieur : le problème reste bien posé en toute condition, le solveur converge vers la solution la plus proche du faisable et supporte le démarrage à chaud. Deux extensions complètent le noyau : Elastic OdynLayer, une couche QP différentiable à gradients stables, et Elastic OdynSQP, une méthode SQP gérant les sous-problèmes inconsistants en contrôle optimal. Les benchmarks couvrent des QP standards, la mécanique de contact singulière, l'identification paramétrique différentiable, et l'optimisation de trajectoires sur quadrupèdes et humanoïdes. L'enjeu est direct pour les intégrateurs de contrôle temps réel et les équipes qui entraînent des politiques par apprentissage. L'infaisabilité n'est pas un cas marginal : un humanoïde sur surface irrégulière, un manipulateur recevant des consignes conflictuelles, ou un algorithme model-based en transition de contact y sont régulièrement confrontés. Jusqu'ici, les développeurs recouraient à des relaxations manuelles ad hoc ou acceptaient des crashs de simulation. La couche différentiable d'Elastic ODYN permet d'entraîner des politiques de contrôle de bout en bout sans que l'infaisabilité intermittente interrompe la descente de gradient, un avantage direct pour les architectures VLA (Vision-Language-Action) et les pipelines sim-to-real. Les solveurs courants comme OSQP, ProxQP et ECOS intègrent déjà des mécanismes de relaxation, mais leurs formulations présentent des discontinuités de gradient incompatibles avec la différentiation automatique. Les couches QP différentiables existantes, cvxpylayers et qpth, supposent la faisabilité et dégénèrent hors de cette hypothèse. Elastic ODYN couvre donc un créneau à l'intersection des deux. Ce preprint arXiv n'a pas encore passé la révision par les pairs, aucun partenariat industriel ni calendrier de déploiement n'est mentionné, et les performances revendiquées restent à confirmer sur des benchmarks industriels indépendants.

RecherchePaper
1 source
Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel
271arXiv cs.RO 

Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel

Des chercheurs proposent, dans un preprint déposé en juin 2026 sur arXiv (2606.15285), un cadre asynchrone baptisé "semantic-action decoupling" qui découple l'inférence sémantique de la génération d'actions au sein des modèles Vision-Language-Action (VLA). L'architecture divise le VLA en deux modules distincts: un module de compréhension à basse fréquence qui met à jour de manière asynchrone des conditions sémantiques réutilisables, et un module d'action à haute fréquence qui produit en continu des commandes de contrôle sans relancer l'intégralité du modèle. Testée sur le benchmark LIBERO avec les modèles π₀.₅ (Physical Intelligence) et UniVLA, ainsi que sur un robot réel avec UniVLA, la méthode atteint un débit d'inférence côté serveur allant jusqu'à 35,6 Hz pour le seul module d'action. Pour compenser le décalage temporel entre des représentations sémantiques potentiellement périmées et l'état d'exécution courant, les auteurs introduisent deux mécanismes additionnels: le conditionnement sur l'historique des actions passées, et un entraînement explicite à la désynchronisation temporelle (time-misalignment training). Ce résultat s'attaque à l'un des verrous centraux du déploiement industriel des VLA: leur coût computationnel élevé les contraint aujourd'hui à des fréquences de contrôle trop basses pour des tâches de manipulation rapide ou réactive. Atteindre 35,6 Hz sans modifier le backbone vision-langage ni introduire un planificateur externe est non trivial, car cela signifie qu'un intégrateur peut greffer cette optimisation sur un VLA existant sans refonte architecturale. Le travail apporte une réponse partielle au "demo vs. reality gap" souvent reproché aux VLA: en maintenant un contrôle en boucle fermée à haute fréquence, le système peut absorber des perturbations que des architectures synchrones rateraient. Il reste que les métriques publiées correspondent à un throughput serveur, et non à une latence de bout en bout sur un système embarqué, ce qui nuance la portée opérationnelle immédiate. Les VLA sont devenus l'architecture dominante en robotique de manipulation depuis π₀ (Physical Intelligence, 2024) et les travaux de Google DeepMind sur RT-2, OpenVLA et leurs successeurs. UniVLA, lui, est issu de travaux récents visant à unifier les modalités de commande dans un modèle unique. La problématique de la fréquence de contrôle est traitée en parallèle par plusieurs équipes: Physical Intelligence avec π₀.₅, mais aussi des approches par distillation ou par action chunking (ACT, Diffusion Policy). Ce preprint ne présente pas encore de déploiement industriel ni de timeline commerciale, mais il ouvre une voie d'optimisation compatible avec des VLA open-source, ce qui pourrait accélérer l'adoption par des intégrateurs disposant d'une infrastructure GPU serveur sans retraîner leurs modèles de base.

RechercheOpinion
1 source
HATS : système de téléopération humain-agent pour la collecte de données multi-bras
272arXiv cs.RO 

HATS : système de téléopération humain-agent pour la collecte de données multi-bras

Des chercheurs ont publié sur arXiv (référence 2606.16491) un système de télé-opération baptisé HATS (Human-Agent Teleoperation System), conçu pour collecter des données d'entraînement dans des configurations à quatre bras robotiques. Le principe repose sur un découplage du contrôle : un seul opérateur humain télé-opère deux bras principaux directement, tandis qu'un agent basé sur un MLLM (modèle de langage multimodal à grande échelle, non spécifié dans le papier) gère deux bras assistants de façon autonome, sans phase d'entraînement préalable. L'opérateur peut en temps réel corriger le comportement des bras assistants et prévenir des collisions via commandes vocales. Selon les auteurs, l'efficacité de collecte et les taux de réussite obtenus avec HATS sont comparables à ceux d'équipes de deux opérateurs experts humains. Le problème que HATS tente de résoudre est structurant pour le secteur : les scénarios de manipulation industrielle complexes nécessitent souvent plus de deux bras, mais les systèmes de télé-opération existants imposent un arbitrage difficile entre charge cognitive (un seul opérateur gérant tout) et coût de coordination (plusieurs opérateurs synchronisés). En déléguant les sous-tâches à un agent MLLM, HATS réduit la charge sur l'humain sans multiplier les intervenants. Les évaluations en aval (downstream policy evaluations) suggèrent que les données collectées produisent des politiques de manipulation efficaces, mais ces résultats restent auto-rapportés et n'ont pas encore été validés de façon indépendante. La robustesse sur des tâches longues ou à haute précision, là où des corrections vocales pourraient s'avérer insuffisantes, n'est pas encore documentée. La collecte de démonstrations téléopérées est aujourd'hui le principal goulot d'étranglement pour entraîner des politiques de manipulation polyvalentes, notamment dans les approches VLA (Vision-Language-Action, architectures combinant perception visuelle, compréhension du langage et génération d'actions). Des systèmes comme ALOHA de Stanford ou les configurations bimanuelless d'Agility Robotics reposent sur des datasets construits par télé-opération humaine à deux bras. HATS étend cette approche à quatre bras en s'appuyant sur les capacités de raisonnement spatial des MLLM récents pour automatiser les bras secondaires. Cette direction est à suivre de près : si elle se généralisait, elle réduirait significativement le coût humain de construction des datasets d'imitation, un verrou majeur pour le passage à l'échelle des robots manipulateurs.

RecherchePaper
1 source
GeoTLM : modèles tactile-langage sensibles à la géométrie pour le raisonnement sur l'orientation des contacts d'objets dynamiques
273arXiv cs.RO 

GeoTLM : modèles tactile-langage sensibles à la géométrie pour le raisonnement sur l'orientation des contacts d'objets dynamiques

Des chercheurs ont publié GeoTLM sur arXiv (réf. 2606.15909, juin 2026), un modèle de langage tactile guidé par des représentations géométriques physiques, conçu pour la manipulation robotique d'objets en mouvement. Le constat de départ est empirique : les modèles TLM actuels, Sparsh et AnyTouch2, échouent sur des tâches aussi élémentaires que détecter la direction de rotation d'un objet à partir des données d'un capteur GelSight Mini. Pour y remédier, les auteurs proposent le DGR (Differentiable Geometric Representation), un encodeur de seulement 14 000 paramètres qui structure le champ de cisaillement tactile avant le raisonnement linguistique, via un pooling antisymétrique à sept régions motivé par le fait que les contacts rotatifs génèrent des déformations antisymétriques dans le gel du capteur. Les gains mesurés sont significatifs : +14,6 points de précision sur la direction de rotation pour des objets non vus à l'entraînement, et +16,2 points sur la détection de direction de glissement en conditions réelles de capteur, par rapport au même backbone sans encodeur géométrique. Ce résultat révèle une lacune structurelle des TLM généralistes : construits pour la reconnaissance de textures et de matériaux (tâches statiques), ils manquent de primitives physiques pour raisonner sur des contacts dynamiques tels que le vissage, le glissement contrôlé ou l'assemblage en pression. Injecter des priors géométriques différentiables dans la boucle d'un VLA sans surcoût architectural notable constitue un pas concret vers un raisonnement tactile robuste sur des objets non catalogués au préalable, ce qui réduit directement la dépendance aux datasets spécifiques par référence produit. La perception tactile robotique s'est longtemps limitée aux propriétés statiques de surface. L'essor des capteurs visuotactiles haute résolution comme le GelSight, conçu au MIT et largement adopté en recherche, et l'intégration des LLM dans la boucle de contrôle depuis 2023 ont ouvert ce champ. Sparsh, publié par Meta FAIR, et AnyTouch2 constituent les références actuelles des TLM généralistes ; GeoTLM se greffe sur ces backbones plutôt qu'il ne les remplace, ce qui facilite une adoption incrémentale. Aucun acteur européen n'est impliqué dans ce travail. La prochaine étape logique reste une validation en boucle fermée sur des tâches de manipulation réelle, au-delà des benchmarks de classification de direction présentés ici.

RecherchePaper
1 source
WaveSync : optimisation par front d'onde contraint pour les gestes co-verbaux synchronisés des robots humanoïdes
274arXiv cs.RO 

WaveSync : optimisation par front d'onde contraint pour les gestes co-verbaux synchronisés des robots humanoïdes

Des chercheurs du laboratoire PAIRS ont publié sur arXiv (arXiv:2606.16600) un système baptisé WaveSync, dédié à la synchronisation des gestes coverbaux d'un robot humanoïde avec sa parole. L'architecture est hybride : un grand modèle de langage décompose les réponses dialoguées en schémas sémantiques structurés et attribue un poids d'importance à chaque mot, construisant une "Semantic Importance Wave", courbe continue représentant l'emphase du discours mot par mot. Les trajectoires gestuelles sont ensuite générées via des Dynamic Movement Primitives (DMP), qui assurent la faisabilité cinématique tout en modulant l'expressivité. Une étape de Wavefront Optimization aligne les pics gestuels avec les pics d'emphase vocale, et résout les violations cinématiques résiduelles par compression de durée et propagation avant. Évalué sur cinq scénarios de dialogue, WaveSync surpasse trois baselines en évaluation objective et subjective. Ce travail s'attaque à un problème structurel de l'HRI sur plateforme physique : contrairement aux avatars virtuels, un humanoïde ne peut enchaîner des mouvements rapides ou chevauchants sans risquer de violer ses contraintes dynamiques. Le couplage entre synchronisation parole-geste et planification cinématiquement sûre était jusqu'ici traité séparément, produisant des gestes soit fluides mais désynchronisés, soit synchronisés mais potentiellement dangereux. WaveSync propose une résolution conjointe de ces deux contraintes, ce qui est non trivial sur hardware réel. Pour les intégrateurs HRI, cela ouvre une voie vers des interfaces vocales naturelles sur robots d'accueil ou de service, sans bibliothèque gestuelle pré-enregistrée. La recherche sur les gestes coverbaux en robotique reste dominée par des corpus humains comme le Trinity Speech-Gesture Dataset, ou des méthodes end-to-end par diffusion telles que GestureDiffuCLIP. WaveSync se distingue par une approche neurosymbolique, combinant contrôle explicite via DMP et compréhension sémantique du LLM, là où les méthodes purement data-driven abandonnent le contrôle cinématique au profit de la fluidité. Le code et les vidéos sont publiés sur GitHub (pairs-lab/WaveSync). Il s'agit d'une publication académique sans déploiement industriel annoncé; la validation sur plateforme réelle hors conditions contrôlées reste à démontrer.

RecherchePaper
1 source
VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles
275arXiv cs.RO 

VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles

Des chercheurs ont publié sur arXiv (référence 2606.16696) VENOM, un modèle de suivi de mouvement corps entier conçu pour fonctionner sur plusieurs plateformes humanoïdes distinctes sans adaptation spécifique à chaque châssis. L'architecture repose sur un transformeur de type GPT entraîné sur le VENOM dataset, un jeu de données multi-humanoïdes constitué par l'équipe, qui rassemble états, actions et récompenses issus de plusieurs morphologies robotiques. L'originalité principale réside dans l'abandon du découplage classique haut/bas du corps : VENOM produit une politique unifiée qui contrôle simultanément l'ensemble des degrés de liberté. Les évaluations, conduites en simulation, montrent que le modèle surpasse un perceptron multicouche (MLP) entraîné par apprentissage supervisé sur les mêmes données et qu'il égale les performances d'experts formés par renforcement asymétrique acteur-critique, sans jamais avoir eu accès aux signaux de récompense pendant l'entraînement. L'enjeu est structurant pour la filière humanoïde : la majorité des politiques de suivi de mouvement publiées à ce jour segmentent le corps en sous-problèmes distincts, ce qui complique le transfert entre robots aux cinématiques différentes. Une politique cross-embodiment unifiée réduit le coût d'adaptation lorsqu'un intégrateur doit passer d'un châssis à un autre, ou lorsqu'un constructeur révise sa plateforme mécanique. Plus significatif encore, VENOM démontre qu'une architecture de type language model peut absorber la diversité des morphologies sans supervision par récompense explicite, simplifiant ainsi le pipeline d'entraînement. Il faut néanmoins souligner que toutes les expériences restent confinées à la simulation : l'écart sim-to-real n'est pas abordé, et les métriques annoncées ne valident pas encore un comportement physique sur robot réel. Ce travail s'inscrit dans un courant actif qui cherche à généraliser les politiques de contrôle au-delà d'un seul robot, dans la lignée de travaux comme Universal Humanoid Controller ou ExBody. Sur le front industriel, les grands déploiements humanoïdes actuels (Boston Dynamics Atlas, Agility Robotics Digit, Figure 02, Unitree H1) imposent chacun leurs propres pipelines de contrôle propriétaires, ce qui rend le problème du cross-embodiment économiquement pertinent pour tout intégrateur multi-plateforme. VENOM est un preprint non encore évalué par les pairs, le terme "letter" employé dans le texte suggérant une soumission vers une revue IEEE telle que RA-L ; la suite logique serait une validation sur au moins deux plateformes physiques pour établir la robustesse du transfert sim-to-real.

RecherchePaper
1 source
Planification de mouvement de bras robotique par intégrale de chemin prédictive en une étape via les champs de distance dans l'espace de configuration
276arXiv cs.RO 

Planification de mouvement de bras robotique par intégrale de chemin prédictive en une étape via les champs de distance dans l'espace de configuration

Une équipe de chercheurs propose, dans une prépublication arXiv (2509.00836, troisième révision), un cadre de planification de trajectoire baptisé CDF-MPPI, qui fusionne deux familles d'approches jusqu'ici séparées : les champs de distance en espace de configuration (Configuration Space Distance Fields, CDFs) et la commande par intégrale de chemin à modèle prédictif (Model Predictive Path Integral, MPPI). Appliqué à un bras Franka Emika à 7 degrés de liberté (DOF), le système atteint des fréquences de commande supérieures à 750 Hz tout en maintenant des taux de succès proches de 100 % en environnement 2D et des taux élevés sur des scènes de simulation avec obstacles complexes. L'innovation centrale est la réduction de l'horizon de planification MPPI à un seul pas de temps, rendue possible par l'utilisation des gradients CDF pour exprimer l'ensemble de la fonction de coût directement dans l'espace articulaire du robot. L'impact pratique de ce résultat touche un verrou bien connu des intégrateurs de cellules robotisées : les méthodes d'optimisation classiques basées sur les champs de distance signée (Signed Distance Fields, SDFs) tombent dans des minima locaux dès que les gradients SDF s'annulent, notamment dans les espaces à haute dimensionnalité ou autour d'obstacles convexes. De leur côté, les approches MPPI échantillonnent massivement des trajectoires candidates, ce qui les rend coûteuses en calcul et difficiles à calibrer (unités physiques hétérogènes dans la fonction de coût). En unifiant le coût en espace articulaire via les gradients CDF et en réduisant l'horizon à un pas, CDF-MPPI supprime à la fois le problème de minima locaux et le surcoût d'échantillonnage, permettant une planification temps-réel à 750 Hz, seuil compatible avec des boucles de contrôle industrielles exigeantes. C'est une démonstration que les CDFs, introduits récemment dans la littérature, offrent un signal de gradient suffisamment robuste pour remplacer les SDFs workspace dans des pipelines de commande réactifs. Les CDFs ont émergé comme alternative aux SDFs workspace précisément parce qu'ils modélisent les distances directement dans l'espace de configuration du robot, là où la planification a lieu, évitant la projection coûteuse entre espace cartésien et espace articulaire. L'MPPI, popularisé notamment par les travaux de Williams et al. (Georgia Tech) et adopté dans plusieurs pipelines de navigation mobile, était jusqu'ici rarement appliqué à la manipulation à haute fréquence en raison de son coût d'échantillonnage. Le bras Franka Emika (désormais sous l'écosystème Agile Robots après le rachat de Franka Robotics en 2023) est le benchmark de facto de la communauté manipulation. Les concurrents directs de CDF-MPPI incluent les planificateurs à base de TrajOpt (optimisation SDF), les variantes iCEM et STORM côté MPPI, ainsi que les approches par champs de potentiels neuronaux. Les auteurs valident uniquement en simulation pour l'instant ; la prochaine étape attendue est le transfert sim-to-real sur hardware réel, avec les défis habituels de calibration des modèles de contact et de latence réseau.

UELes laboratoires européens utilisant le bras Franka Emika (désormais sous l'écosystème Agile Robots) pourraient bénéficier de cette méthode de planification temps-réel, mais l'impact reste indirect faute de validation hardware publiée et de code disponible.

RecherchePaper
1 source
Transférer le contact, pas seulement le mouvement : préhension souple entre mains dextériques
277arXiv cs.RO 

Transférer le contact, pas seulement le mouvement : préhension souple entre mains dextériques

Des chercheurs ont publié mi-juin 2026 sur arXiv (réf. 2606.15516) une méthode de transfert de politiques de préhension dextre entre mains robotiques hétérogènes. L'approche introduit une interface force-position cross-embodiment : le mouvement est encodé dans un espace latent de pose de main commun à toutes les plateformes, tandis que les efforts de chaque main sont calibrés par identification système en couples articulaires physiques exprimés en N.m, puis convertis en forces au bout des doigts et en descripteurs compacts de charge par doigt. Une politique visuomoteur entraînée par flow matching combine vision, proprioception et contact calibré ; un masquage visuel structuré pousse la politique à s'appuyer sur la force lorsque les contacts sont occultés. Le même contrôleur hybride force-position sert à la collecte de démonstrations et à l'exécution, assurant la cohérence des cibles de force entre entraînement et déploiement. L'enjeu est réel : la préhension dextre stable exige la régulation du contact, pas seulement le suivi de trajectoire. Quand un doigt glisse, se déforme ou sort du champ visuel, c'est le retour de force qui maintient la charge appropriée sur l'objet. Les architectures cross-embodiment existantes unifient le mouvement via des poses retargetées ou des actions latentes, mais laissent le signal de force lié au hardware de chaque main, bloquant le transfert. En calibrant ce signal dans une unité physique commune (N.m), les auteurs rendent la boucle de régulation de contact comparable entre plateformes structurellement différentes. Pour un intégrateur qui déploie plusieurs modèles de mains sur une même cellule, cela ouvre la perspective de bibliothèques de skills partagées plutôt que de politiques ad hoc par hardware. Les expériences montrent que des primitives apprises sont réemployables dans des pipelines de manipulation longue portée, test de généralisation nettement plus exigeant qu'une démonstration isolée. La publication s'inscrit dans le sillage des architectures cross-embodiment post-GR00T N2 et pi0, où l'effort de la communauté vise la réutilisation de politiques entre robots sans retraining complet. Elle répond directement aux limites de travaux comme DexMV ou AnyGrasp, qui normalisent le mouvement mais ignorent la physique du contact. Fait inhabituel : l'abstract ne mentionne ni institution ni auteurs explicites, ce qui peut indiquer une soumission industrielle anonymisée ou un groupe en cours de dévoilement. Le travail reste à ce stade un résultat expérimental de laboratoire sans déploiement annoncé ; la prochaine étape naturelle serait une validation sur des mains commerciales comme la Shadow Hand ou l'Ability Hand dans des scénarios industriels réels.

RechercheOpinion
1 source
AVA-VLA : améliorer les modèles vision-langage-action avec l'attention visuelle active
278arXiv cs.RO 

AVA-VLA : améliorer les modèles vision-langage-action avec l'attention visuelle active

Des chercheurs de LiAuto-DSR, division R&D de Li Auto (constructeur automobile chinois), publient sur arXiv (réf. 2511.18960, quatrième révision) AVA-VLA, un cadre algorithmique ciblant une limite structurelle des modèles Vision-Language-Action (VLA). Le diagnostic central : les VLA existants traitent chaque observation visuelle indépendamment à chaque pas de temps, modélisant la manipulation robotique comme un processus markovien (MDP) alors que la réalité est un processus partiellement observable (POMDP). AVA-VLA introduce un état récurrent servant d'approximation neurale de la croyance de l'agent sur l'historique de la tâche, couplé à un module d'attention visuelle active (AVA) qui réattribue dynamiquement des poids aux tokens visuels selon l'instruction courante et l'historique d'exécution. Les auteurs revendiquent l'état de l'art sur LIBERO et CALVIN, deux benchmarks académiques standards en manipulation robotique simulée, ainsi qu'un transfert vers des tâches de manipulation bimanuelle en conditions réelles, sans que les métriques terrain soient détaillées dans l'abstract. L'apport architectural est notable : les VLA phares actuels, OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, traitent l'observation visuelle sans mémoire explicite du contexte passé. Conditionner l'attention visuelle à l'historique d'exécution couvre un angle mort structurel sur les tâches séquentielles longues, là où des actions antérieures modifient la scène sans être immédiatement visibles dans l'image courante. Pour les intégrateurs industriels, cela suggère des bras manipulateurs plus robustes sur des workflows multi-étapes sans remise à zéro du contexte. Réserve : la formulation "transfers effectively" manque de quantification, et LIBERO comme CALVIN restent des environnements largement simulés. Le secteur des VLA s'est considérablement densifié depuis mi-2024 : π0 en octobre 2024, GR00T N2 en mars 2025, et une constellation de variantes académiques (RoboVLMs, OpenVLA-OFT) alimentent la littérature. L'approche récurrente d'AVA-VLA prolonge des travaux classiques sur la résolution de POMDP à base de LSTM, réinterprétés ici dans le paradigme VLA moderne. LiAuto, principalement connu pour ses véhicules hybrides à autonomie étendue, affiche à travers DSR des ambitions en robotique de manipulation. Le code source n'est pas encore publié et aucun déploiement terrain n'est annoncé : il s'agit pour l'instant d'une contribution de recherche académique dont la portée industrielle reste à confirmer hors simulation.

RechercheOpinion
1 source
Compréhension vidéo découplée centrée sur les objets pour la génération de commandes de manipulation robotique
279arXiv cs.RO 

Compréhension vidéo découplée centrée sur les objets pour la génération de commandes de manipulation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.16470) un framework de compréhension vidéo orienté objets, conçu pour traduire automatiquement des démonstrations gestuelles en commandes exécutables par un bras robotique, sans passer par une syntaxe de programmation classique. La méthode combine des modules TSM (Temporal Shift Module) pour la classification spatio-temporelle d'actions avec un algorithme original de sélection d'objets qui identifie, dans chaque séquence, les objets fonctionnellement pertinents via trois critères : classification de rôle par trajectoire, détection de flou, et minimisation de chevauchements. Les objets retenus sont ensuite analysés par des VLMs (Vision-Language Models) pour la reconnaissance de catégorie et la généralisation zero-shot. Évalué sur une version modifiée du benchmark Something-Something V2, le système atteint 86,79 % de précision en classification d'actions, un score BLEU-4 de 0,337 sur des objets connus et 0,261 sur des objets inédits, soit des gains respectifs de +80,2 % et +143,9 % face au meilleur baseline spécialisé. Sur METEOR et CIDEr, les gains montent à +157,9 % et +171,7 % pour les objets inconnus. Ce résultat est notable pour deux raisons distinctes. D'abord, la généralisation sur des objets non vus durant l'entraînement, qui est précisément le point de rupture habituel des systèmes task-specific : un robot industriel déployé dans un environnement variable ne peut pas être ré-entraîné pour chaque référence produit. Ensuite, l'architecture modulaire découplée (reconnaissance d'action d'un côté, identification d'objet de l'autre) facilite la maintenance et le débogage en production, à l'inverse des architectures bout-en-bout opaques. Sur le papier, ce type de système pourrait réduire la dépendance à la téléopération manuelle pour constituer des datasets de manipulation, un coût majeur pour les déploiements à grande échelle. Il s'agit ici d'un preprint académique, pas d'un produit validé en environnement réel : les métriques sont mesurées sur un benchmark vidéo, pas sur un robot physique, ce qui laisse entier le sim-to-real gap. Le benchmark Something-Something V2 reste un cadre contrôlé, éloigné du désordre d'un atelier de production. Ce travail s'inscrit dans un mouvement plus large de recherche sur les VLA (Vision-Language-Action models), où des acteurs comme Physical Intelligence (pi), Google DeepMind ou le MIT tentent de résoudre exactement ce problème : faire apprendre un robot par observation vidéo plutôt que par démonstration manuelle coûteuse. La prochaine étape naturelle serait une validation sur hardware réel avec un bras collaboratif standard (UR, Franka), ce que le papier ne documente pas encore.

RechercheOpinion
1 source
Pondération hiérarchique des avantages pour l'affinage par apprentissage par renforcement en ligne des VLA à partir de résultats d'épisodes épars
280arXiv cs.RO 

Pondération hiérarchique des avantages pour l'affinage par apprentissage par renforcement en ligne des VLA à partir de résultats d'épisodes épars

Une équipe de chercheurs publie sur arXiv (2606.17043) une méthode baptisée HABC (Hierarchical Advantage-Weighted Behavior Cloning), destinée à affiner en ligne, par apprentissage par renforcement, des politiques VLA (Vision-Language-Action) préentraînées. L'approche cible un problème précis : lors des épisodes de rollout sur robot réel, seul un signal binaire est disponible (succès ou échec), alors que l'algorithme d'entraînement réclame une supervision à chaque transition. Sur trois tâches bimanales à contact riche, HABC fait passer les taux de succès de 36 %, 44 % et 12 % (baselines par imitation supervisée seule) à respectivement 92 %, 88 % et 38 %, soit des gains de 56, 44 et 26 points de pourcentage. L'apport central est une décomposition de l'objectif en deux dimensions orthogonales : la viabilité (la politique peut-elle réussir la tâche ?) et l'efficacité (le fait-elle rapidement ?). Confondre les deux dans un scalaire unique pose problème dès que le succès de base est acquis : le gradient s'annule, incapable de discriminer une exécution rapide d'une lente. HABC entraîne deux têtes de critique séparées sur des sous-ensembles de données distincts, puis les fusionne via une porte adaptative g_t qui privilégie la viabilité quand le succès est incertain et bascule vers l'efficacité quand il est maîtrisé. Un second mécanisme, l'"intervention-aware credit assignment", restreint les labels d'épisode aux seuls segments exécutés de façon autonome par la politique courante, empêchant les reprises en main humaines de polluer l'attribution de crédit, biais particulièrement dévastateur dans les environnements industriels où les opérateurs interviennent régulièrement. Cette contribution s'inscrit dans une vague de travaux cherchant à rendre le fine-tuning en ligne des VLA praticable hors simulation. Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA ont chacun mis en avant des capacités de généralisation, mais l'amélioration continue post-déploiement par RL demeure un problème ouvert. HABC y répond sans modifier l'architecture du modèle sous-jacent, ce qui la rend compatible avec les VLA existants sans refonte coûteuse. Le preprint ne mentionne ni partenariat industriel ni calendrier de déploiement : il s'agit d'une contribution académique dont les résultats sur robot réel lui confèrent plus de poids que les travaux purement simulés, mais dont la validation reste limitée à trois tâches et n'implique aucun acteur européen identifié.

RechercheOpinion
1 source
Penser moins, agir tôt : raisonnement latent renforcé avec sortie anticipée dans les modèles VLA
281arXiv cs.RO 

Penser moins, agir tôt : raisonnement latent renforcé avec sortie anticipée dans les modèles VLA

Une équipe de recherche publie sur arXiv (identifiant 2606.15099, juin 2026) AVA-VLA (Adaptive Variable Alignment VLA), un cadre d'inférence pour modèles vision-langage-action qui abandonne le raisonnement explicite par chaîne de pensée (Chain-of-Thought, CoT) au profit de variables latentes non observables. Le modèle combine un mécanisme de débruitage par apprentissage par renforcement, qui traite la génération d'états latents comme un processus de décision séquentiel optimisé par des récompenses au niveau de la tâche, et une stratégie de sortie anticipée (Early Exit) qui interrompt le raisonnement dès que la confiance dans l'état courant dépasse un seuil adaptatif. Sur le benchmark LIBERO, référence standard pour les tâches de décision en environnement incarné, AVA-VLA atteint un taux de succès moyen de 98,3 % tout en réduisant le temps d'inférence d'un facteur 6 par rapport aux méthodes CoT explicites. Cette publication s'attaque à l'un des principaux goulots d'étranglement des VLA : la latence introduite par la génération de texte intermédiaire avant chaque action. Pour un intégrateur ou un constructeur de robot humanoïde, une réduction 6x de la latence d'inférence change concrètement l'équation matérielle - elle ouvre la voie à des contrôleurs embarqués moins puissants ou à des boucles de contrôle plus rapides sans GPU de serveur. Le score de 98,3 % sur LIBERO est élevé, mais il convient de noter que ce benchmark reste en simulation ; les auteurs ne rapportent aucun résultat sur robot physique, et l'écart sim-to-real n'est pas discuté. Il s'agit donc d'une contribution de recherche, pas d'un déploiement validé en production. Les modèles VLA à raisonnement explicite ont été popularisés notamment par pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, qui s'appuient tous deux sur des étapes de planification en langage naturel avant l'exécution motrice. AVA-VLA s'inscrit dans une tendance concurrente cherchant à internaliser ce raisonnement, approche voisine des travaux sur les "thinking tokens" latents dans les LLM (Meta COCONUT, DeepMind). La prochaine étape naturelle sera de valider ces gains sur des plateformes robotiques physiques dans des configurations de tâches longues - précisément le régime où la propagation d'erreurs des méthodes CoT est la plus problématique et où les benchmarks simulés montrent leurs limites.

RechercheOpinion
1 source
Mouvements du bras d'un humanoïde économes en énergie par apprentissage par renforcement profond et modèles de puissance
282arXiv cs.RO 

Mouvements du bras d'un humanoïde économes en énergie par apprentissage par renforcement profond et modèles de puissance

Un framework d'apprentissage par renforcement conçu pour minimiser la consommation énergétique des mouvements d'atteinte brachiale d'un humanoïde vient d'être publié sur arXiv (preprint 2606.15918, juin 2026), avec pour application cible la récolte automatisée de pommes en plein champ. Le bras gauche à 7 degrés de liberté (DOF) du Unitree G1 est la plateforme de validation. L'algorithme Soft Actor-Critic (SAC) est entraîné dans un simulateur de dynamique rigide Pinocchio, couplé à un modèle électrique de puissance identifié expérimentalement sur le robot physique. Après 5 millions de pas d'entraînement, le policy atteint 69,9 % de succès sur 1 000 cibles aléatoires en simulation, avec une consommation moyenne de 98,16 joules par épisode réussi. Sur le Unitree G1 réel, validé sur trois séries indépendantes de 10 cibles chacune, les mesures sont : 71,5 ± 48,3 J, erreur de position 2,64 ± 1,04 cm, erreur d'orientation 6,92 ± 1,33°, dans les tolérances d'entraînement de 4 cm et 8,6°. Ce travail s'attaque à un problème rarement quantifié dans la littérature : combien de cycles d'atteinte un humanoïde peut-il exécuter par charge de batterie ? En agriculture robotique, où les robots opèrent loin des prises de courant, cette contrainte est directement opérationnelle. La contribution méthodologique centrale est l'intégration d'un modèle de puissance calibré expérimentalement dans la fonction de récompense, baptisée "Hybrid Constellation Reward", qui combine distance à l'effecteur terminal et proxy énergétique basé sur la norme des couples articulaires. Le fait que le policy consomme environ 27 % moins sur le robot réel qu'en simulation (71,5 J vs 98,16 J) est un résultat sim-to-real encourageant, tempéré toutefois par un écart-type élevé (48,3 J) révélant une variabilité substantielle selon la configuration de la cible. Il s'agit d'un preprint académique posant une brique méthodologique, pas d'un déploiement terrain. Le Unitree G1, humanoïde compact commercialisé à environ 16 000 dollars, est devenu une plateforme de recherche courante aux côtés du Fourier GR-1 et du 1X Neo. Les travaux sur l'efficacité énergétique en manipulation robotique concernent davantage les bras industriels sériels (ANYmal de l'ETH Zurich, Franka Emika) que les humanoïdes polyarticulés, ce qui rend cette approche originale dans son segment. Les prochaines étapes logiques incluent l'intégration de la vision pour la localisation des fruits et des tests en conditions réelles de verger sur cycles prolongés. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans ce preprint.

RecherchePaper
1 source
Modélisation unifiée mouvement-action pour l'apprentissage sur robots hétérogènes
283arXiv cs.RO 

Modélisation unifiée mouvement-action pour l'apprentissage sur robots hétérogènes

Des chercheurs ont déposé sur arXiv (arXiv:2606.16917, juin 2026) le modèle UMA (Unified Motion-Action), une architecture d'apprentissage robotique qui place les trajectoires 3D de mouvement d'objets comme interface commune entre contrôle visuomoteur et modélisation de dynamiques. Plutôt que de traiter séparément les actions du robot et l'évolution de l'environnement, UMA les co-modélise sous un objectif génératif masqué, inspiré des architectures MAE (Masked Autoencoders): le motif de masquage détermine à la fois le régime de supervision pendant le pré-entraînement et le mode d'inférence au déploiement. Le modèle est pré-entraîné sur un mélange de démonstrations robotiques, de vidéos humaines et de données simulées, sans annotations manuelles d'instructions de tâches. Un objectif contrastif dissocie l'intention de tâche de la géométrie de scène. Au déploiement, les mêmes paramètres pré-entraînés supportent trois modes distincts: contrôle visuomoteur conditionné par le mouvement, modélisation dynamique, et adaptation few-shot à de nouvelles tâches. Les auteurs rapportent des performances supérieures aux baselines spécialisées sur chacun de ces modes. L'apport principal est de résoudre le problème structurel de l'hétérogénéité des données robotiques. Combiner démonstrations d'un bras industriel, vidéos de mains humaines et scènes simulées dans un entraînement multi-tâche exige habituellement des annotations coûteuses ou des têtes de sortie spécialisées par domaine. UMA contourne cela: les trajectoires 3D d'objets fonctionnent comme un "lingua franca" représentationnel, indépendant de la morphologie du robot ou de la source des données. La technique de "hindsight relabeling" permet d'annoter rétrospectivement des contextes de mouvement depuis les données brutes, sans intervention humaine. Pour un intégrateur ou un COO industriel, c'est concret: adapter un modèle généraliste à une nouvelle ligne en quelques démonstrations réduit sensiblement les coûts de déploiement. Nuance à souligner: il s'agit d'un preprint sans revue par les pairs, et les benchmarks présentés mériteraient une validation indépendante sur plateformes physiques réelles. Cette publication s'inscrit dans la compétition autour des modèles Vision-Langage-Action (VLA) généralisables. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Figure AI (Helix, déployé sur le Figure 03) cherchent tous à entraîner des politiques robotiques sur des données hétérogènes à grande échelle, avec le même défi partagé: comment exploiter des vidéos humaines non labellisées ou des données simulées sans annotation prohibitive. UMA propose une réponse architecturale via le mouvement 3D d'objets comme superviseur implicite universel, un angle distinct des approches VLA qui s'appuient sur le langage comme pivot sémantique. La validation sur benchmarks ouverts tels que LIBERO ou Open-X Embodiment, absente du preprint, sera déterminante pour évaluer la généralisation réelle de l'approche.

RechercheOpinion
1 source
Cadre formel de résilience des systèmes cyber-physiques incarnés face aux cyberattaques sur équipements
284arXiv cs.RO 

Cadre formel de résilience des systèmes cyber-physiques incarnés face aux cyberattaques sur équipements

Des chercheurs ont déposé sur arXiv (identifiant 2606.16467) un article proposant un cadre formel de résilience pour les systèmes cyber-physiques "embodied" (CPS incarnés) exposés à des cyberattaques ciblant leurs composants matériels. Contrairement aux pannes classiques, qui se manifestent par une dérive progressive ou une défaillance franche des capteurs et actionneurs, les cyberattaques peuvent recourir à des stratégies subtiles (manipulation de données, injection de faux états, dégradation lente) que les mécanismes traditionnels de tolérance aux fautes peinent à détecter. Le papier introduit un formalisme qui intègre les informations produites par un système de détection d'intrusion (IDS) dans des prédicats d'évaluation de résilience, permettant de raisonner structurellement sur deux dimensions : la tolérance à la perturbation de l'exécution des tâches, et la préservation de l'intégrité physique du système (ce que les auteurs nomment "embodiment preservation"). L'enjeu est direct pour les intégrateurs de robots autonomes, de drones ou de systèmes de contrôle industriel (OT/ICS) : dans un CPS incarné, le matériel n'est pas seulement un support de calcul, il constitue lui-même une surface d'attaque dont la compromission peut entraîner des dommages physiques irréversibles. Le cadre proposé vise à fournir une base théorique pour décider, de manière proactive, si des stratégies de mitigation doivent être déclenchées avant qu'une attaque n'ait causé de dégâts structurels. C'est une rupture avec l'approche réactive dominante : au lieu d'attendre une anomalie observable, le système raisonne à partir de l'état de l'IDS pour anticiper la menace. Pour un COO industriel gérant des lignes robotisées, cette distinction entre détection et prévention d'endommagement physique est non triviale. Il faut néanmoins situer cette contribution à son juste niveau : il s'agit d'un preprint arXiv non encore évalué par les pairs, fondé sur des exemples analytiques et non sur des expérimentations en conditions réelles. Le domaine de la dependability formelle des CPS est actif depuis les travaux fondateurs d'Avizienis et Laprie (IFIP, 2004), et plusieurs équipes européennes travaillent sur la convergence entre sécurité fonctionnelle et cybersécurité dans les systèmes embarqués. La question de l'intégration des IDS dans des boucles de contrôle temps-réel reste un problème ouvert, notamment sur les contraintes de latence incompatibles avec certains environnements industriels. Les prochaines étapes logiques seraient une validation expérimentale sur un système robotique ou un banc de test OT représentatif.

UEPlusieurs équipes européennes actives sur la convergence sécurité fonctionnelle/cybersécurité dans les systèmes embarqués pourraient s'appuyer sur ce cadre formel, mais l'absence de validation expérimentale et d'acteur européen identifié limite l'impact immédiat.

RecherchePaper
1 source
Un modèle graphique connectomique du cerveau entier permet le contrôle locomoteur chez la drosophile
285arXiv cs.RO 

Un modèle graphique connectomique du cerveau entier permet le contrôle locomoteur chez la drosophile

Des chercheurs ont développé le Fly-connectomic Graph Model (FcGM), un contrôleur neuronal qui instancie directement le connectome complet du cerveau d'une drosophile adulte comme réseau de neurones graphique pour piloter un modèle biomécanique simulé de l'insecte via apprentissage par renforcement profond. Présenté dans un preprint arXiv (identifiant 2602.17997, version 3), le travail exploite la cartographie synaptique neurone-par-neurone du cerveau entier de Drosophila melanogaster pour en faire un prior architectural structuré. Le contrôleur produit des mouvements locomoteurs stables sur une gamme variée de tâches, et affiche une meilleure efficacité d'échantillonnage par rapport à des baselines classiques, graphiques ou non. Les résultats restent entièrement dans un environnement de simulation physique : aucun transfert sur robot ou drosophile réelle n'est rapporté à ce stade. L'intérêt principal est de démontrer qu'une topologie cérébrale biologique réelle peut remplacer avantageusement des architectures de réseau définies à la main, tout en améliorant l'interprétabilité via le suivi du flux d'information dynamique entre populations neuronales. Pour les équipes travaillant sur des contrôleurs de locomotion à plusieurs membres (robots hexapodes, exosquelettes), ce résultat suggère que les données connectomiques pourraient constituer des priors de contrôle plus robustes que les topologies ad hoc habituelles. La question centrale du sim-to-real gap reste entièrement ouverte : le modèle biomécanique utilisé est une approximation, et les auteurs ne quantifient pas l'écart potentiel avec un déploiement physique. Ce travail s'inscrit dans la lignée de plusieurs avancées récentes : la publication du connectome de la drosophile par le consortium FlyWire en 2023, soit environ 140 000 neurones et 50 millions de synapses cartographiés, a rendu possible ce type d'expérimentation à l'échelle du cerveau entier, là où les travaux antérieurs se limitaient à des sous-graphes simplifiés comme les Neural Circuit Policies (NCP) de Hasani et Lechner ou les 302 neurones de C. elegans dans le projet OpenWorm. Les prochaines étapes naturelles seraient l'extension à des tâches plus complexes (manipulation, navigation), le test sur des plateformes robotiques physiques, et à plus long terme l'application à des connectomes de mammifères.

RecherchePaper
1 source
DragMesh-2 : interaction main-objet dextérique physiquement plausible avec des objets articulés
286arXiv cs.RO 

DragMesh-2 : interaction main-objet dextérique physiquement plausible avec des objets articulés

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.15133v1) DragMesh-2, un framework de manipulation dextre d'objets articulés destiné aux mains multi-doigts. L'objectif est de permettre à un robot de manipuler des objets dont une partie est mobile (tiroir, poignée de porte, levier) sans pouvoir l'actionner directement, le mouvement devant émerger exclusivement du contact physique soutenu entre la main et la surface. Le système introduit PICA (Physically Informed Contact-Aware), un mécanisme d'entraînement qui injecte des signaux physiques dans l'apprentissage de politique sans capteur tactile ni retour de force, simplifiant ainsi l'instrumentation matérielle nécessaire. Évalué sur sept objets issus du dataset GAPartNet, DragMesh-2 a été soumis à plusieurs conditions de damping pour mesurer sa robustesse à la variation de charge de contact, sur lesquelles il surpasse les méthodes comparées. La distinction que DragMesh-2 cherche à établir est précise : la plupart des approches existantes en manipulation articulée s'appuient sur une génération centrée objet (object-centric), où les trajectoires sont calculées à partir de la géométrie de la cible. Rejouer ces trajectoires en boucle ouverte (open-loop) ne modélise pas la dynamique de contact nécessaire pour déplacer effectivement la partie articulée. Le problème devient critique quand la charge de contact varie, ce qui arrive fréquemment en conditions réelles : une porte mal alignée, un tiroir dilaté, un levier à résistance variable. PICA adresse ce point sans capteur additionnel, un avantage concret pour les intégrateurs voulant déployer des mains dextres sur des robots humanoïdes en environnement domestique ou assistif, où l'ajout de capteurs de force reste coûteux et fragile. Ce travail s'inscrit dans une tendance plus large qui cherche à dépasser le préhenseur parallèle (parallel-jaw gripper) pour les tâches de manipulation fine en milieu non structuré. GAPartNet, le benchmark utilisé, répertorie des parties articulées standardisées issues de la robotique domestique et constitue la référence commune de ce sous-domaine. La communauté humanoïde, dont les projets de Figure, Agility Robotics ou 1X Technologies, identifie la manipulation d'objets articulés comme un verrou majeur pour les déploiements en cuisine, atelier ou assistance à la personne. DragMesh-2 publie également une ressource en géométrie pure pour la manipulation dextre main-objet, destinée à alimenter les recherches futures en loco-manipulation. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : c'est une contribution académique, pas un produit expédié.

RecherchePaper
1 source
PATCH : suivi des innovations de patchs latents conditionné par les séquences d'actions pour la manipulation robotique
287arXiv cs.RO 

PATCH : suivi des innovations de patchs latents conditionné par les séquences d'actions pour la manipulation robotique

Des chercheurs présentent PATCH (Action-Chunk-Conditioned Latent Patch Innovation Monitor), un moniteur d'exécution temps réel publié sur arXiv (2606.16690) conçu pour rendre les politiques de manipulation robotique plus robustes lors du déploiement en environnements ouverts. Le système s'appuie sur le "chunk" d'actions courant, séquence de commandes prédites d'un coup par la politique apprise, pour définir un corridor d'exécution projeté dans l'espace latent. À l'intérieur de ce corridor, PATCH prédit l'évolution attendue des patches visuels latents et accumule les résidus persistants que le mouvement propre du robot n'explique pas. Ces résidus constituent un signal d'intervention localisé : le composant PATCH-Router peut suspendre l'exécution, sélectionner une source de récupération disponible, puis reprendre la politique originale une fois l'innovation locale dissipée. Des expériences sur données réelles de déploiement montrent des déclenchements plus stables et plus contextuellement pertinents que les moniteurs concurrents évalués. L'enjeu est précis : les politiques de manipulation à base d'apprentissage (politiques de diffusion, modèles VLA) produisent des résultats convaincants en laboratoire mais restent fragiles dès qu'un objet bouge inopinément, qu'une occlusion transitoire survient ou qu'une perturbation apparaît près de la trajectoire prévue. Les moniteurs existants s'appuient sur des anomalies d'observation globales, l'incertitude de la politique ou des différences frame-à-frame, des mécanismes qui peinent à distinguer un risque d'exécution réel d'une variation visuelle bénigne (reflet, passage d'une personne en fond). PATCH déplace l'analyse au niveau local et conditionné sur l'intention du robot, ce qui réduit les faux positifs et permet une reprise automatique plutôt qu'un arrêt définitif. Pour un intégrateur industriel, cela change la logique de supervision : au lieu d'une e-stop humaine systématique, on dispose d'un mécanisme de récupération autonome gradué. L'article s'inscrit dans une vague de travaux qui cherchent à combler le "deployment gap" des VLA et des politiques de diffusion, notamment après que des systèmes comme Pi-0 (Physical Intelligence) ou RDT ont démontré des performances impressionnantes en conditions contrôlées. PATCH ne cherche pas à remplacer la politique de base mais à la surveiller et à la relancer de façon ciblée, une approche modulaire compatible avec n'importe quelle politique pré-entraînée. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné ; il s'agit pour l'instant d'une contribution de recherche accompagnée d'une page projet publique, sans déploiement à l'échelle annoncé.

RechercheOpinion
1 source
Modélisation de la charge cognitive et physique perçue pour la collaboration homme-robot en construction préfabriquée
288arXiv cs.RO 

Modélisation de la charge cognitive et physique perçue pour la collaboration homme-robot en construction préfabriquée

Une étude déposée sur arXiv (arXiv:2606.15494) propose un cadre de modélisation empirique de l'évolution de la charge cognitive et physique perçue des opérateurs en contexte de collaboration humain-robot (HRC) dans la construction préfabriquée. Les chercheurs ont conduit une expérience contrôlée de cycles travail-repos répétés, mesurant la charge cognitive via l'échelle RSME (Rating Scale for Mental Effort) et l'effort physique via l'indice de Borg RPE (Rating of Perceived Exertion). Les résultats montrent que l'accumulation de la charge cognitive suit une progression linéaire, tandis que la récupération en phase de repos obéit à une décroissance non linéaire de type exponentielle. Un modèle à effets mixtes a été appliqué pour tenir compte des conditions collaboratives, des effets de session et de la variabilité inter-individuelle significative entre opérateurs. Ces résultats ont une portée directe pour la planification des tâches en HRC industrielle. Les approches de scheduling humain-robot reposent encore souvent sur des hypothèses simplifiées : fatigue constante, récupération uniforme, ou seuils de charge binaires. Disposer d'un modèle empiriquement validé qui distingue la dynamique d'accumulation (linéaire) de celle de récupération (non linéaire) permet de concevoir des algorithmes d'allocation de tâches capables d'anticiper l'état cognitif et physique du travailleur au fil des cycles de production. Pour un intégrateur ou un COO déployant des cobots sur ligne d'assemblage préfabriqué, cela ouvre la voie à des plannings adaptatifs qui réduisent le risque d'erreur humaine et de troubles musculo-squelettiques sans sacrifier la cadence. La construction préfabriquée est un secteur cible croissant pour la robotique collaborative, notamment pour des tâches répétitives de manutention lourde, d'assemblage de panneaux et de fixation. Des équipes universitaires en Asie-Pacifique et en Europe travaillent sur l'automatisation partielle de ce segment, mais la grande majorité des déploiements HRC existants ignorent l'état physiologique du travailleur comme variable de planification en temps réel. Cette étude s'inscrit dans la tendance émergente de la HRC "human-state-aware", où le système robotique adapte sa charge de travail à l'état de l'opérateur. Les modèles proposés constituent une brique méthodologique destinée à alimenter de futurs systèmes de scheduling dynamique, potentiellement couplés à des capteurs physiologiques embarqués ou à des outils de suivi biométrique non intrusifs.

UEDes équipes universitaires européennes sont mentionnées comme actives sur l'automatisation en construction préfabriquée, mais aucun acteur français ou européen spécifique n'est impliqué dans cette étude ; l'impact reste indirect pour les intégrateurs HRC en Europe.

RecherchePaper
1 source
Les modèles causaux peuvent-ils améliorer la navigation des robots ? Adaptation causale en ligne pour robots réels
289arXiv cs.RO 

Les modèles causaux peuvent-ils améliorer la navigation des robots ? Adaptation causale en ligne pour robots réels

Des chercheurs présentent dans un article publié sur arXiv (2606.15691) une méthode d'intégration de modèles causaux dans des systèmes de navigation robotique réels, testée sur un robot de service physique en patrouille dans des couloirs. L'approche se décline en deux modes : un module d'évaluation hors ligne qui prédit la "compétence" d'une trajectoire enregistrée et la corrèle aux métriques de navigation quantitatives, et un module d'adaptation en ligne qui intervient dynamiquement lorsque la compétence prédite du comportement par défaut tombe en dessous d'un seuil. Les résultats montrent une corrélation positive entre compétence prédite et efficacité du chemin parcouru, et une corrélation négative avec les irrégularités de trajectoire. L'accord avec les annotations humaines atteint un coefficient kappa de Cohen de 0,88, un niveau considéré comme quasi-parfait dans la littérature. Ce travail s'attaque à un angle mort réel du déploiement de modèles causaux : la plupart des recherches restent en simulation ou en évaluation post-hoc, sans boucle fermée sur un robot physique. Ici, le modèle causal fonctionne comme un superviseur en temps réel capable de détecter et de corriger des comportements sous-optimaux dans des scénarios difficiles, virage serré, évitement d'obstacle, sans modifier le stack de navigation sous-jacent. Le gain est sélectif et honnêtement rapporté : dans les scénarios simples où le comportement par défaut est déjà proche de l'optimal, l'adaptation causale n'apporte pas de bénéfice mesurable, ce qui indique que la méthode est complémentaire plutôt que substitutive. La recherche en causalité appliquée à la robotique mobile reste dominée par les approches en simulation (travaux de Schölkopf, Peters et al.) ou par des architectures d'apprentissage causal intégrées dès l'entraînement. L'originalité ici est de greffer un module causal sur un système de navigation existant sans le modifier, ce qui abaisse la barrière à l'intégration pour les opérateurs de flottes AMR ou de robots de service. Les concurrents directs sur ce créneau incluent les approches d'apprentissage par renforcement adaptatif (comme celles explorées chez Boston Dynamics ou dans les labs de navigation de CMU), mais sans le volet interprétatif que le modèle causal offre. La suite logique serait de tester l'approche sur des flottes multi-robots ou dans des environnements dynamiques plus chargés, et de quantifier le surcoût computationnel en conditions réelles d'exploitation.

RecherchePaper
1 source
SemGeoNav : une approche de navigation visuelle guidée par la sécurité, combinant raisonnement sémantique et planification géométrique
290arXiv cs.RO 

SemGeoNav : une approche de navigation visuelle guidée par la sécurité, combinant raisonnement sémantique et planification géométrique

Des chercheurs ont proposé SemGeoNav, un framework de navigation visuelle hiérarchique publié sur arXiv en juin 2026 (arXiv:2606.16400), conçu pour les robots devant atteindre des cibles définies par des images dans des environnements ouverts. L'architecture combine deux couches distinctes : un module de raisonnement sémantique de haut niveau issu des modèles apprenants end-to-end, et un planificateur géométrique local responsable de la sécurité immédiate. Un mécanisme de lissage temporel de trajectoire vient compléter l'ensemble pour garantir des déplacements continus et stables. Les expériences ont été menées sur un robot quadrupède Unitree Go2 dans des environnements réels, et les résultats indiquent des taux de succès supérieurs ainsi que des temps de navigation plus courts que deux baselines de référence du domaine, ViNT et NoMaD. L'apport principal de SemGeoNav réside dans le traitement d'une tension structurelle bien documentée en robotique autonome : les modèles end-to-end apprenants, en particulier les architectures de type VLA (Vision-Language-Action), excellent dans la compréhension sémantique de haut niveau mais manquent de contraintes géométriques explicites, ce qui génère des comportements imprévisibles face aux obstacles en environnement non structuré. À l'inverse, les planificateurs géométriques classiques (champ de potentiel, DWA) garantissent la sécurité locale mais peinent à interpréter des cibles visuelles haute dimension. L'approche hybride hiérarchique de SemGeoNav apporte une réponse architecturale à ce problème de fiabilité opérationnelle, avec des implications directes pour les intégrateurs déployant des robots mobiles en entrepôt ou en environnement industriel non balisé. ViNT et NoMaD, tous deux issus du Berkeley AI Research Lab, constituent les références dominantes en navigation visuelle généraliste à cible imageante. SemGeoNav se positionne explicitement contre ces deux modèles en revendiquant de meilleures performances terrain. Il s'inscrit dans un courant plus large qui remet en question les architectures purement end-to-end au profit de systèmes hybrides modulaires, une direction également explorée par plusieurs équipes européennes et asiatiques. Ce preprint ne publie pas de métriques standardisées comme le SPL (Success weighted by Path Length) ou les benchmarks HM3D/MP3D, ce qui rend difficile toute comparaison directe avec l'état de l'art; une validation à plus grande échelle et sur des jeux de données partagés constituerait la prochaine étape crédible pour ce travail.

RecherchePaper
1 source
Estimation d'état hybride à ordonnancement intelligent (SSH) par EKF-FGO
291arXiv cs.RO 

Estimation d'état hybride à ordonnancement intelligent (SSH) par EKF-FGO

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.16057) une étude expérimentale portant sur le rôle de la planification des optimisations dans les systèmes hybrides d'estimation d'état pour la robotique. Le framework présenté, appelé SSH EKF-FGO (Smart-Scheduled Hybrid Extended Kalman Filter - Factor Graph Optimization), combine la propagation d'état par filtre de Kalman étendu (EKF), efficace en temps réel, avec des phases d'optimisation par lots déclenchées périodiquement via un graphe de facteurs (FGO). L'originalité de l'approche ne réside pas dans les composants eux-mêmes, mais dans le traitement explicite du calendrier d'optimisation comme variable de conception indépendante, une dimension généralement absente des analyses de la littérature. Les tests ont été conduits en simulation dans un environnement SLAM planaire, avec une structure de solveur et un effort de calcul maintenus constants pour isoler l'effet du seul scheduling. Les résultats montrent que la fréquence d'invocation de l'optimiseur influence fortement la dérive pré-optimisation, le comportement transitoire de l'erreur et le temps de calcul global. La conclusion centrale est pratique : il existe des régimes de fonctionnement où la majorité des gains de cohérence globale apportés par le FGO peut être conservée en n'activant l'optimiseur qu'à une fraction de sa fréquence maximale, réduisant ainsi substantiellement le coût computationnel. Pour un ingénieur systèmes travaillant sur la localisation embarquée (robot mobile, AGV, drone), cela ouvre une marge de manoeuvre concrète : calibrer le scheduling selon les contraintes de processeur disponible sans sacrifier la précision de trajectoire à long terme. L'estimation d'état hybride EKF/FGO est un champ actif depuis une décennie, structuré par des frameworks comme GTSAM et g2o côté optimisation, et des filtres classiques côté temps réel. Des systèmes comme Google Cartographer ou SLAM Toolbox s'appuient sur des logiques similaires sans nécessairement formaliser le scheduling comme levier. Ce papier, issu d'un contexte académique non affilié à un industriel identifié, positionne le SSH EKF-FGO comme banc d'essai contrôlé plutôt que comme solution prête à déployer. Les suites naturelles seraient une validation en environnement 3D réel et une exploration d'heuristiques de scheduling adaptatif, par exemple déclenchées par seuil d'incertitude plutôt que par horloge fixe.

RecherchePaper
1 source
Quand un robot doit-il replaner ? Planification mise à jour guidée par le regret dans les MDP à variation temporelle
292arXiv cs.RO 

Quand un robot doit-il replaner ? Planification mise à jour guidée par le regret dans les MDP à variation temporelle

Des chercheurs publient sur arXiv (réf. 2606.16972, juin 2026) un cadre formel pour décider quand, et non comment, un robot doit recalculer sa politique de navigation dans un environnement à dynamiques changeantes. La contrainte centrale est le budget embarqué : énergie et calcul sont finis, chaque cycle de ré-estimation d'état suivi d'une replanification coûte des ressources. Les auteurs modélisent le problème comme un processus de décision markovien à dynamiques variables (TVMDP) avec une borne connue sur le taux de dérive des transitions, puis proposent un schéma dit "skip-update" : à des instants choisis, le robot estime le noyau de transition par maximum de vraisemblance et recalcule une politique finie ; entre ces mises à jour, il propage son estimation d'état et réutilise la politique courante. La règle de déclenchement est guidée par le regret dynamique accumulé, quantifiant l'écart entre politique actuelle et politique optimale. Validé sur un rover simulé sur Mars (dynamiques de glissement variables) et un quadrotor Crazyflie en environnement intérieur (champs d'obstacles), l'allocation adaptative surpasse les stratégies à intervalle fixe dans les deux cas. La contribution principale n'est pas algorithmique mais posturale : la littérature en planification robotique s'attarde principalement sur la façon de replanner efficacement, rarement sur le moment où ce coût computationnel se justifie. Disposer d'une règle traçable et fondée théoriquement pour déclencher les mises à jour a des implications directes pour les robots déployés en conditions réelles : AMR industriels sur sol contaminé ou à trafic variable, drones d'inspection en vol prolongé, sondes spatiales où les cycles CPU et la batterie constituent des ressources critiques non renouvelables. L'approche permet de délester le calculateur embarqué sans sacrifier les performances de navigation dans des environnements non-stationnaires, ce qui répond à un compromis jusqu'ici géré de façon heuristique dans la majorité des implémentations terrain. Le sim-to-real et la robustesse aux dynamiques changeantes figurent parmi les défis ouverts de la robotique de terrain depuis plusieurs années, en lien direct avec les travaux sur le contrôle adaptatif et le MPC (model predictive control). L'utilisation du Crazyflie, plateforme quadrotor open-source standard dans la recherche académique (ETH Zurich, CMU), et d'une simulation Mars-rover constitue des benchmarks reconnus, sans déploiement industriel annoncé ni partenaire commercial mentionné. Les auteurs ne fournissent ni timeline produit ni métriques de performance absolues sur du matériel embarqué réel, ce qui limite la portée immédiate des résultats. Les suites logiques incluent l'extension multi-robots et la validation sur calculateurs embarqués contraints, terrains où des acteurs comme l'ESA ou des équipes françaises spécialisées telles que le LAAS-CNRS (Toulouse) pourraient trouver des applications directes dans leurs programmes de robotique spatiale et de terrain.

UELe LAAS-CNRS (Toulouse) et l'ESA sont identifiés comme bénéficiaires potentiels naturels pour leurs programmes de robotique spatiale et de terrain autonome, sans implication directe à ce stade.

RecherchePaper
1 source
VL2Spike : distillation de modèles vision-langage vers des réseaux à impulsions pour la perception visuelle basse consommation dans l'IA incarnée
293arXiv cs.RO 

VL2Spike : distillation de modèles vision-langage vers des réseaux à impulsions pour la perception visuelle basse consommation dans l'IA incarnée

Des chercheurs ont publié sur arXiv (référence 2606.15898) VL2Spike, un cadre de distillation de connaissances qui transfère les représentations multi-modales des grands modèles vision-langage (VLM) vers des réseaux de neurones impulsionnels (SNN), spécifiquement des architectures Spikformer. Les résultats annoncés sur trois jeux de données statiques indiquent un gain de précision de 6,81 points de pourcentage, avec une consommation énergétique réduite à 15,7 % de celle d'un modèle de référence classique. Sur la reconnaissance de lieu par vision (VPR), tâche directement applicable à la navigation robotique, le gain atteint 6,63 %. Deux contributions techniques sont mises en avant : une distillation visuo-temporelle (SVS) qui aligne les représentations spatiales et temporelles du VLM avec les tokens impulsionnels du Spikformer, et une distillation linguistique guidée par prototypes (SPL) qui synchronise les prototypes de classes du SNN avec les embeddings textuels du VLM. L'enjeu de ce travail est réel pour la robotique embarquée. Les SNN sont architecturalement attractifs pour les systèmes edge (drones, robots mobiles, exosquelettes) car leur calcul événementiel consomme peu d'énergie, mais leurs performances en classification restaient structurellement inférieures aux transformers classiques, limitant leur adoption dans des pipelines de perception industriels. VL2Spike propose une voie pour combler cet écart sans sacrifier l'efficacité énergétique. La précision du chiffre "15,7 % de consommation" mérite toutefois d'être relativisée : il s'agit d'une estimation théorique en opérations synaptiques, pas d'une mesure sur silicium réel, ce que les auteurs reconnaissent implicitement en parlant de "modèles contraints en ressources". Les réseaux impulsionnels ont connu un regain d'intérêt depuis 2020 avec l'émergence des Spiking Transformers (SpikFormer, Spikingformer, SDT), notamment portés par des groupes à Pékin Jiaotong University et Zhejiang University. Sur le front des VLM utilisés comme "professeurs" en distillation, les approches s'appuient généralement sur CLIP ou ses variantes. Le positionnement concurrentiel direct de VL2Spike se situe face aux méthodes de quantification et de pruning de transformers classiques, qui visent aussi la contrainte énergétique sans les propriétés biologiquement inspirées des SNN. Les suites naturelles incluent des validations sur hardware neuromorphique (Intel Loihi, SpiNNaker) et des tests intégrés dans des boucles de perception robotique complètes.

RecherchePaper
1 source
Apprentissage de Koopman récursif régularisé par covariance pour systèmes non linéaires à dynamique incertaine et variable
294arXiv cs.RO 

Apprentissage de Koopman récursif régularisé par covariance pour systèmes non linéaires à dynamique incertaine et variable

Des chercheurs ont publié le 16 juin 2026 sur arXiv (arXiv:2606.15317) un framework d'identification de modèle en ligne baptisé CR-RKL (Covariance-Regulated Recursive Koopman Learning), conçu pour maintenir des performances de contrôle stables sur des robots soumis à des dynamiques changeantes et imprévisibles. La méthode repose sur la théorie de l'opérateur de Koopman, qui transforme un système non linéaire en représentation linéaire via des fonctions de relèvement ("lifting"), permettant d'utiliser des outils d'estimation linéaire classiques. Deux mécanismes complémentaires sont introduits : un filtre de zone morte sur l'erreur de prédiction ("error dead-zone gating"), et une normalisation à trace constante de la matrice de covariance ("constant-trace normalization"). Chacun suffit indépendamment à éviter les deux pathologies numériques connues de l'estimation récursive de Koopman : l'explosion de covariance sous faible excitation avec oubli exponentiel, et le gel des paramètres sans oubli. Le framework a été validé sur deux plateformes : un robot différentiel non-holonome soumis à glissement de roues et friction de type Stribeck, et un micro-véhicule aérien à battement d'ailes inspiré du papillon, pesant 26 grammes. Dans les deux cas, CR-RKL est embarqué dans une boucle de commande prédictive (MPC) et maintient un suivi de trajectoire fiable. L'enjeu industriel de ce travail dépasse la robotique académique : les modèles hors-ligne appris en simulation ou en conditions contrôlées se dégradent dès que les conditions réelles s'écartent de la distribution d'entraînement, problème classique du sim-to-real gap. CR-RKL propose une adaptation en temps réel sans retraining complet, ce qui est directement pertinent pour les intégrateurs de robots mobiles en environnement industriel variable (sols glissants, charge variable, usure mécanique). La capacité à préserver la structure géométrique de l'incertitude via la normalisation à trace constante est un argument fort pour les applications de contrôle certifiable, où la qualité de l'estimation de covariance conditionne la robustesse des garanties MPC. La théorie de Koopman connaît depuis 2018-2020 un regain d'intérêt en robotique comme alternative aux réseaux neuronaux dynamiques (LSTM, Neural ODE), notamment parce qu'elle conserve une structure linéaire exploitable analytiquement. Les approches récursives existantes (RLS-Koopman, EDMD adaptatif) souffrent précisément des instabilités numériques que CR-RKL cible. Sur le segment des micro-aéronefs à battement d'ailes (FWMAV), des groupes comme le Harvard Microrobotics Lab ou l'EPFL travaillent sur des dynamiques similaires, rendant ce benchmark particulièrement significatif. La publication est un preprint ; aucun pilote industriel ni partenariat commercial n'est annoncé à ce stade.

RecherchePaper
1 source
DIFF-IPPO : planification de trajectoires informatives par diffusion avec cartes de croyance en vocabulaire ouvert
295arXiv cs.RO 

DIFF-IPPO : planification de trajectoires informatives par diffusion avec cartes de croyance en vocabulaire ouvert

Des chercheurs ont publié sur arXiv (référence 2606.16780) DIFF-IPPO, une pipeline combinant un générateur de cartes de croyance à vocabulaire ouvert avec un planificateur basé sur la diffusion, pour orchestrer des trajectoires globales de drones en exploration autonome. Le système produit des trajectoires qui concentrent la couverture sensorielle sur les zones à haute probabilité d'intérêt, atteignant des scores de détection normalisés entre 81,49 % et 86,55 % selon les scénarios de dataset testés. La validation s'appuie sur un scénario simulé de recherche et sauvetage : une flotte de cinq drones, en mode de génération de trajectoires conditionnée par les cartes de croyance en batch, localise un bâtiment en feu parmi plusieurs candidats en 3,5 minutes en moyenne. L'apport principal de DIFF-IPPO est d'appliquer les modèles de diffusion à la planification de trajectoires informatives (IPP) conditionnée sur des distributions non-gaussiennes et multimodales. La planification IPP classique repose typiquement sur des processus gaussiens, inadaptés aux cartes de croyance complexes produites par la perception sémantique à vocabulaire ouvert, du type de celles issues de modèles vision-langage comme CLIP. En permettant un conditionnement direct sur ces représentations riches, l'approche ouvre des perspectives pour les missions d'inspection industrielle, la surveillance environnementale continue, ou la recherche et sauvetage, en réduisant le temps de détection sans exiger une couverture exhaustive de la zone. Pour un intégrateur de systèmes multi-drones, c'est un signal intéressant : la génération de trajectoires globales en batch, plutôt que la planification myope, devient praticable avec des perceptions à vocabulaire libre. L'IPP est un axe de recherche actif où robots et drones doivent planifier des trajectoires maximisant le gain d'information ou la probabilité de détection. Les méthodes traditionnelles peinent face aux distributions multimodales ; les planificateurs par diffusion, déjà adoptés en robotique mobile et manipulation (DiffusionPolicy, Diffuser), n'avaient pas encore été appliqués à l'IPP global sur cartes sémantiques. DIFF-IPPO comble ce manque, mais la validation reste entièrement en simulation, un gap sim-to-real non encore résolu. Les scénarios multi-agents à cinq drones demandent à être confirmés sur plateforme physique, et la robustesse face à des cartes de croyance bruitées ou incomplètes reste une question ouverte pour les prochaines étapes expérimentales.

RecherchePaper
1 source
LaWAM : des modèles du monde latents pour des politiques robotiques efficaces et dynamiques
296arXiv cs.RO 

LaWAM : des modèles du monde latents pour des politiques robotiques efficaces et dynamiques

Des chercheurs ont publié en juin 2026 sur arXiv (réf. 2606.15768) LaWAM, un Latent World Action Model destiné au contrôle robotique. Le système atteint 98,6 % de taux de succès sur le benchmark LIBERO, 91,22 % sur RoboTwin, et maintient des résultats compétitifs sur des tâches de manipulation en environnement réel. Sa latence d'inférence est de 187 ms par chunk d'actions, soit jusqu'à 24 fois inférieure à celle des World Action Models (WAM) opérant dans l'espace pixel. L'architecture résout un compromis structurel dans les VLA (Vision-Language-Action models) actuels : ces systèmes exploitent le préentraînement vision-langage à grande échelle pour le contrôle sémantique, mais restent aveugles à la dynamique physique de la scène. Les WAM corrigent ce défaut en conditionnant la politique sur une prédiction du futur, mais leur génération vidéo pixel par pixel les rend prohibitifs pour le temps réel. LaWAM substitue à cette vidéo des sous-objectifs visuels latents compacts, calculés dans l'espace de représentation d'un modèle de fondation vision préentraîné. Son composant central, le Latent World Model (LaWM), réutilise un décodeur forward pour prédire les caractéristiques d'observation future, éliminant la redondance au niveau pixel. Le résultat est une planification dynamique compatible avec les contraintes de latence du contrôle robotique industriel. Ce travail prend place dans la convergence entre grands modèles et robotique, après que pi-0 (Physical Intelligence) et GR00T de NVIDIA ont validé l'approche VLA mais buté sur le demo-to-reality gap et la latence d'inférence. LaWAM propose une voie d'intégration plus réaliste : 187 ms par inférence autorise des boucles de contrôle à environ 5 Hz, suffisantes pour de nombreuses tâches de manipulation structurée. Le préprint ne mentionne ni partenariat industriel ni timeline de déploiement ; il s'agit à ce stade d'une contribution académique sans produit shipé ni pilote annoncé. La prochaine étape naturelle sera de valider la robustesse hors distribution sur des environnements plus variés que LIBERO et RoboTwin, qui restent des benchmarks relativement contrôlés.

RechercheActu
1 source
Augmentation de l'environnement orientée tâche pour une navigation fiable via diffusion conditionnelle protégée
297arXiv cs.RO 

Augmentation de l'environnement orientée tâche pour une navigation fiable via diffusion conditionnelle protégée

Une équipe de chercheurs présente SCoDA (Shielded Conditional Diffusion for Environment Augmentation), publiée sur arXiv (2606.15154) en juin 2026, qui inverse la logique classique de la navigation robotique sous observabilité partielle. Plutôt que d'améliorer le robot via de meilleurs capteurs ou la planification dans l'espace des croyances, SCoDA optimise le placement de marqueurs fiduciels visuels dans l'environnement pour que le robot puisse exécuter une trajectoire planifiée de manière fiable. Le système prend en entrée une carte de l'environnement, une trajectoire de tâche et un budget limité de marqueurs, puis détermine où les poser pour éviter l'accumulation d'erreur de localisation aux points critiques de la trajectoire. Sur des benchmarks simulés et des déploiements matériels réels, SCoDA améliore la fiabilité d'exécution et le temps de complétion par rapport aux baselines comparées, sans que les marges exactes soient détaillées dans le préprint. L'intérêt industriel est concret : dans un entrepôt ou une usine où les systèmes AMR (autonomous mobile robots) peinent dans des zones pauvres en repères visuels, quelques marqueurs bien placés peuvent valoir plus qu'un upgrade capteur. SCoDA modélise ce problème via un modèle de diffusion conditionnel, entraîné à apprendre la distribution des configurations de marqueurs performantes en fonction de la trajectoire, des perturbations attendues et du profil d'exécution souhaité. Son "shielded sampler" identifie les points de la trajectoire où une correction de pose est indispensable pour ne pas compromettre le contrôle, et oriente la génération vers des agencements respectant le budget de marqueurs. Cela évite la propagation coûteuse d'incertitude typique du belief-space planning, souvent fragile dans les zones mal couvertes par les capteurs embarqués. SCoDA s'inscrit dans une tendance qui applique les modèles de diffusion à la planification et à la configuration robotique, aux côtés des Visual Language Action models (VLA) et des techniques de localisation active. Sa particularité est de cibler le côté infrastructure plutôt que l'embarqué, une direction peu explorée face aux acteurs dominants centrés sur le SLAM, la fusion capteurs ou l'active localization onboard. Le code, les modèles et le dataset sont disponibles sur scoda-diffusion.github.io. Aucune timeline de déploiement industriel n'est annoncée, et le travail reste à ce stade un préprint non soumis à peer review.

UELes flottes AMR déployées dans les entrepôts et usines européens pourraient bénéficier indirectement de cette approche, qui améliore la fiabilité de navigation sans mise à niveau capteur coûteuse, mais aucun partenaire ou déploiement européen n'est mentionné.

RecherchePaper
1 source
Un cadre de téléopération bilatérale pour la manipulation dextérique
298arXiv cs.RO 

Un cadre de téléopération bilatérale pour la manipulation dextérique

Une équipe de chercheurs publie, dans un preprint arXiv déposé en juin 2026 (arXiv:2606.15434), un système modulaire de téleopération bilatérale conçu pour la manipulation dextre en environnements réels à fort contact. L'architecture proposée couple une interface côté opérateur à un bras robotique compliant et à une main mécanique dextre côté robot, dans une boucle de contrôle unifiée. Quatre fonctionnalités centrales sont documentées : le retargeting de posture de main par positions (adaptation des commandes d'une main humaine vers une main robotique de morphologie différente), la commande différentielle du bras, le retour haptique multi-échelle, et un mécanisme de contrôle partagé pour stabiliser les phases de manipulation en contact. Le framework est validé sur une tâche réelle de manipulation dextre, sans que les métriques de performance - latence, temps de cycle, taux de succès - ne soient communiquées dans le résumé public disponible. L'intérêt principal de ce travail pour les équipes de recherche et les intégrateurs ne réside pas dans les performances brutes du système de téleopération lui-même, mais dans sa vocation déclarée de plateforme de collecte de démonstrations haute qualité pour l'apprentissage par imitation (learning from demonstration). À l'heure où les architectures VLA (Vision-Language-Action) - comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA - exigent des datasets massifs de trajectoires expertes en manipulation fine, la qualité du pipeline de collecte devient un goulot d'étranglement critique. Les auteurs identifient aussi trois problèmes de conception restant ouverts : le mismatch cross-embodiment (écart morphologique entre la main de l'opérateur et celle du robot), la granularité du retour haptique, et le dosage optimal du contrôle partagé. Ce framework s'inscrit dans une tendance de fond visant à standardiser l'infrastructure de collecte de données téléopérées, dans la lignée du système ALOHA de Stanford ou de la plateforme UMI. Les acteurs européens comme Enchanted Tools (France) ou les équipes robotique de l'INRIA travaillent sur des problématiques similaires de couplage haptique et de retargeting pour la manipulation fine. Ce preprint ne présente pas de chiffres de déploiement ni de partenariats industriels annoncés : il s'agit d'une contribution académique amont, dont la suite logique serait la publication d'un dataset de démonstrations et de benchmarks comparatifs sur des tâches de manipulation standardisées.

UELes équipes françaises (Enchanted Tools, INRIA) travaillent sur des problématiques similaires de couplage haptique et de retargeting, ce framework pourrait alimenter leurs pipelines de collecte de démonstrations pour entraîner des modèles VLA.

RecherchePaper
1 source
CrossMaps : cartographie sémantique à vocabulaire ouvert avec estimation de confiance pour la navigation de rovers
299arXiv cs.RO 

CrossMaps : cartographie sémantique à vocabulaire ouvert avec estimation de confiance pour la navigation de rovers

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (identifiant 2606.16935) les travaux relatifs à CrossMaps, un pipeline de cartographie sémantique en temps réel conçu pour la navigation de rovers autonomes. Le système exploite des données RGB-D pour construire des cartes interrogeables en langage naturel, en s'appuyant sur des embeddings CLIP multi-échelles fusionnés avec un mécanisme de pondération par confiance. L'architecture repose sur une mémoire duale : une mémoire court terme (STM) qui agrège les observations visuelles bruitées en combinant des métriques de confiance géométrique, sémantique et temporelle, et une mémoire long terme (LTM) dans laquelle sont promus les points d'intérêt stables et cohérents, constituant ainsi des repères sémantiques persistants. Le système est dimensionné pour fonctionner sur un UGV équipé d'un module Jetson Orin de NVIDIA, couplé à un pipeline SLAM, et génère des cartes de chaleur sémantiques interrogeables par requêtes en langage naturel. L'intérêt de CrossMaps réside dans sa gestion explicite de la qualité perceptive, fiabilité du capteur de profondeur, artefacts d'éclairage, densité des données, directement intégrée dans la représentation spatiale, un aspect souvent traité de façon ad hoc dans les systèmes concurrents. En distinguant observations transitoires et connaissances consolidées via la dualité STM/LTM, l'architecture vise à réduire le gap sim-to-real classique des systèmes de navigation sémantique déployés en conditions dégradées. Pour un intégrateur ou un responsable de flotte robotique, cela signifie potentiellement une navigation plus robuste dans des environnements industriels non-structurés sans nécessiter un réentraînement des modèles pour chaque nouveau vocabulaire d'objets. CrossMaps s'inscrit dans la lignée directe des VLMaps (travaux de Huang et al., 2023), qui ont popularisé la fusion de caractéristiques CLIP dans des cartes spatiales 3D pour la navigation en langage naturel. La différence revendiquée ici est la couche de gestion de la confiance et la séparation mémoire court/long terme, absentes dans VLMaps. L'article reste un preprint non encore évalué par les pairs, et les performances réelles sur un UGV physique en dehors de conditions contrôlées ne sont pas détaillées dans l'abstract, un point à vérifier dans le corps du papier avant toute extrapolation industrielle. Les suites naturelles incluent une comparaison quantitative face à ConceptFusion ou LERF, et un déploiement en environnements extérieurs non-structurés.

RecherchePaper
1 source
DynaHMRC : collaboration décentralisée de robots hétérogènes pour des tâches dynamiques via les grands modèles de langage
300arXiv cs.RO 

DynaHMRC : collaboration décentralisée de robots hétérogènes pour des tâches dynamiques via les grands modèles de langage

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.14882) DynaHMRC, un cadre décentralisé de coordination multi-robots hétérogènes piloté par des grands modèles de langage (LLM). Contrairement aux architectures classiques à planificateur central, DynaHMRC attribue à chaque robot un agent LLM individuel, dit "role-aware", qui orchestre la collaboration en quatre étapes en boucle fermée : auto-description des capacités, allocation des tâches par enchères de leadership, élection d'un robot chef, puis exécution réflexive avec retour d'état. Le système repose sur des interfaces exécutables standardisées permettant aux robots de types différents (bras, véhicules, drones) de coopérer sans schéma de communication rigide. Pour l'évaluation, les auteurs ont construit un benchmark couvrant trois familles de tâches, quatre variations dynamiques (perturbations en cours d'exécution, changements d'objectifs, pannes de robots) et six configurations d'équipes. Les résultats annoncés montrent des taux de succès supérieurs aux baselines existantes, avec moins d'actions et moins d'échanges de messages entre agents. L'intérêt principal de cette approche est d'attaquer le goulot d'étranglement du contexte long : un planificateur LLM centralisé qui gère dix robots simultanément doit traiter un contexte proportionnel à la taille de l'équipe, ce qui dégrade la qualité du raisonnement. En distribuant la charge cognitive, DynaHMRC conserve des contextes locaux courts et maintient des performances cohérentes lorsque la taille de l'équipe augmente, au moins dans les configurations testées. L'article propose aussi une méthodologie pour constituer des jeux de données domaine-spécifiques et affiner des LLM open-source, réduisant la dépendance aux modèles propriétaires coûteux pour des tâches robotiques spécialisées. Il faut toutefois cadrer ces résultats : tout se passe en simulation, sans déploiement terrain rapporté. Le domaine des architectures multi-agents LLM pour la robotique est très actif, avec des approches concurrentes comme SAMA, CoELA ou les frameworks basés sur GPT-4o pour la planification hiérarchique. La contribution de DynaHMRC est architecturale plutôt que matérielle, et sa valeur réelle dépendra de sa tenue face au sim-to-real gap, une limite que les auteurs n'adressent pas encore.

RecherchePaper
1 source