Aller au contenu principal

Dossier arXiv cs.RO — page 15

2192 articles · page 15 sur 44

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

OpenFrontier : navigation générale guidée par des frontières vision-langage
701arXiv cs.RO IA physiqueOpinion

OpenFrontier : navigation générale guidée par des frontières vision-langage

Des chercheurs ont publié sur arXiv (identifiant 2503.05377) OpenFrontier, un cadre de navigation robotique en monde ouvert conçu pour fonctionner sans entraînement ni fine-tuning spécifique à la tâche. Le principe central : reformuler la navigation comme une succession d'identifications et d'atteintes de sous-objectifs éparses, en sélectionnant des "frontières visuelles" comme ancres sémantiques. Ces frontières, zones situées à la limite du champ perceptif du robot, servent de relais entre les instructions en langage naturel et les décisions de déplacement. OpenFrontier s'intègre à des modèles vision-langage (VLN) et vision-langage-action (VLA) existants sans reconstruction 3D dense de l'environnement ni collecte de données à grande échelle. Les auteurs rapportent des performances zero-shot sur plusieurs benchmarks de navigation standardisés et un déploiement expérimental sur un robot mobile réel. Ce résultat est notable parce que les approches end-to-end conditionnées sur le langage naturel exigent habituellement soit un entraînement interactif, soit des milliers de trajectoires annotées, soit une adaptation au robot cible. OpenFrontier contourne ces verrous en exploitant les frontières visuelles comme points d'ancrage pour les priors sémantiques du modèle, réduisant la charge computationnelle (pas de carte 3D sémantique dense) et le besoin en données d'entraînement. Pour un intégrateur de robots mobiles autonomes (AMR) ou un décideur industriel, cela ouvre la perspective de déploiements en environnement non structuré sans cycle de fine-tuning propre à chaque site. La performance zero-shot annoncée reste cependant à confronter à des conditions opérationnelles réelles : les benchmarks utilisés sont des environnements de laboratoire contrôlés, non des entrepôts ou espaces publics. OpenFrontier s'inscrit dans une dynamique de recherche qui cherche à transférer les capacités des grands modèles vision-langage vers la navigation mobile sans les contraintes classiques de l'apprentissage par renforcement. Des approches concurrentes comme SayNav, VLMaps ou les politiques VLA de Physical Intelligence (pi0) requièrent soit des environnements annotés, soit des datasets de démonstrations humaines, soit les deux. La méthode des frontières visuelles comme ancres sémantiques est plus légère, mais reste contrainte aux scénarios où la limite perceptive du robot capture les objectifs sémantiques pertinents. En l'état, OpenFrontier est un preprint académique et non un produit commercialisé : les validations en monde réel décrites correspondent à des tests expérimentaux contrôlés, pas à un déploiement industriel à l'échelle.

1 source
STABLE : génération d'agencements de table prêts à la simulation via un système dual sémantique-physique
702arXiv cs.RO 

STABLE : génération d'agencements de table prêts à la simulation via un système dual sémantique-physique

Une équipe de chercheurs a publié STABLE (arXiv:2605.16137), un système de génération automatique de scènes de table prêtes à la simulation à partir d'instructions textuelles. Le système repose sur une architecture duale composée de deux modules complémentaires : un Semantic Reasoner, un LLM fine-tuné sur un dataset structuré de scènes de table qui produit des dispositions d'objets grossières depuis les consignes de tâche, et un Physics Corrector, un modèle de débruitage basé sur les flux physiques qui calcule des mises à jour de pose pour corriger les arrangements invalides. Les deux modules s'alternent selon un paradigme de génération progressive, en étendant la scène des objets critiques pour la tâche vers les objets d'arrière-plan. Les expériences montrent que STABLE génère des scènes conformes aux instructions tout en améliorant significativement la validité physique par rapport aux méthodes existantes. Le problème ciblé est concret et documenté : lorsqu'on confie la génération de layouts 3D à des LLMs seuls, les objets se retrouvent fréquemment en collision ou en suspension, rendant les scènes inutilisables pour l'entraînement robotique. Pour les équipes travaillant sur des pipelines sim-to-real en manipulation de table, cette limite impose un post-traitement manuel coûteux. L'apport de STABLE est de séparer le raisonnement sémantique (ce qui doit être présent et où, logiquement) du raisonnement physique (comment corriger les positions pour que la scène soit simulable), plutôt que de charger un seul modèle des deux. C'est une réponse directe au sim-to-real gap dans la phase de génération de données, un verrou bien identifié dans la communauté Embodied AI. Cette publication s'inscrit dans une tendance plus large autour de la génération automatique d'environnements de simulation pour l'apprentissage robot, où des approches comme LayoutGPT avaient déjà montré que les LLMs raisonnent mal en coordonnées spatiales. STABLE ne revendique pas de déploiement industriel : c'est une contribution de recherche, avec des résultats expérimentaux sur benchmarks mais sans pipeline productionisé ni timeline commerciale annoncée. Les prochaines étapes naturelles seraient l'extension au-delà des surfaces planes et l'intégration dans des frameworks de génération de données pour la manipulation, comme ceux utilisés par les équipes travaillant sur des modèles VLA (Vision-Language-Action).

RecherchePaper
1 source
Détection des événements d'attaque du talon et de décollage des orteils par méthodes cinématiques et modèles LSTM
703arXiv cs.RO 

Détection des événements d'attaque du talon et de décollage des orteils par méthodes cinématiques et modèles LSTM

Une étude publiée en prépublication sur arXiv (réf. 2503.00794) a évalué sept méthodes cinématiques et un modèle LSTM (Long Short-Term Memory) pour la détection automatique des événements de marche, à savoir le contact du talon (heel strike) et le décollage de l'orteil (toe-off), sur un corpus de 4 363 cycles de marche issus de 588 sujets valides. Parmi les approches cinématiques testées, la méthode de Zeni et al. obtient les meilleures performances en précision, tandis que plusieurs autres présentent des biais systématiques ou requièrent un ajustement paramétrique spécifique au jeu de données. Le modèle LSTM, entraîné de manière supervisée sur ces mêmes données, atteint un niveau de performance comparable à Zeni et al. sans ces biais, s'imposant comme une alternative data-driven sans recalibrage manuel. Ces résultats ont des implications directes pour le contrôle d'exosquelettes, où la détection précise des phases de stance (appui) et de swing (oscillation) conditionne la qualité de l'assistance motrice. Un algorithme de détection biaisé ou mal calibré peut introduire des erreurs de synchronisation dans la commande de l'actionneur, dégradant le confort et la sécurité du porteur. Le fait que le LSTM rivalise avec la meilleure méthode cinématique sans nécessiter d'ajustement selon la morphologie du sujet ou le type de capteur suggère que les approches deep learning offrent une robustesse supérieure pour des déploiements ambulatoires hors laboratoire. La détection des événements de marche est un problème central en biomécanique clinique depuis plusieurs décennies, traditionnellement résolu par des semelles de force (force plates) ou des capteurs de pression plantaire, matériel coûteux et peu portable. Les méthodes cinématiques basées sur des unités inertielles (IMU) ont émergé comme alternative ambulatoire, mais restent sensibles aux artefacts de mouvement et aux profils atypiques. Des acteurs comme Wandercraft (exosquelette Atalante, Paris) ou ReWalk intègrent ce type de détection dans leurs boucles de contrôle en temps réel. Les auteurs annoncent comme prochaine étape la validation sur des populations pathologiques, notamment les sujets post-AVC et les patients souffrant d'arthrose du genou, populations dont les profils cinématiques s'écartent significativement des normes d'entraînement du modèle actuel, et où la généralisation des méthodes reste à démontrer.

UELes méthodes LSTM sans recalibrage présentées pourraient renforcer la robustesse du contrôle en temps réel de l'exosquelette Atalante de Wandercraft (Paris), acteur français explicitement cité comme intégrateur de ce type de détection dans ses boucles de commande.

ExosquelettesPaper
1 source
Permettre aux robots de ressentir le toucher : alignement cortical visuo-tactile pour la résonance miroir incarnée
704arXiv cs.RO 

Permettre aux robots de ressentir le toucher : alignement cortical visuo-tactile pour la résonance miroir incarnée

Une équipe de chercheurs a publié en mai 2025 sur arXiv (preprint 2605.14571) un travail présentant Mirror Touch Net, une architecture neuronale permettant à une main robotique de prédire des signaux tactiles à partir d'images RGB seules. Le système couvre 1 140 taxels répartis sur la main du robot, avec une résolution de l'ordre du millimètre. L'approche impose un alignement sémantique, distributionnel et géométrique entre représentations visuelles et tactiles via des contraintes multi-niveaux, de façon à rendre la géométrie de l'espace visuel cohérente avec celle du manifold tactile. L'extension du cadre à des observations de mains humaines permet également de déclencher des réponses réflexes lorsque le robot "voit" une main humaine touchée. Le code source est disponible sur GitHub. La valeur technique de ce travail réside dans la transposition d'un principe neuroscientifique, le "mirror touch", cette sensation tactile que l'on éprouve en observant quelqu'un d'autre être touché, en un mécanisme calculable. Pour les intégrateurs et les équipes travaillant sur la manipulation dextre, cela ouvre la voie à une perception tactile anticipatoire : le robot n'attendrait plus le contact physique pour ajuster sa prise, mais prédirait la sensation à partir du flux visuel. L'analyse par manifolds, qui démontre que les contraintes d'alignement simplifient effectivement le mapping cross-modal, constitue un résultat explicable, ce qui est notable dans un domaine où les architectures restent souvent des boîtes noires. Il convient cependant de noter qu'il s'agit d'un preprint non encore évalué par les pairs, et que les performances annoncées restent à reproduire hors des conditions de laboratoire. Ce travail s'inscrit dans un courant actif autour de la perception tactile pour la robotique dextre, où plusieurs groupes tentent de réduire la dépendance aux capteurs de force coûteux et fragiles. Des approches concurrentes incluent les travaux de Meta FAIR sur les capteurs à base de gel (DIGIT), les recherches de MIT CSAIL sur la reconstruction 3D par vision tactile, ou encore les travaux d'Uppsala et ETH Zurich sur la sim-to-real tactile. Mirror Touch Net se distingue par son ancrage neuroscientifique explicite et son extension aux mains humaines, potentiellement utile pour les environnements collaboratifs. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation réelles et une intégration dans des architectures Vision-Language-Action (VLA) de type diffusion policy ou pi-0.

RecherchePaper
1 source
Self-CriTeach : auto-enseignement et auto-critique d'un LLM pour améliorer la planification robotique
705arXiv cs.RO 

Self-CriTeach : auto-enseignement et auto-critique d'un LLM pour améliorer la planification robotique

Des chercheurs ont publié en 2025 via arXiv (2509.21543) un cadre baptisé Self-CriTeach, conçu pour améliorer la planification robotique par grands modèles de langage (LLM) sans supervision humaine coûteuse. Le principe central : un LLM génère automatiquement des domaines de planification symbolique au format PDDL, qui servent ensuite à deux fins distinctes. Dans la phase d'auto-enseignement, ces domaines produisent des milliers de paires problème-plan, converties en trajectoires chain-of-thought (CoT) enrichies exploitées en fine-tuning supervisé. Dans la phase d'auto-critique, ces mêmes domaines sont réutilisés comme fonctions de récompense structurées pour l'apprentissage par renforcement (RL), sans ingénierie manuelle des récompenses. Les résultats publiés font état de taux de succès en planification plus élevés, d'une meilleure généralisation inter-tâches, d'une réduction des coûts d'inférence et d'une robustesse accrue aux états logiques imparfaits ou bruités par la perception. L'intérêt de cette approche tient à son autonomie : elle brise deux goulots d'étranglement majeurs de l'outillage LLM pour la robotique. D'une part, la collecte de données CoT pour les LLMs raisonneurs est notorieusement coûteuse en annotation humaine, surtout pour des séquences de manipulation complexes. D'autre part, la conception de fonctions de récompense en RL robotique reste un travail d'ingénierie long et fragile, souvent spécifique à chaque tâche. Self-CriTeach unifie ces deux pipelines autour d'une seule source synthétique générée automatiquement, ouvrant la voie à une spécialisation scalable d'un LLM sur des workflows robotiques sans intervention humaine à chaque étape. Pour un responsable R&D ou un intégrateur, cela représente une réduction potentielle substantielle du coût de personnalisation. Ce travail s'inscrit dans un courant actif cherchant à remplacer la programmation explicite des robots par des LLMs capables de raisonner sur des représentations symboliques. Des approches antérieures comme SayCan (Google) ou CodeAsPolicies (Google DeepMind) ont utilisé des LLMs pour la planification de haut niveau, mais sans exploiter les domaines générés comme source d'entraînement en retour. La contribution de Self-CriTeach est précisément cette boucle fermée entre génération de domaines, supervision CoT et signal de récompense RL. Il s'agit d'une contribution de recherche académique publiée sur arXiv, sans déploiement industriel annoncé à ce stade. Le code et les résultats sont accessibles via la page GitHub du projet.

RecherchePaper
1 source
Quand l'état absolu échoue : évaluation des encodages proprioceptifs pour une manipulation robuste
706arXiv cs.RO 

Quand l'état absolu échoue : évaluation des encodages proprioceptifs pour une manipulation robuste

Une équipe de chercheurs publie sur arXiv (référence 2605.13067) une étude systématique sur l'encodage de l'état proprioceptif des robots pour améliorer la robustesse des politiques de manipulation de bout en bout. Le constat de départ est précis : les politiques entraînées avec des données en conditions contrôlées échouent fréquemment lors du déploiement réel, notamment lorsque le référentiel du robot change entre l'entraînement et l'inférence. Les auteurs évaluent plusieurs stratégies d'encodage des positions et angles articulaires, depuis les représentations absolues classiques jusqu'à des formulations relatives, et identifient qu'un référentiel relatif défini à l'épisode, c'est-à-dire ancré sur l'état initial des articulations au début de chaque séquence de tâche, offre le meilleur compromis entre performance nominale et généralisation hors distribution. Ces résultats sont validés sur un banc d'essai physique en conditions réalistes, avec des expériences multi-configurations sur robot réel. L'enjeu industriel est concret : les robots à cadre de référence mobile (bras montés sur AMR, robots repositionnables sur ligne, cobots déplacés entre postes) représentent une part croissante des déploiements, mais les politiques end-to-end existantes, y compris les VLA (Vision-Language-Action models) récents comme pi-0 ou GR00T N2, sont généralement entraînées avec des hypothèses de cadre fixe. Cette étude fournit une piste d'implémentation directement exploitable sans modifier l'architecture du modèle ni relancer de collecte de données massive : changer simplement la convention d'encodage proprioceptif suffit à améliorer la robustesse out-of-distribution. C'est un résultat rare dans la littérature VLA, qui tend à préconiser le scaling de données comme seule réponse à la distribution shift. Ce travail s'inscrit dans une tendance de fond : après l'emballement autour des politiques diffusion et des modèles fondation pour la robotique en 2023-2024, la communauté revient sur des questions d'ingénierie bas-niveau souvent négligées. La proprioception, longtemps traitée comme un signal trivial, redevient un sujet de recherche actif face aux exigences du déploiement réel. Aucun partenaire industriel n'est mentionné dans l'abstract, ce qui en fait une contribution académique ouverte, sans timeline de productisation annoncée. Les prochaines étapes logiques seraient des tests avec des architectures VLA complètes et des configurations de bases mobiles plus variées.

RechercheOpinion
1 source
FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA
707arXiv cs.RO 

FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA

Une équipe de chercheurs a publié le 19 mai 2025 sur arXiv (2605.13757) une méthode baptisée FrameSkip, conçue pour améliorer l'entraînement des politiques de type Vision-Language-Action (VLA) en sélectionnant les images les plus informatives dans les trajectoires de démonstration robotique. Plutôt que d'échantillonner uniformément chaque frame enregistrée lors de sessions de télé-opération, FrameSkip attribue un score à chaque image selon quatre critères : la variation d'action, la cohérence visuo-motrice, des priors de progression de tâche, et la préservation des transitions de préhenseur (ouverture/fermeture du gripper). Le système réoriente ensuite l'échantillonnage d'entraînement vers les frames à haute valeur informative, selon un ratio de rétention cible fixé à 20 % dans la configuration principale. Sur trois benchmarks standards, RoboCasa-GR1, SimplerEnv et LIBERO, FrameSkip atteint un taux de succès moyen de 76,15 %, contre 66,50 % pour l'entraînement sur trajectoires complètes, soit un gain absolu de 9,65 points de pourcentage en n'utilisant qu'un cinquième des frames uniques. Ce résultat est significatif parce qu'il pointe un problème structurel longtemps ignoré dans la construction des datasets VLA : le déséquilibre temporel de supervision. Les longues phases statiques ou de déplacement libre dominent statistiquement les trajectoires téléopérées, noyant les instants critiques comme l'alignement d'approche, l'établissement du contact et le relâchement. FrameSkip n'exige aucune modification d'architecture, de tête d'action ni d'objectif d'entraînement, ce qui en fait une couche data-curation plug-and-play compatible avec OpenVLA, pi-0 (Physical Intelligence) ou tout autre VLA existant. Pour les équipes qui constituent des datasets coûteux via télé-opération, réduire à 20 % le volume de frames tout en gagnant en performance change directement le calcul coût/performance de collecte de données. Les VLA ont connu une accélération marquée depuis 2023 avec des modèles comme RT-2 (Google DeepMind), Octo (Berkeley), OpenVLA et pi-0 de Physical Intelligence, chacun misent sur des volumes croissants de démonstrations téléopérées. La question de la qualité versus la quantité des données de démonstration est un sujet de recherche actif, avec des approches concurrentes axées sur le filtrage par récompense, le data augmentation ou les trajectoires synthétiques en simulation. FrameSkip prend le parti du filtrage temporel pur, sans génération de données supplémentaires. Les auteurs ne mentionnent pas de déploiement physique hors simulation dans ce preprint, ce qui limite pour l'instant les conclusions au domaine sim-to-sim ; des validations sur hardware réel resteraient à produire pour confirmer le transfert des gains observés.

IA physiqueOpinion
1 source
Unifier les actions du robot dans le référentiel caméra
708arXiv cs.RO 

Unifier les actions du robot dans le référentiel caméra

Des chercheurs ont publié sur arXiv (référence 2511.17001v2) une méthode baptisée CalibAll, conçue pour unifier la représentation des actions robotiques en recadrant celles-ci dans le repère de la caméra plutôt que dans celui propre à chaque plateforme. L'approche repose sur l'estimation automatique des paramètres extrinsèques de la caméra (position et orientation dans l'espace) pour des jeux de données existants, puis sur la conversion de chaque action en coordonnées TCP (Tool Center Point) standardisées dans ce repère caméra commun. Le pipeline a été appliqué à 16 jeux de données couvrant 4 plateformes robotiques différentes, bras simple et bras bimanuel inclus, pour produire environ 97 000 épisodes étalonnés. CalibAll fonctionne en deux étapes : une initialisation grossière via un algorithme PnP temporel (Perspective-n-Point), suivie d'un raffinement à haute précision par rendu différentiable. Aucun entraînement préalable ni données spécifiques à un robot n'est requis, ce qui distingue la méthode des approches d'étalonnage classiques. L'enjeu est direct pour les équipes qui travaillent sur des politiques robotiques généralisées de type VLA (Vision-Language-Action). Le problème de fond du cross-embodiment learning, soit le fait d'entraîner un seul modèle sur des robots morphologiquement différents, est que les actions n'ont pas la même sémantique géométrique d'une plateforme à l'autre : un déplacement de 10 cm en coordonnées articulaires n'a pas le même sens sur un UR5 et sur un Franka. Les solutions actuelles, têtes d'action spécifiques à chaque morphologie ou espaces d'action latents appris, contournent le problème sans le résoudre. En ancrant toutes les actions dans le repère caméra, CalibAll impose une sémantique géométrique cohérente indépendante du robot. Les expériences en simulation et sur robot réel montrent que le pré-entraînement cross-embodiment avec ces actions unifiées atteint des performances état de l'art, bien que les benchmarks précis et les taux de succès par tâche ne soient pas détaillés dans l'abstract. Le contexte est celui de la course aux politiques robotiques généralisables, portée par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA. Ces architectures ont besoin de données massives et diversifiées, et la fragmentation des jeux de données existants selon les plateformes constitue un frein majeur à la mise à l'échelle. CalibAll s'attaque précisément à ce goulot d'étranglement en rendant rétrocompatibles des datasets existants sans re-annotation manuelle, ce qui est non négligeable quand on considère le coût de collecte téléopérée. La question ouverte reste la robustesse de l'étalonnage sur des datasets dont les conditions d'acquisition sont hétérogènes, notamment lorsque l'environnement visuel est peu structuré ou que les caméras sont embarquées sur le robot en mouvement. Les suites logiques incluent une intégration dans des pipelines de pré-entraînement ouverts comme Open X-Embodiment, et potentiellement une extension aux robots mobiles manipulateurs où le référentiel caméra change dynamiquement.

RechercheOpinion
1 source
Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques
709arXiv cs.RO 

Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques

Une équipe de chercheurs a publié sur arXiv (2507.00990) un système baptisé RIGVid (Robots Imitating Generated Videos) permettant à un robot de réaliser des tâches de manipulation complexe, comme verser un liquide, essuyer une surface ou mélanger des ingrédients, en imitant uniquement des vidéos générées par IA, sans aucune démonstration physique ni données d'entraînement spécifiques au robot. Le pipeline fonctionne en trois étapes : à partir d'une commande en langage naturel et d'une image de la scène initiale, un modèle de diffusion vidéo génère des vidéos de démonstration candidates, un VLM (vision-language model) filtre automatiquement celles qui ne correspondent pas à la commande, puis un tracker de pose 6D extrait les trajectoires d'objets. Ces trajectoires sont ensuite retargetées vers le robot de manière agnostique à l'embodiment, c'est-à-dire sans nécessiter de recalibration spécifique à la morphologie du bras utilisé. L'impact est notable pour les intégrateurs et les équipes de recherche en manipulation robotique : supprimer la collecte de démonstrations physiques, étape longue et coûteuse dans les pipelines d'imitation learning, est un verrou industriel majeur. Les évaluations en conditions réelles montrent que les vidéos générées et filtrées atteignent une efficacité équivalente aux démonstrations humaines réelles, et que la performance progresse avec la qualité du modèle génératif utilisé. Le système surpasse également des alternatives plus compactes comme la prédiction de keypoints via VLM, et le tracking 6D de pose s'avère supérieur au tracking dense de points de features. Ces résultats valident expérimentalement l'hypothèse que les générateurs vidéo state-of-the-art constituent une source de supervision viable pour la manipulation robotique, au moins sur des tâches de difficulté modérée. Ce travail s'inscrit dans un champ de recherche en effervescence autour du "learning from video" sans interaction physique, en concurrence directe avec des approches comme les VLA (vision-language-action) de Physical Intelligence (pi-0), les politiques de diffusion type Diffusion Policy, ou encore l'usage de données synthétiques issues de simulateurs. L'approche RIGVid se distingue par son absence totale de données robot et son pipeline entièrement basé sur des modèles généralistes off-the-shelf. À noter que ce papier est une prépublication arXiv (v3, donc ayant déjà subi plusieurs révisions), sans validation par peer-review complet à ce stade, et que les tâches évaluées restent relativement contraintes en termes de variabilité de scène et de généralisation out-of-distribution.

RechercheOpinion
1 source
TinySDP : optimisation semi-définie en temps réel pour une robotique embarquée certifiable et agile
710arXiv cs.RO 

TinySDP : optimisation semi-définie en temps réel pour une robotique embarquée certifiable et agile

Des chercheurs ont publié sur arXiv (preprint 2605.13748, mai 2025) TinySDP, qu'ils présentent comme le premier solveur de programmation semi-définie (SDP) conçu explicitement pour les systèmes embarqués à ressources contraintes. L'objectif : permettre un contrôle prédictif en temps réel (MPC) sur microcontrôleurs, en intégrant des contraintes d'obstacles non convexes jusqu'ici réservées à des machines de calcul bien plus puissantes. Le solveur associe des projections de cônes semi-définis positifs à un algorithme ADMM (Alternating Direction Method of Multipliers) avec factorisation de Riccati mise en cache. Un certificat de rang 1 a posteriori convertit à chaque pas de temps les solutions relaxées en garanties géométriques explicites. Les expériences portent sur des scénarios d'évitement d'obstacles dynamiques et de cul-de-sac, où les méthodes locales classiques échouent ; TinySDP y produit des trajectoires sans collision et jusqu'à 73 % plus courtes que les baselines de référence. La validation matérielle est conduite sur un quadrirotor Crazyflie, nano-drone de recherche développé par Bitcraze. L'enjeu industriel est réel : les relaxations SDP offrent depuis des années des garanties de certification pour la planification de mouvement, mais leur coût computationnel les confinait aux stations de calcul hors-ligne ou aux serveurs de cloud. Les embarquer sur un microcontrôleur ouvre la voie à des robots autonomes certifiés opérant sans infrastructure réseau : drones d'inspection, AMR en environnement dynamique, bras cobots sans liaison cloud. Le gain de 73 % sur la longueur de chemin dans des scénarios difficiles dépasse ce que la littérature locale obtient habituellement, bien qu'il faille noter que ces benchmarks sont choisis par les auteurs, et que les conditions réelles d'industrialisation restent à établir. La programmation semi-définie est un outil établi en robotique depuis les travaux sur les relaxations de Lasserre et les problèmes de manipulation certifiée, mais aucun solveur embarqué n'en avait rendu le déploiement praticable avant ce travail. Côté concurrents, les solveurs embarqués dominants comme OSQP ou ECOS ciblent les problèmes quadratiques ou coniques de second ordre, sans support natif des contraintes SDP. Le papier reste un preprint non relu par les pairs ; les prochaines étapes naturelles seraient une validation sur des plateformes plus contraintes encore (STM32, Cortex-M) et des scénarios multi-obstacles en environnement non structuré.

UEBitcraze, entreprise suédoise (EU) dont le nano-drone Crazyflie sert de plateforme de validation, bénéficie d'une visibilité accrue ; les équipes R&D européennes travaillant sur des AMR ou cobots embarqués sans connexion cloud pourraient intégrer TinySDP dans leurs pipelines de planification de mouvement certifiable.

RecherchePaper
1 source
AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique
711arXiv cs.RO 

AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique

Une équipe de chercheurs propose AttenA+, un framework d'entraînement pour modèles de fondation robotiques publié sur arXiv (2605.13548) en mai 2026. Le constat de départ est simple : les modèles Vision-Language-Action (VLA) et World-Action Models (WAM) actuels héritent du paradigme d'entraînement des LLMs, qui traite chaque token -- ici chaque action -- avec le même poids dans la fonction de perte. Or une trajectoire de manipulation robotique n'est pas homogène : les segments à faible vitesse (préhension précise, insertion, contact fin) conditionnent le succès de la tâche, tandis que les phases à haute vitesse (transitions entre positions) tolèrent l'erreur. AttenA+ corrige ce déséquilibre en repondérant dynamiquement la loss d'entraînement via un champ de vitesse inverse, sans modifier l'architecture ni ajouter de paramètres. Sur le benchmark Libero, le modèle OpenVLA-OFT passe de 97,1 % à 98,6 % (+1,5 points) ; FastWAM atteint 92,4 % sur RoboTwin 2.0 (+0,6 points). Des validations sur bras Franka en conditions réelles confirment la généralisation inter-tâches. L'enjeu dépasse les chiffres de benchmark. Le domaine robotique investit massivement dans le scaling -- plus de données, plus de paramètres, plus de compute -- comme levier principal de performance. AttenA+ suggère qu'une partie du plafond actuel des VLA n'est pas liée à la taille du modèle mais à un biais structurel d'optimisation, ignorant la physique de la manipulation. Pour un intégrateur ou un équipementier qui déploie des bras dans des lignes d'assemblage, cela signifie potentiellement de meilleures performances sur des gestes précis (vissage, pick-and-place serré) sans coût de réentraînement supplémentaire -- le framework se greffe sur les backbones existants en plug-and-play. Les VLA ont connu une accélération notable depuis pi0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), mais la majorité des gains publiés reposaient sur l'augmentation de données ou de paramètres. AttenA+ s'inscrit dans une tendance émergente : exploiter les priors structurels des séquences d'action plutôt que brute-forcer le scaling. Les benchmarks utilisés -- Libero et RoboTwin 2.0 -- restent des environnements simulés, et l'expérimentation Franka décrite dans le papier est limitée. La robustesse à des environnements industriels moins contrôlés reste à démontrer. Aucun partenaire industriel ni timeline de déploiement n'est mentionné dans ce preprint académique.

IA physiqueOpinion
1 source
Distillation de simulation : pré-entraîner des modèles du monde en simulation pour une adaptation rapide au réel
712arXiv cs.RO 

Distillation de simulation : pré-entraîner des modèles du monde en simulation pour une adaptation rapide au réel

Une équipe de recherche a publié sur arXiv (arXiv:2603.15759) un cadre appelé Simulation Distillation (SimDist), conçu pour entraîner des world models robotiques en simulation physique avant de les adapter rapidement au monde réel avec peu de données. L'approche se décompose en deux phases distinctes : un préentraînement dans un simulateur physique qui distille des priors structurels dans un world model capable de planifier à partir d'observations brutes, suivi d'une adaptation réelle dans laquelle seul le modèle de dynamiques latentes est mis à jour via des pertes de prédiction issues de données terrain. L'encodeur, le modèle de récompense et la fonction de valeur appris en simulation sont directement transférés sans modification. Les auteurs valident SimDist sur deux catégories de tâches : manipulation en contact riche (préhension, assemblage) et locomotion quadrupède. L'enjeu central que SimDist adresse est le coût prohibitif de la collecte de données d'interaction diverse et de qualité mixte pour entraîner des world models directement dans le monde réel. En réduisant l'adaptation à une forme d'identification de système supervisée, le cadre conserve les signaux de planification denses sur horizon long nécessaires à l'amélioration en ligne, là où les méthodes de fine-tuning de politiques end-to-end restent inefficaces et fragiles sur les tâches longue durée. Les expériences montrent que SimDist progresse régulièrement avec l'expérience accumulée, alors que les approches d'adaptation concurrentes stagnent ou se dégradent durant le fine-tuning en ligne. C'est un résultat notable : la question de savoir si les world models tiennent leurs promesses à l'échelle sur des tâches en contact réel restait ouverte. Les world models robotiques -- dont Dreamer (DeepMind) est le représentant le plus connu -- ont démontré leur potentiel en simulation et dans des domaines à faible dimensionnalité, mais leur passage aux tâches manipulation réelles était resté laborieux, nécessitant des volumes de données difficiles à obtenir en dehors de laboratoires très équipés. SimDist s'inscrit dans un courant récent qui tente de résoudre le sim-to-real gap non pas par le transfert direct de politique, mais par le transfert de représentations et de modèles de planification. Le projet est accompagné d'une page dédiée et d'un dépôt de code (sim-dist.github.io), ce qui facilitera la reproductibilité et les comparaisons tierces. Les prochaines étapes probables incluent l'extension à des manipulateurs à dextérité plus élevée et à des environnements moins structurés, deux domaines où la rareté des données réelles est encore plus critique.

RecherchePaper
1 source
Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable
713arXiv cs.RO 

Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable

Des chercheurs ont publié en mai 2026 (arXiv:2605.11817) un module baptisé GridS (Differentiable Grid Sampler), conçu pour accélérer les modèles Vision-Language-Action (VLA) sans sacrifier leur précision en manipulation robotique. Le problème ciblé est concret : les VLA actuels, qui fusionnent perception visuelle, compréhension linguistique et planification d'action, sont trop coûteux en calcul pour un déploiement temps réel sur des plateformes embarquées. GridS s'insère dans l'encodeur visuel d'un VLA existant comme un module plug-and-play. Il prédit dynamiquement un ensemble minimal de coordonnées saillantes, puis ré-échantillonne les tokens visuels par interpolation différentiable, permettant de retenir moins de 10 % des tokens originaux. Sur le benchmark LIBERO et une plateforme robotique réelle non précisée dans l'article, les auteurs rapportent une réduction de 76 % des FLOPs sans dégradation du taux de succès, et revendiquent le nombre de tokens visuels actifs le plus bas jamais documenté dans la littérature VLA. Ce résultat, s'il se confirme hors simulation, adresse un verrou pratique majeur : la tension entre richesse de la représentation visuelle et vitesse d'inférence. Les méthodes de pruning par seuillage d'attention suppriment souvent des informations géométriques critiques comme les points de contact ou les bords d'objet, dégradant la précision des saisies. GridS opère différemment via un ré-échantillonnage continu orienté par la tâche, censé préserver la géométrie essentielle même à fort taux de compression. Pour un intégrateur industriel, une réduction de 76 % des FLOPs peut permettre de basculer d'un GPU haut de gamme vers un compute embarqué standard, ou d'augmenter significativement la fréquence de commande d'un bras manipulateur. Réserve importante : les tests portent sur LIBERO, un benchmark de manipulation tabletop majoritairement en simulation, et sur un robot non identifié, ce qui laisse ouverte la question du gap sim-to-real en environnement industriel réel. La recherche s'inscrit dans une course à l'efficacité des VLA où Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA) se heurtent au même goulot d'étranglement computationnel lors du passage à l'échelle. GridS se distingue des approches de pruning classiques par sa continuité différentiable, argument clé pour préserver la géométrie fine lors de saisies précises. Le code est publié en open source sur GitHub (Fediory/Grid-Sampler), ce qui facilite l'intégration dans des pipelines VLA existants. La prochaine validation attendue par la communauté concerne des benchmarks plus exigeants, notamment la manipulation d'objets déformables et les environnements encombrés, ainsi que des mesures de latence réelle sur hardware embarqué pour confirmer que la réduction de FLOPs se traduit bien par un gain de vitesse exploitable en production.

IA physiqueOpinion
1 source
La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon
714arXiv cs.RO 

La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.09537) une méthode appelée CAPS (Context-Aware Power Sampling), conçue pour corriger un défaut récurrent des modèles Vision-Language-Action (VLA) : la dérive d'instruction dans les tâches longues. Leur thèse centrale est que cette dérive n'est pas un problème d'apprentissage mais une erreur systématique d'échantillonnage : le mode glouton local, dominant dans la plupart des inférences VLA actuelles, tend à tomber dans ce que les auteurs nomment des "Negative Pivotal Windows", des optima locaux irréversibles à haute probabilité locale qui coupent définitivement les chemins vers le succès global. CAPS opère entièrement à l'inférence, sans aucune mise à jour des paramètres du modèle, en exploitant des distributions puissance (power distributions) pour accentuer les probabilités de trajectoire globale, couplées à un mécanisme de contrôle métacognitif basé sur le rapport signal-sur-bruit (SNR) qui déclenche une recherche MCMC adaptative uniquement lorsqu'un risque de dérive est détecté. Évalué sur les benchmarks RoboTwin, Simpler-WindowX et Libero-long, CAPS surpasse des références solides comme OpenVLA et TACO sans aucun réentraînement. L'apport clé pour les intégrateurs et chercheurs en robotique est que CAPS est directement applicable à tout modèle VLA déjà déployé, sans modification architecturale. Le mécanisme SNR implémente en pratique une logique système 1 / système 2 à la Kahneman : l'inférence reste rapide par défaut et bascule en mode recherche lente et délibérative uniquement quand les signaux de dérive sont détectés, ce qui limite le surcoût computationnel. Sur les benchmarks long-horizon, talon d'Achille reconnu des VLA actuels, les gains de robustesse sont substantiels, bien que les auteurs ne fournissent pas de résultats sur robot physique, laissant ouverte la question du sim-to-real pour cette méthode spécifique. Les VLA ont connu une accélération notable depuis 2024, avec des modèles phares comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA issu de Stanford, chacun cherchant à allonger l'horizon de tâche et améliorer la généralisation dans des environnements non structurés. La dérive d'instruction était documentée comme l'une des limites structurelles non résolues de ces architectures. Ce papier propose une approche orthogonale au scaling des données ou du modèle, ce qui le rend potentiellement complémentaire aux efforts en cours plutôt que concurrent. Les prochaines étapes naturelles seraient des validations sur robots physiques et une intégration dans des pipelines de contrôle industriel, des éléments que les auteurs n'annoncent pas encore explicitement dans cette version préliminaire.

IA physiqueOpinion
1 source
Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes
715arXiv cs.RO 

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

Une équipe de recherche publie sur arXiv (arXiv:2605.08511, mai 2026) une méthode pour corriger un défaut structurel des politiques de type flow matching appliquées à la manipulation robotique. Ces architectures apprennent des champs de vitesse continus pour convertir du bruit en séquences d'actions, permettant une inférence déterministe rapide. Le problème identifié est un écart fondamental entre entraînement et inférence : l'objectif d'entraînement optimise une vitesse ponctuelle, tandis que l'inférence requiert l'intégration numérique de ce champ sur une trajectoire complète. Les erreurs s'accumulent et dégradent les performances. La méthode proposée, baptisée TC-Flow, associe quatre correctifs complémentaires : une régression de vitesse par rectified flow auxiliaire pour une supervision uniforme sur l'intervalle temporel, un entraînement par cohérence de trajectoire multi-étapes qui supervise directement le déplacement intégré, une régularisation du champ de vitesse pour forcer la continuité temporelle, et un intégrateur de Runge-Kutta d'ordre 4 (RK4) à l'inférence pour réduire l'erreur de discrétisation. Un encodeur de nuage de points 3D à double vue, basé sur deux PointNet indépendants, complète l'architecture. Validée sur un bras Franka et un robot quadrupède Boston Dynamics Spot, la méthode atteint 70 % et 60 % de succès sur deux tâches longue-horizon multi-phases où les deux baselines de référence stagnent à 0 %, et 100 % sur une tâche de placement d'outil de précision. Trois tâches de simulation MetaWorld confirment les gains. Ce résultat est significatif pour les équipes qui développent des VLAs (vision-language-action) basées sur le flow matching : il démontre que le sim-to-real gap et l'échec sur les tâches longue-horizon ne viennent pas nécessairement de la représentation sensorielle ou de la politique en elle-même, mais du désalignement train-inférence. Le passage de 0 % à 60-70 % sur les mêmes tâches en corrigeant uniquement cet écart est un signal fort. L'ablation confirme que les quatre composants sont nécessaires en synergie : RK4 seul sans champ lisse échoue, et la régularisation sans supervision trajectoire dérive quand même. Dans le contexte du marché, le flow matching pour la robotique a été popularisé par Physical Intelligence avec pi-0, qui domine aujourd'hui les benchmarks de manipulation généraliste, et par des travaux comme ACT ou Diffusion Policy. TC-Flow se positionne comme une correction algorithmique orthogonale, applicable à toute architecture flow matching existante. Il s'agit d'un preprint arXiv sans code public annoncé à ce stade, ni déploiement industriel. Les prochaines étapes naturelles seraient une validation sur des tâches bi-manuelles ou sur des plateformes humanoïdes, terrain où les erreurs cumulées de trajectoire sont particulièrement pénalisantes.

RechercheOpinion
1 source
Au-delà de l'isolement : un benchmark unifié pour la navigation polyvalente
716arXiv cs.RO 

Au-delà de l'isolement : un benchmark unifié pour la navigation polyvalente

Une équipe de chercheurs vient de publier OmniNavBench (arXiv:2505.09441), un nouveau benchmark conçu pour évaluer la navigation des agents incarnés dans des conditions proches du réel. Contrairement aux protocoles existants qui testent une compétence à la fois sur un seul type de robot, OmniNavBench impose des instructions composites enchaînant six catégories de sous-tâches au sein d'un même épisode : navigation vers un point cible (PointNav), navigation guidée par le langage (VLN), recherche d'objets (ObjectNav), navigation sociale (SocialNav), suivi de personne (Human Following) et question-réponse incarnée (EQA). La plateforme de simulation propose 170 environnements combinant assets synthétiques et scans de lieux réels, et couvre trois morphologies robotiques : humanoïdes, quadrupèdes et robots à roues. Le dataset comprend 1 779 trajectoires expertes collectées par télé-opération humaine, capturant des nuances comportementales comme les regards exploratoires et les évitements anticipatoires, au lieu des classiques plus courts chemins algorithmiques. L'intérêt de ce travail est de révéler une faille systémique dans l'évaluation actuelle des agents navigants. Les méthodes publiées, même celles se réclamant d'une conception unifiée, peinent dès lors qu'on leur demande d'enchaîner des comportements hétérogènes dans un seul épisode continu. Ce résultat contredit implicitement les affirmations de généralité de plusieurs architectures récentes et met en évidence un écart réel entre les performances en benchmark isolé et les exigences d'un déploiement terrain. Pour un intégrateur ou un décideur industriel, cela signifie que les métriques publiées sur des benchmarks mono-tâche ne sont pas transposables à des scénarios opérationnels où un robot doit simultanément localiser un objet, éviter un humain et répondre à une consigne en langage naturel. OmniNavBench s'inscrit dans une dynamique plus large d'unification des évaluations en robotique incarnée, un domaine où les benchmarks fragmentés ont longtemps permis aux équipes de revendiquer des SOTA partiels sans comparabilité réelle. Les benchmarks dominants comme R2R (Vision-and-Language Navigation) ou HM3D (Habitat) restent mono-morphologie et mono-tâche. La plateforme est disponible en open access avec dataset, code et leaderboard, ce qui facilitera l'adoption par la communauté. Les suites logiques incluent l'intégration de modèles VLA récents comme pi0 ou GR00T N2 dans le leaderboard, et potentiellement des évaluations en simulation-to-real pour tester si les scores obtenus se transfèrent sur hardware réel.

RecherchePaper
1 source
Politique de flux stochastique guidé par interpolation
717arXiv cs.RO 

Politique de flux stochastique guidé par interpolation

Une équipe de chercheurs publie le 13 mai 2026 sur arXiv (réf. 2605.10051) une méthode de guidage en temps réel pour les politiques robotiques génératives : SSIP, ou Streaming Stochastic Interpolant Policy. L'objectif est d'orienter une politique à l'inférence, sans réentraîner le modèle, vers de nouveaux objectifs dynamiques tels que l'évitement d'obstacles imprévus ou l'alignement sur des préférences opérateur modifiées en cours d'exécution. Les auteurs formalisent le terme de guidage optimal via l'équation de Kolmogorov rétrograde, ce qui établit mathématiquement un "drift" modifié garantissant l'échantillonnage depuis une distribution cible. Deux mécanismes complémentaires sont proposés : STEG (Stochastic Trajectory Ensemble Guidance), sans entraînement, pour une adaptation zéro-shot par calcul de gradients à la volée ; et CCG (Conditional Critic Guidance), entraîné, pour une inférence amortie. L'enjeu industriel est direct : les architectures "chunk-based", qui génèrent des séquences d'actions par blocs discrets, dominent les politiques génératives en robotique mais souffrent d'une latence structurelle qui les rend peu adaptées aux environnements non structurés ou aux changements de contraintes en cours d'exécution. SSIP généralise la Streaming Flow Policy (SFP) déterministe en y intégrant un cadre stochastique guidé, permettant un contrôle réactif en temps réel. Les évaluations empiriques montrent que l'approche surpasse significativement les politiques chunk-based en réactivité et produit un guidage physiquement valide, c'est-à-dire des trajectoires mécaniquement cohérentes et pas seulement mathématiquement plausibles. Pour un intégrateur industriel, cela réduit le besoin de réentraînement coûteux dès qu'une contrainte opérationnelle évolue. Ce travail s'inscrit dans la vague des politiques génératives pour la manipulation robotique, un espace où Physical Intelligence (pi0, pi0.5), Figure (Helix) et NVIDIA (GR00T N2) ont récemment imposé des architectures fondées sur le flow matching ou la diffusion. La plupart de ces systèmes fonctionnent en mode chunk, ce qui limite leur réactivité face aux perturbations imprévues. SSIP se positionne comme une couche de guidage universelle, applicable aussi bien à des politiques généralistes qu'à des tâches industrielles exigeant une adaptation dynamique. L'approche STEG est particulièrement notable : sans réentraînement, elle abaisse le seuil d'adoption pour des déploiements en conditions réelles. Ce travail reste pour l'instant une contribution académique, sans déploiement annoncé ni partenariat industriel déclaré.

IA physiqueOpinion
1 source
NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste
718arXiv cs.RO 

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

NEXUS est un cadre modulaire présenté en mai 2026 sous forme de preprint arXiv (2605.09387), conçu pour l'apprentissage continu de contraintes symboliques dans les agents incarnés. Son objectif central : combler l'écart fondamental entre l'incertitude probabiliste des grands modèles de langage (LLM) et les exigences de déterminisme strict requises dans le monde physique. Le framework dissocie explicitement deux dimensions : la faisabilité physique, améliorée par des retours d'exécution en boucle fermée, et les spécifications de sécurité, ancrées dans des contraintes dures déterministes formant une défense pré-action. Évalué sur le benchmark SafeAgentBench, NEXUS affiche des taux de succès supérieurs aux approches existantes, refuse efficacement les instructions non sûres, résiste aux attaques adversariales, et améliore progressivement son efficacité de planification par accumulation de connaissances symboliques. La pertinence du cadre réside dans son traitement architectural d'un problème structurel : les LLM, malgré leurs performances en planification, restent des systèmes probabilistes susceptibles de produire des comportements dangereux en environnement physique contraint. NEXUS transforme les artefacts symboliques, jusqu'ici utilisés comme de simples interfaces statiques dans les travaux antérieurs, en vecteurs d'évolution de la connaissance. L'ancrage déterministe des risques est particulièrement utile pour les intégrateurs industriels : un agent peut apprendre à reconnaître et refuser des séquences d'actions dangereuses, y compris face à des instructions adversariales délibérément construites. Pour les décideurs envisageant le déploiement d'agents autonomes en entrepôts ou en production, la distinction entre défense réactive et défense pré-action constitue un avantage concret sur le plan de la certification et de la traçabilité. Ce travail s'inscrit dans la continuité de cadres comme SayCan (Google DeepMind) ou Code as Policies, qui ont posé les bases de la planification incarnée par LLM mais traitaient la sécurité comme une contrainte externe figée. NEXUS la rend évolutive via l'apprentissage continu, ce qui le distingue architecturalement. SafeAgentBench, utilisé pour la validation, s'impose progressivement comme référence pour évaluer la robustesse sécuritaire des agents incarnés. Il convient de noter qu'il s'agit à ce stade d'un preprint sans déploiement industriel annoncé ni validation terrain confirmée. La séparation faisabilité/sécurité que propose NEXUS pourrait néanmoins influencer les prochaines générations de middleware robotique, notamment dans les contextes où la traçabilité réglementaire des décisions autonomes est requise.

UELe cadre NEXUS, en rendant les décisions autonomes traçables et auditables via des contraintes symboliques déterministes, pourrait faciliter la mise en conformité avec l'AI Act pour les intégrateurs européens déployant des agents autonomes en environnement industriel.

RecherchePaper
1 source
Auto-cohérence guidée par la géométrie pour l'IA physique
719arXiv cs.RO 

Auto-cohérence guidée par la géométrie pour l'IA physique

KeyStone est une méthode de cohérence automatique à l'inférence pour les modèles d'IA physique basés sur la diffusion, présentée dans un preprint arXiv (arXiv:2605.08638) publié en mai 2026. Le principe opérationnel : au lieu de retenir une seule trajectoire d'action par round d'inférence, KeyStone génère K trajectoires candidates en parallèle depuis un contexte de modèle partagé, les regroupe par clustering dans l'espace d'action continu, puis retourne le médoïde du cluster le plus dense. Aucun modèle additionnel n'est requis. Les auteurs rapportent une amélioration du taux de succès allant jusqu'à 13,3 % par rapport à l'échantillonnage sur trajectoire unique, avec une latence additionnelle négligeable. La méthode a été validée sur plusieurs classes d'architectures : vision-language-action models (VLAs) et world-action models (WAMs). Le code est publié en open source sur GitHub. L'enjeu central est la fragilité intrinsèque des politiques diffusion-based : chaque inférence est stochastique, et retenir une mauvaise trajectoire compromet l'ensemble de l'épisode suivant, défaut qui se cumule sur des séquences longues. KeyStone exploite une propriété géométrique spécifique aux systèmes robotiques : la distance euclidienne entre chunks d'action reflète directement la similarité physique entre trajectoires, contrairement aux espaces token ou pixel où cette métrique est sémantiquement vide et nécessite un modèle de scoring appris. La sélection est donc principled et judge-free, sans coût d'entraînement. Pour un intégrateur ou un ingénieur robotique, l'argument est concret : gain de performance sans pipeline additionnel, sans latence notable. Ce dernier point repose sur le fait que l'inférence par diffusion est memory-bandwidth bound, laissant de la capacité de calcul disponible pour exécuter K chaînes en parallèle dans le même budget temporel. KeyStone s'inscrit dans l'écosystème des politiques de contrôle apprises pour la manipulation et la navigation physique, dont les représentants actifs sont pi0 de Physical Intelligence, OpenVLA (UC Berkeley), Octo et Diffusion Policy. Ces architectures génèrent des séquences d'action par diffusion ou flow matching, une approche en forte expansion mais exposée précisément à la variabilité stochastique que KeyStone cible. La méthode se positionne comme une amélioration orthogonale, applicable sans réentraînement à tout modèle de cette famille. Le preprint ne mentionne ni déploiement terrain, ni partenaire industriel, ni timeline commerciale : il s'agit d'une contribution de recherche académique, pas d'un produit. La mise en open source immédiate du code accélérera néanmoins l'évaluation par les équipes qui testent des pipelines VLA dans des environnements semi-structurés ou industriels.

IA physiqueOpinion
1 source
Apprentissage continu par démonstration : un modèle à dynamique stable généré par hyperréseau
720arXiv cs.RO 

Apprentissage continu par démonstration : un modèle à dynamique stable généré par hyperréseau

Des chercheurs ont présenté une méthode d'apprentissage continu par démonstration (LfD) stable et scalable pour robots, publiée sur arXiv (référence 2311.03600, version 3, indiquant un travail itératif). L'architecture centrale repose sur un hyperréseau qui génère dynamiquement les paramètres de deux réseaux neuronaux : un modèle de dynamique de trajectoire et une fonction de Lyapunov garantissant la stabilité asymptotique. Ces deux composants forment un solveur d'équations différentielles ordinaires stable augmenté par horloge, baptisé sNODE (stable Neural ODE). L'évaluation couvre des séquences de 7 à 26 tâches successives, des trajectoires de 2 à 32 dimensions, et des tâches réelles combinant position et orientation. Une régularisation stochastique de l'hyperréseau, via un seul embedding de tâche échantillonné uniformément, réduit la complexité d'entraînement de O(N²) à O(N) pour N tâches cumulées, sans dégradation des performances mesurée sur les benchmarks utilisés. L'enjeu central est la persistance des compétences motrices sans réentraînement sur les démonstrations passées, un problème dit d'oubli catastrophique qui bloque concrètement le déploiement de robots industriels capables d'acquérir progressivement un répertoire de gestes. Le passage de O(N²) à O(N) rend viable l'accumulation de dizaines de compétences sur un même système sans explosion du coût computationnel, ce qui change la donne pour les intégrateurs soumis à des contraintes matérielles embarquées. Plus notable encore : les auteurs montrent empiriquement que la contrainte de stabilité imposée par la fonction de Lyapunov améliore directement les scores d'apprentissage continu, particulièrement dans les hyperréseaux compacts. Cela contredit l'hypothèse courante selon laquelle stabilité et plasticité seraient nécessairement antagonistes. Le LfD stable s'inscrit dans une tradition remontant à SEDS (Khansari-Zadeh, 2011) et aux Dynamic Movement Primitives, qui garantissaient la stabilité au prix d'une expressivité limitée. Les approches récentes basées sur des ODE neuronales (NODE) avaient amélioré la précision de reproduction de trajectoire mais peinaient à combiner stabilité et apprentissage séquentiel sans réentraînement global. Les hyperréseaux, déjà exploités en apprentissage continu pour d'autres domaines, sont ici adaptés spécifiquement à la contrainte de stabilité dynamique. Des variantes haute dimension du dataset LASA (référence standard du domaine) sont introduites pour évaluer la scalabilité. Le code est disponible publiquement sur GitHub (sayantanauddy/clfd-snode) ; les prochaines étapes naturelles incluent la validation sur des plateformes à haute dimensionnalité (au-delà de 32 DOF) et l'intégration avec des politiques de type VLA pour des tâches de manipulation non structurée.

RecherchePaper
1 source
Planification d'inspection évolutive par programmation linéaire en nombres entiers à base de flots
721arXiv cs.RO 

Planification d'inspection évolutive par programmation linéaire en nombres entiers à base de flots

Une équipe de chercheurs a publié sur arXiv (2603.16593v2) une méthode MILP (programmation linéaire mixte en nombres entiers) pour résoudre la planification d'inspection robotique à grande échelle. L'objectif est de calculer le chemin le plus court permettant à un robot d'inspecter un ensemble de points d'intérêt (POI) via ses capteurs, problème central en robotique industrielle et médicale. En reformulant les contraintes de couverture et de connectivité du problème de planification sur graphe (GIP) comme un flux réseau, les auteurs construisent des modèles MILP efficaces associés à un solveur Branch-and-Cut spécialisé. Les résultats sur benchmarks médicaux et d'infrastructure montrent une réduction des écarts d'optimalité de 30 à 50 % et une capacité à traiter des instances comportant jusqu'à 15 000 sommets et des milliers de POI, là où les méthodes précédentes s'épuisaient en mémoire ou ne fournissaient aucune garantie significative. L'enjeu opérationnel est direct pour les intégrateurs industriels : la planification d'inspection devient un goulot d'étranglement dès que le nombre de POI dépasse quelques centaines, seuil couramment franchi lors de l'inspection de soudures en usine, de turbines éoliennes ou de structures de génie civil. En rendant le problème structurellement exploitable par les solveurs modernes, cette approche combine garanties d'optimalité et passage à l'échelle, deux propriétés que les méthodes par échantillonnage (RRT, PRM) ne pouvaient pas fournir simultanément. Une réduction de 30 à 50 % des écarts d'optimalité se traduit directement en chemins plus courts, donc en temps de cycle réduits et coûts d'exploitation plus faibles, sans sacrifier la couverture complète des points critiques. Le problème de planification d'inspection est apparenté au problème du voyageur de commerce (TSP) et à ses variantes couverture-connectivité. Les approches dominantes reposaient jusqu'ici sur l'échantillonnage de l'espace (RRT, PRM) pour construire un graphe discret, puis sur des heuristiques ou des formulations MILP moins performantes pour le résoudre. Cette contribution s'inscrit dans un mouvement plus large vers les formulations exactes, rendu possible par la progression des solveurs commerciaux comme Gurobi et CPLEX ainsi qu'open-source comme SCIP. Il s'agit pour l'instant d'une publication académique sans déploiement commercial annoncé, mais le cadre s'applique naturellement à l'inspection d'infrastructure (ponts, pipelines, éoliennes offshore) et à la robotique médicale (endoscopie, radiothérapie guidée par robot). Les extensions attendues concernent l'intégration de contraintes dynamiques du robot et de la perception en temps réel dans le modèle d'optimisation.

UECette méthode MILP pourrait améliorer l'efficacité des robots d'inspection d'infrastructures européennes (éoliennes offshore, ponts, pipelines) en réduisant les temps de cycle de 30 à 50 %, mais aucun déploiement ou partenariat européen n'est annoncé à ce stade.

RecherchePaper
1 source
Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action
722arXiv cs.RO 

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Une équipe de chercheurs a publié sur arXiv (arXiv:2602.01166) LaRA-VLA, un nouveau cadre de modèles Vision-Language-Action (VLA) qui internalise le raisonnement multi-modal directement dans un espace latent continu, plutôt que de générer explicitement des chaînes de pensée textuelles (chain-of-thought, CoT) à l'inférence. Concrètement, là où les VLA actuels produisent des tokens de raisonnement discrets avant chaque décision motrice, LaRA-VLA effectue raisonnement et prédiction d'action dans un même espace latent, sans étape de génération textuelle intermédiaire. Les auteurs rapportent une réduction de la latence d'inférence pouvant atteindre 90 % par rapport aux approches CoT explicites, tout en surpassant les méthodes VLA de référence sur des benchmarks en simulation et sur des tâches de manipulation réelle à longue portée. Deux jeux de données CoT structurés ont été construits pour l'entraînement. L'entraînement suit un curriculum progressif : supervision d'abord textuelle et visuelle, puis transition vers un raisonnement purement latent, avant adaptation de ces dynamiques latentes au conditionnement de la génération d'actions. Ce résultat est significatif pour les intégrateurs et décideurs industriels parce qu'il s'attaque directement au principal goulot d'étranglement des VLA raisonnants : le coût computationnel du CoT à l'inférence rendait ces modèles inutilisables en temps réel sur du matériel embarqué. Un gain de 90 % de latence sans dégradation de performance change le rapport entre qualité de raisonnement et contrainte temps-réel, rendant crédible le déploiement de politiques robotiques expressives sur des bras industriels ou des humanoïdes sans serveur dédié au raisonnement. Cela contredit partiellement l'hypothèse que le raisonnement symbolique explicite est nécessaire pour gérer des tâches longues et multi-étapes. Les VLA, popularisés par des travaux comme RT-2 (Google DeepMind, 2023) puis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), cherchent à combiner compréhension sémantique et contrôle moteur dans un seul modèle. La tension entre performance de raisonnement et latence d'inférence est un sujet actif : d'autres approches comme les modèles de diffusion d'actions (Pi-0) contournent le problème différemment. LaRA-VLA propose une troisième voie, en fusionnant les deux flux dans l'espace latent. Le code et la page projet sont disponibles publiquement ; les prochaines étapes attendues sont des évaluations sur robots humanoïdes et des tests de robustesse hors distribution, domaines où le gap simulation-réalité reste le critère déterminant pour une adoption industrielle.

UECette réduction de latence d'inférence de 90 % ouvre la voie au déploiement de politiques VLA expressives sur du matériel embarqué, ce qui pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur des bras industriels ou des humanoïdes sans infrastructure de calcul dédiée.

💬 90 % de latence en moins sur les VLA, c'est le genre de résultat qu'on attendait pour débloquer l'embarqué. Passer le raisonnement dans l'espace latent plutôt que de cracher des tokens CoT, c'est élégant, et les benchmarks semblent tenir. Reste le gap simulation-réalité, qui est toujours l'épreuve de vérité, et là aucun papier arXiv ne peut te garantir grand chose avant les tests sur du vrai matériel.

IA physiqueOpinion
1 source
AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)
723arXiv cs.RO 

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié AsyncVLA (arXiv:2511.14148), un cadre pour modèles Vision-Language-Action (VLA) qui remplace le flow matching synchrone (SFM) conventionnel par un mécanisme asynchrone (AFM) à calendrier temporel non uniforme. Là où le SFM applique un pas de temps identique à tous les tokens d'action, AsyncVLA ajuste ce calendrier en fonction du contexte actionnel en cours, et intègre un module "confidence rater" qui évalue la fiabilité de chaque token généré pour déclencher une auto-correction sélective avant exécution. La procédure d'entraînement est unifiée: un seul modèle peut opérer en mode SFM ou AFM, avec une meilleure utilisation du cache KV. Sur les benchmarks de manipulation robotique en simulation et en conditions réelles, AsyncVLA surpasse les méthodes existantes avec une efficacité accrue en données d'entraînement. Le code est publié en open source sur GitHub. L'instabilité des VLA sur les tâches longue durée (long-horizon) est l'un des principaux freins à leur déploiement industriel: en SFM, une erreur d'action se propage en cascade jusqu'à l'échec complet de la séquence. La capacité d'auto-correction d'AsyncVLA adresse directement ce point, ce qui intéresse les intégrateurs et les équipes robotiques confrontées à des cycles opératoires de plusieurs minutes. L'efficacité en données est un argument complémentaire: entraîner des VLA compétitifs nécessite aujourd'hui des datasets massifs et coûteux, et une méthode qui atteint de meilleures performances avec moins de données réduit la barrière d'entrée. Il faut toutefois nuancer: le papier se limite à des benchmarks de manipulation sans publier de chiffres de déploiement à l'échelle, de temps de cycle réels, ni de résultats sur une flotte opérationnelle. Les VLA à base de flow matching ont été popularisés par Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2024, établissant un standard de génération d'actions continues pour la robotique généraliste. AsyncVLA s'inscrit dans une tendance de raffinement algorithmique de ces architectures, aux côtés d'approches comme OpenVLA, la distillation de politique diffusion, ou les modèles hybrides VLA et planificateur symbolique. Son avantage comparatif est la compatibilité directe avec les pipelines SFM existants, sans rupture architecturale majeure, ce qui facilite l'adoption par les équipes déjà engagées sur ces bases. Les prochaines étapes crédibles seraient une validation sur des robots humanoïdes (Figure, 1X, Unitree) ou des bras industriels en production réelle, là où la robustesse long-horizon reste le goulot d'étranglement dominant.

💬 Le problème de propagation d'erreur en cascade dans les VLA, c'est exactement ce qui bloque le déploiement industriel depuis des mois. AsyncVLA l'attaque frontalement avec un mécanisme de correction sélective avant exécution, et la compatibilité directe avec les pipelines SFM existants (Pi-0, GR00T) rend l'adoption crédible sans tout casser. Reste à voir ce que ça donne sur des cycles de 10 minutes en prod réelle, pas juste en simulation.

IA physiqueOpinion
1 source
Filtrage de l'information par régularisation variationnelle pour la manipulation robotique
724arXiv cs.RO 

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2601.21926v3) une étude portant sur un défaut structurel des politiques visuomotrices par diffusion appliquées à la manipulation robotique. Ces architectures, fondées sur des représentations visuelles 3D et un décodeur de débruitage, sont aujourd'hui parmi les plus performantes pour apprendre des comportements complexes à un bras robotique. L'équipe identifie un problème précis : dans les architectures U-Net et DiT (Diffusion Transformer), les blocs intermédiaires du décodeur contiennent des features parasites, sans rapport avec la tâche à exécuter. La preuve expérimentale est frappante, masquer aléatoirement les features du backbone U-Net ou sauter des couches intermédiaires du DiT pendant l'inférence, sans aucune modification de l'entraînement, améliore les performances. Pour corriger cela, les auteurs proposent un module baptisé Variational Regularization (VR) : un composant plug-and-play qui impose une distribution gaussienne conditionnée au contexte sur les features bruitées, et applique un régulariseur KL-divergence formant un goulot d'information adaptatif. Les évaluations couvrent trois benchmarks de simulation, RoboTwin2.0, Adroit et MetaWorld, et des tests en conditions réelles. Ce travail remet en cause une hypothèse tacite du domaine : augmenter la capacité du modèle de débruitage améliore mécaniquement les résultats. Les auteurs montrent que c'est faux, et que la redondance dans les features intermédiaires est une source active de dégradation. L'approche VR, combinée aux architectures DP3-UNet et DP3-DiT, établit de nouveaux résultats état de l'art sur l'ensemble des benchmarks testés. Pour les intégrateurs et équipes R&D travaillant sur des politiques d'imitation ou de reinforcement learning pour la manipulation, l'intérêt est double : le module est réutilisable sans réentraînement complet, et le diagnostic (tester le masquage aléatoire à l'inférence) est immédiatement applicable pour auditer ses propres architectures. Ce type de recherche s'inscrit dans la lignée des travaux sur les diffusion policies initiés par Chi et al. (2023) et leur extension 3D (DP3), qui ont rapidement supplanté les approches behavior cloning classiques sur les tâches de manipulation fine. Sur ce terrain, les concurrents directs incluent les politiques basées sur les transformers de vision-action comme ACT (Action Chunking with Transformers) ou les approches Flow Matching comme Pi-0 de Physical Intelligence. La contribution ici n'est pas une nouvelle architecture de bout en bout, mais un correctif ciblé sur un problème de capacité mal calibrée, un angle plus susceptible d'être intégré rapidement dans des pipelines existants que de remplacer l'ensemble de la stack.

IA physiqueOpinion
1 source
De la saisie à l'insertion : assemblage de précision assisté par retour tactile sous tolérances inférieures au millimètre
725arXiv cs.RO 

De la saisie à l'insertion : assemblage de précision assisté par retour tactile sous tolérances inférieures au millimètre

Une équipe de chercheurs a publié en mai 2026 sur arXiv (2605.04649) une méthode en deux étapes pour l'assemblage robotique sous tolérances sub-millimétriques, combinant apprentissage par imitation (IL) et apprentissage par renforcement (RL) augmentés par retour tactile. Le premier module IL apprend l'approche et la saisie du peg, tandis qu'un second module RL se charge de l'insertion proprement dite, incluant la récupération sur contact. Deux contributions techniques encadrent le système : le "tactile group sampling", qui augmente la couverture des segments de contact critiques en entraînement, et un "tactile critic" pour une meilleure évaluation des politiques. Testée sur cinq géométries de trous et trois niveaux de jeu, la méthode atteint un taux de réussite de 67 % sous le jeu le plus sévère (0,05 mm), tout en réduisant la force de contact maximale de 60 % et le couple de 44 % par rapport aux approches de référence. L'assemblage sous tolérances inférieures à 0,1 mm est l'un des goulots d'étranglement persistants de la robotique industrielle : une erreur de pose de quelques centièmes suffit à provoquer un coincement (jamming) ou la destruction d'une pièce à haute valeur. Que ce travail maintienne des forces basses tout en conservant un taux de succès substantiel répond directement aux critères des équipementiers électroniques, médicaux et de la mécanique fine. L'approche confirme surtout que les capteurs tactiles, longtemps relégués derrière la vision, peuvent combler le sim-to-real gap dans les tâches contact-riches, là où la caméra manque de résolution locale, un argument de poids pour les intégrateurs qui dimensionnent leurs cellules. Ce travail s'inscrit dans la lignée des recherches peg-in-hole initiées par les labos MIT et Stanford, mais l'accent sur la sécurité des forces le distingue des approches orientées performance brute. Sur le marché, les fabricants de bras collaboratifs (Universal Robots, FANUC, ABB) et les spécialistes du capteur tactile (Contactile, Xela Robotics, Touchlab) seront attentifs à la reproductibilité sur hardware réel. Le preprint reste au stade de la preuve de concept en laboratoire, sans pilote industriel annoncé ; les prolongements logiques incluent des géométries asymétriques, des matériaux déformables et une validation temps-réel embarquée pour tenir les cadences de production.

UELes fabricants européens de bras collaboratifs (Universal Robots, ABB) et les intégrateurs de cellules d'assemblage de précision pourraient s'appuyer sur cette approche pour adresser les goulots d'étranglement dans l'électronique et le médical, secteurs où les tolérances sub-millimétriques sont la norme.

RecherchePaper
1 source
Évolution supervisée des capacités des agents incarnés : mise à niveau sûre, vérification de compatibilité et retour arrière en temps réel
726arXiv cs.RO 

Évolution supervisée des capacités des agents incarnés : mise à niveau sûre, vérification de compatibilité et retour arrière en temps réel

Une équipe de chercheurs a formalisé dans un preprint arXiv (réf. 2604.08059) un cadre de mise à jour sécurisée pour les modules de capacités d'agents embarqués. Le problème est concret: lorsqu'un robot améliore ses capacités via des mises à jour de modules logiciels, comment garantir que ces déploiements ne violent pas les contraintes de sécurité, les hypothèses d'exécution ou les mécanismes de récupération? Le framework introduit quatre vérifications de compatibilité (interface, politique, comportementale, récupération) organisées en pipeline séquentiel: validation du candidat, évaluation sandbox, déploiement shadow, activation contrôlée, monitoring en ligne et rollback. Sur 6 cycles de mise à jour avec 15 graines aléatoires, une mise à jour naïve atteint 72,9% de succès sur les tâches mais génère 60% d'activations non sécurisées au dernier cycle; le framework gouverné maintient 67,4% de succès avec zéro activation non sécurisée sur l'ensemble des cycles (test de Wilcoxon, p=0,003). Le shadow deployment détecte 40% des régressions invisibles à la sandbox seule, et le rollback réussit dans 79,8% des scénarios de dérive post-activation. Pour les intégrateurs de systèmes robotiques et les décideurs B2B, ce résultat répond à une question stratégique: peut-on industrialiser la mise à jour continue d'un robot en production sans requalification complète du système? La démonstration montre que c'est faisable, la perte de performance étant limitée à 5,5 points de taux de succès en échange d'une garantie de sécurité absolue. La découverte clé porte sur le shadow deployment: 40% des régressions n'apparaissent pas en environnement sandbox, invalidant les workflows de qualification qui s'y arrêtent. Cela pose les bases d'un CI/CD robotique viable, à condition d'inclure une étape shadow en environnement réel. Les travaux antérieurs avaient étudié séparément le packaging modulaire, l'évolution des capacités et la gouvernance à l'exécution, sans les assembler en pipeline cohérent. Cette publication formalise la "governed capability evolution" comme problème de systèmes de premier ordre, directement pertinent pour les architectures à base de VLA (Vision-Language-Action models) qui évoluent rapidement sur des plateformes comme Figure 03, Optimus Gen 3 ou GR00T N2. L'article reste un travail de recherche évalué en simulation, sans déploiement commercial cité; les prochaines étapes attendues sont une validation sur plateformes physiques réelles et une intégration dans des pipelines MLOps robotiques.

RecherchePaper
1 source
RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique
727arXiv cs.RO 

RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique

Une équipe de chercheurs a publié RoboEval (arXiv:2507.00435), un cadre d'évaluation structuré et un benchmark dédié à la manipulation robotique. L'outil propose huit tâches bimanuelles assorties de variantes systématiquement contrôlées, plus de trois mille démonstrations expertes, et une plateforme de simulation modulaire conçue pour garantir la reproductibilité des expériences. Chaque tâche est instrumentée avec des métriques standardisées couvrant l'efficacité d'exécution, la coordination entre les deux bras, et la stabilité ou sécurité du mouvement. Le cadre inclut également des mesures de progression par étapes qui permettent de localiser précisément où et pourquoi une politique échoue, plutôt que de simplement enregistrer un échec global. Les expériences ont été conduites sur des politiques visuomotrices de l'état de l'art, en évaluant la stabilité des métriques face aux variations de conditions et leur pouvoir discriminant entre politiques affichant des taux de succès similaires. L'enjeu est méthodologique autant qu'industriel. Aujourd'hui, la majorité des benchmarks de manipulation robotique réduisent la performance à un comptage binaire succès/échec, ce qui efface les différences réelles de qualité d'exécution. Deux politiques peuvent afficher le même taux de réussite tout en présentant des comportements radicalement différents en termes de fluidité, de robustesse aux perturbations, ou de coordination interdigitale. Pour un intégrateur ou un décideur industriel qui doit choisir entre plusieurs VLA (Vision-Language-Action policies) pour déployer un robot en production, cette granularité est critique. RoboEval tente de combler ce fossé en fournissant des métriques intermédiaires qui corrèlent avec le succès final mais révèlent aussi la structure des défaillances, un prérequis pour itérer efficacement sur l'entraînement. Ce travail s'inscrit dans une dynamique plus large de maturation de l'évaluation en robotique apprenable, un domaine qui souffre depuis des années d'une fragmentation des protocoles. Des initiatives comparables comme LIBERO ou RoboVerse ont tenté de standardiser les conditions expérimentales, mais restaient souvent limitées aux tâches unimanuelles ou aux métriques de haut niveau. RoboEval se distingue par son focus bimanuel, directement pertinent pour les applications industrielles d'assemblage ou de logistique, et par la richesse de ses métriques comportementales. La page projet est accessible sur robo-eval.github.io. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : il s'agit pour l'instant d'une contribution académique, sans validation en environnement réel annoncée.

UEContribution académique ouverte utilisable par tout labo ou intégrateur européen souhaitant évaluer et comparer des politiques VLA bimanuelles sans dépendre de benchmarks propriétaires.

RecherchePaper
1 source
Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire
728arXiv cs.RO 

Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire

Des chercheurs ont publié le 6 mai 2026 sur arXiv (référence 2605.03363) un framework de contrôle hiérarchique hybride pour la préhension dextre réactive. L'architecture sépare explicitement deux niveaux d'exécution : un planificateur haut niveau basé sur du multi-agent RL, avec deux agents spécialisés distincts (un pour le bras, un pour la main), qui génère des commandes de vitesse en espace tâche; et un contrôleur bas niveau de programmation quadratique (QP) parallélisé sur GPU, qui traduit ces commandes en vitesses articulaires tout en respectant strictement les limites cinématiques et en assurant l'évitement de collisions. Le système a été validé sur matériel réel, avec un bras 7-DOF équipé d'une main anthropomorphique 20-DOF, en démontrant un transfert zero-shot depuis la simulation vers des objets non vus pendant l'entraînement, dans des environnements non structurés. La contribution principale n'est pas seulement la performance de saisie : c'est la propriété de "zero-shot steerability", c'est-à-dire la capacité d'un opérateur à ajuster dynamiquement les marges de sécurité ou à contourner des obstacles imprévus sans réentraîner la politique. Pour un intégrateur industriel, cela change radicalement le calcul de déploiement : les approches end-to-end classiques (VLA inclus) nécessitent typiquement un fine-tuning coûteux pour chaque variation d'environnement. Ici, la séparation structurelle entre planification et exécution permet d'injecter des contraintes nouvelles au niveau du QP sans toucher à la politique RL, ce qui accélère aussi la convergence en entraînement. La robustesse aux perturbations physiques imprévues, démontrée en conditions réelles, renforce la crédibilité du pipeline sim-to-real. Ce travail s'inscrit dans un mouvement de recherche qui cherche à dépasser les architectures purement end-to-end pour la manipulation dextre, en réintroduisant des couches de contrôle classiques (QP, contraintes cinématiques) comme fondation sûre sous une politique apprise. Des approches similaires émergent chez des équipes comme Physical Intelligence (Pi-0), Figure AI (Figure 03) ou 1X Technologies, qui combinent toutes apprentissage et contrôle structuré. La prochaine étape naturelle pour ce type de framework sera la validation sur des tâches d'assemblage industriel avec variabilité de forme et de matière, ainsi que l'extension à des mains à plus haute densité de capteurs pour fermer la boucle tactile.

IA physiquePaper
1 source
Autonomie partagée assistée par un champ de guidage anisotrope à impédance variable
729arXiv cs.RO 

Autonomie partagée assistée par un champ de guidage anisotrope à impédance variable

Une équipe de recherche a publié le 5 mai 2026 (arXiv:2605.02410) un nouveau paradigme pour la téléopération robotique : IAGF-SA (Impedance-Driven Anisotropic Guidance Field Enhanced Shared Autonomy). Le principe repose sur un constat simple mais sous-exploré dans la littérature : l'autonomie partagée (SA) s'est historiquement concentrée sur la capacité du robot à inférer l'intention de l'opérateur humain, sans jamais résoudre le problème inverse, comment le robot communique sa propre intention à l'humain. IAGF-SA introduit un canal de communication physique et incarné, fondé sur le contrôle d'impédance, qui module dynamiquement la réponse du robot aux commandes humaines. Concrètement, le robot ne résiste pas uniformément dans toutes les directions : il oriente sa compliance de façon anisotrope pour guider subtilement la main de l'opérateur vers les trajectoires qu'il juge optimales. Les études utilisateurs couvrent trois scénarios de manipulation et deux interfaces de téléopération différentes, avec des résultats mesurés sur la performance de tâche, le taux d'accord humain-robot, et l'expérience subjective. L'enjeu industriel est concret : dans les déploiements de téléopération semi-autonome, chirurgie robotique, manipulation en environnements dangereux, ou encore téléopération d'humanoïdes en phase de démarrage comme chez Figure ou Apptronik, l'absence de retour d'intention robot oblige l'opérateur à compenser mentalement, ce qui ralentit les cycles et augmente les erreurs. Une approche purement physique, sans interface additionnelle (écran, indicateur sonore), réduit la charge cognitive et s'intègre dans des systèmes existants sans modification matérielle majeure. Le fait que le canal soit continu et gradué, plutôt que binaire ou discret, représente une avancée par rapport aux tentatives précédentes. Cela dit, il s'agit d'une preprint non encore soumise à revue par les pairs, et les études utilisateurs restent limitées en taille : les résultats sont prometteurs mais doivent être validés à plus grande échelle. La recherche en SA s'inscrit dans un contexte de convergence entre apprentissage par imitation (imitation learning, VLA) et contrôle classique en force/impédance. Des travaux antérieurs comme DAgger ou les approches de goal inference bayésienne ont résolu une partie de l'inférence d'intention côté robot, mais la boucle retour vers l'humain restait largement ignorée. Le recours au contrôle d'impédance, technologie maîtrisée industriellement par des cobot comme ceux de KUKA, FANUC ou Universal Robots, rend cette approche potentiellement transférable sans rupture technologique. Les suites logiques incluent une validation sur des plateformes physiques humanoïdes ou cobotiques, ainsi qu'une intégration dans des pipelines VLA où l'intention robot émerge d'un modèle appris plutôt que d'une planification explicite.

UEL'approche repose sur le contrôle d'impédance, technologie maîtrisée par KUKA (allemand) et Universal Robots (danois), ce qui facilite une intégration directe pour les intégrateurs robotiques européens sans rupture matérielle.

RecherchePaper
1 source
NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques
730arXiv cs.RO 

NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques

NaviMaster (arXiv:2508.02046, version 4 du preprint) est un agent d'intelligence artificielle qui unifie dans un seul modèle deux types de navigation habituellement traités séparément : la navigation en interface graphique (GUI, pilotage d'applications et de menus) et la navigation embodied (déplacement d'un agent physique ou simulé dans un espace 3D). Le système repose sur l'observation que ces deux problèmes se formulent comme des Processus de Décision Markoviens (MDP), ce qui autorise une architecture et un entraînement communs. NaviMaster introduit trois contributions techniques : un pipeline de collecte de trajectoires à cible visuelle applicable aux deux domaines via une formulation unifiée, un cadre d'apprentissage par renforcement (RL) entraîné sur données mixtes pour améliorer la généralisation, et une récompense dite "distance-aware" conçue pour accélérer l'apprentissage à partir des trajectoires collectées. Évalué sur des benchmarks hors-domaine, il surpasse les agents spécialisés de l'état de l'art sur trois tâches : navigation GUI, prédiction d'affordance spatiale et navigation embodied. Les codes, données et checkpoints sont publiés en open source. L'intérêt de NaviMaster est moins dans ses performances brutes sur chaque tâche isolée que dans la démonstration que GUI et navigation physique peuvent partager une même représentation apprise. Jusqu'ici, ces deux domaines s'appuyaient sur des datasets distincts, des architectures incompatibles et des paradigmes d'entraînement divergents. Pour les équipes travaillant sur des modèles VLA (Vision-Language-Action) ou sur des systèmes multi-tâches, c'est une preuve de concept que la généralisation cross-domaine par RL mixte est faisable à cette échelle. Les études d'ablation publiées confirment que la stratégie de mélange de données et la récompense distance-aware contribuent toutes deux de manière mesurable aux gains finaux, ce qui renforce la crédibilité des choix architecturaux au-delà du résultat global. NaviMaster s'inscrit dans une dynamique de convergence croissante entre agents logiciels et agents physiques. Il se positionne face à des agents GUI spécialisés comme CogAgent ou SeeAct d'un côté, et à des modèles de navigation embodied comme RT-2 ou OpenVLA de l'autre. Les benchmarks de référence sont Web-Arena et OSWorld pour le versant GUI, Habitat pour le versant physique. La présence d'une version v4 sur arXiv signale un processus de révision actif, probablement en direction d'une conférence majeure (ICLR, NeurIPS ou ICRA). L'article ne mentionne aucun déploiement industriel ni partenariat, ce qui place NaviMaster au stade de la preuve de concept académique.

RechercheOpinion
1 source
Bonne démonstration dans les mauvaises : filtrer les données d'utilisateurs pour apprendre une politique plus robuste
731arXiv cs.RO 

Bonne démonstration dans les mauvaises : filtrer les données d'utilisateurs pour apprendre une politique plus robuste

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.01529) un algorithme baptisé GiB (Good-in-Bad), conçu pour filtrer automatiquement les données d'apprentissage par imitation collectées auprès d'utilisateurs non-experts. Plutôt que de rejeter une démonstration entière ou de l'utiliser telle quelle au risque de générer des comportements dangereux, GiB décompose chaque démonstration en sous-tâches et attribue un poids binaire à chaque segment. Le système entraîne un modèle auto-supervisé pour extraire des caractéristiques latentes, modélise la distribution des segments de qualité élevée, puis utilise la distance de Mahalanobis pour détecter les portions défectueuses. Les données filtrées restent compatibles avec n'importe quel algorithme d'apprentissage de politique. La méthode a été validée sur un bras Franka Robotics en simulation et en conditions réelles, sur des tâches séquentielles multi-étapes. L'enjeu est concret : dans les déploiements réels, les démonstrateurs sont rarement des experts en robotique. Opérateurs en usine ou techniciens produisent des démonstrations hétérogènes où erreurs et bonnes séquences se mélangent. Jeter des démonstrations entières dans ces contextes à faible volume de données pénalise fortement l'entraînement. GiB préserve les segments exploitables tout en évitant que les erreurs contaminent la politique apprise. Cela adresse un angle mort persistant des méthodes d'imitation comme le behavior cloning ou les Diffusion Policies : ces architectures supposent implicitement des données propres, ce qui limite leur déployabilité hors des laboratoires. La compatibilité avec n'importe quel algorithme aval est un atout pratique pour les équipes disposant déjà d'une stack d'entraînement existante. L'apprentissage par imitation s'est imposé ces trois dernières années comme une voie majeure pour doter les robots de compétences polyvalentes, avec des architectures comme ACT (Action Chunking with Transformers) popularisé par l'équipe Aloha, ou les Diffusion Policies de Columbia. GiB s'inscrit dans une tendance émergente visant à rendre ces pipelines robustes aux données bruyantes, aux côtés de méthodes comme DART ou les variantes de DAgger. Le bras Franka (Franka Robotics, Munich) est devenu le banc de test standard de la communauté académique en manipulation. Ce travail reste à ce stade un preprint sans déploiement industriel annoncé, et ses performances sur des tâches longues ou sur des manipulateurs mobiles humanoïdes restent à démontrer.

UELes équipes européennes de recherche en manipulation robotique utilisant des bras Franka (Munich, Allemagne) pourraient intégrer GiB directement dans leurs pipelines d'imitation learning existants pour améliorer la qualité des politiques entraînées sur des données non-expertes.

RecherchePaper
1 source
Un cadre d'autonomie sémantique pour robots mobiles d'intérieur intégrant un VLM : raisonnement déterministe hybride et mémoire adaptative inter-robots
732arXiv cs.RO 

Un cadre d'autonomie sémantique pour robots mobiles d'intérieur intégrant un VLM : raisonnement déterministe hybride et mémoire adaptative inter-robots

Des chercheurs ont publié sur arXiv (réf. 2605.02525) le "Semantic Autonomy Stack", un framework de référence en six couches conçu pour permettre aux robots mobiles d'intérieur de suivre des instructions en langage naturel, sans se limiter à des coordonnées métriques. Validé sur deux robots différentiels custom équipés de Raspberry Pi 5 sans GPU embarqué, le système repose sur un résolveur paramétrique en sept étapes qui traite 88 % des requêtes en moins de 0,1 milliseconde, sans invoquer de VLM (Vision-Language Model) ni de GPU. Seules les instructions réellement ambiguës remontent au VLM, dont la latence d'inférence oscille entre 2 et 9 secondes sur hardware grand public. Un mécanisme de mémoire sémantique cross-robot transfère ensuite les préférences apprises d'un robot à l'autre via un digest compilé partagé, avec une réduction de latence mesurée à 103 000 fois. Sur 82 scénarios répartis en trois sessions, le système affiche 100 % de précision de transfert sémantique (33/33, IC 95 % [0,894 à 1,000]), sans aucune donnée d'entraînement. Ce résultat s'attaque directement aux deux freins structurels des déploiements VLM en robotique de service: la latence d'inférence à l'edge qui rend le contrôle temps-réel impraticable, et l'amnésie session-par-session propre aux modèles de langage. Le fait que 88 % des instructions soient résolues de manière déterministe en sous-milliseconde invalide l'hypothèse selon laquelle intégrer un VLM impose un coût computationnel permanent. Le mécanisme cross-robot va plus loin: les préférences acquises par interaction VLM sont compilées en règles déterministes puis diffusées à l'ensemble de la flotte, ouvrant la voie à des flottes apprenantes sans cycle d'entraînement ni données labellisées. Pour les intégrateurs AMR et les COO industriels, c'est une architecture crédible sur hardware off-the-shelf, ce qui abaisse significativement le seuil de déploiement. Les frameworks actuels couvrent soit la navigation purement métrique (ROS 2 Navigation 2), soit le raisonnement sémantique mais avec dépendance réseau ou GPU (SayPlan, LM-Nav, NLMap). Ce travail, présenté comme preprint arXiv et non comme produit commercial ni déploiement industriel, spécifie une taxonomie de mémoire en cinq catégories: connaissance globale d'environnement, préférences par opérateur, et capacités par robot. La validation reste limitée à deux robots différentiels custom; la montée en charge sur flottes commerciales ou architectures non différentielles (1X Technologies, Agility Robotics, Figure) n'a pas été testée, et certaines métriques comme le taux de 88 % dépendent du corpus de scénarios choisi. Aucun acteur FR/EU n'est impliqué. Les suites logiques seraient la validation sur flottes de taille réelle et l'intégration de VLM multimodaux récents comme Qwen-VL.

RechercheOpinion
1 source
Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur
733arXiv cs.RO 

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

Des chercheurs proposent Hydra-DP3 (HDP3), une politique de diffusion 3D allégée pour le contrôle visuomoteur en manipulation robotique, déposée sur arXiv le 2 mai 2025 (arXiv:2605.01581). Le point de départ est théorique : les trajectoires d'action robotique sont intrinsèquement lisses, avec l'essentiel de leur énergie concentrée dans quelques modes basses fréquences de la transformée en cosinus discrète (DCT). Cette propriété implique que l'erreur du débruiteur optimal est bornée par la dimension du sous-espace basse fréquence, ce qui signifie que le débruitage sature en très peu d'étapes. HDP3 exploite cette observation pour concevoir un décodeur "Diffusion Mixer" minimaliste, compatible avec une inférence DDIM en deux étapes seulement. Évalué sur les benchmarks RoboTwin 2.0, Adroit et MetaWorld ainsi que sur des tâches en conditions réelles, HDP3 atteint les performances état de l'art avec moins de 1 % des paramètres des politiques de diffusion 3D existantes et une latence d'inférence significativement réduite. Le goulot d'étranglement des politiques de diffusion pour la robotique réside précisément dans la vitesse d'inférence : des modèles comme DP3 ou Pi-0 requièrent typiquement 10 à 100 étapes de débruitage, ce qui pénalise le contrôle temps réel. HDP3 démontre empiriquement et théoriquement que deux étapes suffisent pour les trajectoires robotiques, contrairement à la génération d'images où de nombreuses étapes restent nécessaires. Réduire les paramètres à moins de 1 % de l'état de l'art tout en maintenant les performances remet en question l'hypothèse implicite selon laquelle des modèles massifs seraient indispensables en visuomoteur. Pour les intégrateurs et les équipes R&D industrielles, cela ouvre la voie à des déploiements sur matériel embarqué contraint, sans GPU serveur dédié, et à des cycles d'entraînement bien plus rapides. La politique de diffusion 3D (DP3, 2024) est née de Diffusion Policy (Chi et al., 2023), elle-même inspirée des modèles de score pour la génération d'images. HDP3 rompt explicitement avec cet héritage en justifiant théoriquement pourquoi la robotique n'a pas besoin de décodeurs lourds copiés sur la vision générative. Dans la course aux politiques visuomotrices, les principaux concurrents incluent Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les approches VLA comme OpenVLA ou RDT-1B, qui misent sur la montée en échelle paramétrique. HDP3 parie à l'inverse sur la compression théoriquement motivée. L'article reste un preprint non évalué par les pairs, et les résultats temps réel portent sur des tâches de manipulation sélectionnées : la généralisation à des environnements industriels non contrôlés reste à démontrer. Aucun déploiement commercial n'est annoncé à ce stade.

UELes équipes R&D européennes en robotique embarquée pourraient intégrer cette approche pour déployer des politiques visuomotrices sur matériel contraint sans GPU serveur dédié.

IA physiqueOpinion
1 source
Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système
734arXiv cs.RO 

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

Une équipe de recherche publie sur arXiv (2605.02739) une méthode baptisée Latent Bridge, conçue pour accélérer l'inférence des modèles Vision-Language-Action (VLA) à double système, architecture qui combine un backbone de grand modèle de vision-langage (VLM) lent avec une tête d'action rapide. Le problème identifié : dans ce paradigme, le VLM doit s'exécuter à chaque pas de contrôle, même lorsque la scène visuelle évolue peu entre deux timesteps, ce qui crée un goulot d'étranglement computationnel majeur. Latent Bridge est un modèle léger entraîné pour prédire le delta des sorties du VLM entre deux appels, permettant à la tête d'action de fonctionner sur des features interpolées pendant que le backbone coûteux ne tourne que périodiquement. La méthode est validée sur deux VLAs architecturalement distincts : GR00T-N1.6 de NVIDIA (pont dans l'espace des features) et π0.5 de Physical Intelligence (pont sur le KV-cache). Sur quatre suites LIBERO, 24 tâches cuisine RoboCasa et la tâche ALOHA sim transfer-cube, Latent Bridge conserve 95 à 100 % des performances initiales tout en réduisant les appels VLM de 50 à 75 %, pour un gain net de 1,65x à 1,73x en vitesse d'exécution par épisode. Ce résultat est structurellement important pour quiconque envisage de déployer des VLAs sur du matériel réel : jusqu'ici, la richesse sémantique des VLM se payait en latence, rendant difficile un contrôle à haute fréquence sur robots à ressources embarquées limitées. Le fait que la méthode fonctionne sur deux familles architecturales différentes, l'une opérant dans l'espace des features, l'autre sur le KV-cache, suggère une généralisation potentiellement large plutôt qu'une optimisation opportuniste. Le pipeline d'entraînement DAgger utilisé est task-agnostic et transfert sans modification entre benchmarks, ce qui réduit le coût d'adaptation. Il reste à noter que toutes les évaluations sont conduites en simulation ; l'écart sim-to-real n'est pas adressé dans ce travail, et les gains de vitesse annoncés restent à confirmer sur hardware physique. GR00T-N1.6 est le modèle humanoïde de NVIDIA issu de la roadmap GR00T, tandis que π0.5 est la dernière itération du VLA de Physical Intelligence (ex-pi0), entreprise fondée par Sergey Levine et Chelsea Finn qui a levé 400 millions de dollars en 2024. Ces deux modèles représentent l'état de l'art des VLA duaux, face à des concurrents comme OpenVLA (Berkeley), RoboFlamingo ou les approches ACT/Diffusion Policy. La pression sur l'efficacité computationnelle devient un axe de différenciation croissant à mesure que les déploiements industriels à grande échelle approchent ; des travaux parallèles explorent la distillation et la quantification des VLM, mais Latent Bridge propose une voie orthogonale en exploitant la redondance temporelle plutôt qu'en compressant le modèle. La prochaine étape logique serait une validation sur plateforme physique, idéalement sur des robots comme Fourier GR-1 ou Figure 02 dont les équipes utilisent des pipelines VLA similaires.

IA physiqueOpinion
1 source
Apprentissage de politiques de loco-manipulation quadrupède avec perception tactile
735arXiv cs.RO 

Apprentissage de politiques de loco-manipulation quadrupède avec perception tactile

Une équipe de chercheurs a publié en avril 2026 sur arXiv (2604.27224) un pipeline hiérarchique de loco-manipulation pour robots quadrupèdes intégrant le retour tactile. Le système combine une politique visuotactile de haut niveau, entraînée sur des démonstrations humaines réelles, qui prédit simultanément les trajectoires de l'effecteur terminal et les signaux tactiles attendus caractérisant l'évolution du contact, avec une politique corps-entier entraînée par reinforcement learning à grande échelle en simulation et transférée zero-shot sur robot physique. Évalué sur trois tâches à contact riche (réorientation en main avec insertion, serrage de vanne, manipulation d'objets fragiles), le système affiche un gain moyen de 28,54 % par rapport aux baselines vision seule et visuotactile sans prédiction tactile. L'apport principal est de démontrer que vision et proprioception restent insuffisantes pour résoudre des contacts incertains et évolutifs, et que le retour tactile fournit une observabilité directe que les autres modalités ne peuvent pas suppléer. La mise à l'échelle de l'apprentissage tactile à un système complet de loco-manipulation quadrupède est une contribution distinctive : la littérature récente s'était concentrée sur les bras fixes et les mains dextres, laissant les plateformes mobiles en dehors du périmètre. Le transfert zero-shot sim-to-real de la politique multimodale corps-entier valide par ailleurs qu'il est possible de combler le gap simulation-réalité sur des politiques sensorielles complexes sans fine-tuning sur robot physique, un résultat concret pour les déploiements industriels. La manipulation par quadrupèdes s'est accélérée depuis 2023 avec Spot (Boston Dynamics) et ANYmal (ANYbotics, ETH Zurich), qui s'appuient cependant essentiellement sur la vision et la proprioception. L'intégration d'une couche tactile hiérarchique sur des systèmes mobiles reste une extension non triviale, absente des plateformes Unitree B2/Z1 ou des travaux sur MIT Cheetah. La suite logique inclut l'extension à des capteurs haute densité (GelSight, capacitif distribué) et à des chaînes de manipulation multi-étapes en milieu industriel réel. Ce travail est un preprint non encore évalué par les pairs, ce qui invite à la prudence sur la généralisabilité des résultats au-delà du protocole expérimental décrit.

UELes résultats sur le transfert zero-shot sim-to-real et la manipulation tactile quadrupède sont directement pertinents pour ANYbotics (spin-off ETH Zurich) et ses déploiements d'inspection industrielle en Europe, où ANYmal constitue la plateforme de référence.

RecherchePaper
1 source
LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA
736arXiv cs.RO 

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

Des chercheurs ont publié le 29 avril 2026 sur arXiv (2604.28192) un nouveau cadre pour les modèles Vision-Langage-Action (VLA) baptisé LaST-R1, accompagné d'un algorithme d'apprentissage par renforcement inédit appelé LAPO (Latent-to-Action Policy Optimization). Le système atteint un taux de succès moyen de 99,8 % sur le benchmark de manipulation robotique LIBERO, après un unique épisode d'imitation supervisée en guise d'amorçage. En déploiement réel sur quatre tâches complexes, dont des configurations monobranche et bras-double, LAPO améliore les performances de 44 % par rapport à la politique issue de cet amorçage initial. L'apport central de LaST-R1 est de relier explicitement le raisonnement sur la physique à la génération d'actions, là où les approches existantes traitaient ces deux étapes séparément. Les VLA actuels raisonnent soit en langage naturel (coûteux en latence et discret), soit dans un espace latent continu, mais dans les deux cas par imitation statique, sans capacité d'adaptation par essais-erreurs. LAPO co-optimise simultanément le processus de raisonnement latent et la production d'actions via du renforcement en ligne, ce qui améliore la modélisation du monde physique et la robustesse en environnement interactif. Un mécanisme de "latent Chain-of-Thought adaptatif" permet en outre au modèle d'ajuster dynamiquement son horizon de raisonnement selon la complexité de la situation, sans coût fixe à chaque pas. Il s'agit d'une annonce académique sous forme de preprint, pas encore d'un produit embarqué sur robot commercial. Ce travail s'inscrit dans la course à la généralisation des VLA, portée ces derniers mois par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. L'un des verrous récurrents du secteur est l'écart simulation-réalité (sim-to-real gap) et la difficulté à faire converger rapidement un modèle en conditions réelles sans millions d'épisodes supervisés. LaST-R1 revendique une convergence significativement accélérée grâce à l'optimisation jointe du raisonnement latent, une piste que suivent aussi des équipes européennes travaillant sur l'apprentissage par renforcement pour la manipulation, notamment dans l'orbite des laboratoires universitaires français. Les prochaines étapes naturelles seront la validation sur des benchmarks plus diversifiés (AgiBot World, RLBench) et l'intégration dans des plateformes matérielles commerciales.

UELes laboratoires français et européens travaillant sur la manipulation robotique par apprentissage par renforcement peuvent s'appuyer sur l'approche LAPO pour réduire leur dépendance aux grandes quantités de données supervisées, accélérant potentiellement leurs cycles de recherche.

IA physiqueOpinion
1 source
PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives
737arXiv cs.RO 

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

PRTS (Primitive Reasoning and Tasking System) est un modèle fondation Vision-Langage-Action (VLA) présenté dans un preprint arXiv (réf. 2604.27472, avril 2026). Il reformule le préentraînement des VLA en substituant le clonage comportemental supervisé classique par de l'apprentissage par renforcement conditionné sur des objectifs (Goal-Conditioned Reinforcement Learning, GCRL). Chaque instruction en langage naturel est traitée comme un but à atteindre : PRTS apprend un espace d'embedding unifié où le produit scalaire entre vecteurs état-action et vecteur objectif approxime la log-probabilité actualisée d'atteindre cet objectif depuis l'état courant, une quantité appelée log-discounted goal occupancy. Ce signal de supervision dense est extrait directement de trajectoires offline sans annotation de récompense, puis injecté dans le backbone multimodal via un masque causal adaptatif (role-aware causal mask), avec un surcoût computationnel marginal. Le modèle est préentraîné sur 167 milliards de tokens couvrant des données de manipulation et de raisonnement embodied. Il atteint l'état de l'art sur les benchmarks LIBERO, LIBERO-Pro, LIBERO-Plus et SimplerEnv, ainsi que sur une suite de 14 tâches physiques réelles, avec des gains particulièrement nets sur les tâches longue-horizon, riches en contacts, et sur les instructions zero-shot inédites. L'enjeu est structurant pour le domaine des politiques robotiques générales. Les VLA actuels les plus avancés, notamment Pi-0 et Pi-0.5 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, reposent tous sur une logique de clonage comportemental : le modèle imite des démonstrations sans représentation explicite du progrès vers un objectif. PRTS introduit une conscience intrinsèque de l'atteignabilité des buts (goal reachability awareness), ce qui se traduit par des améliorations précisément là où les VLA peinent le plus en déploiement réel : planification longue-horizon, robustesse aux contacts et généralisation zéro-shot. Si ces résultats se confirment indépendamment, l'approche contrastive GCRL pourrait redéfinir le paradigme de préentraînement dominant dans le domaine. Le contexte compétitif est celui d'une convergence accélérée vers des fondations VLA à grande échelle capables de généralisation zéro-shot. Physical Intelligence, NVIDIA Robotics, Google DeepMind (RT-2, Octo) et de nombreuses équipes académiques travaillent simultanément sur ce segment. La contribution de PRTS est avant tout méthodologique : en n'exigeant aucune annotation de récompense et en tirant sa supervision de trajectoires offline déjà disponibles, l'approche est potentiellement reproductible avec des ressources plus modestes. Il s'agit toutefois d'un résultat de recherche à ce stade, non d'un déploiement commercial : les évaluations physiques portent sur 14 tâches dont les conditions expérimentales restent à vérifier indépendamment, et aucune timeline de productisation n'est mentionnée.

IA physiqueOpinion
1 source
ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux
738arXiv cs.RO 

ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux

Une équipe de chercheurs a publié sur arXiv (arXiv:2505.20032) ViTaPEs, une architecture transformer conçue pour fusionner les perceptions visuelles et tactiles dans les robots manipulateurs. Le principe central est un encodage positionnel à deux étages : un encodage local propre à chaque modalité (vision d'un côté, capteurs tactiles de l'autre), suivi d'un encodage global appliqué sur la séquence de tokens fusionnés juste avant le mécanisme d'attention croisée. Cette double injection positionn­elle fournit un vocabulaire spatial partagé au moment précis où les deux flux d'information interagissent. Les expériences ont été conduites sur plusieurs jeux de données réels à grande échelle, et les résultats montrent des gains sur des tâches de reconnaissance visuotactile, ainsi qu'une capacité de généralisation zero-shot vers des scénarios hors domaine non vus pendant l'entraînement. En transfert vers une tâche de saisie robotique, ViTaPEs surpasse les baselines actuelles dans la prédiction du succès de préhension. L'enjeu industriel de ces travaux est concret : les capteurs tactiles (GelSight, DIGIT et dérivés) fournissent des informations que la vision seule ne capture pas, texture de surface, compliance d'un matériau, force de contact locale. Sans fusion visuotactile robuste, un robot de manipulation en environnement non structuré reste fragile face aux objets inconnus ou aux variations de surface. La contribution de ViTaPEs n'est pas seulement de performance brute : c'est de montrer qu'un encodage positionnel explicitement conçu pour le cross-modal permet une meilleure généralisation, sans s'appuyer lourdement sur des modèles vision-langage pré-entraînés comme CLIP. Pour les intégrateurs et les équipes robotiques industrielles, c'est un signal que le sim-to-real et le cross-domain gap sur la perception tactile peuvent être partiellement résolus par l'architecture plutôt que par la masse de données supervisées. Ce travail s'inscrit dans une vague de recherche sur la représentation visuotactile, on pense aux travaux antérieurs de Meta AI sur DIGIT, aux représentations auto-supervisées de Calandra et al., ou encore à Pi-0 de Physical Intelligence qui intègre déjà des flux multimodaux pour le contrôle de robots polyvalents. Côté acteurs européens, des startups comme Wandercraft (France) ou des laboratoires comme le LAAS-CNRS travaillent sur la manipulation dextère, et ce type d'architecture pourrait s'intégrer à leurs pipelines. Les prochaines étapes probables incluent l'évaluation sur des manipulateurs commerciaux (Franka, UR) et l'intégration dans des pipelines de contrôle visuomoteur de type VLA, où la précision tactile manque encore cruellement.

UELes équipes françaises de manipulation dextère (Wandercraft, LAAS-CNRS) pourraient intégrer cette architecture visuotactile dans leurs pipelines, réduisant la dépendance aux données supervisées massives pour la généralisation cross-domain.

IA physiquePaper
1 source
M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions
739arXiv cs.RO 

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions

Des chercheurs ont publié fin avril 2025 sur arXiv (2504.18662) un extracteur de représentations multimodal baptisé M2R2 (MultiModal Robotic Representation for Robotic TAS), conçu pour la segmentation temporelle d'actions (TAS) en robotique. L'approche combine des informations proprioceptives (encodeurs, capteurs force-couple, état des articulations) et extéroceptives (caméras RGB) dans un extracteur de features commun, accompagné d'une stratégie d'entraînement inédite permettant la réutilisation de ces représentations sur plusieurs architectures de segmentation indépendantes. Les résultats annoncés positionnent M2R2 à l'état de l'art sur trois jeux de données de référence en robotique : REASSEMBLE (assemblage de composants), (Im)PerfectPour (versage de liquide) et JIGSAWS (chirurgie robotique laparoscopique simulée). Une étude d'ablation extensive quantifie la contribution respective de chaque modalité. L'intérêt principal de M2R2 réside dans la modularité de son extracteur : les approches multimodales existantes en robotique fusionnaient les modalités directement à l'intérieur du modèle de segmentation, rendant les features non réutilisables entre architectures. Ici, le découplage extracteur/modèle de TAS ouvre la voie à une bibliothèque de représentations partageable, ce qui réduit le coût de réentraînement lors du changement de tâche ou de robot. Sur les scénarios à faible visibilité d'objet, les extracteurs purement visuels issus du computer vision chutent en performance, là où l'ajout de la proprioception maintient la robustesse. C'est un résultat concret sur la fragilité des approches vision-seule dans des environnements industriels ou chirurgicaux réels, où occlusions et éclairage variable sont la norme. La segmentation temporelle d'actions est un verrou historique pour l'autonomie des robots manipulateurs : sans identifier les frontières entre skills (saisir, aligner, visser...), il est impossible de planifier, corriger ou réutiliser des séquences de gestes. En chirurgie robotique, JIGSAWS est le benchmark de référence depuis 2016, utilisé notamment dans les travaux autour des plateformes da Vinci (Intuitive Surgical). En robotique industrielle, des acteurs comme Wandercraft ou les équipes de manipulation de Boston Dynamics s'appuient sur des approches similaires pour les transitions de phases motrices. M2R2 reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé, mais son extracteur réutilisable représente un candidat sérieux pour des pipelines d'imitation learning dans lesquels labelliser chaque skill manuellement est le principal goulot d'étranglement.

UEL'extracteur modulaire M2R2 pourrait bénéficier aux équipes de manipulation françaises (notamment Wandercraft) en réduisant le coût de labellisation dans les pipelines d'imitation learning, mais reste une contribution académique sans déploiement industriel annoncé.

RecherchePaper
1 source
Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets
740arXiv cs.RO 

Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets

Des chercheurs ont publié sur arXiv (référence 2512.22519v2) un cadre baptisé OBEYED-VLA, acronyme de OBject-centric and gEometrY groundED VLA, conçu pour rendre les modèles Vision-Language-Action robustes aux environnements encombrés. L'évaluation a été conduite sur un bras UR10e d'Universal Robots en configuration tabletop réelle, selon quatre régimes de difficulté croissante : présence d'objets distracteurs, rejet de cible absente, variation d'arrière-plan, et manipulation en environnement encombré d'objets non vus à l'entraînement. Le modèle est entraîné exclusivement sur des démonstrations d'objets isolés, sans fouillis ni objets parasites lors de la collecte des données. L'architecture se décompose en deux étages : un module de grounding objet-centrique basé sur un VLM qui sélectionne les régions pertinentes sur plusieurs vues caméra, suivi d'un module de grounding géométrique qui encode la structure 3D de ces objets plutôt que leur apparence brute. L'intérêt industriel est direct : les VLA actuels, malgré leurs performances en conditions contrôlées, échouent de manière systématique dès que la scène s'éloigne du contexte d'entraînement. Le sur-graspinq en l'absence de la cible, la distraction par des objets voisins et l'overfitting à l'arrière-plan sont des défauts documentés qui bloquent le passage du laboratoire à la cellule de production. OBEYED-VLA démontre qu'en découplant explicitement la perception de la commande, au lieu de les fondre dans un pipeline monolithique optimisé pour l'action, il est possible d'améliorer substantiellement la généralisation sans réentraîner le modèle VLA sous-jacent depuis zéro. Les ablations confirment que ni le grounding sémantique ni le grounding géométrique ne suffisent seuls : les deux étages sont nécessaires. Ce travail s'inscrit dans la course à la robustesse des VLA post-entraînés, un chantier où s'affrontent des approches comme OpenVLA, Octo, ou Pi-0 de Physical Intelligence. La plupart des VLA actuels héritent d'un paradigme end-to-end qui maximise les performances sur benchmarks propres mais peine à gérer la variabilité du monde réel. OBEYED-VLA n'est pas un produit commercialisé mais une contribution de recherche publiée sur arXiv, dont le code et les protocoles d'évaluation restent à préciser pour une adoption industrielle. Les prochaines étapes naturelles seraient de valider le cadre sur des plateformes plus mobiles et des scènes plus denses, ainsi que de tester sa compatibilité avec des VLA récents de plus grande capacité.

UEL'évaluation sur bras UR10e (Universal Robots, entreprise danoise) confère une pertinence indirecte pour les intégrateurs européens qui déploient des robots UR en cellule de production et cherchent à industrialiser des VLA robustes.

IA physiqueOpinion
1 source
Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome
741arXiv cs.RO 

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

Des chercheurs ont publié sur arXiv (identifiant 2310.02635, cinquième révision) un cadre appelé RLFP, Reinforcement Learning with Foundation Priors, conçu pour rendre l'apprentissage par renforcement viable sur des robots réels, sans ingénierie manuelle des récompenses. Au coeur du système se trouve l'algorithme FAC (Foundation-guided Actor-Critic), qui s'appuie simultanément sur trois types de modèles fondationnels : un modèle de politique, un modèle de valeur, et un modèle de récompense de succès. Sur cinq tâches de manipulation dextère réalisées avec de vrais robots, FAC atteint un taux de succès moyen de 86 % après seulement une heure d'apprentissage en temps réel. Sur le benchmark simulé Meta-world, il obtient 100 % de succès sur 7 des 8 tâches évaluées, en moins de 100 000 frames d'interaction, là où les méthodes de référence avec récompenses manuelles nécessitent 1 million de frames pour des performances comparables. L'impact industriel potentiel est significatif. L'un des verrous majeurs du déploiement de la robotique apprenante en environnement réel est double : la quantité astronomique de données requise par le RL classique, et le coût humain de la conception des fonctions de récompense, qui exige des ingénieurs spécialisés pour chaque nouvelle tâche. RLFP adresse les deux simultanément, en multipliant par environ dix l'efficacité en données et en automatisant la génération de signal de récompense via des modèles pré-entraînés. Si les résultats se confirment hors conditions de laboratoire, ce type de cadre pourrait réduire drastiquement le temps de mise en service d'un bras industriel sur une nouvelle opération, un enjeu clé pour les intégrateurs. Ce travail s'inscrit dans une tendance de fond qui voit les grands modèles de langage et de vision (VLM/LLM) utilisés comme priors pour guider l'exploration robotique, une approche concurrente des méthodes par imitation pure (apprentissage à partir de démonstrations humaines) ou par curriculum appris. Parmi les travaux proches figurent SayCan (Google), Code as Policies (DeepMind) et les récents VLA comme pi-0 (Physical Intelligence) ou OpenVLA. L'équipe indique que RLFP est agnostique au type de modèle fondationnel utilisé et robuste aux priors bruités, ce qui est une affirmation forte qu'il faudra valider sur des benchmarks extérieurs. Le code et les visualisations sont disponibles publiquement, ce qui facilite la reproduction indépendante.

IA physiqueOpinion
1 source
ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot
742arXiv cs.RO 

ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot

Des chercheurs ont présenté ExpressMM, un framework destiné aux manipulateurs mobiles déployés en environnements humains, capable de générer des comportements expressifs en temps réel pendant l'exécution de tâches collaboratives. Publié sur arXiv (2604.05320v3), le système repose sur une architecture à deux niveaux : un planificateur de haut niveau fondé sur un modèle vision-langage (VLM) prend en charge la perception et le raisonnement conversationnel, tandis qu'une politique vision-langage-action (VLA) de bas niveau produit les mouvements expressifs du robot. Élément distinctif : ExpressMM supporte les interactions interruptibles, c'est-à-dire que l'utilisateur peut modifier ou rediriger les instructions du robot en cours d'exécution. L'évaluation a été conduite sur un manipulateur mobile réel lors d'un scénario d'assemblage collaboratif, avec des démonstrations en direct devant un public et des questionnaires post-session. La majorité des travaux antérieurs sur les comportements expressifs des robots s'appuyaient sur des mouvements préprogrammés ou appris par démonstration, et n'anticipaient pas les interruptions en cours de tâche, un cas pourtant courant dès qu'un humain travaille aux côtés d'un robot. ExpressMM traite cette lacune en couplant une VLA capable de s'adapter dynamiquement aux nouvelles instructions avec un raisonnement langage-vision pour maintenir la cohérence sociale de l'interaction. Les résultats des questionnaires indiquent que les observateurs ont trouvé les actions du robot clairement interprétables, les interactions socialement appropriées, et le comportement prévisible et sûr. Pour les intégrateurs industriels et les équipes opérations, c'est un signal fort : les robots collaboratifs ne peuvent plus se contenter d'accomplir une tâche ; ils doivent être lisibles par les humains qui partagent l'espace de travail. Le sujet de l'expressivité robotique est activement exploré depuis plusieurs années dans la communauté HRI, mais les approches précédentes peinaient à généraliser au-delà de comportements scénarisés ou de démos contrôlées. L'utilisation conjointe d'un VLM et d'une VLA dans un seul pipeline interruptible représente une progression architecturale significative. Sur le plan concurrentiel, des acteurs comme Boston Dynamics (avec Spot) ou des startups HRI telles que Enchanted Tools en France (robot Miroki) travaillent également sur la dimension sociale des robots collaboratifs, mais peu publient des évaluations HRI aussi structurées en conditions réelles. Les prochaines étapes logiques pour ExpressMM seraient des déploiements en environnements industriels ou de service à plus grande échelle, où la variété des interactions humaines dépasse largement les scénarios d'assemblage contrôlés.

UELa recherche est directement pertinente pour Enchanted Tools (France, robot Miroki), qui travaille sur des problématiques similaires d'expressivité sociale et d'interaction humain-robot collaboratif.

IA physiqueOpinion
1 source
Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies
743arXiv cs.RO 

Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies

Des chercheurs présentent eSEC-LAM, un cadre neuro-symbolique conçu pour permettre aux robots opérant dans des environnements humains de comprendre les manipulations d'objets en temps réel. Publié sur arXiv (2604.21053), ce travail s'appuie sur les enriched Semantic Event Chains (eSECs), une représentation symbolique relationnelle qui décrit comment les relations spatiales entre objets évoluent au fil d'une séquence de manipulation. eSEC-LAM augmente ces chaînes classiques avec cinq couches d'information supplémentaires : des prédicats pondérés par un score de confiance, des rôles fonctionnels d'objets (outil, patient, récipient), des priors d'affordance, une abstraction en primitives de mouvement, et des indicateurs de saillance pour l'explicabilité. Le système est évalué sur trois benchmarks vidéo reconnus : EPIC-KITCHENS-100, EPIC-KITCHENS VISOR, et Assembly101, couvrant la reconnaissance d'actions, la prédiction de la prochaine primitive, la robustesse au bruit perceptuel et la cohérence des explications. L'intérêt industriel réside dans la prédiction de la prochaine étape de manipulation, un verrou critique pour les robots collaboratifs et les systèmes d'assistance à l'assemblage. Les résultats montrent qu'eSEC-LAM améliore substantiellement cette capacité par rapport aux baselines symboliques classiques et aux modèles vidéo bout-en-bout, tout en restant plus robuste lorsque la perception est dégradée, un scénario fréquent en usine ou à domicile. L'architecture hybride évite la boîte noire des approches purement neuronales : chaque décision est ancrée dans des preuves relationnelles explicites, ce qui facilite l'audit et la certification, deux exigences croissantes pour les intégrateurs industriels soumis aux normes de sécurité fonctionnelle (ISO 10218, EN 13849). Ce n'est pas un modèle VLA qui apprend tout end-to-end depuis des vidéos brutes : c'est délibérément un système de raisonnement léger, conçu pour tourner sans GPU dédié au moment de l'inférence symbolique. Les eSECs ont émergé dans les laboratoires de robotique cognitive au début des années 2010 comme alternative interprétable aux réseaux de neurones pour la compréhension de gestes, mais ils restaient jusqu'ici principalement descriptifs. eSEC-LAM est une tentative de les transformer en états internes actifs pour un raisonnement décisionnel. Dans le paysage concurrent, les approches VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent sur l'apprentissage massif généraliste ; eSEC-LAM propose une voie opposée, plus modulaire et explicable, potentiellement plus adaptée aux certifications réglementaires ou aux domaines à données rares. Les prochaines étapes logiques seraient une validation sur robot réel en boucle fermée et une intégration avec des couches de planification symbolique (PDDL, HTN), pour aller au-delà de la reconnaissance vers l'exécution autonome de tâches multi-étapes.

UEL'architecture explicable d'eSEC-LAM et sa légèreté à l'inférence facilitent la certification selon les normes européennes de sécurité fonctionnelle (ISO 10218, EN 13849), un avantage concret pour les intégrateurs industriels européens soumis à l'AI Act.

RecherchePaper
1 source
Simulé ou réel : robustesse des VLM au décalage de domaine en compréhension de scène robotique
744arXiv cs.RO 

Simulé ou réel : robustesse des VLM au décalage de domaine en compréhension de scène robotique

Une équipe de chercheurs a publié sur arXiv (identifiant 2506.19579, troisième révision, juin 2025) une évaluation systématique des modèles vision-langage (VLM) appliqués à la compréhension de scènes robotiques en vue unique. Le protocole expérimental cible des scènes de table captées par un bras manipulateur, avec un cadre de domain shift contrôlé : chaque outil réel est mis en parallèle avec un homologue imprimé en 3D, géométriquement identique mais différent en texture, couleur et matière. Plusieurs VLM déployables localement, parmi les plus récents du domaine, ont été soumis à un benchmark multicritères axé sur l'alignement sémantique et l'ancrage factuel des descriptions textuelles générées. Les résultats montrent que les VLM décrivent correctement les objets courants du monde réel, mais que leurs performances se dégradent sensiblement dès que ces objets sont remplacés par des pièces imprimées en 3D, malgré une forme structurelle identique. Le constat a une portée directe pour les intégrateurs robotiques et les équipes industrielles qui s'appuient sur des VLM pour la perception de scènes. En atelier, les gabarits, les pièces de fixation et les prototypes imprimés en 3D sont omniprésents : un système de perception qui confond la texture avec la fonction risque de produire des descriptions erronées, voire de déclencher de mauvaises instructions de préhension. Plus préoccupant encore, les chercheurs démontrent que les métriques d'évaluation standard présentent des vulnérabilités critiques : certaines ne détectent pas le domain shift, d'autres récompensent des descriptions linguistiquement fluides mais factuellement incorrectes. Ce double problème, défaillance du modèle et défaillance de la métrique simultanément, rend l'échec invisible pour les équipes qui s'appuient sur les indicateurs habituels. Cette publication s'inscrit dans un courant croissant de travaux questionnant la maturité des modèles fondationnels pour les applications physiques. Le sim-to-real gap est bien documenté dans la littérature robotique, mais ce papier pointe un défi distinct : le real-to-real domain shift entre catégories de matériaux. Alors que les pipelines robotiques modernes, comme ceux qui sous-tendent GR00T N2 (NVIDIA), Pi-0 (Physical Intelligence) ou les architectures VLA en général, intègrent de plus en plus des composants vision-langage, l'étude souligne que les protocoles d'évaluation doivent évoluer en parallèle. Les auteurs appellent à des architectures plus robustes et à des protocoles de validation adaptés aux contraintes physiques du déploiement réel, sans toutefois proposer de solution concrète dans ce travail préliminaire.

RecherchePaper
1 source
Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle
745arXiv cs.RO 

Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle

Une équipe de recherche présente Hi-WM (Human-in-the-World-Model), un cadre de post-entraînement pour politiques robotiques généralisées, publié sur arXiv (2604.21741). L'approche remplace l'exécution physique par un modèle du monde appris : la politique est d'abord déroulée en boucle fermée dans ce simulateur interne, et lorsqu'une trajectoire devient incorrecte ou risquée, un opérateur humain intervient directement dans le modèle pour fournir des actions correctives courtes. Hi-WM met en cache les états intermédiaires et supporte le rollback et le branchement, ce qui permet de réutiliser un seul état d'échec pour générer plusieurs continuations correctives distinctes. Les trajectoires ainsi produites sont réinjectées dans le jeu d'entraînement. Évalué sur trois tâches de manipulation réelle (objets rigides et déformables) avec deux architectures de politique différentes, le système affiche un gain de 37,9 points en taux de succès réel par rapport à la politique de base, et de 19,0 points par rapport à une ligne de base en boucle fermée dans le modèle du monde. La corrélation entre les évaluations dans le modèle et les performances réelles atteint r = 0,953. Ce résultat adresse un goulot d'étranglement structurel du déploiement robotique : le post-entraînement actuel exige du temps robot, des resets de scène, une supervision opérateur en continu, autant de contraintes qui rendent la correction itérative coûteuse à l'échelle. En décorrélant la phase corrective de l'exécution physique, Hi-WM densifie la supervision précisément là où la politique échoue, sans mobiliser le matériel. La forte corrélation sim-to-real (r > 0,95) est notable : elle suggère que le modèle du monde est suffisamment fidèle pour qualifier les politiques avant déploiement, ce qui contredit en partie l'hypothèse que l'évaluation dans le modèle reste trop éloignée des conditions réelles pour être exploitable. Les modèles du monde conditionnés sur les actions sont étudiés depuis plusieurs années principalement pour la génération de données synthétiques et l'évaluation de politiques, notamment dans les travaux autour des VLA (Vision-Language-Action models) et des politiques généralisées comme celles portées par Physical Intelligence (Pi-0) ou les recherches internes de Google DeepMind. Hi-WM repositionne ces modèles comme substrat correctif actif, une troisième fonction jusqu'ici peu explorée. Les suites naturelles incluent l'extension à des tâches de locomotion, la réduction du coût de construction du modèle du monde, et l'intégration dans des pipelines de fine-tuning continu pour robots déployés en environnement industriel variable.

RechercheOpinion
1 source
Agent de sécurité guidé par LLM pour la robotique embarquée avec une architecture perception-calcul-contrôle conforme ISO
746arXiv cs.RO 

Agent de sécurité guidé par LLM pour la robotique embarquée avec une architecture perception-calcul-contrôle conforme ISO

Des chercheurs ont publié une architecture permettant d'intégrer un agent de sécurité guidé par un grand modèle de langage (LLM) dans des robots embarqués fonctionnant à la périphérie du réseau, tout en respectant les normes industrielles de sécurité fonctionnelle. Le système, présenté dans une prépublication arXiv (2604.20193), repose sur une architecture perception-calcul-contrôle conforme à la norme ISO 13849. Concrètement, il convertit des règles de sécurité formulées en langage naturel en prédicats exécutables, déployés sur un environnement d'exécution hétérogène et redondant. Pour garantir la tolérance aux pannes, les chercheurs adoptent une redondance duale symétrique : deux modules indépendants fonctionnent en parallèle pour la perception, le calcul et le contrôle. Le prototype tourne sur une plateforme à double processeur RK3588, une puce ARM développée par Rockchip, et a été évalué dans des scénarios typiques d'interaction humain-robot. L'enjeu est fondamental : la sécurité fonctionnelle industrielle exige des comportements déterministes, c'est-à-dire prévisibles et reproductibles à chaque exécution, alors que la perception par IA reste intrinsèquement probabiliste. Cette incompatibilité freine depuis des années le déploiement de robots intelligents dans des espaces où des humains circulent. En atteignant le niveau ISO 13849 Catégorie 3 et Performance Level d avec du matériel grand public peu coûteux, cette approche ouvre la voie à des systèmes robotiques certifiables sans processeurs spécialisés hors de prix. Pour les intégrateurs industriels et fabricants de cobots, c'est un signal clair : la sécurité certifiable pourrait bientôt s'appliquer à bien plus large échelle. La montée en puissance des robots collaboratifs dans les usines, entrepôts et environnements de soins a rendu urgente la question de la certification. Les normes ISO 13849 définissent des niveaux de performance de PL a à PL e selon la probabilité de défaillance dangereuse ; atteindre PL d est généralement requis pour des équipements opérant à proximité directe d'humains. L'utilisation d'un LLM pour interpréter et codifier automatiquement des règles de sécurité en langage naturel est une approche originale qui pourrait simplifier radicalement la configuration de ces systèmes. La prochaine étape décisive sera la validation formelle par des organismes de certification indépendants, condition indispensable à une adoption industrielle à grande échelle.

UELes fabricants européens de cobots et intégrateurs industriels pourraient accéder à une voie de certification ISO 13849 PL d à moindre coût, sous réserve de validation par des organismes notifiés européens.

IndustrielOpinion
1 source
GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle
747arXiv cs.RO 

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

Des chercheurs ont soumis sur arXiv (arXiv:2604.19522) un framework baptisé GenerativeMPC, destiné aux robots manipulateurs mobiles bimanaux. Le système articule un modèle de vision-langage couplé à une génération augmentée par récupération (VLM-RAG) avec un contrôleur prédictif sur le corps entier (Whole-Body MPC). Concrètement, le module VLM-RAG analyse la scène en temps réel, visuellement et en langage naturel, puis génère des contraintes de contrôle numériques directement exploitables: limites de vitesse dynamiques et marges de sécurité injectées dans le MPC. Parallèlement, il module les gains de raideur et d'amortissement virtuels d'un contrôleur impédance-admittance unifié pour adapter la compliance du robot au contexte. Les expériences menées dans les simulateurs MuJoCo et IsaacSim, puis sur une plateforme physique bimanuale, font état d'une réduction de vitesse de 60% à proximité des humains. Le système s'appuie sur une base de données vectorielle alimentée par l'expérience passée, ce qui permet d'ancrer les paramètres de contrôle sans ré-entraînement du modèle. L'enjeu architectural est significatif pour les intégrateurs et les décideurs industriels. Les approches end-to-end de type VLA, comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), délèguent entièrement la traduction sémantique-physique au réseau neuronal, rendant les garanties de sécurité difficiles à certifier formellement. GenerativeMPC propose une architecture hybride explicite: le grand modèle raisonne sur le contexte (présence humaine, nature de la tâche) et produit des paramètres numériques interprétables qui alimentent un MPC classique au comportement auditable et déterministe. Pour les secteurs à forte contrainte réglementaire, c'est un argument de poids. La réduction de 60% reste cependant une métrique à contextualiser: le papier ne précise pas la vitesse de référence initiale ni les conditions exactes des essais physiques, un bémol courant dans les publications de ce type. La manipulation mobile bimanuale est l'un des problèmes ouverts les plus exigeants de la robotique collaborative, coincé entre contrôleurs classiques contextuellement aveugles et modèles end-to-end difficilement certifiables. L'utilisation du RAG pour paramétrer des contrôleurs physiques est une direction de recherche émergente, distincte de l'apprentissage par renforcement. Dans l'écosystème concurrent, Figure AI (Figure 03), Boston Dynamics (Atlas) et 1X Technologies explorent des architectures hybrides pour des tâches bimanales. En Europe, Enchanted Tools (France) et des laboratoires comme le LAAS-CNRS avancent sur des architectures de contrôle sûres pour la collaboration humain-robot. GenerativeMPC reste pour l'instant un résultat de recherche académique sans déploiement industriel annoncé, mais son approche explicitement certifiable ouvre des perspectives concrètes pour la logistique collaborative et la robotique médicale.

UELe LAAS-CNRS et Enchanted Tools (France) travaillent sur des architectures de contrôle sûres similaires ; l'approche hybride certifiable de GenerativeMPC pourrait renforcer le positionnement européen dans les débats réglementaires sur la certification des robots collaboratifs au titre de l'AI Act.

RechercheOpinion
1 source
Politique d'accès mémoire contrôlé
748arXiv cs.RO 

Politique d'accès mémoire contrôlé

Une équipe de chercheurs en robotique a publié fin avril 2026 sur arXiv (référence 2604.18933) la Gated Memory Policy (GMP), une architecture de politique visuomotrice pour les tâches de manipulation robotique. L'article cible un problème concret : certaines tâches sont markoviennes (la décision dépend uniquement de l'état courant), d'autres non-markoviennes (elles nécessitent de se souvenir d'interactions passées, parfois sur plusieurs essais). GMP intègre trois mécanismes distincts : une porte de mémoire apprise qui active sélectivement le contexte historique uniquement quand la tâche le requiert, un module de cross-attention léger pour construire des représentations latentes efficaces de la mémoire, et une injection de bruit de diffusion dans les actions historiques pour atténuer la sensibilité aux historiques bruités ou imprécis. Évaluée sur MemMimic, un benchmark non-markovien proposé par les auteurs eux-mêmes, GMP affiche une amélioration de 30,1 % du taux de succès moyen par rapport aux baselines à long historique, tout en maintenant des performances compétitives sur les tâches markoviennes du benchmark RoboMimic. L'enjeu pointe une limite structurelle des politiques visuomotrices actuelles : l'approche naïve consistant à étendre la fenêtre d'observation historique dégrade les performances en raison du décalage de distribution et du surajustement. GMP montre qu'apprendre quand mémoriser est plus efficace qu'empiler de l'historique brut. Pour les équipes de recherche en manipulation et les intégrateurs industriels, cela valide une direction de conception : les politiques robotiques polyvalentes devront intégrer une gestion contextuelle de la mémoire, notamment pour des scénarios multi-étapes comme l'assemblage séquentiel ou le tri conditionnel. Une nuance s'impose toutefois : MemMimic est un benchmark conçu par les auteurs eux-mêmes, ce qui limite l'indépendance de la validation et appelle une évaluation sur des référentiels tiers. Les politiques visuomotrices comme Diffusion Policy ou ACT opèrent principalement en mode réactif, sans mécanisme de mémoire épisodique explicite. Des architectures basées sur des transformers ont tenté d'incorporer l'historique, mais sans sélection adaptative. GMP s'inscrit dans une tendance plus large, aux côtés des VLA (Vision-Language-Action models) et des architectures de type state-space model comme Mamba, qui cherchent toutes à mieux gérer la temporalité en manipulation robotique. Le code, les données et les instructions de déploiement en conditions réelles sont disponibles sur le site du projet (gated-memory-policy.github.io), ce qui ouvre la voie à une reproduction indépendante et à une évaluation sur benchmarks extérieurs.

RechercheOpinion
1 source
Transformer de navigation multimodal sensible à l'incarnation physique
749arXiv cs.RO 

Transformer de navigation multimodal sensible à l'incarnation physique

Des chercheurs ont publié sur arXiv (2604.19267) ViLiNT, un modèle de navigation par objectif pour robots terrestres qui fusionne images RGB, nuages de points LiDAR 3D, un embedding de destination et un descripteur d'embodiment dans une architecture transformer. La sortie du transformer conditionne un modèle de diffusion chargé de générer des trajectoires navigables ; ces trajectoires sont ensuite scorées et classées par une tête de prédiction de dégagement de chemin (path clearance), entraînée sur des labels générés automatiquement hors ligne. Un token d'embodiment propre à chaque robot permet au modèle d'adapter la génération et la sélection des trajectoires aux dimensions physiques de la plateforme. Entraîné sur données hétérogènes issues de plusieurs plateformes et environnements, ViLiNT affiche une amélioration de 166 % du taux de succès (Success Rate) en moyenne sur trois environnements simulés par rapport à NoMaD, la baseline vision-only de référence. Ces résultats ont été confirmés en déploiement réel, sur un rover évoluant dans des champs d'obstacles. Le gain de 166 % sur NoMaD est frappant, mais à contextualiser : la comparaison porte sur des scénarios de navigation hors route où la dégradation sous distribution shift est précisément le problème ciblé, ce qui peut gonfler le delta. L'enjeu industriel est néanmoins réel : les AMR et robots de livraison outdoor subissent exactement ce type de régression dès qu'ils quittent leur environnement d'entraînement. L'apport clé de ViLiNT pour les intégrateurs est double. D'abord, la fusion RGB + LiDAR rend le modèle plus robuste aux variations de luminosité ou de texture de terrain. Ensuite, l'embodiment token ouvre la voie à un modèle unique déployable sur plusieurs plateformes de dimensions différentes, sans réentraînement complet, ce qui réduit significativement le coût de portage. La navigation par objectif pour robots mobiles terrestres est un chantier actif depuis les travaux fondateurs de NoMaD (Berkeley, 2023) et des politiques GNFactor/ViNT. ViLiNT s'inscrit dans la vague des politiques multimodales qui cherchent à combler le sim-to-real gap par enrichissement sensoriel plutôt que par augmentation de données synthétiques. Côté concurrence, des acteurs comme Boston Dynamics (Spot), Clearpath ou Anybotics travaillent sur des problématiques similaires de robustesse hors route, et des laboratoires comme ETH Zurich et CMU publient dans le même espace. ViLiNT reste pour l'instant un preprint sans déploiement industriel annoncé ; les prochaines étapes naturelles seraient une validation sur terrains non structurés plus diversifiés (végétation, boue) et une évaluation du coût computationnel embarqué pour confirmer la viabilité sur hardware contraint.

UEETH Zurich travaille sur des problématiques similaires de navigation hors route ; les fabricants d'AMR et robots outdoor européens pourraient bénéficier de l'embodiment token pour réduire les coûts de portage multi-plateformes, mais aucun partenariat ou déploiement européen n'est annoncé à ce stade.

IA physiquePaper
1 source
Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique
750arXiv cs.RO 

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique

Une étude publiée sur arXiv (2604.17896) examine une lacune structurelle dans l'entraînement des modèles VLA (Vision-Language-Action) : ces architectures, qui transforment des entrées multimodales (vision, langage) directement en commandes motrices pour robots, sont typiquement entraînées par imitation à grande échelle, sans aucune supervision explicite des contraintes physiques dures. Les auteurs intègrent un objectif de faisabilité géométrique dans la phase d'entraînement d'une politique VLA basée sur la diffusion, et évaluent l'impact sur des tâches de manipulation avec obstacles, utilisées comme banc d'essai contrôlé de la faisabilité physique. Les résultats montrent une amélioration de la fiabilité physique, de la performance globale, et de l'efficacité d'apprentissage en régime de faibles données. L'enjeu est significatif pour quiconque déploie des VLA en environnement industriel non contrôlé. Jusqu'ici, l'hypothèse implicite du paradigme d'imitation était que suffisamment de démonstrations permettraient au modèle d'inférer les contraintes géométriques (évitement d'obstacles, faisabilité cinématique) de façon latente. Cette étude apporte une preuve empirique que cette inférence reste incomplète : ajouter un signal de faisabilité explicite, même simple, améliore à la fois la robustesse physique et les performances sur la tâche. L'effet est particulièrement marqué en faible volume de données, ce qui est précisément le régime courant en déploiement réel où les démonstrations sont coûteuses à collecter. Le contexte est celui d'une compétition intense autour des politiques de manipulation généralisable : OpenVLA, pi0 de Physical Intelligence, GR00T N2 de NVIDIA ou encore les travaux issus de RT-2/RT-X font tous le pari de l'imitation à grande échelle comme voie royale. Cette étude ne remet pas en cause ce paradigme, mais propose une correction ciblée, peu coûteuse à intégrer, sur le point précisément où les VLA actuels montrent leurs limites en production : la collision et la faisabilité cinématique. Aucun acteur commercial spécifique n'est impliqué ici, il s'agit d'une contribution académique, mais ses conclusions sont directement exploitables par les équipes d'intégration qui fine-tunent des VLA sur des postes de travail réels.

IA physiqueOpinion
1 source