Aller au contenu principal

Dossier arXiv cs.RO — page 13

1981 articles · page 13 sur 40

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

IsaacIPC : simulation haute fidélité et rendu réaliste couplés pour la robotique en contact
601arXiv cs.RO IA physiquePaper

IsaacIPC : simulation haute fidélité et rendu réaliste couplés pour la robotique en contact

Des chercheurs ont publié le 27 mai 2026 sur arXiv (référence 2605.24339) IsaacIPC, un framework de simulation robotique qui couple le moteur IPC (Incremental Potential Contact) accéléré GPU avec l'environnement IsaacSim/Lab de NVIDIA. Le coeur du système repose sur un mapping de déformation entre maillages de simulation et maillages de rendu, permettant un rendu visuel réaliste en temps réel pour des scénarios à contacts riches (manipulation déformable, préhension complexe). Les auteurs introduisent également le GMCP (Geometric Mortar Contact Potential), une nouvelle formulation de potentiel barrière appliquée aux surfaces tactiles pour résoudre les distributions pression-contact avec une précision supérieure aux approches existantes. Le framework est validé sur un robot quadrupède, une main dextre à doigts multiples et un préhenseur UMI (Universal Manipulation Interface). L'enjeu industriel est direct : la qualité des données de simulation conditionne la robustesse des politiques de manipulation entraînées en sim-to-real. IsaacIPC s'attaque au problème du rendu réaliste couplé à la physique du contact, un point de friction majeur pour l'entraînement de VLA (Vision-Language-Action models) et de politiques de manipulation fine. Une simulation visuellement fidèle réduit le domain gap sans recourir à la randomisation agressive, ce qui accélère le déploiement sur hardware réel. La précision tactile apportée par GMCP est particulièrement pertinente pour les intégrateurs travaillant sur l'assemblage ou la chirurgie assistée par robot. Le contexte scientifique est celui d'une compétition intense autour des simulateurs pour la robotique apprenante. IPC, initialement développé en infographie par Li et al. (2020), est reconnu pour sa robustesse aux contacts mais reste coûteux en calcul -- son intégration dans IsaacSim comble un écart entre fidelité physique et vitesse nécessaire à l'entraînement par reinforcement learning. En face, MuJoCo (DeepMind), Genesis et PhysX restent des références, mais peinent sur les déformables et la tactile. IsaacIPC reste à ce stade un preprint académique sans annonce de disponibilité publique dans Isaac Lab, mais son intégration dans l'écosystème NVIDIA ouvre une voie réaliste vers une adoption industrielle rapide si les benchmarks de contact tiennent à l'échelle.

UELes laboratoires européens travaillant sur la manipulation robotique apprenante (INRIA, DLR, ETH Zurich) pourraient bénéficier de cet outil si NVIDIA le rend public dans Isaac Lab, mais aucun impact direct ou immédiat sur la France/UE n'est identifié à ce stade.

1 source
Commande corpo-entière sûreté-critique pour robots humanoïdes via les barrières de contrôle entrée-état
602arXiv cs.RO 

Commande corpo-entière sûreté-critique pour robots humanoïdes via les barrières de contrôle entrée-état

Des chercheurs ont publié sur arXiv (référence 2605.25546) un framework hiérarchique de contrôle sécurisé corps entier pour robots humanoïdes, fondé sur les fonctions barrières robustes aux perturbations (ISSf-CBF, Input-to-State Safe Control Barrier Functions). L'architecture s'articule en trois couches : un contrôleur whole-body cinématique (KinWBC) qui génère des références articulaires à partir de tâches priorisées, un filtre ISSf-CBF qui les ajuste au minimum pour satisfaire les contraintes de sécurité sous perturbations bornées, et un contrôleur whole-body dynamique (DynWBC) qui garantit la faisabilité corps entier et la stabilité des contacts. Les contraintes couvertes incluent les limites articulaires, l'évitement d'auto-collision, l'évitement d'obstacles et les frontières du workspace. Validé en simulation et sur robot réel, le système a été testé dans trois scénarios : locomotion, téleopération et équilibre monopode avec contrôle simultané des mains. L'intérêt de l'approche tient à un problème fondamental en robotique humanoïde : les garanties de sécurité formelles s'effondrent dès qu'apparaît un écart entre le modèle de simulation et le comportement physique réel. Les CBFs classiques supposent un système parfaitement connu et deviennent fragiles face aux incertitudes de modèle, aux erreurs de suivi de trajectoire ou aux perturbations externes, précisément les conditions d'un environnement industriel. Les ISSf-CBFs étendent ce formalisme en admettant des perturbations bornées tout en maintenant des garanties formelles transférables du niveau cinématique vers la dynamique complète. Le filtre intervient de façon minimalement invasive, ne corrigeant les références nominales que lorsque nécessaire, ce qui préserve la performance globale. C'est une réponse directe au "demo-to-reality gap" structurellement reproché aux humanoïdes actuels, et un prérequis pour toute certification de robot collaboratif en environnement humain. Les Control Barrier Functions sont un outil bien établi en automatique, popularisé dans les années 2010 pour les véhicules autonomes et les bras robotiques. Leur extension aux ISSf-CBFs pour la robustesse aux perturbations est plus récente, et leur application à un humanoïde corps entier avec des dizaines de degrés de liberté, des contacts multiples et des dynamiques non linéaires représente un saut de complexité notable. Dans la course actuelle aux humanoïdes, les acteurs comme Figure, Boston Dynamics, Tesla (Optimus), Agility Robotics, Apptronik ou Unitree publient peu sur les garanties de sécurité formelles corps entier, un domaine resté majoritairement académique. Ce travail n'annonce pas de déploiement industriel, mais fournit une brique méthodologique directement applicable aux pipelines de validation et de certification des futurs robots collaboratifs.

UELes garanties de sécurité formelles apportées par ce framework sont directement pertinentes pour la certification des robots collaboratifs humanoïdes dans le cadre du Machinery Regulation et de l'AI Act européens.

RecherchePaper
1 source
RepSAM : adapter les modèles fondation à la vision robotique par guidage de représentation
603arXiv cs.RO 

RepSAM : adapter les modèles fondation à la vision robotique par guidage de représentation

Des chercheurs ont publié le 26 mai 2026 sur arXiv (2605.25495) RepSAM, un cadre d'adaptation à l'efficacité paramétrique (PEFT) conçu pour transférer les capacités de SAM (Segment Anything Model) vers la perception robotique en environnements non structurés. Le diagnostic de départ est précis : les couches superficielles du transformeur subissent un écart de représentation important entre données génériques et données robotiques (CKA inférieur à 0,7), tandis que les couches profondes restent stables (CKA supérieur à 0,7). RepSAM exploite cette asymétrie via une allocation de rang guidée par la CKA (Centered Kernel Alignment) pour concentrer les paramètres entraînables là où le décalage est effectivement significatif. Le résultat : 89,0 % de mIoU contre 90,9 % pour le fine-tuning complet, soit 97,9 % des performances, avec seulement 4,0 millions de paramètres entraînables sur 632 millions totaux, une réduction de 158 fois. L'entraînement tient en 4 heures sur un seul GPU A100, contre 384 heures-GPU pour le fine-tuning intégral, et surpasse DoRA de 7,9 points de mIoU sur six benchmarks. En manipulation robotique, le gain atteint 12 points absolus de taux de succès par rapport à la baseline LoRA RGB, avec une significativité statistique p inférieur à 0,01. L'enjeu industriel est direct : le gouffre entre les modèles de vision généralistes et les conditions réelles de la robotique (objets transparents, scènes encombrées, éclairage variable) reste l'un des principaux blocages pour les intégrateurs. RepSAM démontre qu'un adapter bien ciblé, informé par la structure interne du réseau plutôt qu'appliqué uniformément, peut quasiment égaler un fine-tuning complet à une fraction du coût de calcul. Pour un responsable technique déployant des bras manipulateurs ou des systèmes de picking, cela signifie qu'il devient réaliste d'adapter un modèle de fondation sur du matériel standard, sans infrastructure de calcul dédiée ni données massives. SAM, développé par Meta AI et publié en 2023, s'est imposé comme référence pour la segmentation zero-shot, mais ses performances se dégradent hors distribution, notamment en robotique industrielle. Les méthodes PEFT comme LoRA et DoRA avaient déjà tenté ce pont, avec des gains limités faute d'adaptation différenciée par couche. RepSAM s'inscrit dans la continuité de travaux sur l'analyse de représentation pour guider le fine-tuning (CKA comme outil de diagnostic, popularisé depuis 2019). La prochaine étape logique est la validation sur des robots réels en conditions industrielles ; l'article se limite pour l'instant à des benchmarks simulés et des tâches de manipulation contrôlées, ce qui laisse ouvert le sim-to-real gap à grande échelle.

UELes intégrateurs européens de bras manipulateurs et systèmes de picking pourraient adapter des modèles de vision fondation sur du matériel GPU standard, réduisant la barrière à l'IA perceptive sans infrastructure de calcul dédiée.

RechercheOpinion
1 source
Contrôle par échantillonnage en temps réel sous contraintes strictes : l'approche MPPI avec contraintes de variété
604arXiv cs.RO 

Contrôle par échantillonnage en temps réel sous contraintes strictes : l'approche MPPI avec contraintes de variété

Une équipe du RCI Lab publie MC-MPPI (Manifold-Constrained Model Predictive Path Integral), un framework de contrôle temps-réel déposé sur arXiv le 26 mai 2026 (arXiv:2605.24813). La méthode répond à une limitation structurelle du MPPI standard : l'impossibilité de garantir des contraintes d'égalité strictes (hard constraints) lors de tâches de manipulation en chaîne fermée. MC-MPPI sépare le problème en deux niveaux : une planification dans un espace latent de faible dimension, apprise par un VAE (Variational Autoencoder) qui encode la variété de contraintes, suivie d'une correction d'exécution par un contrôleur QP (Quadratic Programming) résolvant en un seul appel l'erreur résiduelle. Sur un système bi-bras à 14 degrés de liberté en chaîne fermée, le framework tourne à 100 Hz aussi bien en simulation qu'en conditions réelles, et surpasse significativement les méthodes de référence en précision de suivi de trajectoire. Le verrou adressé est structurel : les pénalités de coût douces du MPPI standard ne garantissent pas la faisabilité des trajectoires candidates, rendant la méthode inapplicable à la manipulation bimanuelle contrainte, aux systèmes à deux points de contact rigide, ou à toute chaîne cinématique fermée. MC-MPPI conserve le parallélisme massif qui rend MPPI attractif : le VAE génère des trajectoires quasi-faisables sans modification par échantillon, permettant une linéarisation précise des contraintes et réduisant la correction d'exécution à un QP résolu en un seul passage au lieu d'une projection itérative coûteuse. Pour un intégrateur ou un responsable technique industriel, cela ouvre MPPI à des tâches d'assemblage et de manipulation précise jusqu'ici réservées aux solveurs par optimisation itérative comme iLQR ou SQP. MPPI est une méthode de contrôle prédictif par échantillonnage stochastique, introduite par Williams et al. à Georgia Tech en 2016 et depuis adoptée en navigation robotique et pour les systèmes sous-actionnés. Les extensions contraintes existantes recourent à des projections itératives coûteuses ou à des reformulations variationnelles qui dégradent la fréquence de contrôle. MC-MPPI se distingue en apprenant la géométrie de contrainte hors-ligne via le VAE, limitant la charge en ligne au seul QP. Les approches concurrentes incluent les méthodes CBF-QP (Control Barrier Function), le MPC différentiable, et les planificateurs neuronaux pour la manipulation bimanuelle. L'équipe met à disposition vidéos et implémentation à rcilab.github.io/mcmppi ; des validations sur des configurations plus complexes ou des manipulateurs mobiles constitueraient des étapes naturelles.

RecherchePaper
1 source
Accessibilité différentiable parallèle pour l'apprentissage et la planification avec dynamiques neuronales et contrôleurs certifiés
605arXiv cs.RO 

Accessibilité différentiable parallèle pour l'apprentissage et la planification avec dynamiques neuronales et contrôleurs certifiés

Une équipe de recherche a publié en mai 2026 (arXiv:2605.25346) un cadre de vérification formelle parallélisable et différentiable pour systèmes robotiques pilotés par réseaux de neurones (NN). Implémenté en JAX pour exploiter le calcul GPU-batché, le framework combine la construction de "flowpipes" par modèles de Taylor avec la propagation de bornes linéaires de type CROWN, une technique issue de la vérification des NN adversariaux. Le résultat est une représentation unifiée qui préserve les dépendances affines tout en supportant la différentiation automatique. Sur cette base, les auteurs proposent deux applications concrètes : une méthode d'entraînement certifié qui pousse les modèles NN à produire des dynamiques "reachability-friendly", et un schéma de commande prédictive (MPC) combinant échantillonnage et raffinement par gradient. Les expériences couvrent la manipulation non préhensile (objets poussés sans saisie) et des drones quadrotors, avec des évaluations hardware et des systèmes allant jusqu'à 72 dimensions d'état. Le problème central que ce travail adresse est le fossé entre performance des NN et garanties formelles de sécurité : les outils de "reachability" existants (NNV, Veritex, CROWN-reach) produisent des sur-approximations valides des ensembles atteignables, mais sont trop lents pour être intégrés dans une boucle d'apprentissage ou de planification en ligne, et rarement différentiables. Rendre ce calcul GPU-compatible et différentiable ouvre la voie à une co-optimisation contrôleur/garantie, ce qui change la logique de déploiement : au lieu de vérifier après entraînement (post-hoc, coûteux), on certifie pendant l'entraînement. Pour les intégrateurs industriels et les équipes robotique, c'est un pas vers des robots NN-pilotés qui satisfont des contraintes de sécurité hard sans sacrifier la performance apprise. La vérification formelle pour les NN en robotique est un axe de recherche actif depuis 2018, porté notamment par les travaux CROWN (Zhang et al.), qui ciblaient initialement la robustesse adversariale en vision. L'extension à la dynamique continue et aux boucles fermées reste un problème ouvert, avec des groupes concurrents chez MIT, CMU et DeepMind. Ce preprint positionne JAX comme plateforme centrale pour ce type de pipeline hybride apprentissage/vérification, une tendance émergente face à PyTorch. Les prochaines étapes probables incluent des tests sur manipulateurs industriels à plus haute dimensionnalité et l'intégration dans des frameworks MPC embarqués.

UELa certification embarquée dans la boucle d'entraînement s'aligne directement avec les exigences de vérifiabilité formelle de l'AI Act pour les systèmes IA à haut risque (dont les robots industriels et autonomes), réduisant le coût de mise en conformité pour les équipes R&D européennes.

RecherchePaper
1 source
Comprendre les défaillances multimodales dans le clonage comportemental par découpage d'actions
606arXiv cs.RO 

Comprendre les défaillances multimodales dans le clonage comportemental par découpage d'actions

Déposée sur arXiv le 22 mai 2026 (arXiv:2605.22493), une étude analyse les mécanismes d'échec du behavioral cloning (apprentissage par imitation) lorsqu'une même observation admet plusieurs actions valides, un cas fréquent en manipulation robotique. Les auteurs se concentrent sur les politiques à action-chunking, qui prédisent des séquences d'actions futures plutôt qu'une action isolée, et distinguent deux familles d'architectures : les politiques à variable latente de type VAE (dont ACT, Action Chunking with Transformers) et les politiques génératives en espace d'action (dont les politiques de diffusion comme Diffusion Policy). Pour les premières, la régularisation posterior-prior (terme KL dans un VAE) crée un compromis difficile : une régularisation forte stabilise l'échantillonnage au déploiement mais efface l'information permettant de distinguer les modes démontrés ; une régularisation faible préserve cette information mais expose à une couverture insuffisante par le prior. Pour les politiques génératives, les auteurs montrent que la multimodalité est bornée par la constante de Lipschitz du transport entre espace de base et espace d'action : une carte lisse ne peut pas distribuer de probabilité substantielle sur plusieurs modes bien séparés sans introduire des transitions brutales dans l'espace de base ou des régions de pont hors support en espace d'action. Ces mécanismes sont validés sur des tâches synthétiques multimodales et des benchmarks de simulation robotique. Ces résultats donnent aux équipes déployant des politiques d'imitation une grille de diagnostic concrète. En manipulation industrielle, où un préhenseur peut légitimement atteindre un objet depuis plusieurs angles, comprendre pourquoi un modèle s'effondre sur certains modes est directement actionnable : le coefficient bêta d'un VAE de type ACT, souvent ajusté empiriquement par tâtonnement, dispose maintenant d'une interprétation formelle. Pour les politiques de diffusion, la contrainte de Lipschitz suggère que la capacité à couvrir plusieurs modes dépend de l'expressivité du réseau de transport, avec un compromis explicite entre lissage et richesse modale. C'est un verrou théorique central pour le déploiement en production, où les observations ambiguës sont la règle plutôt que l'exception. L'apprentissage par imitation connaît un regain d'intérêt majeur depuis 2023, porté par ACT et Diffusion Policy, puis par des architectures plus récentes comme pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), aujourd'hui au coeur des pipelines d'entraînement des robots humanoïdes chez Figure AI, 1X et Agility Robotics. Malgré leurs succès en démonstration, la multimodalité reste l'un des verrous majeurs du sim-to-real et du passage en production à grande échelle. Cette étude, de nature purement théorique, ne propose pas d'architecture clé en main, mais son cadre analytique devrait orienter les prochains choix de conception et les stratégies de collecte de données pour les tâches à haute ambiguïté gestuelle.

RecherchePaper
1 source
TimeRewarder : apprendre des récompenses denses à partir de vidéos passives via la distance temporelle entre images
607arXiv cs.RO 

TimeRewarder : apprendre des récompenses denses à partir de vidéos passives via la distance temporelle entre images

Une équipe de chercheurs a publié sur arXiv (arXiv:2509.26627) une méthode baptisée TimeRewarder, conçue pour automatiser la conception de récompenses denses dans l'apprentissage par renforcement (RL) appliqué à la robotique. L'approche repose sur une idée simple : estimer la progression d'une tâche en mesurant la distance temporelle entre paires de frames extraites de vidéos passives, c'est-à-dire des démonstrations de robots ou des vidéos de comportements humains, sans interaction active avec l'environnement. Ces distances servent de signal de récompense proxy, étape par étape, pour guider l'agent RL. Sur dix tâches du benchmark Meta-World, reconnu pour sa difficulté, TimeRewarder atteint un taux de succès quasi-parfait sur neuf d'entre elles, avec seulement 200 000 interactions par tâche. La méthode surpasse non seulement les approches antérieures de reward learning, mais également les récompenses denses conçues manuellement par des experts, tant en taux de succès final qu'en efficacité d'échantillonnage. Ce résultat a une portée directe pour quiconque déploie du RL en robotique industrielle ou en manipulation : la conception de récompenses denses représente aujourd'hui l'un des goulets d'étranglement les plus coûteux en temps ingénieur. Qu'une méthode vidéo-passive batte le signal dense artisanal sur Meta-World soulève une hypothèse sérieuse : le gap entre démonstration passive et signal d'apprentissage serait moins insurmontable qu'anticipé, à condition de modéliser correctement la progression temporelle. La scalabilité est également notable : TimeRewarder fonctionne avec des vidéos humaines réelles, ce qui ouvre la voie à l'exploitation de corpus vidéo génériques pour pré-entraîner des fonctions de récompense transférables, sans captation robotique spécialisée. Le problème du reward shaping en RL est structurel depuis les travaux fondateurs sur la politique de récompense inverse (IRL) et ses dérivés comme GAIL ou T-REX. TimeRewarder se distingue de ces approches en évitant l'inférence explicite d'une politique de l'expert : il se contente d'ordonner temporellement les états, ce qui est computationnellement plus léger et moins sensible à la qualité des démonstrations. Les concurrents directs incluent VADER, RoboCLIP et les méthodes fondées sur des VLMs comme S3 ou Vid2Rew. La prochaine étape critique sera le passage à des environnements réels (sim-to-real), Meta-World restant un benchmark simulé, et l'extension à des horizons de tâches longues où la distance temporelle devient moins discriminante.

RecherchePaper
1 source
Du contact balayé à la pose : recalage adapté à la sonde par ancrage de formes complémentaires
608arXiv cs.RO 

Du contact balayé à la pose : recalage adapté à la sonde par ancrage de formes complémentaires

Des chercheurs proposent sur arXiv (2605.21398) une méthode de recalage sans calibration pour la manipulation robotique de précision, baptisée "complementary-shape docking", qui reformule le recalage modèle-scène comme un accouplement géométrique complémentaire entre l'objet cible et le volume balayé par la sonde de contact (probe swept volume), en exploitant à la fois les zones de contact effectif et de non-contact. Le pipeline intègre une recherche globale par corrélation 3D FFT sur des échantillons SO(3) à faible discrépance, suivie d'un raffinement continu en SE(3) via des mises à jour dans l'algèbre de Lie et des sensibilités analytiques au contact. En simulation sur des maillages à géométrie libre, la méthode atteint moins de 0,04 mm en translation et moins de 0,4 degré en rotation, robuste aux bruits de pose et aux pertes de contact partiel. Validée sur un robot de préparation dentaire en conditions réelles, elle rapporte 0,42 mm et 3,75 degrés, surpassant un tracker optique de référence sans aucun capteur externe. Pour les intégrateurs industriels et chirurgicaux, l'enjeu est concret : les méthodes optiques imposent des chaînes de calibration longues, des contraintes de visibilité directe (line-of-sight) et accumulent des erreurs liées aux tolérances de fabrication. Un recalage purement tactile et géométrique supprime ces dépendances sans dégrader la précision métrique, ouvrant la voie à des déploiements en environnements encombrés, stériles ou à faible éclairage. La validation sur robot dentaire physique atténue le sim-to-real gap habituellement invoqué pour nuancer les publications arXiv de ce type. Concrètement, cela se traduit par un setup allégé, moins de matériel propriétaire et une intégration facilitée sur des cellules robotiques existantes. Le recalage modèle-scène est un problème central depuis les premières formulations d'ICP (Iterative Closest Point) dans les années 1990, méthodes historiquement limitées par les minima locaux et la sensibilité à l'initialisation. Cette publication s'inscrit dans une tendance à éliminer les capteurs dédiés, en alternative complémentaire aux approches VLA (Vision-Language-Action) qui misent sur la perception visuelle. Les débouchés naturels touchent la chirurgie robotique (Intuitive Surgical, CMR Surgical en Europe), l'usinage de précision et les bras industriels à haute tolérance (KUKA, Stäubli). Aucune commercialisation ni partenariat industriel n'est annoncé dans la publication, qui reste une contribution académique avec prototype fonctionnel, sans timeline de transfert précisée.

UECMR Surgical (Europe) et des intégrateurs comme KUKA et Stäubli pourraient bénéficier de cette méthode de recalage sans capteurs optiques, simplifiant les déploiements en environnements chirurgicaux et industriels contraints.

RecherchePaper
1 source
Amélioration du SLAM par graphes en environnement sans GNSS grâce à l'odométrie des jambes
609arXiv cs.RO 

Amélioration du SLAM par graphes en environnement sans GNSS grâce à l'odométrie des jambes

Des chercheurs ont publié sur arXiv (2605.20484) une architecture de graphe de facteurs qui améliore significativement la précision verticale du SLAM LiDAR-inertiel pour robots à pattes en environnement sans GNSS. Le système augmente le framework LIO-SAM avec une voie cinématique parallèle, alimentée par l'odométrie proprioceptive des jambes, couplée à la voie LiDAR-inertielle principale via une contrainte de pose relative avec modèle de bruit sélectif. Testé sur un quadrupède Linxai D50 lors de deux boucles extérieures totalisant plus d'un kilomètre, l'approche réduit la dérive en élévation de plus de 30 mètres à moins de 30 centimètres, soit une réduction de deux ordres de grandeur. Sur un scénario où le pipeline de référence échoue complètement à converger, la méthode proposée maintient la localisation. Ce résultat est significatif parce qu'il exploite une source de données déjà disponible à bord, calculée pour le contrôle de la locomotion, sans capteur supplémentaire. Le problème de la dérive verticale du LiDAR est bien documenté dans les environnements géométriquement pauvres ou répétitifs (couloirs, forêts, parkings), où les points de correspondance sont insuffisants pour contraindre l'axe Z. Utiliser l'odométrie des pattes comme ancre verticale légère est une approche pragmatique : elle s'insère dans les pipelines existants sans reconfiguration hardware, ce qui en facilite le déploiement sur des plateformes commerciales comme Unitree, Boston Dynamics Spot, ou ANYmal. Pour les intégrateurs et les équipes déployant des robots en inspection industrielle ou en environnements souterrains, c'est une piste concrète pour améliorer la robustesse SLAM sans surcoût matériel. LIO-SAM est un framework SLAM LiDAR-inertiel développé par Ji Zhang et Sanjiv Singh (Carnegie Mellon), largement adopté dans la communauté robotique depuis 2020, notamment pour les robots terrestres et aériens. Le couplage proprioception-SLAM n'est pas nouveau en théorie, mais son intégration efficace dans un graphe de facteurs en conditions réelles reste un sujet actif. Côté concurrence, les approches actuelles s'appuient généralement sur la fusion IMU renforcée (LOAM, LEGO-LOAM) ou l'ajout de capteurs barométriques pour corriger la dérive verticale. La prochaine étape naturelle serait de tester l'approche sur des terrains avec dénivelé marqué, et d'évaluer la robustesse face aux glissements de pattes, cas limite non abordé dans cette version préliminaire.

RecherchePaper
1 source
EllipseLIO : odométrie inertielle LiDAR adaptative par représentation ellipsoïdale
610arXiv cs.RO 

EllipseLIO : odométrie inertielle LiDAR adaptative par représentation ellipsoïdale

Des chercheurs de l'Université de Chypre (laboratoire v4rl-ucy) ont publié sur arXiv (preprint 2605.21150, mai 2026) un système d'odométrie inertielle LiDAR baptisé EllipseLIO, conçu pour fonctionner en temps réel sans calibration manuelle selon les scenarios. L'approche repose sur une représentation par ellipsoïdes pour le filtrage et le recalage des nuages de points LiDAR, lui permettant de s'adapter automatiquement aux capacités du capteur et à la géométrie de l'environnement. Évalué sur cinq jeux de données couvrant des scénarios variés et difficiles (environnements intérieurs/extérieurs, capteurs hétérogènes), EllipseLIO affiche une erreur d'odométrie inférieure de 38 % en moyenne par rapport à la deuxième meilleure approche testée. Il est également le seul système parmi tous les concurrents évalués à ne diverger dans aucune expérience. Le code sera publié en open source à l'adresse github.com/v4rl-ucy/ellipselio. La portée pratique de ce résultat est significative pour les intégrateurs de robots mobiles autonomes opérant en environnements GPS-dégradés ou GPS-absents (entrepôts, mines, bâtiments industriels, espaces souterrains). Le verrou actuel de la LIO est précisément la nécessité de re-tuner les paramètres à chaque changement de plateforme ou de site, ce qui freine le déploiement à grande échelle sur des flottes multi-capteurs. EllipseLIO casse ce paradigme en éliminant l'intervention humaine entre scenarios, ce qui est une promesse forte, même si les résultats restent à confirmer hors des cinq datasets retenus. L'absence de divergence sur l'ensemble des expériences est la métrique la plus solide présentée : c'est la robustesse, et non la précision seule, qui conditionne l'exploitabilité industrielle d'un système de localisation. La LIO est un sous-domaine mature de la SLAM (Simultaneous Localization and Mapping), avec des approches de référence comme FAST-LIO2 (Université de Hong Kong), LIO-SAM (MIT), ou encore LOAM. Ces systèmes offrent d'excellentes performances dans leurs conditions nominales mais nécessitent un tuning expert dès que le LiDAR ou l'environnement change. EllipseLIO s'inscrit dans une tendance récente vers des pipelines auto-adaptatifs, parallèlement aux approches d'apprentissage profond pour la localisation (ex. : travaux de Cartographer ou des équipes DeepMind/Google sur la localisation neuronale). Il convient de noter qu'EllipseLIO est pour l'instant un preprint non encore soumis à peer review, et que les benchmarks retenus conditionnent fortement les conclusions : une validation indépendante sur des datasets publics standards (MulRan, Hilti, KITTI-360) sera nécessaire pour consolider les affirmations. La mise en open source annoncée permettra à la communauté de reproduire et d'étendre ces évaluations.

UEL'Université de Chypre (institution UE) porte cette avancée en localisation autonome adaptative, susceptible de bénéficier aux intégrateurs européens de robots mobiles en environnements GPS-dégradés dès la mise en open source du code.

RecherchePaper
1 source
Attention par transport optimal spatio-temporel pour l'apprentissage par imitation visuo-tactile de manipulations avec contact
611arXiv cs.RO 

Attention par transport optimal spatio-temporel pour l'apprentissage par imitation visuo-tactile de manipulations avec contact

Des chercheurs ont soumis sur arXiv SO-TA (Spacetime Optimal-Transport Attention, réf. 2605.20433), une architecture d'apprentissage par imitation pour la manipulation robotique à contact serré, validée sur trois tâches : insertion peg-in-hole à faible jeu, emmanchement de connecteurs BCM et effacement de marquages sur surfaces courbes. SO-TA fusionne trois modalités en simultané (vision, force/couple F/T et proprioception) via un mécanisme d'attention fondé sur le transport optimal (OT) à entropie régularisée, remplaçant l'attention softmax classique. Les contraintes marginales OT distribuent les masses d'attention entre patches visuels et sous-requêtes dérivées des données force-pose, agissant comme biais inductif structuré pour les phases de contact. La politique de contrôle est un modèle de diffusion séquentiel mappant des fenêtres d'observation en séquences d'actions de pose. Évaluée sur robot réel avec environ 200 trajectoires par condition, SO-TA atteint 100 % de succès sur le peg-in-hole serré (contre 93 % pour l'attention croisée classique) et maintient 82,5 % de succès sous perturbations réalistes (éclairage variable, distracteurs, occlusion partielle), là où une baseline par concaténation chute à 43,5 %. L'écart 82,5 % contre 43,5 % sous perturbations est le résultat structurant pour les intégrateurs industriels : il signifie qu'une politique de manipulation reste opérationnelle dans un atelier aux conditions fluctuantes, sans recalibration constante. L'usage du transport optimal impose une répartition spatiale contrôlée de l'attention, évitant la dispersion caractéristique des softmax sur des scènes encombrées. Pour la recherche, 200 rollouts suffisent à valider l'approche, soulignant l'efficacité des biais inductifs structurés face à la rareté des données de démonstration. La fusion tri-modale confirme qu'aucune modalité seule ne suffit pour piloter les phases de contact à fortes contraintes cinématiques, argument clé dans le débat sim-to-real des politiques VLA (Vision-Language-Action). La manipulation par contact représente un verrou historique du contrôle robotique, où les incertitudes géométriques et les dynamiques de frottement ont longtemps limité les méthodes analytiques. L'imitation learning bi-modale (vision + force) s'est développée depuis le début des années 2020, sans mécanisme d'attention dédié au contact discontinu. SO-TA s'inscrit dans un espace concurrentiel dense : ACT et Diffusion Policy (UMass/MIT) dominent les benchmarks de manipulation fine depuis 2023, et Physical Intelligence (Pi-0) explore la fusion multimodale à plus grande échelle. En Europe, des équipes comme celles de l'INRIA et du DLR travaillent sur des problématiques voisines. La prochaine étape logique serait de valider SO-TA sur un éventail plus large de tâches industrielles, avec des volumes de données plus importants pour confirmer la tenue à l'échelle.

UELes équipes de l'INRIA et du DLR, actives sur la manipulation à contact, peuvent s'appuyer sur SO-TA comme référence méthodologique pour leurs propres architectures d'imitation learning multimodale.

RechercheOpinion
1 source
VLANeXt : recettes pour construire des modèles VLA performants
612arXiv cs.RO 

VLANeXt : recettes pour construire des modèles VLA performants

Une équipe de chercheurs a publié VLANeXt, un modèle Vision-Language-Action (VLA) qui surpasse l'état de l'art sur les benchmarks LIBERO et LIBERO-plus, deux références standards pour l'évaluation de politiques robotiques généralisables. Le papier (arXiv 2602.18532v2), loin de se limiter à une nouvelle architecture, repose sur une étude systématique de l'espace de conception des VLA, structurée en trois axes: les composants fondamentaux, les éléments de perception, et la modélisation des actions. Partant d'une baseline inspirée de RT-2, les auteurs identifient 12 résultats clés formant une recette reproductible pour construire des modèles VLA performants. Le code est publié en open source sur GitHub pour permettre à d'autres équipes de reproduire les expériences et d'itérer sur cette base commune. L'apport principal de ce travail n'est pas le modèle lui-même, mais la méthode. Le domaine des VLA souffre d'un problème structurel: chaque groupe publie son propre modèle avec des protocoles d'entraînement et des setups d'évaluation incompatibles, rendant toute comparaison rigoureuse impossible. VLANeXt impose un cadre unifié qui permet enfin d'isoler quelles décisions de conception ont un effet mesurable sur les performances. Pour les équipes R&D travaillant sur des politiques robotiques généralisables, les 12 findings donnent des règles pratiques sur le choix du backbone VLM, le traitement des entrées visuelles et la tête de prédiction d'actions. La validation en conditions réelles renforce la crédibilité des résultats, même si les détails des expériences physiques restent parcellaires dans l'abstract. Les VLA émergent de la convergence entre grands modèles multimodaux et robotique incarnée. RT-2 (Google DeepMind, 2023) a été le précurseur, montrant qu'un VLM pré-entraîné pouvait piloter un robot réel après fine-tuning. Une vague de travaux a suivi: pi-0 (Physical Intelligence), OpenVLA, Octo, RoboFlamingo. Face à cette prolifération, VLANeXt propose un point de stabilisation méthodologique plutôt qu'une course aux performances brutes. Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'un travail académique dont la valeur tient à la rigueur comparative. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus exigeants comme BridgeV2 ou DROID, et une adoption par des équipes travaillant sur des plateformes physiques commerciales.

IA physiqueOpinion
1 source
Sélectionner ou ne pas sélectionner : distillation de la prédiction de compétences robotiques en petit ensemble
613arXiv cs.RO 

Sélectionner ou ne pas sélectionner : distillation de la prédiction de compétences robotiques en petit ensemble

Une équipe de chercheurs publie en mai 2026 un preprint (arXiv:2605.21242) portant sur la prédiction automatique de compétences robotiques dans les flottes hétérogènes. À partir d'une description de tâche en langage naturel, le système identifie quelles capacités physiques sont requises parmi six catégories: vol, roues, pattes, navigation en surface aquatique, navigation sous-marine et manipulation avec mains. Faute de données labellisées existantes pour ce mapping, les auteurs ont construit un dataset synthétique via génération assistée par LLM et audit ciblé des étiquettes. Un ensemble de deux encodeurs de phrases fine-tunés (mpnet + MiniLM, environ 133 millions de paramètres au total) atteint 83,5 % de précision sur un jeu de test stratifié de 200 tâches, dépassant Kimi K2 (1 000 milliards de paramètres, architecture MoE) à 72,0 %, GPT-OSS-120B à 71,5 %, et Llama-4-Scout-17B à 69,0 %, tous évalués en zero-shot avec le même prompt. Ce résultat expose une asymétrie opérationnelle significative: un modèle de 133 millions de paramètres déployable localement surclasse des LLMs un millier de fois plus volumineux sur une tâche de routage de flotte. Pour les intégrateurs gérant des flottes mixtes (humanoïdes, quadrupèdes, drones, rovers), l'assignation automatique de la bonne plateforme à la bonne tâche reste un problème non résolu en production. Une limite mérite d'être soulignée: le jeu d'évaluation de 200 tâches synthétiques a été produit par les auteurs eux-mêmes, ce qui appelle une validation indépendante sur des scénarios réels avant de tirer des conclusions définitives. La gestion de flottes robotiques hétérogènes s'est intensifiée avec la multiplication des plateformes commerciales (Boston Dynamics Spot, Unitree B2, humanoïdes Figure ou Agility Digit, drones industriels), et les approches actuelles de routage reposent encore sur des règles manuelles peu scalables. Les auteurs s'inscrivent dans la tendance de distillation de capacités LLM vers des modèles compacts (famille SetFit, sentence-transformers), appliquée ici pour la première fois à la sélection de plateforme robotique. Ce preprint ne mentionne ni déploiement terrain ni partenariat industriel, mais l'utilisation de mpnet et MiniLM, disponibles en open-source sur Hugging Face, abaisse la barrière à une validation industrielle rapide.

RecherchePaper
1 source
Gouverneur de référence explicite pour manipulateurs robotiques souples et adaptés au contact
614arXiv cs.RO 

Gouverneur de référence explicite pour manipulateurs robotiques souples et adaptés au contact

Des chercheurs présentent dans un preprint arXiv (2504.09188v2) le Compliant Explicit Reference Governor (CERG), un module logiciel intercalé entre le planificateur de haut niveau et le contrôleur bas niveau d'un bras robotique. Son rôle est de filtrer les références de position et de vitesse pour garantir, formellement, que l'énergie disponible lors d'un contact physique reste sous un seuil de sécurité prédéfini. Le système a été validé en simulation et sur hardware réel, sur des manipulateurs de complexité croissante, bien que le preprint ne précise pas les degrés de liberté (DOF) ni les charges utiles (payload) testés. Ce qui distingue le CERG des approches classiques de contrôle en impédance ou en force, c'est son caractère non pénalisant hors contact : le module ne restreint les performances du bras que lorsqu'un contact est imminent ou actif, laissant la dynamique nominale intacte en mouvement libre. Les garanties sont formelles, pas seulement empiriques, ce qui représente un argument fort pour les intégrateurs de cobots soumis aux exigences de certification ISO/TS 15066. Cela répond directement à un angle mort du secteur : la plupart des systèmes actuels sacrifient vitesse ou précision de façon permanente pour rester sous les seuils de force réglementaires. Le gouverneur de référence est une technique établie en automatique, ici adaptée au cas contact en robotique de manipulation. Le positionnement se fait face aux approches d'impédance variable (travaux de De Luca, Albu-Schäffer) et aux méthodes d'apprentissage par renforcement pour la manipulation en contact. Aucun partenaire industriel ni timeline de transfert n'est mentionné dans le preprint, ce qui situe le CERG au stade de la recherche fondamentale, sans déploiement annoncé.

UELes garanties formelles de conformité ISO/TS 15066 intéressent directement les intégrateurs de cobots européens, mais le CERG reste au stade du preprint sans partenaire industriel ni transfert technologique annoncé.

RecherchePaper
1 source
COBALT : apprentissage robotique collaboratif par téléopération cloud via smartphones
615arXiv cs.RO 

COBALT : apprentissage robotique collaboratif par téléopération cloud via smartphones

Des chercheurs ont publié sur arXiv (2605.19138) COBALT, une plateforme de télé-opération robotique cloud conçue pour collecter massivement des données de démonstration via des appareils grand public, smartphones, casques VR, souris 3D ou clavier. L'infrastructure repose sur des environnements vectorisés et un équilibrage de charge permettant à plusieurs utilisateurs de téléopérer simultanément sur un seul GPU, avec une latence bout-en-bout inférieure à 100 ms et une fréquence de contrôle de 20 Hz pour jusqu'à 8 utilisateurs par GPU. La montée en charge a été validée jusqu'à 256 clients simulés répartis sur 8 GPUs. En cinq jours, et depuis neuf pays, COBALT a permis de constituer un jeu de données pilote de plus de 7 500 démonstrations, soit plus de 50 heures de manipulation enregistrées. Un système de métriques en temps réel filtre automatiquement les démonstrations de mauvaise qualité, et un curriculum de formation des opérateurs améliore significativement la qualité des données collectées. L'intérêt majeur de ce travail réside dans l'attaque frontale du goulot d'étranglement principal du robot learning par imitation : la rareté des données de haute qualité à grande échelle. Les approches comme ACT, Diffusion Policy ou Pi-0 (Physical Intelligence) ont démontré que l'apprentissage par imitation fonctionne, mais leur passage à l'échelle bute sur le coût et la logistique de la collecte. COBALT démontre que la télé-opération par smartphone est comparable, parfois supérieure, au matériel spécialisé type ALOHA ou bras haptiques, ce qui élimine une barrière d'entrée majeure. Pour les intégrateurs et les équipes R&D industrielles, cela ouvre la voie à une collecte distribuée sans infrastructure physique dédiée, potentiellement transformatrice pour le coût de développement de politiques de manipulation. Le projet s'inscrit dans une dynamique plus large de constitution de grands jeux de données robotiques ouverts, comparable à Open-X Embodiment (Google DeepMind, 2023) ou au dataset DROID (Berkeley, Stanford). Les concurrents directs incluent l'initiative AgiBot World en Chine, qui a annoncé 1 million de trajectoires collectées via des bras téléopérés dédiés, et Universal Manipulation Interface (UMI) qui mise sur des dispositifs portables. COBALT se distingue par l'accessibilité des équipements et la scalabilité cloud, mais reste à ce stade un preprint académique sans déploiement industriel annoncé. La prochaine étape crédible est la validation sur des tâches réelles de manipulation, les auteurs ayant pour l'instant publié les résultats de politiques entraînées sur ce dataset sans préciser les benchmarks atteints.

UELes équipes R&D françaises et européennes (INRIA, CEA-List, startups robot learning) pourraient exploiter COBALT pour collecter des données de démonstration à faible coût sans infrastructure physique dédiée, mais aucune institution européenne n'est impliquée dans ce projet.

IA physiqueOpinion
1 source
CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes
616arXiv cs.RO 

CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes

CEER (Compliant End-Effector and Root Control) est une abstraction de contrôle pour robots humanoïdes présentée sur arXiv en mai 2026 (arXiv:2605.19981). L'approche résout un problème d'interfaçage central: connecter des planificateurs hétérogènes (téleopération, modèles de langage, VLA) à un contrôleur corps entier sans réentraînement à chaque nouvelle tâche. La solution repose sur deux types de commandes unifiées: les poses cibles de l'effecteur terminal (end-effector) et les commandes de déplacement de la racine (root, soit le torse de l'humanoïde). Un framework enseignant-étudiant distille un contrôleur générique en une politique bas niveau consommant uniquement ces commandes EE-root. Les résultats expérimentaux, conduits en simulation et sur matériel réel, affichent une précision de suivi à 3,3 cm, une réduction substantielle du jerk mécanique par rapport aux baselines, et un taux de succès jusqu'à 70% sur des tâches de loco-manipulation d'objet unique dans un environnement à l'échelle d'une pièce. La manipulation au contact riche (contact-rich manipulation) reste le principal goulot d'étranglement des humanoïdes: saisir des objets en positions variées, pousser des pièces dans des logements, interagir avec des surfaces non structurées. CEER apporte une réponse architecturale plutôt qu'algorithmique: une couche de contrôle compliant (souple au contact, à l'inverse du contrôle rigide en position) que n'importe quel planificateur peut piloter en plug-and-play. Pour un intégrateur industriel ou un OEM, l'argument est concret: la politique bas niveau ne nécessite pas de réentraînement à chaque nouvelle application. C'est précisément la modularité qui manque aux approches bout-en-bout dominantes. La compliance réduit également les risques de dommages en cas de contact imprévu, prérequis pour tout déploiement en environnement humain. La manipulation reste le défi non résolu des humanoïdes commerciaux. Figure Robotics, Tesla (Optimus), Agility Robotics (Digit) et 1X Technologies avancent avec des pipelines souvent propriétaires, dominés par l'imitation learning et la téleopération. Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) misent sur les VLA pour généraliser la manipulation depuis des données multimodales. CEER se positionne comme une couche orthogonale: non pas un nouveau planificateur, mais un socle de contrôle interopérable avec les approches existantes. La validation sur hardware distingue ce travail des publications purement simulées, même si les 70% de succès sur tâche unique en simulation demeurent une métrique circonscrite. Les prochaines étapes naturelles incluent l'intégration avec des planificateurs LLM ou VLA et la validation sur des tâches bi-manuelles et à horizon long.

IA physiquePaper
1 source
LLMs incarnés : quand une meilleure fidélité d'observation nuit à la résolution de problèmes
617arXiv cs.RO 

LLMs incarnés : quand une meilleure fidélité d'observation nuit à la résolution de problèmes

Une équipe de chercheurs présente sur arXiv (réf. 2605.20072) une étude empirique sur le comportement des LLM incarnés en robotique. Pour sonder l'effet de la fidélité perceptuelle sur les agents cognitifs, ils ont conçu une série d'expériences autour du "Lockbox", un puzzle mécanique séquentiel aux interdépendances cachées, déployé sur un robot physique. Trois modes d'observation ont été testés : RGB brut, RGB-D (avec profondeur), et observations symboliques ground-truth (état parfaitement connu de l'environnement). Le résultat est contre-intuitif : les agents obtiennent leurs meilleures performances avec le RGB brut et leurs pires avec les observations parfaites. En simulation, les chercheurs ont consolidé ce constat en injectant du bruit artificiel, en inversant aléatoirement les résultats des actions perçues par l'agent. La performance culmine à un taux d'inversion de 40%, avec une multiplication du taux de réussite par 2,85 par rapport à la baseline sans bruit. Ce résultat interroge directement un postulat central de la robotique cognitive : l'idée qu'une perception plus précise améliore mécaniquement la prise de décision. L'analyse des trajectoires d'actions révèle que le gain provient d'une réduction des boucles répétitives : un agent qui perçoit l'état du monde avec précision peut se bloquer dans un raisonnement circulaire, faute de signal lui indiquant de changer de stratégie. Un bruit perceptuel modéré brise ces boucles en forçant l'agent à reconsidérer ses hypothèses. Cette observation soulève une question sérieuse pour les pipelines VLA (Vision-Language-Action) actuels, où la précision des capteurs et la richesse des représentations symboliques sont présentées comme des leviers d'amélioration inconditionnels. Les auteurs tirent une conclusion méthodologique forte : les taux de réussite seuls sont insuffisants pour évaluer les LLM dans des tâches incarnées, car une performance mesurée peut refléter une interaction fortuite entre erreurs perceptuelles et défauts de raisonnement, plutôt qu'une résolution robuste. Cette mise en garde arrive à un moment où Figure, 1X, Agility Robotics et Boston Dynamics intègrent des LLM comme planificateurs de haut niveau dans leurs humanoïdes, souvent évalués sur des benchmarks de tâches simples en environnement contrôlé. L'approche "empirical AI" adoptée ici, qui consiste à varier systématiquement les entrées et mesurer les effets comportementaux, offre un cadre d'évaluation plus rigoureux que les métriques agrégées habituelles.

RecherchePaper
1 source
Je ne suis pas en colère, juste concentré : comprendre les émotions humaines dans la collaboration humain-robot
618arXiv cs.RO 

Je ne suis pas en colère, juste concentré : comprendre les émotions humaines dans la collaboration humain-robot

Une équipe de chercheurs a publié fin mai 2026 un préprint arXiv (2605.16816) décrivant un système de reconnaissance des émotions fondé sur un modèle de langage visuel (VLM) pour améliorer la collaboration humain-robot (HRC). Contrairement aux systèmes classiques, qui s'appuient sur des datasets d'émotions jouées et des entrées unimodales comme les expressions faciales, le système proposé exploite la compréhension contextuelle de la scène pour inférer l'état émotionnel de l'opérateur. L'évaluation a suivi deux axes : une comparaison avec des annotations humaines sur un dataset HRC existant, mesurant la similarité sémantique et l'alignement de sentiment, puis une étude utilisateur impliquant un robot de service dans une tâche de livraison collaborative. Le système VLM-ER a surpassé la référence CNN sur ces deux métriques, et les participants ont explicitement préféré le comportement adaptatif du robot piloté par l'inférence émotionnelle. Pour les intégrateurs et les équipes produit déployant des robots de service ou des cobots en environnement humain, le résultat valide une hypothèse clé : un VLM peut dépasser la simple lecture faciale en intégrant la posture, la dynamique de la tâche et le contexte visuel global pour produire une inférence émotionnelle plus proche du jugement humain. Le titre du papier résume le problème concret visé, la confusion systématique entre "en colère" et "concentré", une erreur de classification qui, en robotique industrielle ou de service, génère des interruptions non pertinentes et dégrade la fluidité de la collaboration. La démonstration que ce comportement adaptatif est préféré par les utilisateurs constitue un argument B2B tangible pour les décideurs qui doutent du retour sur investissement de ces fonctionnalités. La reconnaissance des émotions en HRC souffrait jusqu'ici d'un écart important entre laboratoire et terrain, en partie parce que les datasets d'entraînement reposent sur des acteurs et non sur des émotions spontanées. L'intégration de VLMs pré-entraînés à grande échelle représente un saut qualitatif en termes de généralisation par rapport aux architectures CNN ou aux approches multimodales audio-geste traditionnelles. Des travaux similaires émergent autour de modèles comme GPT-4o ou LLaVA appliqués à la robotique sociale, tandis que des startups françaises comme Enchanted Tools, dont le robot Miro cible précisément l'interaction sociale naturelle, s'inscrivent dans cette même dynamique. La prochaine étape critique pour cette équipe sera de valider le système sur des données spontanées hors laboratoire et des populations diversifiées, condition indispensable avant tout déploiement industriel à l'échelle.

UELes startups françaises comme Enchanted Tools, dont le robot Miro cible l'interaction sociale naturelle, pourraient s'appuyer sur ces avancées en inférence émotionnelle contextuelle pour renforcer leur différenciation sur le marché européen des robots de service.

RecherchePaper
1 source
cuNRTO : optimisation de trajectoires robustes non linéaires accélérée par GPU
619arXiv cs.RO 

cuNRTO : optimisation de trajectoires robustes non linéaires accélérée par GPU

Des chercheurs ont mis en ligne sur arXiv (réf. 2603.02642v2) cuNRTO (CUDA Nonlinear Robust Trajectory Optimization), un framework GPU pour l'optimisation de trajectoire robuste sous incertitude bornée. Ces problèmes mènent typiquement à des contraintes de programmation conique du second ordre (SOCP), dont la résolution est très coûteuse sur CPU. Les auteurs proposent deux architectures : NRTO-DR, basée sur le splitting de Douglas-Rachford pour paralléliser les projections SOCP et les résolutions directes creuses, et NRTO-FullADMM, une variante inédite exploitant l'ADMM (Alternating Direction Method of Multipliers) pour améliorer la scalabilité en tirant parti de la structure du problème. L'implémentation repose sur des kernels CUDA personnalisés pour les projections SOC et des chaînes cuBLAS GEMM pour les mises à jour des gains de retour d'état. Testées en simulation sur un modèle unicycle, un quadrirotor et le bras manipulateur Franka Emika, les deux architectures atteignent des accélérations allant jusqu'à 139,6x par rapport aux solveurs CPU de référence. L'enjeu est concret pour les équipes robotique et les intégrateurs : l'optimisation de trajectoire robuste en temps réel reste aujourd'hui hors de portée des architectures CPU pour la plupart des applications embarquées, les solveurs classiques étant cantonnés à une planification hors ligne ou à très basse fréquence. Un gain de 139,6x ouvre la voie à une réplanification en boucle fermée sur des manipulateurs industriels et des drones opérant sous incertitudes réelles (charges variables, perturbations mécaniques). Nuance importante : l'ensemble des benchmarks est produit en simulation. Le gap sim-to-real sur GPU embarqués, où la latence mémoire et la bande passante sont significativement plus contraintes que sur un serveur de calcul, reste entièrement à valider avant tout déploiement opérationnel. Ce travail s'inscrit dans la continuité des efforts d'accélération GPU pour le contrôle optimal, dont cuRobo (NVIDIA) et les variantes GPU de l'MPPI sont les exemples les plus connus. L'optimisation robuste avec contraintes SOCP reste un angle peu couvert par ces frameworks, les formulations quadratiques classiques étant structurellement plus simples à paralléliser. Le papier est un preprint arXiv en version v2, pas encore évalué par une conférence de référence comme ICRA, IROS ou RSS. Le code sera rendu public via cunrto.github.io, ce qui permettra des comparaisons indépendantes. La prochaine étape logique serait une validation hardware sur GPU embarqués de type NVIDIA Jetson Orin, représentatifs du déploiement cible en robotique autonome.

RecherchePaper
1 source
SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation
620arXiv cs.RO 

SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation

Des chercheurs ont publié sur arXiv (référence 2605.16871) SADP, pour Subgoal-Aware Diffusion Policy, un framework d'apprentissage par imitation conçu pour rendre les robots manipulateurs explicables en cours d'exécution. L'approche repose sur deux mécanismes combinés : l'utilisation de modèles de fondation pour générer automatiquement des démonstrations annotées en sous-objectifs intermédiaires, et l'entraînement d'une politique de diffusion conditionnée simultanément sur la description de la tâche globale et sur chaque sous-objectif. Une tête auxiliaire légère prédit en temps réel l'état de complétion de chaque sous-étape, exposant ainsi la progression interne du robot à un opérateur humain. Les expériences couvrent des simulations dans l'environnement de référence RLBench et une validation en conditions réelles sur un bras UR5e d'Universal Robots. Les résultats affichent des taux de succès supérieurs aux baselines de type diffusion conditionnée uniquement par la tâche, sans sacrifier les performances globales. L'apport principal n'est pas l'explicabilité en soi, déjà abordée par des approches post-hoc, mais son intégration native dans la politique d'action. Pour un intégrateur ou un responsable industriel, cela change l'équation opérationnelle : il devient possible de monitorer l'avancement d'une manipulation longue-distance, de localiser précisément le sous-objectif en échec, et de réduire les temps de diagnostic en production. Le recours aux modèles de fondation pour annoter automatiquement les démonstrations contourne par ailleurs la pénurie chronique de supervision au niveau des sous-tâches dans les datasets robotiques standards, un goulot d'étranglement pratique bien identifié. La coexistence d'interprétabilité et de haute performance remet en question l'hypothèse d'un arbitrage inévitable entre les deux. Les diffusion policies sont devenues un paradigme dominant pour la manipulation dextère depuis les travaux de Chi et al. en 2023, mais leur opacité décisionnelle reste une critique persistante dans les contextes déploiement industriel. Les modèles VLA comme pi-0 (Physical Intelligence), OpenVLA ou les RT-séries de Google DeepMind exploitent les connaissances des modèles de fondation sans pour autant structurer explicitement la progression par sous-objectifs. SADP se positionne à l'intersection des politiques de diffusion et de la décomposition hiérarchique de tâches, dans un espace concurrentiel qui inclut également des approches comme SayCan ou Code-as-Policies. L'utilisation d'un UR5e, cobot industriel standard très répandu, renforce la crédibilité des résultats en conditions réelles. Les suites naturelles incluront probablement la mise à l'échelle vers des tâches plus complexes et des tests en environnements industriels réels.

UEL'utilisation du UR5e d'Universal Robots (fabricant danois, UE) comme plateforme de validation réelle renforce la pertinence industrielle pour les intégrateurs européens, et l'explicabilité native des politiques de diffusion répond directement aux exigences de transparence algorithmique de l'AI Act.

💬 L'explicabilité en robotique, c'est souvent du post-hoc rajouté en bout de chaîne, une couche de justification qui n'influence rien sur l'exécution réelle. Là, c'est intégré dans la politique elle-même, avec une tête auxiliaire qui prédit en temps réel où en est le robot dans la séquence, ce qui change vraiment le diagnostic quand une manipulation foire en production. Et valider ça sur un UR5e plutôt que sur un bras de labo maison, au moment où l'AI Act va forcer les industriels à justifier leurs systèmes, c'est pas anodin.

IA physiquePaper
1 source
REBAR : un référentiel éthique de référence pour l'évaluation de l'autonomie
621arXiv cs.RO 

REBAR : un référentiel éthique de référence pour l'évaluation de l'autonomie

REBAR (Reference Ethical Benchmark for Autonomy Readiness) est un cadre d'évaluation quantitative publié en préprint arXiv (2605.18423, mai 2026) pour mesurer la conformité éthique et légale des systèmes autonomes. Le framework génère un score appelé Autonomy Readiness Level (ARL), calculé à partir de métriques opérationnelles testées dans un simulateur photoréaliste. Trois innovations techniques distinguent l'approche : une méthode neuro-symbolique combinant LLM et raisonnement formel pour quantifier la difficulté éthique des scénarios de test, une génération automatisée à grande échelle de cas de test pilotée par LLM, et un environnement de simulation versatile et photoréaliste. Le cadre cible les solutions dites "boîte blanche" (white-box), dont l'architecture interne est accessible aux évaluateurs, ce qui en limite d'emblée le périmètre d'application. L'enjeu central est la traçabilité et la responsabilité. Les frameworks éthiques actuels pour l'IA embarquée restent majoritairement qualitatifs : ils imposent des garde-fous qui bloquent les comportements dangereux sans fournir d'explication interprétable ni d'option de dérogation pour l'opérateur. REBAR propose une alternative mesurable via des scores reproductibles, permettant à un intégrateur ou un décideur B2B de déterminer si un système autonome est réellement adapté à une mission donnée. Pour les industriels déployant des véhicules autonomes, des drones ou des robots en environnement non structuré, disposer d'une preuve quantifiée de conformité éthique devient un argument commercial et réglementaire de premier ordre. La demande de tels outils s'est intensifiée avec la montée en puissance des VLA (Vision-Language-Action models) et des agents autonomes déployés en conditions réelles. Les approches actuelles de red teaming ciblé, pratiquées chez Anthropic, OpenAI ou DeepMind, montrent les limites du qualitatif à l'échelle industrielle. REBAR occupe un espace encore peu formalisé : celui des benchmarks standardisés et auditables pour l'autonomie éthique. En Europe, ce type de cadre s'aligne directement avec les exigences de l'AI Act sur les systèmes à haut risque, qui imposent documentation rigoureuse et évaluation continue. Le préprint ne mentionne ni partenariat industriel ni déploiement en cours, mais la méthodologie posée ici pourrait servir de socle à des standards sectoriels pour la certification de robots industriels et de véhicules autonomes en milieu ouvert.

UEREBAR s'aligne directement sur les exigences de l'AI Act pour les systèmes à haut risque, et pourrait servir de socle à des standards de certification pour robots industriels et véhicules autonomes en milieu ouvert en Europe.

RegulationReglementation
1 source
Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions
622arXiv cs.RO 

Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions

Des chercheurs ont publié sur arXiv (réf. 2602.08167, version 2) la méthode R&B-EnCoRe, conçue pour améliorer le raisonnement des modèles Vision-Language-Action (VLA) en robotique sans annotation humaine ni récompense externe. Sur des tâches de manipulation avec bras Franka Panda en simulation et WidowX sur matériel réel, et de navigation sur quatre types de plateformes (bipèdes, wheeled, vélo et quadrupède), la méthode affiche 28 % de gain sur le taux de succès en manipulation, 101 % d'amélioration sur les scores de navigation, et 21 % de réduction du taux de collision par rapport aux baselines VLA traitant indistinctement tous les primitives de raisonnement disponibles. Les tests couvrent des architectures de 1B à 30B paramètres et incluent un volet conduite autonome ; aucun déploiement industriel ni partenaire commercial n'est mentionné, il s'agit d'une contribution de recherche fondamentale. Le problème ciblé est structurel dans le domaine VLA : les approches actuelles de raisonnement "chain-of-thought" incarné (Embodied CoT) imposent des templates rigides qui listent objets visibles, plans de haut niveau et affordances de scène, quelle que soit leur pertinence pour l'action à exécuter. Ce bruit informationnel nuit à la prédiction d'action et fragilise la politique de contrôle. R&B-EnCoRe modélise le raisonnement comme une variable latente dans un cadre d'inférence variationnelle pondérée par importance, permettant au modèle de générer et distiller automatiquement des raisonnements filtrés par leur capacité à prédire une action réussie. Ce mécanisme améliore le transfert des connaissances internet vers l'exécution physique réelle, problème central du "grounding" en robotique incarnée. Les VLA à raisonnement incarné forment un sous-domaine actif depuis les travaux π0 de Physical Intelligence, OpenVLA d'UC Berkeley et RT-2 de Google DeepMind. R&B-EnCoRe se positionne comme un raffinement post-entraînement applicable à des architectures existantes plutôt que comme un nouveau modèle de fondation. La validation sur cinq catégories d'embodiments distincts est plus large que la majorité des contributions VLA, qui restent limitées à la manipulation. Aucune suite commerciale n'est annoncée, mais l'approche est directement compatible avec des plateformes comme Unitree, Boston Dynamics Spot ou Franka Production 3, ainsi qu'avec les benchmarks standardisés LIBERO et BRS.

IA physiqueOpinion
1 source
Apprentissage de la continuation native pour les politiques de flux par découpage d'actions
623arXiv cs.RO 

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

Des chercheurs ont publié sur arXiv (arXiv:2602.12978v2) une méthode d'entraînement baptisée Legato, conçue pour éliminer un problème structurel des politiques robotiques de type VLA (Vision Language Action) : les discontinuités aux jonctions de blocs d'actions prédits. Les modèles VLA actuels découpent leurs séquences en "chunks" pour s'exécuter en temps réel, mais ce découpage provoque des à-coups mécaniques quand le robot transite d'un bloc au suivant. La solution dominante jusqu'ici, le Real-Time Chunking (RTC), traite ce problème en aval, hors du modèle, en lissant post-hoc les transitions. Legato prend le chemin inverse : il intègre la continuité directement dans la phase d'entraînement, en initialisant le débruitage (denoising) à partir d'un mélange pondéré d'actions déjà connues et de bruit, selon un calendrier (schedule) appris. La méthode restructure également la dynamique de flux pour garantir la cohérence entre entraînement et inférence, et utilise des conditions de schedule aléatoires pour s'adapter à des délais variables. Sur cinq tâches de manipulation en conditions réelles, Legato surpasse RTC avec environ 10 % de gain sur la fluidité de trajectoire et le temps de complétion de tâche. Ce chiffre de 10 % mérite d'être mis en contexte : il est mesuré en conditions réelles, non en simulation, ce qui lui confère un poids pratique que les benchmarks purement virtuels ne peuvent pas revendiquer. Le problème de fond que Legato résout, le "spurious multimodal switching", soit le comportement hésitant du robot coincé entre plusieurs configurations valides à chaque frontière de chunk, est un verrou concret pour les déploiements industriels. Le RTC, en tant que couche externe, introduit précisément ces changements de mode intempestifs parce qu'il ne connaît pas l'intention du modèle. En internalisant la régularité dans l'entraînement, Legato produit des trajectoires dont le comportement à l'inférence est cohérent avec ce qui a été appris, ce qui simplifie la validation en production. Pour les intégrateurs qui cherchent à fiabiliser des cellules de manipulation, la prévisibilité du mouvement est souvent aussi critique que sa vitesse. L'action chunking a été popularisé par ACT (Action Chunked Transformer, Stanford/UC Berkeley, 2023) et repris dans des architectures flow-based comme pi0 de Physical Intelligence. La prolifération des VLA en manipulation, portée par Physical Intelligence, Google DeepMind (RT-2), 1X Technologies, et des laboratoires académiques, a rendu ce problème de frontière de chunk de plus en plus visible hors simulation. Legato s'inscrit dans un courant actif visant à réconcilier la génération par blocs, nécessaire pour la latence temps réel, avec la continuité motrice, nécessaire pour la précision. La méthode (version v2, 2025) n'est pas encore associée à un déploiement industriel annoncé, mais ses résultats sur hardware réel en font un candidat crédible à l'intégration dans les pipelines de fine-tuning VLA existants. Les suites naturelles incluent des tests sur architectures diffusion plus larges et une évaluation sur des plateformes bi-manuelles.

IA physiqueOpinion
1 source
DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles
624arXiv cs.RO 

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles

DexWild est un framework de collecte de données et d'apprentissage pour la manipulation robotique dextère, publié en mai 2025 sur arXiv (2505.07813). L'idée centrale consiste à remplacer la téléopération coûteuse par la capture directe de gestes humains dans des environnements du quotidien. Une équipe diverse de collecteurs utilise le DexWild-System, un dispositif portable et peu onéreux, pour enregistrer des heures d'interactions avec des objets variés dans de multiples contextes réels. Le framework co-entraîne ensuite un modèle sur ces démonstrations humaines combinées à un volume minimal de données robot spécifiques. Les résultats mesurés atteignent 68,5 % de taux de succès dans des environnements non vus à l'entraînement, soit près de quatre fois mieux qu'une politique entraînée sur données robot seules, et une généralisation cross-embodiment (transfert vers d'autres morphologies robotiques) améliorée d'un facteur 5,8. Le goulot d'étranglement des données est un problème structurel pour la manipulation dextère. La téléopération reste la méthode dominante pour produire des datasets de haute qualité, notamment chez Physical Intelligence avec pi-0 ou chez Figure pour ses robots humanoïdes, mais son coût freine la diversité de distribution couverte. DexWild propose un paradigme alternatif : laisser des humains collecter nativement des données gestuelles en vie réelle, puis transférer ces politiques vers des robots via co-training. Si ces performances se confirment hors laboratoire, cette approche pourrait réduire significativement le coût d'acquisition de données pour les intégrateurs industriels, en particulier sur des tâches de pick-and-place complexes. Il convient de noter que le papier est un preprint non encore peer-reviewed et que les vidéos de démonstration sont sélectionnées, deux points qui invitent à la prudence sur la reproductibilité réelle. Ce travail s'inscrit dans la tendance du scaling de datasets robotiques, aux côtés d'Open-X Embodiment et DROID. Sur la problématique du transfert human-to-robot, les approches concurrentes directes incluent UMI (Universal Manipulation Interface, Stanford/Columbia), qui utilise une gripper portable pour capturer des démonstrations dans des environnements non structurés, et les travaux de l'équipe de Sergey Levine à UC Berkeley sur l'apprentissage depuis des vidéos humaines. DexWild se distingue par la diversité explicite de ses collecteurs et la structure de co-training formalisée. Le code et les datasets sont accessibles sur dexwild.github.io ; aucun déploiement industriel ni timeline commerciale n'est annoncé à ce stade.

IA physiqueOpinion
1 source
TaskGround : inférence de tâches exécutables structurées pour le raisonnement domestique global
625arXiv cs.RO 

TaskGround : inférence de tâches exécutables structurées pour le raisonnement domestique global

Une équipe de chercheurs publie TaskGround, un cadre de planification de tâches ménagères pour agents robotiques, dans un preprint arXiv daté de mai 2026 (arXiv:2605.18109). Le problème visé : dans un déploiement domestique réel, un agent reçoit une requête contextuelle ("prépare le petit-déjeuner") face à une scène complète comprenant des centaines d'objets non pertinents à la tâche. TaskGround adopte une architecture "Ground-Infer-Execute" en trois étapes, filtrage de la scène vers une tranche compacte d'entités pertinentes, inférence de la structure de tâche exécutable, puis compilation en séquence d'actions au niveau compétence. Le cadre est sans entraînement (training-free) et agnostique au modèle de langage sous-jacent. Pour l'évaluation, les auteurs introduisent FullHome, une suite de 400 tâches ménagères validées humainement, couvrant des environnements domestiques variés et deux types de contraintes : orientées objectif et orientées processus. Les résultats montrent que TaskGround améliore substantiellement les taux de succès sur FullHome, aussi bien pour les modèles propriétaires qu'open-weight. Le point saillant : le modèle Qwen3.5-9B couplé à TaskGround devient compétitif avec GPT-5 en prompting direct complet, tout en réduisant le coût total en tokens d'entrée jusqu'à 18 fois. Pour les intégrateurs et équipes robotiques opérant sous contraintes de calcul local ou de confidentialité des données, c'est un signal concret : la sophistication du raisonnement n'exige pas nécessairement des modèles propriétaires massifs. Les auteurs identifient l'inférence de structure de tâche exécutable comme le goulot d'étranglement central du raisonnement en scène complète, davantage que la qualité intrinsèque du modèle de base. Ce travail s'inscrit dans un axe de recherche actif autour des agents de planification pour la robotique domestique, qui cherche à combler l'écart entre démonstration en laboratoire et déploiement réel. Les approches concurrentes incluent les VLA (Vision-Language-Action models) de Physical Intelligence (pi0), les pipelines de planification hiérarchique utilisés par Figure ou 1X, ainsi que les travaux SayCan de Google DeepMind. TaskGround se distingue en n'exigeant aucun fine-tuning supplémentaire, ce qui facilite l'intégration à des stacks existantes. Le preprint reste pour l'instant confiné à l'évaluation sur benchmarks textuels et simulation ; une validation sur plateformes hardware réelles constituerait la prochaine étape naturelle, non encore annoncée.

RecherchePaper
1 source
OpenFrontier : navigation générale guidée par des frontières vision-langage
626arXiv cs.RO 

OpenFrontier : navigation générale guidée par des frontières vision-langage

Des chercheurs ont publié sur arXiv (identifiant 2503.05377) OpenFrontier, un cadre de navigation robotique en monde ouvert conçu pour fonctionner sans entraînement ni fine-tuning spécifique à la tâche. Le principe central : reformuler la navigation comme une succession d'identifications et d'atteintes de sous-objectifs éparses, en sélectionnant des "frontières visuelles" comme ancres sémantiques. Ces frontières, zones situées à la limite du champ perceptif du robot, servent de relais entre les instructions en langage naturel et les décisions de déplacement. OpenFrontier s'intègre à des modèles vision-langage (VLN) et vision-langage-action (VLA) existants sans reconstruction 3D dense de l'environnement ni collecte de données à grande échelle. Les auteurs rapportent des performances zero-shot sur plusieurs benchmarks de navigation standardisés et un déploiement expérimental sur un robot mobile réel. Ce résultat est notable parce que les approches end-to-end conditionnées sur le langage naturel exigent habituellement soit un entraînement interactif, soit des milliers de trajectoires annotées, soit une adaptation au robot cible. OpenFrontier contourne ces verrous en exploitant les frontières visuelles comme points d'ancrage pour les priors sémantiques du modèle, réduisant la charge computationnelle (pas de carte 3D sémantique dense) et le besoin en données d'entraînement. Pour un intégrateur de robots mobiles autonomes (AMR) ou un décideur industriel, cela ouvre la perspective de déploiements en environnement non structuré sans cycle de fine-tuning propre à chaque site. La performance zero-shot annoncée reste cependant à confronter à des conditions opérationnelles réelles : les benchmarks utilisés sont des environnements de laboratoire contrôlés, non des entrepôts ou espaces publics. OpenFrontier s'inscrit dans une dynamique de recherche qui cherche à transférer les capacités des grands modèles vision-langage vers la navigation mobile sans les contraintes classiques de l'apprentissage par renforcement. Des approches concurrentes comme SayNav, VLMaps ou les politiques VLA de Physical Intelligence (pi0) requièrent soit des environnements annotés, soit des datasets de démonstrations humaines, soit les deux. La méthode des frontières visuelles comme ancres sémantiques est plus légère, mais reste contrainte aux scénarios où la limite perceptive du robot capture les objectifs sémantiques pertinents. En l'état, OpenFrontier est un preprint académique et non un produit commercialisé : les validations en monde réel décrites correspondent à des tests expérimentaux contrôlés, pas à un déploiement industriel à l'échelle.

💬 L'idée de traiter les bords du champ de vision comme des ancres sémantiques au lieu de construire une carte 3D complète, c'est simple et ça coupe court à des années de galère en intégration terrain. Zéro fine-tuning par site, zéro dataset de trajectoires annotées, pour un déployeur d'AMR c'est exactement ce qu'on attendait. Reste que c'est un preprint testé en labo, et qu'un entrepôt avec des chariots élévateurs c'est une autre planète.

IA physiqueOpinion
1 source
Détection des événements d'attaque du talon et de décollage des orteils par méthodes cinématiques et modèles LSTM
627arXiv cs.RO 

Détection des événements d'attaque du talon et de décollage des orteils par méthodes cinématiques et modèles LSTM

Une étude publiée en prépublication sur arXiv (réf. 2503.00794) a évalué sept méthodes cinématiques et un modèle LSTM (Long Short-Term Memory) pour la détection automatique des événements de marche, à savoir le contact du talon (heel strike) et le décollage de l'orteil (toe-off), sur un corpus de 4 363 cycles de marche issus de 588 sujets valides. Parmi les approches cinématiques testées, la méthode de Zeni et al. obtient les meilleures performances en précision, tandis que plusieurs autres présentent des biais systématiques ou requièrent un ajustement paramétrique spécifique au jeu de données. Le modèle LSTM, entraîné de manière supervisée sur ces mêmes données, atteint un niveau de performance comparable à Zeni et al. sans ces biais, s'imposant comme une alternative data-driven sans recalibrage manuel. Ces résultats ont des implications directes pour le contrôle d'exosquelettes, où la détection précise des phases de stance (appui) et de swing (oscillation) conditionne la qualité de l'assistance motrice. Un algorithme de détection biaisé ou mal calibré peut introduire des erreurs de synchronisation dans la commande de l'actionneur, dégradant le confort et la sécurité du porteur. Le fait que le LSTM rivalise avec la meilleure méthode cinématique sans nécessiter d'ajustement selon la morphologie du sujet ou le type de capteur suggère que les approches deep learning offrent une robustesse supérieure pour des déploiements ambulatoires hors laboratoire. La détection des événements de marche est un problème central en biomécanique clinique depuis plusieurs décennies, traditionnellement résolu par des semelles de force (force plates) ou des capteurs de pression plantaire, matériel coûteux et peu portable. Les méthodes cinématiques basées sur des unités inertielles (IMU) ont émergé comme alternative ambulatoire, mais restent sensibles aux artefacts de mouvement et aux profils atypiques. Des acteurs comme Wandercraft (exosquelette Atalante, Paris) ou ReWalk intègrent ce type de détection dans leurs boucles de contrôle en temps réel. Les auteurs annoncent comme prochaine étape la validation sur des populations pathologiques, notamment les sujets post-AVC et les patients souffrant d'arthrose du genou, populations dont les profils cinématiques s'écartent significativement des normes d'entraînement du modèle actuel, et où la généralisation des méthodes reste à démontrer.

UELes méthodes LSTM sans recalibrage présentées pourraient renforcer la robustesse du contrôle en temps réel de l'exosquelette Atalante de Wandercraft (Paris), acteur français explicitement cité comme intégrateur de ce type de détection dans ses boucles de commande.

ExosquelettesPaper
1 source
Approximation du MPC global à contact implicite par échantillonnage et complémentarité locale
628arXiv cs.RO 

Approximation du MPC global à contact implicite par échantillonnage et complémentarité locale

Des chercheurs ont publié sur arXiv (réf. 2505.13350, mai 2025) un algorithme de contrôle en temps réel pour la manipulation dextère robotique. Démontré sur un bras Franka Panda, il cible la manipulation non-préhensile d'objets à géométrie non convexe, c'est-à-dire par poussée ou glissement sans saisie ferme. Le coeur de l'approche est une décomposition de chaque cycle de contrôle en deux phases exécutées en parallèle : une phase sans contact qui explore globalement des positions candidates de l'effecteur final par échantillonnage basse dimension, suivie d'une phase riche en contacts qui évalue le coût de chaque position candidate via un MPC (Model Predictive Control) implicite en contact local. La sélection de la meilleure position candidate oriente ensuite la commande du robot, combinant exploration globale et optimisation locale en un seul pipeline temps réel. Ce travail s'attaque à une limite fondamentale des contrôleurs MPC implicites en contact existants : confinés à un voisinage local de l'état courant, ils échouent dès que la manipulation requiert d'atteindre une configuration de contact éloignée, nécessitant souvent une intervention extérieure. L'idée d'une phase de scouting sans contact, légère en calcul et parallélisée, contourne ce problème sans recourir à un planificateur global coûteux hors-ligne. Pour les intégrateurs industriels travaillant sur la manipulation de pièces irrégulières en ligne d'assemblage, c'est une piste sérieuse pour réduire le besoin d'intervention humaine sur des configurations non triviales. L'approche contraste aussi avec les méthodes d'apprentissage (diffusion policies, VLA) qui contournent la modélisation physique : elle reste interprétable et moins dépendante des données, ce qui compte en contexte industriel ou certifiable. Le MPC implicite en contact s'est structuré ces cinq dernières années autour de travaux de MIT, CMU et ETH Zurich sur les formulations par complémentarité (LCP, SOCP), dont ce papier constitue une extension directe. Le Franka Panda reste le bras de référence académique dans ce domaine. Les concurrents directs de l'approche incluent les méthodes tout-échantillonnage comme MPPI ou CEM (efficaces sur la cinématique, fragiles sur les contacts rigides) et les politiques génératives comme pi-zero (Physical Intelligence) ou GR00T N2 (NVIDIA), qui généralisent davantage mais exigent des volumes de données considérables. La page projet associée présente les démonstrations expérimentales en laboratoire, mais aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

RechercheActu
1 source
STABLE : génération d'agencements de table prêts à la simulation via un système dual sémantique-physique
629arXiv cs.RO 

STABLE : génération d'agencements de table prêts à la simulation via un système dual sémantique-physique

Une équipe de chercheurs a publié STABLE (arXiv:2605.16137), un système de génération automatique de scènes de table prêtes à la simulation à partir d'instructions textuelles. Le système repose sur une architecture duale composée de deux modules complémentaires : un Semantic Reasoner, un LLM fine-tuné sur un dataset structuré de scènes de table qui produit des dispositions d'objets grossières depuis les consignes de tâche, et un Physics Corrector, un modèle de débruitage basé sur les flux physiques qui calcule des mises à jour de pose pour corriger les arrangements invalides. Les deux modules s'alternent selon un paradigme de génération progressive, en étendant la scène des objets critiques pour la tâche vers les objets d'arrière-plan. Les expériences montrent que STABLE génère des scènes conformes aux instructions tout en améliorant significativement la validité physique par rapport aux méthodes existantes. Le problème ciblé est concret et documenté : lorsqu'on confie la génération de layouts 3D à des LLMs seuls, les objets se retrouvent fréquemment en collision ou en suspension, rendant les scènes inutilisables pour l'entraînement robotique. Pour les équipes travaillant sur des pipelines sim-to-real en manipulation de table, cette limite impose un post-traitement manuel coûteux. L'apport de STABLE est de séparer le raisonnement sémantique (ce qui doit être présent et où, logiquement) du raisonnement physique (comment corriger les positions pour que la scène soit simulable), plutôt que de charger un seul modèle des deux. C'est une réponse directe au sim-to-real gap dans la phase de génération de données, un verrou bien identifié dans la communauté Embodied AI. Cette publication s'inscrit dans une tendance plus large autour de la génération automatique d'environnements de simulation pour l'apprentissage robot, où des approches comme LayoutGPT avaient déjà montré que les LLMs raisonnent mal en coordonnées spatiales. STABLE ne revendique pas de déploiement industriel : c'est une contribution de recherche, avec des résultats expérimentaux sur benchmarks mais sans pipeline productionisé ni timeline commerciale annoncée. Les prochaines étapes naturelles seraient l'extension au-delà des surfaces planes et l'intégration dans des frameworks de génération de données pour la manipulation, comme ceux utilisés par les équipes travaillant sur des modèles VLA (Vision-Language-Action).

RecherchePaper
1 source
Permettre aux robots de ressentir le toucher : alignement cortical visuo-tactile pour la résonance miroir incarnée
630arXiv cs.RO 

Permettre aux robots de ressentir le toucher : alignement cortical visuo-tactile pour la résonance miroir incarnée

Une équipe de chercheurs a publié en mai 2025 sur arXiv (preprint 2605.14571) un travail présentant Mirror Touch Net, une architecture neuronale permettant à une main robotique de prédire des signaux tactiles à partir d'images RGB seules. Le système couvre 1 140 taxels répartis sur la main du robot, avec une résolution de l'ordre du millimètre. L'approche impose un alignement sémantique, distributionnel et géométrique entre représentations visuelles et tactiles via des contraintes multi-niveaux, de façon à rendre la géométrie de l'espace visuel cohérente avec celle du manifold tactile. L'extension du cadre à des observations de mains humaines permet également de déclencher des réponses réflexes lorsque le robot "voit" une main humaine touchée. Le code source est disponible sur GitHub. La valeur technique de ce travail réside dans la transposition d'un principe neuroscientifique, le "mirror touch", cette sensation tactile que l'on éprouve en observant quelqu'un d'autre être touché, en un mécanisme calculable. Pour les intégrateurs et les équipes travaillant sur la manipulation dextre, cela ouvre la voie à une perception tactile anticipatoire : le robot n'attendrait plus le contact physique pour ajuster sa prise, mais prédirait la sensation à partir du flux visuel. L'analyse par manifolds, qui démontre que les contraintes d'alignement simplifient effectivement le mapping cross-modal, constitue un résultat explicable, ce qui est notable dans un domaine où les architectures restent souvent des boîtes noires. Il convient cependant de noter qu'il s'agit d'un preprint non encore évalué par les pairs, et que les performances annoncées restent à reproduire hors des conditions de laboratoire. Ce travail s'inscrit dans un courant actif autour de la perception tactile pour la robotique dextre, où plusieurs groupes tentent de réduire la dépendance aux capteurs de force coûteux et fragiles. Des approches concurrentes incluent les travaux de Meta FAIR sur les capteurs à base de gel (DIGIT), les recherches de MIT CSAIL sur la reconstruction 3D par vision tactile, ou encore les travaux d'Uppsala et ETH Zurich sur la sim-to-real tactile. Mirror Touch Net se distingue par son ancrage neuroscientifique explicite et son extension aux mains humaines, potentiellement utile pour les environnements collaboratifs. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation réelles et une intégration dans des architectures Vision-Language-Action (VLA) de type diffusion policy ou pi-0.

RecherchePaper
1 source
TinySDP : optimisation semi-définie en temps réel pour une robotique embarquée certifiable et agile
631arXiv cs.RO 

TinySDP : optimisation semi-définie en temps réel pour une robotique embarquée certifiable et agile

Des chercheurs ont publié sur arXiv (preprint 2605.13748, mai 2025) TinySDP, qu'ils présentent comme le premier solveur de programmation semi-définie (SDP) conçu explicitement pour les systèmes embarqués à ressources contraintes. L'objectif : permettre un contrôle prédictif en temps réel (MPC) sur microcontrôleurs, en intégrant des contraintes d'obstacles non convexes jusqu'ici réservées à des machines de calcul bien plus puissantes. Le solveur associe des projections de cônes semi-définis positifs à un algorithme ADMM (Alternating Direction Method of Multipliers) avec factorisation de Riccati mise en cache. Un certificat de rang 1 a posteriori convertit à chaque pas de temps les solutions relaxées en garanties géométriques explicites. Les expériences portent sur des scénarios d'évitement d'obstacles dynamiques et de cul-de-sac, où les méthodes locales classiques échouent ; TinySDP y produit des trajectoires sans collision et jusqu'à 73 % plus courtes que les baselines de référence. La validation matérielle est conduite sur un quadrirotor Crazyflie, nano-drone de recherche développé par Bitcraze. L'enjeu industriel est réel : les relaxations SDP offrent depuis des années des garanties de certification pour la planification de mouvement, mais leur coût computationnel les confinait aux stations de calcul hors-ligne ou aux serveurs de cloud. Les embarquer sur un microcontrôleur ouvre la voie à des robots autonomes certifiés opérant sans infrastructure réseau : drones d'inspection, AMR en environnement dynamique, bras cobots sans liaison cloud. Le gain de 73 % sur la longueur de chemin dans des scénarios difficiles dépasse ce que la littérature locale obtient habituellement, bien qu'il faille noter que ces benchmarks sont choisis par les auteurs, et que les conditions réelles d'industrialisation restent à établir. La programmation semi-définie est un outil établi en robotique depuis les travaux sur les relaxations de Lasserre et les problèmes de manipulation certifiée, mais aucun solveur embarqué n'en avait rendu le déploiement praticable avant ce travail. Côté concurrents, les solveurs embarqués dominants comme OSQP ou ECOS ciblent les problèmes quadratiques ou coniques de second ordre, sans support natif des contraintes SDP. Le papier reste un preprint non relu par les pairs ; les prochaines étapes naturelles seraient une validation sur des plateformes plus contraintes encore (STM32, Cortex-M) et des scénarios multi-obstacles en environnement non structuré.

UEBitcraze, entreprise suédoise (EU) dont le nano-drone Crazyflie sert de plateforme de validation, bénéficie d'une visibilité accrue ; les équipes R&D européennes travaillant sur des AMR ou cobots embarqués sans connexion cloud pourraient intégrer TinySDP dans leurs pipelines de planification de mouvement certifiable.

RecherchePaper
1 source
Quand l'état absolu échoue : évaluation des encodages proprioceptifs pour une manipulation robuste
632arXiv cs.RO 

Quand l'état absolu échoue : évaluation des encodages proprioceptifs pour une manipulation robuste

Une équipe de chercheurs publie sur arXiv (référence 2605.13067) une étude systématique sur l'encodage de l'état proprioceptif des robots pour améliorer la robustesse des politiques de manipulation de bout en bout. Le constat de départ est précis : les politiques entraînées avec des données en conditions contrôlées échouent fréquemment lors du déploiement réel, notamment lorsque le référentiel du robot change entre l'entraînement et l'inférence. Les auteurs évaluent plusieurs stratégies d'encodage des positions et angles articulaires, depuis les représentations absolues classiques jusqu'à des formulations relatives, et identifient qu'un référentiel relatif défini à l'épisode, c'est-à-dire ancré sur l'état initial des articulations au début de chaque séquence de tâche, offre le meilleur compromis entre performance nominale et généralisation hors distribution. Ces résultats sont validés sur un banc d'essai physique en conditions réalistes, avec des expériences multi-configurations sur robot réel. L'enjeu industriel est concret : les robots à cadre de référence mobile (bras montés sur AMR, robots repositionnables sur ligne, cobots déplacés entre postes) représentent une part croissante des déploiements, mais les politiques end-to-end existantes, y compris les VLA (Vision-Language-Action models) récents comme pi-0 ou GR00T N2, sont généralement entraînées avec des hypothèses de cadre fixe. Cette étude fournit une piste d'implémentation directement exploitable sans modifier l'architecture du modèle ni relancer de collecte de données massive : changer simplement la convention d'encodage proprioceptif suffit à améliorer la robustesse out-of-distribution. C'est un résultat rare dans la littérature VLA, qui tend à préconiser le scaling de données comme seule réponse à la distribution shift. Ce travail s'inscrit dans une tendance de fond : après l'emballement autour des politiques diffusion et des modèles fondation pour la robotique en 2023-2024, la communauté revient sur des questions d'ingénierie bas-niveau souvent négligées. La proprioception, longtemps traitée comme un signal trivial, redevient un sujet de recherche actif face aux exigences du déploiement réel. Aucun partenaire industriel n'est mentionné dans l'abstract, ce qui en fait une contribution académique ouverte, sans timeline de productisation annoncée. Les prochaines étapes logiques seraient des tests avec des architectures VLA complètes et des configurations de bases mobiles plus variées.

RechercheOpinion
1 source
Self-CriTeach : auto-enseignement et auto-critique d'un LLM pour améliorer la planification robotique
633arXiv cs.RO 

Self-CriTeach : auto-enseignement et auto-critique d'un LLM pour améliorer la planification robotique

Des chercheurs ont publié en 2025 via arXiv (2509.21543) un cadre baptisé Self-CriTeach, conçu pour améliorer la planification robotique par grands modèles de langage (LLM) sans supervision humaine coûteuse. Le principe central : un LLM génère automatiquement des domaines de planification symbolique au format PDDL, qui servent ensuite à deux fins distinctes. Dans la phase d'auto-enseignement, ces domaines produisent des milliers de paires problème-plan, converties en trajectoires chain-of-thought (CoT) enrichies exploitées en fine-tuning supervisé. Dans la phase d'auto-critique, ces mêmes domaines sont réutilisés comme fonctions de récompense structurées pour l'apprentissage par renforcement (RL), sans ingénierie manuelle des récompenses. Les résultats publiés font état de taux de succès en planification plus élevés, d'une meilleure généralisation inter-tâches, d'une réduction des coûts d'inférence et d'une robustesse accrue aux états logiques imparfaits ou bruités par la perception. L'intérêt de cette approche tient à son autonomie : elle brise deux goulots d'étranglement majeurs de l'outillage LLM pour la robotique. D'une part, la collecte de données CoT pour les LLMs raisonneurs est notorieusement coûteuse en annotation humaine, surtout pour des séquences de manipulation complexes. D'autre part, la conception de fonctions de récompense en RL robotique reste un travail d'ingénierie long et fragile, souvent spécifique à chaque tâche. Self-CriTeach unifie ces deux pipelines autour d'une seule source synthétique générée automatiquement, ouvrant la voie à une spécialisation scalable d'un LLM sur des workflows robotiques sans intervention humaine à chaque étape. Pour un responsable R&D ou un intégrateur, cela représente une réduction potentielle substantielle du coût de personnalisation. Ce travail s'inscrit dans un courant actif cherchant à remplacer la programmation explicite des robots par des LLMs capables de raisonner sur des représentations symboliques. Des approches antérieures comme SayCan (Google) ou CodeAsPolicies (Google DeepMind) ont utilisé des LLMs pour la planification de haut niveau, mais sans exploiter les domaines générés comme source d'entraînement en retour. La contribution de Self-CriTeach est précisément cette boucle fermée entre génération de domaines, supervision CoT et signal de récompense RL. Il s'agit d'une contribution de recherche académique publiée sur arXiv, sans déploiement industriel annoncé à ce stade. Le code et les résultats sont accessibles via la page GitHub du projet.

RecherchePaper
1 source
Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques
634arXiv cs.RO 

Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques

Une équipe de chercheurs a publié sur arXiv (2507.00990) un système baptisé RIGVid (Robots Imitating Generated Videos) permettant à un robot de réaliser des tâches de manipulation complexe, comme verser un liquide, essuyer une surface ou mélanger des ingrédients, en imitant uniquement des vidéos générées par IA, sans aucune démonstration physique ni données d'entraînement spécifiques au robot. Le pipeline fonctionne en trois étapes : à partir d'une commande en langage naturel et d'une image de la scène initiale, un modèle de diffusion vidéo génère des vidéos de démonstration candidates, un VLM (vision-language model) filtre automatiquement celles qui ne correspondent pas à la commande, puis un tracker de pose 6D extrait les trajectoires d'objets. Ces trajectoires sont ensuite retargetées vers le robot de manière agnostique à l'embodiment, c'est-à-dire sans nécessiter de recalibration spécifique à la morphologie du bras utilisé. L'impact est notable pour les intégrateurs et les équipes de recherche en manipulation robotique : supprimer la collecte de démonstrations physiques, étape longue et coûteuse dans les pipelines d'imitation learning, est un verrou industriel majeur. Les évaluations en conditions réelles montrent que les vidéos générées et filtrées atteignent une efficacité équivalente aux démonstrations humaines réelles, et que la performance progresse avec la qualité du modèle génératif utilisé. Le système surpasse également des alternatives plus compactes comme la prédiction de keypoints via VLM, et le tracking 6D de pose s'avère supérieur au tracking dense de points de features. Ces résultats valident expérimentalement l'hypothèse que les générateurs vidéo state-of-the-art constituent une source de supervision viable pour la manipulation robotique, au moins sur des tâches de difficulté modérée. Ce travail s'inscrit dans un champ de recherche en effervescence autour du "learning from video" sans interaction physique, en concurrence directe avec des approches comme les VLA (vision-language-action) de Physical Intelligence (pi-0), les politiques de diffusion type Diffusion Policy, ou encore l'usage de données synthétiques issues de simulateurs. L'approche RIGVid se distingue par son absence totale de données robot et son pipeline entièrement basé sur des modèles généralistes off-the-shelf. À noter que ce papier est une prépublication arXiv (v3, donc ayant déjà subi plusieurs révisions), sans validation par peer-review complet à ce stade, et que les tâches évaluées restent relativement contraintes en termes de variabilité de scène et de généralisation out-of-distribution.

RechercheOpinion
1 source
AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique
635arXiv cs.RO 

AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique

Une équipe de chercheurs propose AttenA+, un framework d'entraînement pour modèles de fondation robotiques publié sur arXiv (2605.13548) en mai 2026. Le constat de départ est simple : les modèles Vision-Language-Action (VLA) et World-Action Models (WAM) actuels héritent du paradigme d'entraînement des LLMs, qui traite chaque token -- ici chaque action -- avec le même poids dans la fonction de perte. Or une trajectoire de manipulation robotique n'est pas homogène : les segments à faible vitesse (préhension précise, insertion, contact fin) conditionnent le succès de la tâche, tandis que les phases à haute vitesse (transitions entre positions) tolèrent l'erreur. AttenA+ corrige ce déséquilibre en repondérant dynamiquement la loss d'entraînement via un champ de vitesse inverse, sans modifier l'architecture ni ajouter de paramètres. Sur le benchmark Libero, le modèle OpenVLA-OFT passe de 97,1 % à 98,6 % (+1,5 points) ; FastWAM atteint 92,4 % sur RoboTwin 2.0 (+0,6 points). Des validations sur bras Franka en conditions réelles confirment la généralisation inter-tâches. L'enjeu dépasse les chiffres de benchmark. Le domaine robotique investit massivement dans le scaling -- plus de données, plus de paramètres, plus de compute -- comme levier principal de performance. AttenA+ suggère qu'une partie du plafond actuel des VLA n'est pas liée à la taille du modèle mais à un biais structurel d'optimisation, ignorant la physique de la manipulation. Pour un intégrateur ou un équipementier qui déploie des bras dans des lignes d'assemblage, cela signifie potentiellement de meilleures performances sur des gestes précis (vissage, pick-and-place serré) sans coût de réentraînement supplémentaire -- le framework se greffe sur les backbones existants en plug-and-play. Les VLA ont connu une accélération notable depuis pi0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), mais la majorité des gains publiés reposaient sur l'augmentation de données ou de paramètres. AttenA+ s'inscrit dans une tendance émergente : exploiter les priors structurels des séquences d'action plutôt que brute-forcer le scaling. Les benchmarks utilisés -- Libero et RoboTwin 2.0 -- restent des environnements simulés, et l'expérimentation Franka décrite dans le papier est limitée. La robustesse à des environnements industriels moins contrôlés reste à démontrer. Aucun partenaire industriel ni timeline de déploiement n'est mentionné dans ce preprint académique.

IA physiqueOpinion
1 source
FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA
636arXiv cs.RO 

FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA

Une équipe de chercheurs a publié le 19 mai 2025 sur arXiv (2605.13757) une méthode baptisée FrameSkip, conçue pour améliorer l'entraînement des politiques de type Vision-Language-Action (VLA) en sélectionnant les images les plus informatives dans les trajectoires de démonstration robotique. Plutôt que d'échantillonner uniformément chaque frame enregistrée lors de sessions de télé-opération, FrameSkip attribue un score à chaque image selon quatre critères : la variation d'action, la cohérence visuo-motrice, des priors de progression de tâche, et la préservation des transitions de préhenseur (ouverture/fermeture du gripper). Le système réoriente ensuite l'échantillonnage d'entraînement vers les frames à haute valeur informative, selon un ratio de rétention cible fixé à 20 % dans la configuration principale. Sur trois benchmarks standards, RoboCasa-GR1, SimplerEnv et LIBERO, FrameSkip atteint un taux de succès moyen de 76,15 %, contre 66,50 % pour l'entraînement sur trajectoires complètes, soit un gain absolu de 9,65 points de pourcentage en n'utilisant qu'un cinquième des frames uniques. Ce résultat est significatif parce qu'il pointe un problème structurel longtemps ignoré dans la construction des datasets VLA : le déséquilibre temporel de supervision. Les longues phases statiques ou de déplacement libre dominent statistiquement les trajectoires téléopérées, noyant les instants critiques comme l'alignement d'approche, l'établissement du contact et le relâchement. FrameSkip n'exige aucune modification d'architecture, de tête d'action ni d'objectif d'entraînement, ce qui en fait une couche data-curation plug-and-play compatible avec OpenVLA, pi-0 (Physical Intelligence) ou tout autre VLA existant. Pour les équipes qui constituent des datasets coûteux via télé-opération, réduire à 20 % le volume de frames tout en gagnant en performance change directement le calcul coût/performance de collecte de données. Les VLA ont connu une accélération marquée depuis 2023 avec des modèles comme RT-2 (Google DeepMind), Octo (Berkeley), OpenVLA et pi-0 de Physical Intelligence, chacun misent sur des volumes croissants de démonstrations téléopérées. La question de la qualité versus la quantité des données de démonstration est un sujet de recherche actif, avec des approches concurrentes axées sur le filtrage par récompense, le data augmentation ou les trajectoires synthétiques en simulation. FrameSkip prend le parti du filtrage temporel pur, sans génération de données supplémentaires. Les auteurs ne mentionnent pas de déploiement physique hors simulation dans ce preprint, ce qui limite pour l'instant les conclusions au domaine sim-to-sim ; des validations sur hardware réel resteraient à produire pour confirmer le transfert des gains observés.

IA physiqueOpinion
1 source
Unifier les actions du robot dans le référentiel caméra
637arXiv cs.RO 

Unifier les actions du robot dans le référentiel caméra

Des chercheurs ont publié sur arXiv (référence 2511.17001v2) une méthode baptisée CalibAll, conçue pour unifier la représentation des actions robotiques en recadrant celles-ci dans le repère de la caméra plutôt que dans celui propre à chaque plateforme. L'approche repose sur l'estimation automatique des paramètres extrinsèques de la caméra (position et orientation dans l'espace) pour des jeux de données existants, puis sur la conversion de chaque action en coordonnées TCP (Tool Center Point) standardisées dans ce repère caméra commun. Le pipeline a été appliqué à 16 jeux de données couvrant 4 plateformes robotiques différentes, bras simple et bras bimanuel inclus, pour produire environ 97 000 épisodes étalonnés. CalibAll fonctionne en deux étapes : une initialisation grossière via un algorithme PnP temporel (Perspective-n-Point), suivie d'un raffinement à haute précision par rendu différentiable. Aucun entraînement préalable ni données spécifiques à un robot n'est requis, ce qui distingue la méthode des approches d'étalonnage classiques. L'enjeu est direct pour les équipes qui travaillent sur des politiques robotiques généralisées de type VLA (Vision-Language-Action). Le problème de fond du cross-embodiment learning, soit le fait d'entraîner un seul modèle sur des robots morphologiquement différents, est que les actions n'ont pas la même sémantique géométrique d'une plateforme à l'autre : un déplacement de 10 cm en coordonnées articulaires n'a pas le même sens sur un UR5 et sur un Franka. Les solutions actuelles, têtes d'action spécifiques à chaque morphologie ou espaces d'action latents appris, contournent le problème sans le résoudre. En ancrant toutes les actions dans le repère caméra, CalibAll impose une sémantique géométrique cohérente indépendante du robot. Les expériences en simulation et sur robot réel montrent que le pré-entraînement cross-embodiment avec ces actions unifiées atteint des performances état de l'art, bien que les benchmarks précis et les taux de succès par tâche ne soient pas détaillés dans l'abstract. Le contexte est celui de la course aux politiques robotiques généralisables, portée par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA. Ces architectures ont besoin de données massives et diversifiées, et la fragmentation des jeux de données existants selon les plateformes constitue un frein majeur à la mise à l'échelle. CalibAll s'attaque précisément à ce goulot d'étranglement en rendant rétrocompatibles des datasets existants sans re-annotation manuelle, ce qui est non négligeable quand on considère le coût de collecte téléopérée. La question ouverte reste la robustesse de l'étalonnage sur des datasets dont les conditions d'acquisition sont hétérogènes, notamment lorsque l'environnement visuel est peu structuré ou que les caméras sont embarquées sur le robot en mouvement. Les suites logiques incluent une intégration dans des pipelines de pré-entraînement ouverts comme Open X-Embodiment, et potentiellement une extension aux robots mobiles manipulateurs où le référentiel caméra change dynamiquement.

RechercheOpinion
1 source
Distillation de simulation : pré-entraîner des modèles du monde en simulation pour une adaptation rapide au réel
638arXiv cs.RO 

Distillation de simulation : pré-entraîner des modèles du monde en simulation pour une adaptation rapide au réel

Une équipe de recherche a publié sur arXiv (arXiv:2603.15759) un cadre appelé Simulation Distillation (SimDist), conçu pour entraîner des world models robotiques en simulation physique avant de les adapter rapidement au monde réel avec peu de données. L'approche se décompose en deux phases distinctes : un préentraînement dans un simulateur physique qui distille des priors structurels dans un world model capable de planifier à partir d'observations brutes, suivi d'une adaptation réelle dans laquelle seul le modèle de dynamiques latentes est mis à jour via des pertes de prédiction issues de données terrain. L'encodeur, le modèle de récompense et la fonction de valeur appris en simulation sont directement transférés sans modification. Les auteurs valident SimDist sur deux catégories de tâches : manipulation en contact riche (préhension, assemblage) et locomotion quadrupède. L'enjeu central que SimDist adresse est le coût prohibitif de la collecte de données d'interaction diverse et de qualité mixte pour entraîner des world models directement dans le monde réel. En réduisant l'adaptation à une forme d'identification de système supervisée, le cadre conserve les signaux de planification denses sur horizon long nécessaires à l'amélioration en ligne, là où les méthodes de fine-tuning de politiques end-to-end restent inefficaces et fragiles sur les tâches longue durée. Les expériences montrent que SimDist progresse régulièrement avec l'expérience accumulée, alors que les approches d'adaptation concurrentes stagnent ou se dégradent durant le fine-tuning en ligne. C'est un résultat notable : la question de savoir si les world models tiennent leurs promesses à l'échelle sur des tâches en contact réel restait ouverte. Les world models robotiques -- dont Dreamer (DeepMind) est le représentant le plus connu -- ont démontré leur potentiel en simulation et dans des domaines à faible dimensionnalité, mais leur passage aux tâches manipulation réelles était resté laborieux, nécessitant des volumes de données difficiles à obtenir en dehors de laboratoires très équipés. SimDist s'inscrit dans un courant récent qui tente de résoudre le sim-to-real gap non pas par le transfert direct de politique, mais par le transfert de représentations et de modèles de planification. Le projet est accompagné d'une page dédiée et d'un dépôt de code (sim-dist.github.io), ce qui facilitera la reproductibilité et les comparaisons tierces. Les prochaines étapes probables incluent l'extension à des manipulateurs à dextérité plus élevée et à des environnements moins structurés, deux domaines où la rareté des données réelles est encore plus critique.

RecherchePaper
1 source
Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable
639arXiv cs.RO 

Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable

Des chercheurs ont publié en mai 2026 (arXiv:2605.11817) un module baptisé GridS (Differentiable Grid Sampler), conçu pour accélérer les modèles Vision-Language-Action (VLA) sans sacrifier leur précision en manipulation robotique. Le problème ciblé est concret : les VLA actuels, qui fusionnent perception visuelle, compréhension linguistique et planification d'action, sont trop coûteux en calcul pour un déploiement temps réel sur des plateformes embarquées. GridS s'insère dans l'encodeur visuel d'un VLA existant comme un module plug-and-play. Il prédit dynamiquement un ensemble minimal de coordonnées saillantes, puis ré-échantillonne les tokens visuels par interpolation différentiable, permettant de retenir moins de 10 % des tokens originaux. Sur le benchmark LIBERO et une plateforme robotique réelle non précisée dans l'article, les auteurs rapportent une réduction de 76 % des FLOPs sans dégradation du taux de succès, et revendiquent le nombre de tokens visuels actifs le plus bas jamais documenté dans la littérature VLA. Ce résultat, s'il se confirme hors simulation, adresse un verrou pratique majeur : la tension entre richesse de la représentation visuelle et vitesse d'inférence. Les méthodes de pruning par seuillage d'attention suppriment souvent des informations géométriques critiques comme les points de contact ou les bords d'objet, dégradant la précision des saisies. GridS opère différemment via un ré-échantillonnage continu orienté par la tâche, censé préserver la géométrie essentielle même à fort taux de compression. Pour un intégrateur industriel, une réduction de 76 % des FLOPs peut permettre de basculer d'un GPU haut de gamme vers un compute embarqué standard, ou d'augmenter significativement la fréquence de commande d'un bras manipulateur. Réserve importante : les tests portent sur LIBERO, un benchmark de manipulation tabletop majoritairement en simulation, et sur un robot non identifié, ce qui laisse ouverte la question du gap sim-to-real en environnement industriel réel. La recherche s'inscrit dans une course à l'efficacité des VLA où Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA) se heurtent au même goulot d'étranglement computationnel lors du passage à l'échelle. GridS se distingue des approches de pruning classiques par sa continuité différentiable, argument clé pour préserver la géométrie fine lors de saisies précises. Le code est publié en open source sur GitHub (Fediory/Grid-Sampler), ce qui facilite l'intégration dans des pipelines VLA existants. La prochaine validation attendue par la communauté concerne des benchmarks plus exigeants, notamment la manipulation d'objets déformables et les environnements encombrés, ainsi que des mesures de latence réelle sur hardware embarqué pour confirmer que la réduction de FLOPs se traduit bien par un gain de vitesse exploitable en production.

IA physiqueOpinion
1 source
Politique de flux stochastique guidé par interpolation
640arXiv cs.RO 

Politique de flux stochastique guidé par interpolation

Une équipe de chercheurs publie le 13 mai 2026 sur arXiv (réf. 2605.10051) une méthode de guidage en temps réel pour les politiques robotiques génératives : SSIP, ou Streaming Stochastic Interpolant Policy. L'objectif est d'orienter une politique à l'inférence, sans réentraîner le modèle, vers de nouveaux objectifs dynamiques tels que l'évitement d'obstacles imprévus ou l'alignement sur des préférences opérateur modifiées en cours d'exécution. Les auteurs formalisent le terme de guidage optimal via l'équation de Kolmogorov rétrograde, ce qui établit mathématiquement un "drift" modifié garantissant l'échantillonnage depuis une distribution cible. Deux mécanismes complémentaires sont proposés : STEG (Stochastic Trajectory Ensemble Guidance), sans entraînement, pour une adaptation zéro-shot par calcul de gradients à la volée ; et CCG (Conditional Critic Guidance), entraîné, pour une inférence amortie. L'enjeu industriel est direct : les architectures "chunk-based", qui génèrent des séquences d'actions par blocs discrets, dominent les politiques génératives en robotique mais souffrent d'une latence structurelle qui les rend peu adaptées aux environnements non structurés ou aux changements de contraintes en cours d'exécution. SSIP généralise la Streaming Flow Policy (SFP) déterministe en y intégrant un cadre stochastique guidé, permettant un contrôle réactif en temps réel. Les évaluations empiriques montrent que l'approche surpasse significativement les politiques chunk-based en réactivité et produit un guidage physiquement valide, c'est-à-dire des trajectoires mécaniquement cohérentes et pas seulement mathématiquement plausibles. Pour un intégrateur industriel, cela réduit le besoin de réentraînement coûteux dès qu'une contrainte opérationnelle évolue. Ce travail s'inscrit dans la vague des politiques génératives pour la manipulation robotique, un espace où Physical Intelligence (pi0, pi0.5), Figure (Helix) et NVIDIA (GR00T N2) ont récemment imposé des architectures fondées sur le flow matching ou la diffusion. La plupart de ces systèmes fonctionnent en mode chunk, ce qui limite leur réactivité face aux perturbations imprévues. SSIP se positionne comme une couche de guidage universelle, applicable aussi bien à des politiques généralistes qu'à des tâches industrielles exigeant une adaptation dynamique. L'approche STEG est particulièrement notable : sans réentraînement, elle abaisse le seuil d'adoption pour des déploiements en conditions réelles. Ce travail reste pour l'instant une contribution académique, sans déploiement annoncé ni partenariat industriel déclaré.

IA physiqueOpinion
1 source
Apprentissage continu par démonstration : un modèle à dynamique stable généré par hyperréseau
641arXiv cs.RO 

Apprentissage continu par démonstration : un modèle à dynamique stable généré par hyperréseau

Des chercheurs ont présenté une méthode d'apprentissage continu par démonstration (LfD) stable et scalable pour robots, publiée sur arXiv (référence 2311.03600, version 3, indiquant un travail itératif). L'architecture centrale repose sur un hyperréseau qui génère dynamiquement les paramètres de deux réseaux neuronaux : un modèle de dynamique de trajectoire et une fonction de Lyapunov garantissant la stabilité asymptotique. Ces deux composants forment un solveur d'équations différentielles ordinaires stable augmenté par horloge, baptisé sNODE (stable Neural ODE). L'évaluation couvre des séquences de 7 à 26 tâches successives, des trajectoires de 2 à 32 dimensions, et des tâches réelles combinant position et orientation. Une régularisation stochastique de l'hyperréseau, via un seul embedding de tâche échantillonné uniformément, réduit la complexité d'entraînement de O(N²) à O(N) pour N tâches cumulées, sans dégradation des performances mesurée sur les benchmarks utilisés. L'enjeu central est la persistance des compétences motrices sans réentraînement sur les démonstrations passées, un problème dit d'oubli catastrophique qui bloque concrètement le déploiement de robots industriels capables d'acquérir progressivement un répertoire de gestes. Le passage de O(N²) à O(N) rend viable l'accumulation de dizaines de compétences sur un même système sans explosion du coût computationnel, ce qui change la donne pour les intégrateurs soumis à des contraintes matérielles embarquées. Plus notable encore : les auteurs montrent empiriquement que la contrainte de stabilité imposée par la fonction de Lyapunov améliore directement les scores d'apprentissage continu, particulièrement dans les hyperréseaux compacts. Cela contredit l'hypothèse courante selon laquelle stabilité et plasticité seraient nécessairement antagonistes. Le LfD stable s'inscrit dans une tradition remontant à SEDS (Khansari-Zadeh, 2011) et aux Dynamic Movement Primitives, qui garantissaient la stabilité au prix d'une expressivité limitée. Les approches récentes basées sur des ODE neuronales (NODE) avaient amélioré la précision de reproduction de trajectoire mais peinaient à combiner stabilité et apprentissage séquentiel sans réentraînement global. Les hyperréseaux, déjà exploités en apprentissage continu pour d'autres domaines, sont ici adaptés spécifiquement à la contrainte de stabilité dynamique. Des variantes haute dimension du dataset LASA (référence standard du domaine) sont introduites pour évaluer la scalabilité. Le code est disponible publiquement sur GitHub (sayantanauddy/clfd-snode) ; les prochaines étapes naturelles incluent la validation sur des plateformes à haute dimensionnalité (au-delà de 32 DOF) et l'intégration avec des politiques de type VLA pour des tâches de manipulation non structurée.

RecherchePaper
1 source
La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon
642arXiv cs.RO 

La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.09537) une méthode appelée CAPS (Context-Aware Power Sampling), conçue pour corriger un défaut récurrent des modèles Vision-Language-Action (VLA) : la dérive d'instruction dans les tâches longues. Leur thèse centrale est que cette dérive n'est pas un problème d'apprentissage mais une erreur systématique d'échantillonnage : le mode glouton local, dominant dans la plupart des inférences VLA actuelles, tend à tomber dans ce que les auteurs nomment des "Negative Pivotal Windows", des optima locaux irréversibles à haute probabilité locale qui coupent définitivement les chemins vers le succès global. CAPS opère entièrement à l'inférence, sans aucune mise à jour des paramètres du modèle, en exploitant des distributions puissance (power distributions) pour accentuer les probabilités de trajectoire globale, couplées à un mécanisme de contrôle métacognitif basé sur le rapport signal-sur-bruit (SNR) qui déclenche une recherche MCMC adaptative uniquement lorsqu'un risque de dérive est détecté. Évalué sur les benchmarks RoboTwin, Simpler-WindowX et Libero-long, CAPS surpasse des références solides comme OpenVLA et TACO sans aucun réentraînement. L'apport clé pour les intégrateurs et chercheurs en robotique est que CAPS est directement applicable à tout modèle VLA déjà déployé, sans modification architecturale. Le mécanisme SNR implémente en pratique une logique système 1 / système 2 à la Kahneman : l'inférence reste rapide par défaut et bascule en mode recherche lente et délibérative uniquement quand les signaux de dérive sont détectés, ce qui limite le surcoût computationnel. Sur les benchmarks long-horizon, talon d'Achille reconnu des VLA actuels, les gains de robustesse sont substantiels, bien que les auteurs ne fournissent pas de résultats sur robot physique, laissant ouverte la question du sim-to-real pour cette méthode spécifique. Les VLA ont connu une accélération notable depuis 2024, avec des modèles phares comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA issu de Stanford, chacun cherchant à allonger l'horizon de tâche et améliorer la généralisation dans des environnements non structurés. La dérive d'instruction était documentée comme l'une des limites structurelles non résolues de ces architectures. Ce papier propose une approche orthogonale au scaling des données ou du modèle, ce qui le rend potentiellement complémentaire aux efforts en cours plutôt que concurrent. Les prochaines étapes naturelles seraient des validations sur robots physiques et une intégration dans des pipelines de contrôle industriel, des éléments que les auteurs n'annoncent pas encore explicitement dans cette version préliminaire.

IA physiqueOpinion
1 source
Planification d'inspection évolutive par programmation linéaire en nombres entiers à base de flots
643arXiv cs.RO 

Planification d'inspection évolutive par programmation linéaire en nombres entiers à base de flots

Une équipe de chercheurs a publié sur arXiv (2603.16593v2) une méthode MILP (programmation linéaire mixte en nombres entiers) pour résoudre la planification d'inspection robotique à grande échelle. L'objectif est de calculer le chemin le plus court permettant à un robot d'inspecter un ensemble de points d'intérêt (POI) via ses capteurs, problème central en robotique industrielle et médicale. En reformulant les contraintes de couverture et de connectivité du problème de planification sur graphe (GIP) comme un flux réseau, les auteurs construisent des modèles MILP efficaces associés à un solveur Branch-and-Cut spécialisé. Les résultats sur benchmarks médicaux et d'infrastructure montrent une réduction des écarts d'optimalité de 30 à 50 % et une capacité à traiter des instances comportant jusqu'à 15 000 sommets et des milliers de POI, là où les méthodes précédentes s'épuisaient en mémoire ou ne fournissaient aucune garantie significative. L'enjeu opérationnel est direct pour les intégrateurs industriels : la planification d'inspection devient un goulot d'étranglement dès que le nombre de POI dépasse quelques centaines, seuil couramment franchi lors de l'inspection de soudures en usine, de turbines éoliennes ou de structures de génie civil. En rendant le problème structurellement exploitable par les solveurs modernes, cette approche combine garanties d'optimalité et passage à l'échelle, deux propriétés que les méthodes par échantillonnage (RRT, PRM) ne pouvaient pas fournir simultanément. Une réduction de 30 à 50 % des écarts d'optimalité se traduit directement en chemins plus courts, donc en temps de cycle réduits et coûts d'exploitation plus faibles, sans sacrifier la couverture complète des points critiques. Le problème de planification d'inspection est apparenté au problème du voyageur de commerce (TSP) et à ses variantes couverture-connectivité. Les approches dominantes reposaient jusqu'ici sur l'échantillonnage de l'espace (RRT, PRM) pour construire un graphe discret, puis sur des heuristiques ou des formulations MILP moins performantes pour le résoudre. Cette contribution s'inscrit dans un mouvement plus large vers les formulations exactes, rendu possible par la progression des solveurs commerciaux comme Gurobi et CPLEX ainsi qu'open-source comme SCIP. Il s'agit pour l'instant d'une publication académique sans déploiement commercial annoncé, mais le cadre s'applique naturellement à l'inspection d'infrastructure (ponts, pipelines, éoliennes offshore) et à la robotique médicale (endoscopie, radiothérapie guidée par robot). Les extensions attendues concernent l'intégration de contraintes dynamiques du robot et de la perception en temps réel dans le modèle d'optimisation.

UECette méthode MILP pourrait améliorer l'efficacité des robots d'inspection d'infrastructures européennes (éoliennes offshore, ponts, pipelines) en réduisant les temps de cycle de 30 à 50 %, mais aucun déploiement ou partenariat européen n'est annoncé à ce stade.

RecherchePaper
1 source
NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste
644arXiv cs.RO 

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

NEXUS est un cadre modulaire présenté en mai 2026 sous forme de preprint arXiv (2605.09387), conçu pour l'apprentissage continu de contraintes symboliques dans les agents incarnés. Son objectif central : combler l'écart fondamental entre l'incertitude probabiliste des grands modèles de langage (LLM) et les exigences de déterminisme strict requises dans le monde physique. Le framework dissocie explicitement deux dimensions : la faisabilité physique, améliorée par des retours d'exécution en boucle fermée, et les spécifications de sécurité, ancrées dans des contraintes dures déterministes formant une défense pré-action. Évalué sur le benchmark SafeAgentBench, NEXUS affiche des taux de succès supérieurs aux approches existantes, refuse efficacement les instructions non sûres, résiste aux attaques adversariales, et améliore progressivement son efficacité de planification par accumulation de connaissances symboliques. La pertinence du cadre réside dans son traitement architectural d'un problème structurel : les LLM, malgré leurs performances en planification, restent des systèmes probabilistes susceptibles de produire des comportements dangereux en environnement physique contraint. NEXUS transforme les artefacts symboliques, jusqu'ici utilisés comme de simples interfaces statiques dans les travaux antérieurs, en vecteurs d'évolution de la connaissance. L'ancrage déterministe des risques est particulièrement utile pour les intégrateurs industriels : un agent peut apprendre à reconnaître et refuser des séquences d'actions dangereuses, y compris face à des instructions adversariales délibérément construites. Pour les décideurs envisageant le déploiement d'agents autonomes en entrepôts ou en production, la distinction entre défense réactive et défense pré-action constitue un avantage concret sur le plan de la certification et de la traçabilité. Ce travail s'inscrit dans la continuité de cadres comme SayCan (Google DeepMind) ou Code as Policies, qui ont posé les bases de la planification incarnée par LLM mais traitaient la sécurité comme une contrainte externe figée. NEXUS la rend évolutive via l'apprentissage continu, ce qui le distingue architecturalement. SafeAgentBench, utilisé pour la validation, s'impose progressivement comme référence pour évaluer la robustesse sécuritaire des agents incarnés. Il convient de noter qu'il s'agit à ce stade d'un preprint sans déploiement industriel annoncé ni validation terrain confirmée. La séparation faisabilité/sécurité que propose NEXUS pourrait néanmoins influencer les prochaines générations de middleware robotique, notamment dans les contextes où la traçabilité réglementaire des décisions autonomes est requise.

UELe cadre NEXUS, en rendant les décisions autonomes traçables et auditables via des contraintes symboliques déterministes, pourrait faciliter la mise en conformité avec l'AI Act pour les intégrateurs européens déployant des agents autonomes en environnement industriel.

RecherchePaper
1 source
Auto-cohérence guidée par la géométrie pour l'IA physique
645arXiv cs.RO 

Auto-cohérence guidée par la géométrie pour l'IA physique

KeyStone est une méthode de cohérence automatique à l'inférence pour les modèles d'IA physique basés sur la diffusion, présentée dans un preprint arXiv (arXiv:2605.08638) publié en mai 2026. Le principe opérationnel : au lieu de retenir une seule trajectoire d'action par round d'inférence, KeyStone génère K trajectoires candidates en parallèle depuis un contexte de modèle partagé, les regroupe par clustering dans l'espace d'action continu, puis retourne le médoïde du cluster le plus dense. Aucun modèle additionnel n'est requis. Les auteurs rapportent une amélioration du taux de succès allant jusqu'à 13,3 % par rapport à l'échantillonnage sur trajectoire unique, avec une latence additionnelle négligeable. La méthode a été validée sur plusieurs classes d'architectures : vision-language-action models (VLAs) et world-action models (WAMs). Le code est publié en open source sur GitHub. L'enjeu central est la fragilité intrinsèque des politiques diffusion-based : chaque inférence est stochastique, et retenir une mauvaise trajectoire compromet l'ensemble de l'épisode suivant, défaut qui se cumule sur des séquences longues. KeyStone exploite une propriété géométrique spécifique aux systèmes robotiques : la distance euclidienne entre chunks d'action reflète directement la similarité physique entre trajectoires, contrairement aux espaces token ou pixel où cette métrique est sémantiquement vide et nécessite un modèle de scoring appris. La sélection est donc principled et judge-free, sans coût d'entraînement. Pour un intégrateur ou un ingénieur robotique, l'argument est concret : gain de performance sans pipeline additionnel, sans latence notable. Ce dernier point repose sur le fait que l'inférence par diffusion est memory-bandwidth bound, laissant de la capacité de calcul disponible pour exécuter K chaînes en parallèle dans le même budget temporel. KeyStone s'inscrit dans l'écosystème des politiques de contrôle apprises pour la manipulation et la navigation physique, dont les représentants actifs sont pi0 de Physical Intelligence, OpenVLA (UC Berkeley), Octo et Diffusion Policy. Ces architectures génèrent des séquences d'action par diffusion ou flow matching, une approche en forte expansion mais exposée précisément à la variabilité stochastique que KeyStone cible. La méthode se positionne comme une amélioration orthogonale, applicable sans réentraînement à tout modèle de cette famille. Le preprint ne mentionne ni déploiement terrain, ni partenaire industriel, ni timeline commerciale : il s'agit d'une contribution de recherche académique, pas d'un produit. La mise en open source immédiate du code accélérera néanmoins l'évaluation par les équipes qui testent des pipelines VLA dans des environnements semi-structurés ou industriels.

IA physiqueOpinion
1 source
Au-delà de l'isolement : un benchmark unifié pour la navigation polyvalente
646arXiv cs.RO 

Au-delà de l'isolement : un benchmark unifié pour la navigation polyvalente

Une équipe de chercheurs vient de publier OmniNavBench (arXiv:2505.09441), un nouveau benchmark conçu pour évaluer la navigation des agents incarnés dans des conditions proches du réel. Contrairement aux protocoles existants qui testent une compétence à la fois sur un seul type de robot, OmniNavBench impose des instructions composites enchaînant six catégories de sous-tâches au sein d'un même épisode : navigation vers un point cible (PointNav), navigation guidée par le langage (VLN), recherche d'objets (ObjectNav), navigation sociale (SocialNav), suivi de personne (Human Following) et question-réponse incarnée (EQA). La plateforme de simulation propose 170 environnements combinant assets synthétiques et scans de lieux réels, et couvre trois morphologies robotiques : humanoïdes, quadrupèdes et robots à roues. Le dataset comprend 1 779 trajectoires expertes collectées par télé-opération humaine, capturant des nuances comportementales comme les regards exploratoires et les évitements anticipatoires, au lieu des classiques plus courts chemins algorithmiques. L'intérêt de ce travail est de révéler une faille systémique dans l'évaluation actuelle des agents navigants. Les méthodes publiées, même celles se réclamant d'une conception unifiée, peinent dès lors qu'on leur demande d'enchaîner des comportements hétérogènes dans un seul épisode continu. Ce résultat contredit implicitement les affirmations de généralité de plusieurs architectures récentes et met en évidence un écart réel entre les performances en benchmark isolé et les exigences d'un déploiement terrain. Pour un intégrateur ou un décideur industriel, cela signifie que les métriques publiées sur des benchmarks mono-tâche ne sont pas transposables à des scénarios opérationnels où un robot doit simultanément localiser un objet, éviter un humain et répondre à une consigne en langage naturel. OmniNavBench s'inscrit dans une dynamique plus large d'unification des évaluations en robotique incarnée, un domaine où les benchmarks fragmentés ont longtemps permis aux équipes de revendiquer des SOTA partiels sans comparabilité réelle. Les benchmarks dominants comme R2R (Vision-and-Language Navigation) ou HM3D (Habitat) restent mono-morphologie et mono-tâche. La plateforme est disponible en open access avec dataset, code et leaderboard, ce qui facilitera l'adoption par la communauté. Les suites logiques incluent l'intégration de modèles VLA récents comme pi0 ou GR00T N2 dans le leaderboard, et potentiellement des évaluations en simulation-to-real pour tester si les scores obtenus se transfèrent sur hardware réel.

RecherchePaper
1 source
Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes
647arXiv cs.RO 

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

Une équipe de recherche publie sur arXiv (arXiv:2605.08511, mai 2026) une méthode pour corriger un défaut structurel des politiques de type flow matching appliquées à la manipulation robotique. Ces architectures apprennent des champs de vitesse continus pour convertir du bruit en séquences d'actions, permettant une inférence déterministe rapide. Le problème identifié est un écart fondamental entre entraînement et inférence : l'objectif d'entraînement optimise une vitesse ponctuelle, tandis que l'inférence requiert l'intégration numérique de ce champ sur une trajectoire complète. Les erreurs s'accumulent et dégradent les performances. La méthode proposée, baptisée TC-Flow, associe quatre correctifs complémentaires : une régression de vitesse par rectified flow auxiliaire pour une supervision uniforme sur l'intervalle temporel, un entraînement par cohérence de trajectoire multi-étapes qui supervise directement le déplacement intégré, une régularisation du champ de vitesse pour forcer la continuité temporelle, et un intégrateur de Runge-Kutta d'ordre 4 (RK4) à l'inférence pour réduire l'erreur de discrétisation. Un encodeur de nuage de points 3D à double vue, basé sur deux PointNet indépendants, complète l'architecture. Validée sur un bras Franka et un robot quadrupède Boston Dynamics Spot, la méthode atteint 70 % et 60 % de succès sur deux tâches longue-horizon multi-phases où les deux baselines de référence stagnent à 0 %, et 100 % sur une tâche de placement d'outil de précision. Trois tâches de simulation MetaWorld confirment les gains. Ce résultat est significatif pour les équipes qui développent des VLAs (vision-language-action) basées sur le flow matching : il démontre que le sim-to-real gap et l'échec sur les tâches longue-horizon ne viennent pas nécessairement de la représentation sensorielle ou de la politique en elle-même, mais du désalignement train-inférence. Le passage de 0 % à 60-70 % sur les mêmes tâches en corrigeant uniquement cet écart est un signal fort. L'ablation confirme que les quatre composants sont nécessaires en synergie : RK4 seul sans champ lisse échoue, et la régularisation sans supervision trajectoire dérive quand même. Dans le contexte du marché, le flow matching pour la robotique a été popularisé par Physical Intelligence avec pi-0, qui domine aujourd'hui les benchmarks de manipulation généraliste, et par des travaux comme ACT ou Diffusion Policy. TC-Flow se positionne comme une correction algorithmique orthogonale, applicable à toute architecture flow matching existante. Il s'agit d'un preprint arXiv sans code public annoncé à ce stade, ni déploiement industriel. Les prochaines étapes naturelles seraient une validation sur des tâches bi-manuelles ou sur des plateformes humanoïdes, terrain où les erreurs cumulées de trajectoire sont particulièrement pénalisantes.

RechercheOpinion
1 source
Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action
648arXiv cs.RO 

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Une équipe de chercheurs a publié sur arXiv (arXiv:2602.01166) LaRA-VLA, un nouveau cadre de modèles Vision-Language-Action (VLA) qui internalise le raisonnement multi-modal directement dans un espace latent continu, plutôt que de générer explicitement des chaînes de pensée textuelles (chain-of-thought, CoT) à l'inférence. Concrètement, là où les VLA actuels produisent des tokens de raisonnement discrets avant chaque décision motrice, LaRA-VLA effectue raisonnement et prédiction d'action dans un même espace latent, sans étape de génération textuelle intermédiaire. Les auteurs rapportent une réduction de la latence d'inférence pouvant atteindre 90 % par rapport aux approches CoT explicites, tout en surpassant les méthodes VLA de référence sur des benchmarks en simulation et sur des tâches de manipulation réelle à longue portée. Deux jeux de données CoT structurés ont été construits pour l'entraînement. L'entraînement suit un curriculum progressif : supervision d'abord textuelle et visuelle, puis transition vers un raisonnement purement latent, avant adaptation de ces dynamiques latentes au conditionnement de la génération d'actions. Ce résultat est significatif pour les intégrateurs et décideurs industriels parce qu'il s'attaque directement au principal goulot d'étranglement des VLA raisonnants : le coût computationnel du CoT à l'inférence rendait ces modèles inutilisables en temps réel sur du matériel embarqué. Un gain de 90 % de latence sans dégradation de performance change le rapport entre qualité de raisonnement et contrainte temps-réel, rendant crédible le déploiement de politiques robotiques expressives sur des bras industriels ou des humanoïdes sans serveur dédié au raisonnement. Cela contredit partiellement l'hypothèse que le raisonnement symbolique explicite est nécessaire pour gérer des tâches longues et multi-étapes. Les VLA, popularisés par des travaux comme RT-2 (Google DeepMind, 2023) puis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), cherchent à combiner compréhension sémantique et contrôle moteur dans un seul modèle. La tension entre performance de raisonnement et latence d'inférence est un sujet actif : d'autres approches comme les modèles de diffusion d'actions (Pi-0) contournent le problème différemment. LaRA-VLA propose une troisième voie, en fusionnant les deux flux dans l'espace latent. Le code et la page projet sont disponibles publiquement ; les prochaines étapes attendues sont des évaluations sur robots humanoïdes et des tests de robustesse hors distribution, domaines où le gap simulation-réalité reste le critère déterminant pour une adoption industrielle.

UECette réduction de latence d'inférence de 90 % ouvre la voie au déploiement de politiques VLA expressives sur du matériel embarqué, ce qui pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur des bras industriels ou des humanoïdes sans infrastructure de calcul dédiée.

💬 90 % de latence en moins sur les VLA, c'est le genre de résultat qu'on attendait pour débloquer l'embarqué. Passer le raisonnement dans l'espace latent plutôt que de cracher des tokens CoT, c'est élégant, et les benchmarks semblent tenir. Reste le gap simulation-réalité, qui est toujours l'épreuve de vérité, et là aucun papier arXiv ne peut te garantir grand chose avant les tests sur du vrai matériel.

IA physiqueOpinion
1 source
Filtrage de l'information par régularisation variationnelle pour la manipulation robotique
649arXiv cs.RO 

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2601.21926v3) une étude portant sur un défaut structurel des politiques visuomotrices par diffusion appliquées à la manipulation robotique. Ces architectures, fondées sur des représentations visuelles 3D et un décodeur de débruitage, sont aujourd'hui parmi les plus performantes pour apprendre des comportements complexes à un bras robotique. L'équipe identifie un problème précis : dans les architectures U-Net et DiT (Diffusion Transformer), les blocs intermédiaires du décodeur contiennent des features parasites, sans rapport avec la tâche à exécuter. La preuve expérimentale est frappante, masquer aléatoirement les features du backbone U-Net ou sauter des couches intermédiaires du DiT pendant l'inférence, sans aucune modification de l'entraînement, améliore les performances. Pour corriger cela, les auteurs proposent un module baptisé Variational Regularization (VR) : un composant plug-and-play qui impose une distribution gaussienne conditionnée au contexte sur les features bruitées, et applique un régulariseur KL-divergence formant un goulot d'information adaptatif. Les évaluations couvrent trois benchmarks de simulation, RoboTwin2.0, Adroit et MetaWorld, et des tests en conditions réelles. Ce travail remet en cause une hypothèse tacite du domaine : augmenter la capacité du modèle de débruitage améliore mécaniquement les résultats. Les auteurs montrent que c'est faux, et que la redondance dans les features intermédiaires est une source active de dégradation. L'approche VR, combinée aux architectures DP3-UNet et DP3-DiT, établit de nouveaux résultats état de l'art sur l'ensemble des benchmarks testés. Pour les intégrateurs et équipes R&D travaillant sur des politiques d'imitation ou de reinforcement learning pour la manipulation, l'intérêt est double : le module est réutilisable sans réentraînement complet, et le diagnostic (tester le masquage aléatoire à l'inférence) est immédiatement applicable pour auditer ses propres architectures. Ce type de recherche s'inscrit dans la lignée des travaux sur les diffusion policies initiés par Chi et al. (2023) et leur extension 3D (DP3), qui ont rapidement supplanté les approches behavior cloning classiques sur les tâches de manipulation fine. Sur ce terrain, les concurrents directs incluent les politiques basées sur les transformers de vision-action comme ACT (Action Chunking with Transformers) ou les approches Flow Matching comme Pi-0 de Physical Intelligence. La contribution ici n'est pas une nouvelle architecture de bout en bout, mais un correctif ciblé sur un problème de capacité mal calibrée, un angle plus susceptible d'être intégré rapidement dans des pipelines existants que de remplacer l'ensemble de la stack.

IA physiqueOpinion
1 source
AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)
650arXiv cs.RO 

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié AsyncVLA (arXiv:2511.14148), un cadre pour modèles Vision-Language-Action (VLA) qui remplace le flow matching synchrone (SFM) conventionnel par un mécanisme asynchrone (AFM) à calendrier temporel non uniforme. Là où le SFM applique un pas de temps identique à tous les tokens d'action, AsyncVLA ajuste ce calendrier en fonction du contexte actionnel en cours, et intègre un module "confidence rater" qui évalue la fiabilité de chaque token généré pour déclencher une auto-correction sélective avant exécution. La procédure d'entraînement est unifiée: un seul modèle peut opérer en mode SFM ou AFM, avec une meilleure utilisation du cache KV. Sur les benchmarks de manipulation robotique en simulation et en conditions réelles, AsyncVLA surpasse les méthodes existantes avec une efficacité accrue en données d'entraînement. Le code est publié en open source sur GitHub. L'instabilité des VLA sur les tâches longue durée (long-horizon) est l'un des principaux freins à leur déploiement industriel: en SFM, une erreur d'action se propage en cascade jusqu'à l'échec complet de la séquence. La capacité d'auto-correction d'AsyncVLA adresse directement ce point, ce qui intéresse les intégrateurs et les équipes robotiques confrontées à des cycles opératoires de plusieurs minutes. L'efficacité en données est un argument complémentaire: entraîner des VLA compétitifs nécessite aujourd'hui des datasets massifs et coûteux, et une méthode qui atteint de meilleures performances avec moins de données réduit la barrière d'entrée. Il faut toutefois nuancer: le papier se limite à des benchmarks de manipulation sans publier de chiffres de déploiement à l'échelle, de temps de cycle réels, ni de résultats sur une flotte opérationnelle. Les VLA à base de flow matching ont été popularisés par Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2024, établissant un standard de génération d'actions continues pour la robotique généraliste. AsyncVLA s'inscrit dans une tendance de raffinement algorithmique de ces architectures, aux côtés d'approches comme OpenVLA, la distillation de politique diffusion, ou les modèles hybrides VLA et planificateur symbolique. Son avantage comparatif est la compatibilité directe avec les pipelines SFM existants, sans rupture architecturale majeure, ce qui facilite l'adoption par les équipes déjà engagées sur ces bases. Les prochaines étapes crédibles seraient une validation sur des robots humanoïdes (Figure, 1X, Unitree) ou des bras industriels en production réelle, là où la robustesse long-horizon reste le goulot d'étranglement dominant.

💬 Le problème de propagation d'erreur en cascade dans les VLA, c'est exactement ce qui bloque le déploiement industriel depuis des mois. AsyncVLA l'attaque frontalement avec un mécanisme de correction sélective avant exécution, et la compatibilité directe avec les pipelines SFM existants (Pi-0, GR00T) rend l'adoption crédible sans tout casser. Reste à voir ce que ça donne sur des cycles de 10 minutes en prod réelle, pas juste en simulation.

IA physiqueOpinion
1 source