Aller au contenu principal

Dossier arXiv cs.RO — page 11

1981 articles · page 11 sur 40

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel
501arXiv cs.RO IA physiqueOpinion

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Des chercheurs ont publié en décembre 2024 (arXiv:2512.20014) une méthode appelée Visual Attentive Prompting (VAP), conçue pour permettre aux modèles Vision-Language-Action (VLA) de répondre à des consignes personnalisées du type "apporte ma tasse". Le problème adressé est précis : un VLA classique, même performant sur des instructions génériques, échoue à identifier un objet spécifique parmi plusieurs visuellement identiques sans avoir été entraîné sur cet objet. VAP fonctionne sans ré-entraînement (training-free), c'est son argument central. Il prend quelques images de référence de l'objet cible, effectue une détection en vocabulaire ouvert dans la scène, compare les embeddings visuels pour localiser l'instance correcte, puis injecte cette localisation directement dans le flux d'entrée du VLA : surlignage de l'objet et réécriture de l'instruction. Les auteurs ont construit deux benchmarks en simulation (Personalized-SIMPLER et Personalized-VLABench) et un benchmark réel sur table pour valider l'approche sur plusieurs robots et tâches. VAP surpasse les politiques génériques et les baselines par apprentissage de tokens, à la fois en taux de succès global et en taux de manipulation du bon objet. L'enjeu industriel derrière ce travail est la personnalisation au niveau de l'instance, un verrou jusqu'ici sous-traité dans la recherche VLA. Pour un intégrateur ou un COO déployant des robots en environnement résidentiel ou hospitalier, la capacité à distinguer "la tasse de Paul" de "la tasse de Marie" sans pipeline d'apprentissage dédié par utilisateur représente un gain opérationnel significatif. VAP démontre que l'attention sélective top-down, couplée à une mémoire visuelle non-paramétrique, peut combler l'écart entre compréhension sémantique et contrôle au niveau de l'instance, un problème que les approches fondées sur le langage seul ne résolvent pas. L'absence de ré-entraînement est un avantage de déploiement réel, même si les benchmarks restent à l'échelle tabletop, loin de la chaîne logistique. Ce travail s'inscrit dans la dynamique post-RT-2 et post-OpenVLA : les VLA généralistes (π0 de Physical Intelligence, GR00T N2 de NVIDIA, ou encore les approches Octo et RoboFlamingo) excellent sur des distributions larges mais restent aveugles à la sémantique d'instance. VAP propose une surcouche légère compatible avec n'importe quel VLA gelé, ce qui le positionne comme un adaptateur potentiel pour des systèmes existants plutôt qu'un modèle concurrent. Les prochaines étapes naturelles incluent des tests hors tabletop (manipulation mobile, environnements encombrés), l'évaluation à plus grande échelle d'objets personnels, et l'intégration dans des frameworks open-source comme LeRobot d'Hugging Face. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans la publication.

UEImpact indirect limité via la mention de LeRobot (HuggingFace, entreprise franco-américaine) comme cible d'intégration naturelle, sans implication directe d'acteurs ou institutions français/européens dans la publication.

1 source
Comparaison des espaces d'action en apprentissage par renforcement pour la manipulation robotique basée sur la vision
502arXiv cs.RO 

Comparaison des espaces d'action en apprentissage par renforcement pour la manipulation robotique basée sur la vision

Des chercheurs ont publié le 23 juin 2026 une étude comparative systématique (arXiv:2606.18594) évaluant quatre types d'espaces d'action en apprentissage par renforcement (RL) pour la manipulation robotique visuelle : l'incrément de pose, la vitesse de pose, l'incrément de position articulaire, et la vitesse articulaire. Les politiques ont été entraînées en simulation puis déployées sur robot réel via transfert sim-to-réel, sur deux tâches benchmark : la saisie d'objet et la poussée d'objet. Résultat principal : l'espace d'action en vitesse articulaire (joint velocity) surpasse les trois autres alternatives, aussi bien en fluidité de mouvement qu'en performance finale sur les deux tâches testées. Ce résultat a une portée pratique directe pour les ingénieurs qui conçoivent des systèmes de manipulation autonome. Le choix de l'espace d'action est une décision d'architecture souvent sous-documentée dans la littérature RL appliquée, et les praticiens se retrouvent fréquemment à tâtonner empiriquement. En démontrant que la vitesse articulaire favorise à la fois la sécurité (mouvements plus lisses, moins de à-coups) et la performance sur des tâches visuelles, l'étude fournit une recommandation actionnable. Elle confirme aussi que le gap sim-to-réel dépend non seulement de la politique apprise, mais de la représentation même des actions, un levier souvent négligé dans les pipelines de transfert. Pour les intégrateurs travaillant avec des bras industriels ou des cobots, cette granularité de contrôle peut directement influer sur la durée de vie mécanique et la robustesse opérationnelle. L'étude s'inscrit dans un courant de recherche croissant sur la robustesse du transfert sim-to-réel pour la manipulation visuelle, aux côtés de travaux sur les politiques visuomotrices à base de transformeurs (VLA) comme pi-0 de Physical Intelligence ou les approches diffusion-policy popularisées par Columbia et Toyota Research Institute. Contrairement à ces méthodes qui s'intéressent à l'architecture du modèle, ce papier intervient en amont, au niveau du signal de commande lui-même. Les auteurs annoncent des recommandations pratiques pour le choix d'espace d'action selon le contexte (simulation seule ou déploiement réel), ce qui en fait une référence méthodologique utile pour les équipes démarrant un projet RL sur hardware.

RecherchePaper
1 source
Commande prédictive par modèle basée sur MuJoCo via dérivées d'espaces affines : robustesse et efficacité
503arXiv cs.RO 

Commande prédictive par modèle basée sur MuJoCo via dérivées d'espaces affines : robustesse et efficacité

Des chercheurs ont publié sur arXiv (2512.21109v2) une méthode d'optimisation du contrôle prédictif par modèle (MPC) dans MuJoCo, le simulateur physique open source de DeepMind, largement utilisé en robotique. Le coeur de la contribution est l'intégration de WASP (Web of Affine Spaces), une approche de calcul de dérivées, comme remplacement direct de la différentiation finie (FD) dans la bibliothèque MJPC (MuJoCo MPC). Les expériences montrent un gain de vitesse allant jusqu'à 2x par rapport au backend FD lorsque WASP est couplé à des planificateurs basés sur les dérivées, notamment iLQG (iterative Linear-Quadratic-Gaussian). Les tests couvrent plusieurs morphologies de robots avec des systèmes à grand nombre de degrés de liberté (DOF), contexte dans lequel FD devient particulièrement coûteux. L'implémentation est publiée en open source et s'intègre sans modification d'architecture dans MJPC existant. L'enjeu est technique mais concret : la différentiation finie est historiquement le goulot d'étranglement du MPC en temps réel sur des systèmes complexes, car elle nécessite de nombreuses évaluations du simulateur pour estimer les gradients. WASP contourne ce problème en réutilisant les informations de calculs de dérivées précédents, ce qui est particulièrement adapté aux mises à jour itératives et incrémentales du MPC. En pratique, cela signifie qu'un contrôleur MPC peut fonctionner à des fréquences plus élevées ou sur des robots avec davantage de degrés de liberté sans augmenter le budget computationnel, un facteur déterminant pour le déploiement sur matériel réel. Les auteurs rapportent également que WASP surpasse les planificateurs stochastiques par échantillonnage de MJPC sur les tâches d'évaluation, en fiabilité et en efficacité, ce qui renforce l'argument en faveur des méthodes basées sur les gradients lorsque ceux-ci sont calculables de façon robuste. MJPC est l'implémentation de référence du MPC sur MuJoCo, et MuJoCo lui-même est devenu le simulateur standard dans la recherche en locomotion et manipulation depuis son acquisition par DeepMind en 2021 et son passage en open source. La différentiation finie y était utilisée faute de meilleures alternatives efficaces pour des simulateurs de contact. WASP a été introduit récemment comme méthode générique de calcul de dérivées approximées en séquence, et ce papier constitue sa première intégration documentée dans un framework MPC robotique établi. Les concurrents directs sur le terrain du MPC différentiable incluent des approches comme Dojo ou MJX (version JAX de MuJoCo permettant la différentiation automatique), mais WASP se positionne comme solution sans réécriture du simulateur sous-jacent. Les prochaines étapes probables sont l'évaluation sur du matériel réel et l'extension à des scènes de contact plus complexes, qui restent le cas limite critique pour tout simulateur physique.

RecherchePaper
1 source
Voir malgré l'occlusion : correction cinématique déterministe du bras pour la téléopération robotique
504arXiv cs.RO 

Voir malgré l'occlusion : correction cinématique déterministe du bras pour la téléopération robotique

Des chercheurs ont publié sur arXiv (référence 2606.19240) une méthode baptisée AKC (Arm Kinematic Correction) pour corriger les erreurs de profondeur lors de la télé-opération de robots via une unique caméra RGB-D sans marqueurs. Le problème ciblé est l'auto-occlusion : quand un bras humain masque partiellement ses propres articulations, les estimations de profondeur se dégradent et le suivi de mouvement devient peu fiable. La méthode repose sur une contrainte géométrique simple, les longueurs de bras sont constantes, et applique le théorème de Pythagore pour reconstruire de manière déterministe la profondeur des articulations cachées à partir de la position du poignet et des longueurs d'avant-bras prédéfinies, sans modèle probabiliste ni ajustement de paramètres. La validation a été conduite contre un système Vicon sur des séquences statiques et dynamiques, mesurées par RMSE et corrélation de Pearson, avec une démonstration de télé-opération par mappage de mouvement en simulation et sur robot physique réel. L'intérêt opérationnel tient d'abord au coût d'entrée : une seule caméra RGB-D grand public remplace un rig Vicon à plusieurs milliers d'euros avec calibration lourde. Le caractère déterministe de l'AKC est un argument concret pour les intégrateurs : pas de phase d'entraînement, pas de poids à régler, pas de risque de mauvaise généralisation. Les résultats montrent que la méthode maintient la cohérence anatomique du squelette sous occultation sévère prolongée, même couplée à des filtres temporels peu robustes, ce qui correspond précisément aux conditions réelles de déploiement. Pour les équipes développant du learning from demonstration ou des interfaces homme-robot légères, c'est un signal que les pipelines bas coût commencent à atteindre un seuil de fiabilité exploitable en production. La télé-opération markerless est un terrain actif depuis que les robots humanoïdes et les bras manipulateurs apprenant par imitation ont pris de l'ampleur. Les approches concurrentes incluent les systèmes multi-caméras, les gants haptiques et les méthodes probabilistes comme les filtres particulaires, plus expressives mais coûteuses à calibrer. L'AKC se positionne comme une couche de correction légère, applicable par-dessus n'importe quel pipeline de pose estimation existant. Il s'agit d'un preprint académique sans partenariat industriel annoncé ; les suites naturelles seraient une intégration dans des frameworks comme ALOHA ou UMI, qui reposent précisément sur ce type de capture de mouvement à bas coût.

RecherchePaper
1 source
C-ARC : le clustering adaptatif continu pour capteurs LiDAR non répétitifs
505arXiv cs.RO 

C-ARC : le clustering adaptatif continu pour capteurs LiDAR non répétitifs

Des chercheurs ont publié fin juin 2026 sur arXiv (réf. 2606.18948) C-ARC, un framework open source de clustering de nuages de points conçu pour les LiDAR non répétitifs à prismes de Risley, tels que le Livox Mid-360 et le Livox Avia. Ces capteurs génèrent des trajectoires en courbes de Rhodonée avec des distributions de points non uniformes et sans cycle de rotation défini, rendant inopérant le clustering classique par scan lines développé pour les LiDAR mécaniques répétitifs. C-ARC, implémenté en C++17 single-threaded, produit une sortie de clustering en temps réel à 20 Hz sur matériel grand public, via un graphe dual persistant sur fenêtre glissante. Un mécanisme adaptatif de résolution de grille, calibré à l'initialisation par boucle de contrôle exponentielle, équilibre le compromis sparsité-collision sans connaissance préalable du patron de scan. Pour les équipes SLAM et de tracking multi-objet en robotique mobile, ce framework comble un manque concret : les LiDAR non répétitifs restaient hors scope des stacks de perception temps réel faute d'algorithme adapté. Le découplage insertion haute fréquence / récupération de clusters à la demande est critique pour limiter la latence dans les pipelines de cartographie et de suivi d'objets. Le mécanisme adaptatif améliore par ailleurs la qualité de clustering des méthodes à grille existantes sur données non répétitives, ce qui ouvre une voie d'intégration sans refonte complète du stack de perception. Les auteurs identifient explicitement une limitation : l'occupancy de cellule non bornée pose problème sur les capteurs à pattern de scan fortement concentré, cas du Livox Avia. Livox, filiale de DJI, domine le segment des LiDAR non répétitifs avec ses capteurs Mid-360 (couverture hémisphérique) et Avia, face aux solutions mécaniques traditionnelles de Velodyne, Ouster et Hesai. Leur attractivité tarifaire a favorisé leur adoption dans les AMR et robots de livraison, mais sans algorithme de clustering natif adapté à leurs spécificités optiques. C-ARC s'insère au niveau du preprocessing bas niveau, en amont des modules de détection et de SLAM. Les approches alternatives par deep learning offrent davantage de robustesse aux distributions irrégulières, mais restent généralement moins adaptées aux contraintes embarquées temps réel. Les auteurs indiquent une prochaine évaluation sur des datasets plus diversifiés et évoquent une extension multi-capteurs.

UELes équipes européennes de robotique mobile équipées de capteurs Livox (AMR, robots de livraison) peuvent intégrer ce framework open source pour combler un manque algorithmique dans leurs pipelines de perception temps réel.

RecherchePaper
1 source
Allocation de tâches et planification du mouvement en environnements dynamiques encombrés via CBBA et graphes d'ensembles convexes
506arXiv cs.RO 

Allocation de tâches et planification du mouvement en environnements dynamiques encombrés via CBBA et graphes d'ensembles convexes

Une équipe de chercheurs a publié sur arXiv (référence 2506.18516) un système de planification combinant deux algorithmes complémentaires pour coordonner des agents mobiles dans des environnements encombrés et dynamiques : le CBBA (Consensus-Based Bundle Algorithm) pour l'allocation distribuée des tâches, et les GCS (Graphs of Convex Sets) pour l'optimisation des trajectoires. L'approche repose sur un espace de configuration en 4D (3D spatial plus axe temporel), ce qui permet de modéliser simultanément la géométrie de l'environnement et le timing des rendez-vous mobiles. Les agents doivent non seulement se répartir les tâches, mais également estimer précisément quand et où ils pourront les atteindre, compte tenu des obstacles et des autres agents. Les résultats sont démontrés exclusivement en simulation, avec des scénarios incluant des tâches statiques et des objectifs de rendez-vous dynamiques. L'apport technique principal réside dans le couplage explicite entre allocation et planification, deux sous-problèmes généralement traités séparément dans la littérature sur les systèmes multi-robots. En pratique, la plupart des architectures industrielles de type AMR (Autonomous Mobile Robot) utilisent un planificateur de chemin découplé du système de dispatch, ce qui introduit des erreurs d'estimation temporelle et des conflits de ressources. En intégrant les GCS dans la boucle CBBA, le système produit des enchères basées sur des trajectoires réellement faisables plutôt que sur des heuristiques de distance euclidienne. Pour un intégrateur ou un décideur B2B, cela signifie potentiellement moins de recalculs coûteux en exécution et une meilleure fiabilité des estimations de temps de cycle dans des entrepôts ou ateliers denses. Il faut néanmoins noter que les GCS, bien que performants en optimisation convexe, restent computationnellement lourds à grande échelle, et que l'article ne fournit pas de données de timing comparatives. Les GCS ont été popularisés principalement par les travaux de Tobia Marcucci et Russ Tedrake au MIT via la librairie Drake, avec des applications initiales en manipulation et locomotion. Le CBBA est issu des travaux du MIT Lincoln Laboratory (Choi et al., 2009) et reste une référence en coordination décentralisée pour drones et robots terrestres. Cette combinaison s'inscrit dans un effort plus large pour combler le fossé entre planification géométrique et coordination multi-agent, un problème actif dans des labos comme Stanford ASL, CMU Robotics Institute, ou côté français l'INRIA et le LAAS-CNRS. Les prochaines étapes naturelles seraient une validation sur matériel réel, une évaluation de la scalabilité au-delà d'une dizaine d'agents, et une comparaison quantitative avec des approches basées sur MILP ou MAPF (Multi-Agent Path Finding).

UEL'INRIA et le LAAS-CNRS sont explicitement cités comme acteurs actifs sur cette problématique, positionnant la recherche française en bonne place pour contribuer ou collaborer autour de cette méthodologie de planification multi-agents.

RecherchePaper
1 source
EgoInfinity : moteur de données 4D d'interaction main-objet pour le reciblage robot et l'apprentissage vidéo-vers-action
507arXiv cs.RO 

EgoInfinity : moteur de données 4D d'interaction main-objet pour le reciblage robot et l'apprentissage vidéo-vers-action

EgoInfinity est un moteur de données 4D présenté en juin 2026 dans un article arXiv (2606.17385), conçu pour convertir automatiquement des vidéos RGB de manipulation humaine en données d'entraînement exploitables par des robots. Son architecture modulaire enchaîne perception, segmentation, reconstruction 3D, raffinement contextuel et reciblage cinématique. À partir d'une vidéo ordinaire, le système produit des représentations 4D indépendantes de l'agent : trajectoires de main, poses d'objets à 6 degrés de liberté (6-DoF) et états de contact. Un module de reciblage de mouvement compile ensuite ces données en trajectoires articulaires exécutables pour n'importe quelle morphologie de robot, à partir de tout angle de vue ou cadrage, même lorsque le corps humain n'est que partiellement visible. Le pipeline a été validé sur des tâches de préhension, coupe, essuyage et versage en conditions réelles. L'enjeu industriel est direct : les données de manipulation collectées en laboratoire ou en usine restent rares, coûteuses et peu diversifiées, plafonnant la généralisation des systèmes d'apprentissage par imitation. EgoInfinity ouvre théoriquement l'accès à Internet comme réservoir de données à l'échelle du web, sans annotation humaine dans la boucle. Le raffinement dit "interaction-aware" (conscient des contacts) corrige les dérives métriques et incohérences de contact fréquentes dans les reconstructions purement visuelles, problème récurrent dans les pipelines sim-to-real. Pour un intégrateur ou un COO industriel, l'argument clé est la portabilité : un même pipeline produit des trajectoires pour des morphologies différentes, sans re-collecte de données. Ce travail s'inscrit dans une compétition intense autour de la donnée pour robots manipulateurs. Les approches concurrentes incluent les datasets collaboratifs comme Open X-Embodiment, les données téléopérées de Physical Intelligence (Pi-0) ou 1X Technologies, et les efforts open-source de HuggingFace (Paris) avec LeRobot, qui cible précisément la démocratisation de la collecte de données à faible coût. L'originalité d'EgoInfinity est d'exploiter des vidéos "in the wild" plutôt que des démonstrations contrôlées, une approche qui reste à valider à grande échelle : les résultats publiés portent sur des tâches isolées, et le passage à des scénarios industriels complexes n'est pas documenté.

UEConcurrence directe pour HuggingFace/LeRobot (Paris) sur le segment de la démocratisation des données de manipulation robotique à faible coût.

RechercheOpinion
1 source
Étude de cas : automatisation robotique dans l'habillement, jumeaux numériques, interopérabilité et formation des équipes
508arXiv cs.RO 

Étude de cas : automatisation robotique dans l'habillement, jumeaux numériques, interopérabilité et formation des équipes

Un système de couture robotisé pour la fabrication de jeans a été déployé en deux phases dans un environnement de production réel, selon une étude de cas publiée sur arXiv (2606.16078) en juin 2026. Le système s'appuie sur un module de "fil numérique" qui parse automatiquement des dessins de production au format DXF pour en extraire des paramètres de process et des trajectoires exécutables par le robot, réduisant l'effort de programmation manuelle et permettant un reciblage rapide entre différentes opérations de couture. Un jumeau numérique de la cellule de travail est utilisé en pré-déploiement pour valider la portée du bras, les dégagements, la disposition et le séquençage, ainsi que la compatibilité en temps de cycle avec les tâches en amont et en aval. En production, un robot collaboratif est intégré à des équipements de couture conventionnels, à des postes de soudure, à des préhenseurs à aspiration et à des automates machine via une couche d'interopérabilité. Les deux déploiements couvrent des opérations de couture 2D (poches plaquées sur shorts en denim) et des coutures 3D de mise en forme de vêtements, accompagnés d'un monitoring en temps réel incluant la vérification des coutures, la détection de collision et la validation de trajectoires. La portée de ce travail dépasse la démonstration de laboratoire : il s'agit d'un déploiement usine réel sur des pièces textiles déformables, segment réputé pour son "reality gap" persistant entre environnements contrôlés et production. L'article identifie cinq leviers critiques pour monter en échelle : validation par jumeau numérique, génération de tâches par fil numérique, interopérabilité entre équipements hétérogènes, vérification runtime, et outillage de formation des opérateurs. Ce dernier point est souvent négligé dans la littérature robotique mais s'avère décisif pour l'adoption en PME textile. Les auteurs ne communiquent pas de métriques de temps de cycle chiffrées dans l'abstract, ce qui limite l'évaluation comparative de la performance brute. L'automatisation de la confection demeure l'un des derniers bastions résistants à la robotisation flexible, là où l'électronique et l'automobile ont largement industrialisé leurs lignes. Les principaux acteurs sur ce créneau incluent SoftWear Automation (Sewbot, États-Unis), Sewts (Allemagne) et quelques projets en cours en Europe du Sud. Aucune entreprise n'est nommée dans cet article académique, ce qui suggère soit une confidentialité industrielle, soit un partenariat en phase pilote. Les prochaines étapes logiques seraient l'extension à d'autres typologies de vêtements, la généralisation du fil numérique à d'autres formats CAO que le DXF, et la quantification rigoureuse des gains de productivité pour un dossier ROI convaincant auprès des intégrateurs textiles.

UELes PME textiles européennes (France, Italie, Portugal) spécialisées en confection pourraient s'appuyer sur cette méthodologie, jumeau numérique + fil numérique DXF + couche d'interopérabilité, pour franchir le seuil de robotisation flexible sur pièces déformables, un verrou persistant que l'acteur européen Sewts (Allemagne) cible également.

IndustrielActu
1 source
Planification du mouvement multi-robots à partir de la vision et du langage par diffusion inspirée de la chaleur
509arXiv cs.RO 

Planification du mouvement multi-robots à partir de la vision et du langage par diffusion inspirée de la chaleur

Des chercheurs ont présenté LHD (Language-conditioned Heat-inspired Diffusion), un framework de planification de mouvement multi-robots publié sur arXiv (réf. 2512.13090v2). Le système génère, en réponse à des commandes en langage naturel, des trajectoires sans collision pour plusieurs robots opérant simultanément dans un espace partagé, sans nécessiter de représentation explicite de l'environnement à l'inférence. LHD combine les priors sémantiques de CLIP, le modèle vision-langage d'OpenAI, avec un noyau de diffusion inspiré de l'équation de la chaleur. Ce noyau agit comme un biais inductif physique : en simulant la propagation thermique depuis les positions cibles, il délimite naturellement l'espace atteignable par chaque robot, guidant la planification à l'intérieur de la zone effectivement accessible. Les évaluations menées sur des environnements simulés inspirés du monde réel et des expériences en conditions physiques réelles montrent des gains en taux de succès et une réduction de la latence de planification par rapport aux planificateurs par diffusion antérieurs. L'enjeu industriel est direct : des systèmes multi-robots capables d'interpréter des instructions verbales sans reconfiguration manuelle représentent un levier clé pour les entrepôts et les lignes de production flexible. Les approches par diffusion existantes souffraient de deux limites bloquantes pour le déploiement réel : un coût computationnel élevé à l'inférence et une dépendance à une cartographie explicite des obstacles. LHD adresse les deux simultanément. Le système gère également les scénarios hors distribution en termes d'accessibilité physique : si une cible est hors de portée, il redirige le robot vers l'alternative accessible la plus proche sémantiquement, exactement le type de robustesse attendu en conditions industrielles. Ces résultats renforcent l'hypothèse que des VLA (Vision-Language-Action) peuvent opérer sans représentation géométrique explicite, sans constituer pour autant une preuve de déploiement à l'échelle commerciale. Ce travail s'inscrit dans une vague de planificateurs neuronaux multi-robots apparue depuis 2023, en concurrence directe avec les approches MAPF (Multi-Agent Path Finding) classiques et les méthodes d'apprentissage par renforcement multi-agent comme QMIX ou MAPPO. L'intégration de CLIP distingue LHD par son conditionnement sémantique flexible, là où la plupart des approches concurrentes raisonnent en coordonnées ou en graphes discrets. Aucun acteur industriel ou institutionnel européen n'est associé à cette publication, dont les affiliations d'équipe ne sont pas précisées dans l'abstract arXiv. Une page projet accompagnée de démos vidéo et de code est accessible à jebeom.github.io/lhdprojectpage/, mais des intégrations avec des flottes AMR commerciales restent à démontrer.

RechercheOpinion
1 source
HATS : système de téléopération humain-agent pour la collecte de données multi-bras
510arXiv cs.RO 

HATS : système de téléopération humain-agent pour la collecte de données multi-bras

Des chercheurs ont publié sur arXiv (référence 2606.16491) un système de télé-opération baptisé HATS (Human-Agent Teleoperation System), conçu pour collecter des données d'entraînement dans des configurations à quatre bras robotiques. Le principe repose sur un découplage du contrôle : un seul opérateur humain télé-opère deux bras principaux directement, tandis qu'un agent basé sur un MLLM (modèle de langage multimodal à grande échelle, non spécifié dans le papier) gère deux bras assistants de façon autonome, sans phase d'entraînement préalable. L'opérateur peut en temps réel corriger le comportement des bras assistants et prévenir des collisions via commandes vocales. Selon les auteurs, l'efficacité de collecte et les taux de réussite obtenus avec HATS sont comparables à ceux d'équipes de deux opérateurs experts humains. Le problème que HATS tente de résoudre est structurant pour le secteur : les scénarios de manipulation industrielle complexes nécessitent souvent plus de deux bras, mais les systèmes de télé-opération existants imposent un arbitrage difficile entre charge cognitive (un seul opérateur gérant tout) et coût de coordination (plusieurs opérateurs synchronisés). En déléguant les sous-tâches à un agent MLLM, HATS réduit la charge sur l'humain sans multiplier les intervenants. Les évaluations en aval (downstream policy evaluations) suggèrent que les données collectées produisent des politiques de manipulation efficaces, mais ces résultats restent auto-rapportés et n'ont pas encore été validés de façon indépendante. La robustesse sur des tâches longues ou à haute précision, là où des corrections vocales pourraient s'avérer insuffisantes, n'est pas encore documentée. La collecte de démonstrations téléopérées est aujourd'hui le principal goulot d'étranglement pour entraîner des politiques de manipulation polyvalentes, notamment dans les approches VLA (Vision-Language-Action, architectures combinant perception visuelle, compréhension du langage et génération d'actions). Des systèmes comme ALOHA de Stanford ou les configurations bimanuelless d'Agility Robotics reposent sur des datasets construits par télé-opération humaine à deux bras. HATS étend cette approche à quatre bras en s'appuyant sur les capacités de raisonnement spatial des MLLM récents pour automatiser les bras secondaires. Cette direction est à suivre de près : si elle se généralisait, elle réduirait significativement le coût humain de construction des datasets d'imitation, un verrou majeur pour le passage à l'échelle des robots manipulateurs.

RecherchePaper
1 source
VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles
511arXiv cs.RO 

VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles

Des chercheurs ont publié sur arXiv (référence 2606.16696) VENOM, un modèle de suivi de mouvement corps entier conçu pour fonctionner sur plusieurs plateformes humanoïdes distinctes sans adaptation spécifique à chaque châssis. L'architecture repose sur un transformeur de type GPT entraîné sur le VENOM dataset, un jeu de données multi-humanoïdes constitué par l'équipe, qui rassemble états, actions et récompenses issus de plusieurs morphologies robotiques. L'originalité principale réside dans l'abandon du découplage classique haut/bas du corps : VENOM produit une politique unifiée qui contrôle simultanément l'ensemble des degrés de liberté. Les évaluations, conduites en simulation, montrent que le modèle surpasse un perceptron multicouche (MLP) entraîné par apprentissage supervisé sur les mêmes données et qu'il égale les performances d'experts formés par renforcement asymétrique acteur-critique, sans jamais avoir eu accès aux signaux de récompense pendant l'entraînement. L'enjeu est structurant pour la filière humanoïde : la majorité des politiques de suivi de mouvement publiées à ce jour segmentent le corps en sous-problèmes distincts, ce qui complique le transfert entre robots aux cinématiques différentes. Une politique cross-embodiment unifiée réduit le coût d'adaptation lorsqu'un intégrateur doit passer d'un châssis à un autre, ou lorsqu'un constructeur révise sa plateforme mécanique. Plus significatif encore, VENOM démontre qu'une architecture de type language model peut absorber la diversité des morphologies sans supervision par récompense explicite, simplifiant ainsi le pipeline d'entraînement. Il faut néanmoins souligner que toutes les expériences restent confinées à la simulation : l'écart sim-to-real n'est pas abordé, et les métriques annoncées ne valident pas encore un comportement physique sur robot réel. Ce travail s'inscrit dans un courant actif qui cherche à généraliser les politiques de contrôle au-delà d'un seul robot, dans la lignée de travaux comme Universal Humanoid Controller ou ExBody. Sur le front industriel, les grands déploiements humanoïdes actuels (Boston Dynamics Atlas, Agility Robotics Digit, Figure 02, Unitree H1) imposent chacun leurs propres pipelines de contrôle propriétaires, ce qui rend le problème du cross-embodiment économiquement pertinent pour tout intégrateur multi-plateforme. VENOM est un preprint non encore évalué par les pairs, le terme "letter" employé dans le texte suggérant une soumission vers une revue IEEE telle que RA-L ; la suite logique serait une validation sur au moins deux plateformes physiques pour établir la robustesse du transfert sim-to-real.

RecherchePaper
1 source
Elastic ODYN : optimisation différentiable pour le contrôle et l'apprentissage en robotique
512arXiv cs.RO 

Elastic ODYN : optimisation différentiable pour le contrôle et l'apprentissage en robotique

Une équipe de chercheurs publie sur arXiv en juin 2026 (arXiv:2606.16564) Elastic ODYN, un solveur de programmes quadratiques (QP) pour le contrôle robotique sous infaisabilité. Les contrôleurs de robots, humanoïdes comme quadrupèdes, formulent leurs commandes comme des QP soumis à des contraintes de forces de contact, de limites articulaires et d'objectifs de tâche. Lorsque ces contraintes se contredisent, par erreur de modèle ou contact dégénéré, les solveurs classiques échouent ou génèrent des gradients instables. Elastic ODYN adopte une relaxation élastique ℓ₂ dans un cadre primal-dual sans point intérieur : le problème reste bien posé en toute condition, le solveur converge vers la solution la plus proche du faisable et supporte le démarrage à chaud. Deux extensions complètent le noyau : Elastic OdynLayer, une couche QP différentiable à gradients stables, et Elastic OdynSQP, une méthode SQP gérant les sous-problèmes inconsistants en contrôle optimal. Les benchmarks couvrent des QP standards, la mécanique de contact singulière, l'identification paramétrique différentiable, et l'optimisation de trajectoires sur quadrupèdes et humanoïdes. L'enjeu est direct pour les intégrateurs de contrôle temps réel et les équipes qui entraînent des politiques par apprentissage. L'infaisabilité n'est pas un cas marginal : un humanoïde sur surface irrégulière, un manipulateur recevant des consignes conflictuelles, ou un algorithme model-based en transition de contact y sont régulièrement confrontés. Jusqu'ici, les développeurs recouraient à des relaxations manuelles ad hoc ou acceptaient des crashs de simulation. La couche différentiable d'Elastic ODYN permet d'entraîner des politiques de contrôle de bout en bout sans que l'infaisabilité intermittente interrompe la descente de gradient, un avantage direct pour les architectures VLA (Vision-Language-Action) et les pipelines sim-to-real. Les solveurs courants comme OSQP, ProxQP et ECOS intègrent déjà des mécanismes de relaxation, mais leurs formulations présentent des discontinuités de gradient incompatibles avec la différentiation automatique. Les couches QP différentiables existantes, cvxpylayers et qpth, supposent la faisabilité et dégénèrent hors de cette hypothèse. Elastic ODYN couvre donc un créneau à l'intersection des deux. Ce preprint arXiv n'a pas encore passé la révision par les pairs, aucun partenariat industriel ni calendrier de déploiement n'est mentionné, et les performances revendiquées restent à confirmer sur des benchmarks industriels indépendants.

RecherchePaper
1 source
GeoTLM : modèles tactile-langage sensibles à la géométrie pour le raisonnement sur l'orientation des contacts d'objets dynamiques
513arXiv cs.RO 

GeoTLM : modèles tactile-langage sensibles à la géométrie pour le raisonnement sur l'orientation des contacts d'objets dynamiques

Des chercheurs ont publié GeoTLM sur arXiv (réf. 2606.15909, juin 2026), un modèle de langage tactile guidé par des représentations géométriques physiques, conçu pour la manipulation robotique d'objets en mouvement. Le constat de départ est empirique : les modèles TLM actuels, Sparsh et AnyTouch2, échouent sur des tâches aussi élémentaires que détecter la direction de rotation d'un objet à partir des données d'un capteur GelSight Mini. Pour y remédier, les auteurs proposent le DGR (Differentiable Geometric Representation), un encodeur de seulement 14 000 paramètres qui structure le champ de cisaillement tactile avant le raisonnement linguistique, via un pooling antisymétrique à sept régions motivé par le fait que les contacts rotatifs génèrent des déformations antisymétriques dans le gel du capteur. Les gains mesurés sont significatifs : +14,6 points de précision sur la direction de rotation pour des objets non vus à l'entraînement, et +16,2 points sur la détection de direction de glissement en conditions réelles de capteur, par rapport au même backbone sans encodeur géométrique. Ce résultat révèle une lacune structurelle des TLM généralistes : construits pour la reconnaissance de textures et de matériaux (tâches statiques), ils manquent de primitives physiques pour raisonner sur des contacts dynamiques tels que le vissage, le glissement contrôlé ou l'assemblage en pression. Injecter des priors géométriques différentiables dans la boucle d'un VLA sans surcoût architectural notable constitue un pas concret vers un raisonnement tactile robuste sur des objets non catalogués au préalable, ce qui réduit directement la dépendance aux datasets spécifiques par référence produit. La perception tactile robotique s'est longtemps limitée aux propriétés statiques de surface. L'essor des capteurs visuotactiles haute résolution comme le GelSight, conçu au MIT et largement adopté en recherche, et l'intégration des LLM dans la boucle de contrôle depuis 2023 ont ouvert ce champ. Sparsh, publié par Meta FAIR, et AnyTouch2 constituent les références actuelles des TLM généralistes ; GeoTLM se greffe sur ces backbones plutôt qu'il ne les remplace, ce qui facilite une adoption incrémentale. Aucun acteur européen n'est impliqué dans ce travail. La prochaine étape logique reste une validation en boucle fermée sur des tâches de manipulation réelle, au-delà des benchmarks de classification de direction présentés ici.

RecherchePaper
1 source
Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon
514arXiv cs.RO 

Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon

Des chercheurs ont soumis le 16 juin 2026 sur arXiv (2606.16178) une architecture transformer nommée PRISM, conçue pour doter les politiques visuomotrices entraînées par imitation learning d'une mémoire à court terme effective. Le système combine deux mécanismes : une attention filtrée (gated attention) qui supprime les corrélations parasites entre l'historique sensoriel et la prédiction d'action, et une architecture hiérarchique qui compresse les informations locales en tokens compacts pour capturer des dépendances temporelles étendues. PRISM maintient ainsi une mémoire opérationnelle sur environ deux minutes. Ses performances : 5 à 12 % de gains absolus sur les baselines les plus solides, et 11 à 15 % de mieux que sa variante sans mémoire sur RoboCasa et LIBERO, dépassant des modèles VLA fine-tunés comme GR00T-N1-3B (NVIDIA) et OpenVLA, sans aucun pré-entraînement à grande échelle. Les auteurs publient aussi ReMemBench, un benchmark de huit tâches de manipulation domestique couvrant quatre catégories mémorielles. La quasi-totalité des politiques visuomotrices actuelles n'exploitent que l'entrée sensorielle instantanée, les rendant incapables de gérer des tâches impliquant des objets temporairement occultés ou des actions à déclencher après un délai défini. PRISM démontre qu'une architecture mémoire soigneusement conçue peut surpasser des VLA massivement pré-entraînés, remettant en question l'hypothèse dominante selon laquelle la taille du corpus de pré-entraînement prime sur les choix architecturaux. Pour les intégrateurs et les décideurs industriels, ce résultat ouvre la voie à des politiques de manipulation longue séquence plus accessibles en calcul. PRISM s'inscrit dans un débat actif entre approches récurrentes (LSTM, Mamba) et architectures transformer pour les politiques de manipulation robotique. Les benchmarks RoboCasa et LIBERO font référence en simulation pour ce type de tâches, et des modèles comme GR00T-N1 de NVIDIA (3B paramètres) ou OpenVLA ont misé sur un pré-entraînement multimodal massif pour y performer. PRISM se positionne comme une alternative architecturale plus légère et sans pré-entraînement. Il faut toutefois souligner que tous les résultats sont obtenus en simulation : aucun transfert sim-to-real ni déploiement physique n'est annoncé, laissant ouverte la question de la robustesse sur robot réel.

RechercheOpinion
1 source
WaveSync : optimisation par front d'onde contraint pour les gestes co-verbaux synchronisés des robots humanoïdes
515arXiv cs.RO 

WaveSync : optimisation par front d'onde contraint pour les gestes co-verbaux synchronisés des robots humanoïdes

Des chercheurs du laboratoire PAIRS ont publié sur arXiv (arXiv:2606.16600) un système baptisé WaveSync, dédié à la synchronisation des gestes coverbaux d'un robot humanoïde avec sa parole. L'architecture est hybride : un grand modèle de langage décompose les réponses dialoguées en schémas sémantiques structurés et attribue un poids d'importance à chaque mot, construisant une "Semantic Importance Wave", courbe continue représentant l'emphase du discours mot par mot. Les trajectoires gestuelles sont ensuite générées via des Dynamic Movement Primitives (DMP), qui assurent la faisabilité cinématique tout en modulant l'expressivité. Une étape de Wavefront Optimization aligne les pics gestuels avec les pics d'emphase vocale, et résout les violations cinématiques résiduelles par compression de durée et propagation avant. Évalué sur cinq scénarios de dialogue, WaveSync surpasse trois baselines en évaluation objective et subjective. Ce travail s'attaque à un problème structurel de l'HRI sur plateforme physique : contrairement aux avatars virtuels, un humanoïde ne peut enchaîner des mouvements rapides ou chevauchants sans risquer de violer ses contraintes dynamiques. Le couplage entre synchronisation parole-geste et planification cinématiquement sûre était jusqu'ici traité séparément, produisant des gestes soit fluides mais désynchronisés, soit synchronisés mais potentiellement dangereux. WaveSync propose une résolution conjointe de ces deux contraintes, ce qui est non trivial sur hardware réel. Pour les intégrateurs HRI, cela ouvre une voie vers des interfaces vocales naturelles sur robots d'accueil ou de service, sans bibliothèque gestuelle pré-enregistrée. La recherche sur les gestes coverbaux en robotique reste dominée par des corpus humains comme le Trinity Speech-Gesture Dataset, ou des méthodes end-to-end par diffusion telles que GestureDiffuCLIP. WaveSync se distingue par une approche neurosymbolique, combinant contrôle explicite via DMP et compréhension sémantique du LLM, là où les méthodes purement data-driven abandonnent le contrôle cinématique au profit de la fluidité. Le code et les vidéos sont publiés sur GitHub (pairs-lab/WaveSync). Il s'agit d'une publication académique sans déploiement industriel annoncé; la validation sur plateforme réelle hors conditions contrôlées reste à démontrer.

RecherchePaper
1 source
APEX : exécution adaptative de politiques pour la manipulation de précision
516arXiv cs.RO 

APEX : exécution adaptative de politiques pour la manipulation de précision

Une équipe de chercheurs a publié sur arXiv (référence 2606.16504) un framework baptisé APEX, Adaptive Policy Execution, conçu pour combler le fossé d'exécution qui dégrade les performances des robots manipulateurs pilotés par des politiques d'imitation. Dans les benchmarks rapportés, APEX réduit l'erreur de suivi induite par le contrôleur de 41,2 % sur la relecture de démonstrations, et améliore le taux de succès en manipulation de 4,8 à 25,8 points de pourcentage selon la classe de politique testée, visuomoteur ou VLA (Vision-Language-Action). Ces résultats couvrent quatre familles de politiques distinctes, ce qui constitue une base de comparaison plus large que la plupart des papiers du genre. Le problème que APEX adresse est structurel dans le domaine : les politiques d'imitation modernes génèrent des références d'action de haut niveau (positions cibles, trajectoires) que des contrôleurs bas niveau exécutent ensuite. Or ces politiques sont entraînées sans modéliser la dynamique du contrôleur sous-jacent, ce qui crée un écart systématique entre les actions commandées et les actions réalisées, un problème particulièrement critique pour les tâches de manipulation de précision (assemblage, insertion, saisie fine). Les approches existantes nécessitaient soit de modifier l'architecture de la politique pré-entraînée, soit de reprogrammer le contrôleur bas niveau. APEX se positionne comme une couche intermédiaire plug-and-play, traitant la politique et le contrôleur comme des boîtes noires inaccessibles. Il reconstruit une référence dynamiquement faisable à partir des sorties de la politique, puis s'adapte en temps réel via le feedback d'état bas niveau. Les auteurs fournissent une garantie formelle de convergence, ce qui est notable dans un champ souvent dominé par des résultats empiriques sans fondement théorique. Le contexte est celui d'une course intense au déploiement des VLA dans des environnements industriels réels : des modèles comme pi0 (Physical Intelligence), OpenVLA ou RT-2 (Google DeepMind) affichent des résultats impressionnants en simulation ou en laboratoire, mais peinent à translater leurs performances sur des robots physiques en raison précisément de ce sim-to-real gap d'exécution. APEX s'inscrit dans une tendance émergente, sans toucher aux poids du modèle, améliorer l'exécution physique, qui concurrence les approches de fine-tuning sur robot réel. La publication ne mentionne pas de partenaires industriels ni de timeline de déploiement ; il s'agit d'une contribution de recherche, pas d'un produit annoncé. L'enjeu pour les intégrateurs est direct : si le framework tient ses promesses à plus grande échelle, il pourrait devenir un composant standard entre n'importe quelle politique foundation et n'importe quel bras robot commercial, sans nécessiter d'accès au code source de l'un ou de l'autre.

IA physiqueOpinion
1 source
SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné
517arXiv cs.RO 

SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné

SAPS (Shared Autonomy for Policy Steering, arXiv:2606.15568) est un framework qui combine en temps réel les commandes d'un opérateur humain avec les actions d'un modèle Vision-Language-Action (VLA) préentraîné, au niveau de l'action elle-même. Sans réentraînement, sans modèle auxiliaire, sans modification architecturale, SAPS introduit trois stratégies d'arbitrage dont une basée sur la similarité cosinus: cet indice mesure l'accord géométrique entre la commande humaine et celle du modèle pour distribuer le contrôle de façon dynamique. Testé sur les benchmarks de simulation LIBERO, LIBERO-PRO et CALVIN, et sur du matériel réel, le framework améliore le taux de succès des tâches jusqu'à 82 % par rapport à l'exécution autonome seule, réduit les interventions humaines par rapport à la télé-opération pure, et raccourcit les temps de complétion dans les deux cas. Ce résultat touche au défaut structurel des VLA généralistes: leur fragilité face aux perturbations hors-distribution, qu'il s'agisse d'un objet déplacé de quelques centimètres ou d'une scène atypique. SAPS n'exige pas de modifier le modèle existant, ce qui est l'argument commercial central pour un intégrateur industriel: le framework se greffe indifféremment sur Pi-0, GR00T N2, OpenVLA ou tout autre VLA disponible. La réduction de charge cognitive par rapport à la télé-opération pure est également significative pour des applications d'assistance aux personnes à mobilité réduite et pour la collecte de données d'imitation, où chaque heure d'opérateur est coûteuse. Les métriques présentées sont issues d'un preprint non relu par des pairs, et les vidéos de démonstration réelles restent à évaluer avec prudence. L'autonomie partagée est un champ établi, mais son application agnostique au modèle au niveau action sur des VLA modernes est une voie distincte des approches concurrentes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et HuggingFace (LeRobot) misent sur la robustification des politiques par distillation et augmentation de données; SAPS propose une couche d'intervention humaine plug-and-play plutôt qu'un meilleur modèle. Le preprint n'annonce ni déploiement industriel ni partenariat commercial. Les extensions naturelles visent les plateformes humanoïdes (Figure 03, Unitree G1) et un usage dans des boucles de fine-tuning continu. Aucun acteur français ou européen n'est impliqué dans ce travail.

RechercheOpinion
1 source
Récupérer plutôt que réentraîner : étendre les modèles vision-langage-action (VLA) à de nouvelles tâches au moment de l'inférence
518arXiv cs.RO 

Récupérer plutôt que réentraîner : étendre les modèles vision-langage-action (VLA) à de nouvelles tâches au moment de l'inférence

Des chercheurs ont publié en juin 2026 (arXiv:2606.15631) une méthode permettant d'étendre un modèle VLA (Vision-Language-Action) à de nouvelles tâches sans réentraînement par tâche. Le principe : remplacer le fine-tuning par de la récupération d'exemples (retrieval) au moment du déploiement. La politique est entraînée une seule fois sur des démonstrations appariées entre deux embodiments, le robot cible et un embodiment moins coûteux, typiquement une vidéo de main humaine, puis gelée définitivement. Pour ajouter une nouvelle tâche, il suffit d'indexer des démonstrations supplémentaires dans un pool de récupération : aucune mise à jour de paramètres n'est nécessaire. À chaque pas de contrôle, la politique gelée conditionne ses actions sur des trajectoires récupérées dynamiquement. Un fine-tuning reste nécessaire uniquement lors du passage à un embodiment entièrement inconnu, pas pour chaque nouvelle tâche. La méthode a été validée sur les benchmarks PushT et RoboTwin 2.0, ainsi que sur un robot réel. Ce résultat s'attaque directement au principal frein au déploiement industriel des politiques VLA : le coût d'adaptation par tâche. Aujourd'hui, intégrer une nouvelle tâche dans un système VLA exige des démonstrations téléopérées et un fine-tuning intensif en calcul, une barrière réelle pour les intégrateurs devant couvrir des dizaines de SKU ou de postes de travail. Remplacer ce cycle par une simple indexation de données change radicalement l'équation économique. L'effet est notable sur des backbones VLA standard, mais il est surtout prononcé avec Cosmos Policy, le world-action model (WAM) de NVIDIA basé sur la génération vidéo : le retrieval fournit la progression macroscopique de la tâche, tandis que l'objectif de prédiction d'images futures du WAM renforce la cohérence des actions conditionnées. Cela suggère que les modèles de robotique générative de prochaine génération sont particulièrement bien positionnés pour tirer parti de cette approche. Le retrieval-augmented generation (RAG) est une technique établie en traitement du langage naturel ; son application aux politiques de contrôle robotique est plus récente. Les modèles VLA actuels, π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, offrent une bonne généralisation mais exigent toujours un fine-tuning par tâche pour être fiables en production. RoboTwin 2.0 est un benchmark récent pour la manipulation bimanuale. L'aspect cross-embodiment, qui utilise des vidéos de main humaine comme source bon marché, est également structurant : il ouvre la possibilité de collecter des données de déploiement sans robot. Les prochaines étapes naturelles incluent des expériences à plus grande échelle de pools de démonstrations et une intégration avec des systèmes de récupération dense type FAISS pour des catalogues de tâches industrielles larges.

IA physiqueOpinion
1 source
OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique
519arXiv cs.RO 

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

Une équipe de chercheurs publie sur arXiv (référence 2508.08706, troisième révision) OmniVTLA, une architecture VLA (vision-langage-action) augmentée de perception tactile. Le modèle repose sur un encodeur tactile dual-path : un ViT préentraîné classique traite les capteurs tactiles basés sur la vision, tandis qu'un SA-ViT (semantically-aligned Vision Transformer) prend en charge les capteurs basés sur la force. Les auteurs publient parallèlement ObjTac, un dataset tri-modal de 135 000 échantillons couvrant 56 objets en 10 catégories, associant données textuelles, visuelles et tactiles. En environnement de laboratoire sur des tâches pick-and-place, OmniVTLA atteint 96,9 % de taux de réussite avec des pinces robotiques, soit +21,9 points sur la baseline VLA de référence, et 100 % avec des mains dextres (+6,2 points), tout en réduisant le temps d'exécution et en générant des trajectoires plus lisses. Ce résultat pointe une lacune structurelle des VLA de génération actuelle : pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) reposent sur des fondations visuelles et langagières, mais restent aveugles au toucher, ce qui les met en échec sur toute tâche impliquant une manipulation fine, une surface glissante ou un objet déformable. OmniVTLA démontre qu'un encodeur tactile sémantiquement aligné peut compenser l'hétérogénéité des capteurs physiques, frein historique à l'intégration du toucher dans les architectures fondatrices. La mise à disposition publique d'ObjTac répond également à une pénurie documentée de données tactiles labellisées, qui limitait jusqu'ici la recherche dans ce domaine. Depuis pi-0 en octobre 2024 et GR00T N2 présenté en mars 2025, les architectures VLA multimodales s'imposent comme la direction principale pour généraliser la manipulation robotique, mais la perception tactile y reste systématiquement absente, faute de données standardisées et d'harmonisation entre capteurs optiques (GelSight, DIGIT) et piézo-résistifs. OmniVTLA tente de combler ce vide via SA-ViT, entraîné sur ObjTac pour apprendre une représentation tactile unifiée transférable. Il s'agit toutefois d'un preprint arXiv en environnement contrôlé : les performances hors-labo, la robustesse à la variabilité des objets réels et la généralisation à des tâches d'assemblage complexe n'ont pas encore été démontrées. ObjTac est disponible en open access, ce qui ouvre la voie à une réplication indépendante et à de futurs benchmarks communautaires sur la perception tactile.

UEL'open access d'ObjTac offre aux équipes de recherche européennes en manipulation robotique un dataset tri-modal rare, mais aucune institution ou entreprise FR/EU n'est impliquée directement.

IA physiqueOpinion
1 source
X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques
520arXiv cs.RO 

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

Publié sur arXiv (2603.03733) en 2025, X-Loco est un framework d'entraînement d'une politique de locomotion généraliste basée sur la vision pour robots humanoïdes. L'approche repose sur une distillation synergétique : plusieurs politiques expertes sont entraînées séparément pour des compétences distinctes - locomotion bipède stable, récupération après chute, coordination corps entier, franchissement de terrains variés - puis une politique unique guidée par entrée visuelle est distillée à partir de ces experts via un mécanisme de sélection adaptative au cas par cas. X-Loco opère uniquement sur des commandes de vitesse, sans recours à des mouvements de référence issus de captures de mouvement. Les auteurs revendiquent une première dans l'intégration simultanée de toutes ces compétences dans une seule politique vision - affirmation à prendre avec les précautions d'usage pour un preprint non encore évalué par les pairs. Ce travail s'attaque à un verrou technique central : entraîner une politique unique qui maîtrise des comportements aux dynamiques radicalement différentes et aux objectifs de contrôle parfois contradictoires. Une telle politique simplifie le déploiement opérationnel en éliminant les modules de commutation entre comportements. L'absence de dépendance aux données de mocap rend également le pipeline d'entraînement plus scalable, puisqu'il ne requiert pas de bibliothèques de mouvements spécifiques à chaque compétence cible. Les études d'ablation incluses renforcent la crédibilité des choix architecturaux, mais les résultats restent cantonnés à la simulation et au laboratoire, sans validation sur hardware réel à grande échelle. X-Loco s'inscrit dans une dynamique de recherche intense sur la locomotion humanoïde, portée par des équipes comme Berkeley Humanoid, CMU et les labos gravitant autour d'Unitree. La distillation enseignant-étudiant est un paradigme établi en apprentissage par renforcement, mais son application à un spectre aussi large de compétences reste un défi ouvert. Côté commercialisation, Tesla (Optimus Gen 2), Figure AI, Boston Dynamics (Atlas) et 1X Technologies travaillent sur des problèmes similaires avec des ressources bien supérieures. La suite logique pour X-Loco serait une validation sim-to-real convaincante sur hardware physique, étape non encore franchie selon le papier.

RecherchePaper
1 source
ADAPT : un chariot élévateur autonome pour les chantiers de construction
521arXiv cs.RO 

ADAPT : un chariot élévateur autonome pour les chantiers de construction

Des chercheurs ont publié sur arXiv (réf. 2503.14331, version 4) ADAPT, pour Autonomous Dynamic All-terrain Pallet Transporter, un chariot élévateur tout-terrain entièrement autonome conçu pour les chantiers de construction. Contrairement aux robots AMR d'entrepôt qui opèrent dans des espaces balisés et prévisibles, ADAPT doit composer avec des terrains non revêtus et accidentés, des obstacles dynamiques (ouvriers, engins en mouvement) et des conditions météorologiques variables. Le système associe des techniques de perception par intelligence artificielle à des méthodes classiques de planification de trajectoire et de contrôle. Les auteurs ont évalué le dispositif lors de tests en conditions réelles, en comparant ses performances en continu à celles d'un opérateur humain expérimenté sous plusieurs conditions climatiques, et revendiquent un niveau de performance proche du seuil humain. La logistique matériaux sur chantier est l'un des derniers angles morts de l'automatisation industrielle. Là où les entrepôts disposent de solutions AMR matures portées par des acteurs comme Exotec, Locus Robotics ou Seegrid, les chantiers restent quasi exclusivement manuels, avec les retards, accidents et pénuries de main-d'oeuvre qui en découlent. L'enjeu central d'ADAPT est de prouver que les techniques de perception robuste, rodées en environnement indoor, peuvent tenir dans un contexte extérieur non structuré, ce qui constituerait une avancée significative sur le problème du sim-to-real en robotique mobile. La revendication "niveau humain" appelle néanmoins à la prudence : il s'agit d'un preprint non encore validé par les pairs, aucune métrique précise (temps de cycle, charge utile, taux d'incidents) n'est publiée dans l'abstract, et les conditions exactes de la comparaison restent à qualifier. La robotique de chantier est un segment émergent mais encore peu peuplé. Built Robotics automatise des excavatrices aux États-Unis, Dusty Robotics déploie des robots de traçage au sol sur des projets de construction commerciale, et les grands constructeurs de chariots industriels comme Toyota Material Handling et Jungheinrich développent des solutions autonomes qui restent cantonnées à l'indoor. Sur le segment outdoor tout-terrain, le créneau est quasi vierge. Les prochaines étapes logiques pour l'équipe de recherche seront de publier les métriques complètes, de conduire des pilotes à plus grande échelle sur des chantiers réels, et de trouver un partenaire industriel ou équipementier pour franchir le fossé entre prototype académique et déploiement opérationnel.

IndustrielPaper
1 source
GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels
522arXiv cs.RO 

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Une équipe de chercheurs a publié sur arXiv (2606.14160) une nouvelle méthode d'estimation d'état proprioceptive pour robots à pattes, baptisée GAIT. L'approche repose sur une tokenisation inertielle-jambe (Inertial-Leg, IL) couplée à un réseau d'attention : plutôt que de concaténer l'ensemble des données capteurs en un seul vecteur plat, l'architecture représente les mesures inertielles et les mesures par jambe comme des tokens distincts, puis utilise un mécanisme d'attention pour pondérer dynamiquement chaque source selon les conditions de contact courantes. La méthode a été validée sur un robot quadrupède Unitree Go1, sur des terrains encombrés de débris absents de la simulation d'entraînement, et sur des allures (gait patterns) non présentées lors de l'apprentissage. L'enjeu de GAIT est de résoudre un problème central des estimateurs à pattes : la fiabilité des mesures de cinématique directe dépend du contact effectif du pied avec le sol. Les estimateurs classiques "contact-aided" contournent ce problème via un module de détection de contact explicite et l'hypothèse d'un appui stationnaire, ce qui les rend fragiles sur terrains irréguliers ou lors de transitions d'allure. GAIT apprend ce comportement de repondération directement depuis les données, sans estimateur de contact dédié, éliminant une source d'erreur en cascade. Les résultats montrent une supériorité sur les estimateurs d'apprentissage existants pour des allures non vues, ainsi qu'une amélioration par rapport aux méthodes modèles contact-aided, confirmant que les architectures à attention peuvent réduire le gap sim-to-real sur l'estimation proprioceptive bas-niveau. L'estimation d'état proprioceptive reste un défi persistant en robotique à pattes : les filtres de Kalman étendu (EKF) et variantes invariantes dominent en production chez Boston Dynamics et Unitree, mais peinent sur terrains non structurés. Les approches d'apprentissage antérieures traitaient généralement les capteurs comme un vecteur plat homogène, sans différenciation structurelle entre inertielles et cinématiques. GAIT s'inscrit dans la tendance 2024-2026 d'appliquer des mécanismes d'attention aux données robotiques bas-niveau, une direction convergente avec les architectures VLA (Vision-Language-Action) pour la commande motrice. Le code n'est pas encore publié ; la prochaine étape naturelle serait une validation sur plateformes bipèdes telles que l'Unitree H1 ou le Boston Dynamics Atlas, où la phase de vol rend l'estimation d'état encore plus critique.

RecherchePaper
1 source
Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables
523arXiv cs.RO 

Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables

Fin juin 2025, une équipe de recherche a déposé sur arXiv (2506.14188) CORD-SLS, une méthode de contrôle temps réel pour la manipulation certifiée d'objets déformables, principalement des cordes et des tissus. Le coeur du système est un simulateur différentiable GPU-parallèle avec lissage de contact, permettant une planification par gradient à travers des contacts intermittents. Un algorithme de commande prédictive robuste (MPC) à retour de sortie, lui aussi GPU-parallèle, exploite ce simulateur pour générer des trajectoires en quelques millisecondes. Pour gérer les incertitudes de modèle et de perception, le système intègre la prédiction conforme (conformal prediction), qui calibre les erreurs de rétroaction visuelle et produit des "tubes atteignables" offrant des garanties probabilistes de sécurité. Les expériences couvrent des tâches à contact riche: évitement d'obstacles, routage de corde, pliage et lissage de tissu, évaluées en simulation et sur matériel réel, avec des résultats supérieurs aux baselines sur les critères de sécurité, de vitesse et de taux de succès. La manipulation d'objets déformables reste l'un des angles morts de la robotique industrielle: cordes et tissus présentent des espaces d'états quasi-infinis et des dynamiques de contact difficiles à modéliser. CORD-SLS attaque deux verrous simultanément: la vitesse de planification compatible avec du contrôle en boucle fermée temps réel, et des garanties formelles de sécurité absentes de la quasi-totalité des approches par apprentissage (RL, VLA). Le fait que le même simulateur accélère également l'entraînement de politiques neuronales model-based est notable: cela ouvre la voie à des pipelines hybrides combinant planification robuste et politiques apprises. Pour les intégrateurs ciblant la couture automatisée, la logistique textile ou la robotique chirurgicale, c'est une démonstration académique sérieuse, pas encore un produit déployé. La manipulation déformable est étudiée depuis les années 1990, mais les approches classiques échouaient systématiquement à l'échelle réelle faute de simulateurs rapides et fiables. Les méthodes par apprentissage de type diffusion policies et VLAs gagnent du terrain mais peinent à fournir des garanties certifiables, ce qui freine leur adoption dans des contextes régulés. CORD-SLS positionne le couplage MPC robuste et prédiction conforme comme une alternative formellement vérifiable. Les concurrents directs incluent les travaux de simulation différentiable de DiffTaichi, les approches MPC déformable développées à MIT et CMU, et les politiques end-to-end de type Pi-0 de Physical Intelligence. Le papier reste un preprint sans publication en conférence confirmée à ce stade; les suites dépendront de validations sur des tâches industrielles réelles et d'une éventuelle mise à disposition publique du code.

RecherchePaper
1 source
EgoGuide : guidage égocentrique pour collecter des démonstrations sans robot et apprendre efficacement
524arXiv cs.RO 

EgoGuide : guidage égocentrique pour collecter des démonstrations sans robot et apprendre efficacement

Une équipe de chercheurs a publié en juin 2026 sur arXiv (2606.14665) EgoGuide, une interface de collecte de démonstrations robotiques sans robot physique. Le système enregistre simultanément deux flux vidéo : une caméra au poignet de l'opérateur (wrist view) et une caméra égocentrique portée sur la tête (egocentric view). Un module de guidage visuel-géométrique en ligne évalue la qualité de chaque épisode en temps réel et signale les données redondantes ou peu informatives avant leur accumulation dans le jeu d'entraînement. Les auteurs introduisent également une "Gated Egocentric Residual Policy", une architecture qui mobilise la vue égocentrique pour corriger les ambiguïtés de la vue poignet, tout en préservant la stabilité du contrôle moteur local. Les expériences en conditions réelles confirment une réduction du nombre d'épisodes de démonstration nécessaires et une meilleure robustesse face aux occultations visuelles. L'apport principal est de s'attaquer à un goulot d'étranglement bien identifié dans le domaine : le coût humain de la collecte de données de qualité. Les pipelines de type UMI (Universal Manipulation Interface), qui permettent à un opérateur de collecter des démonstrations manuellement sans robot dédié, produisent souvent des épisodes redondants et manquent de contexte global de scène. Le guidage en ligne réduit ce gaspillage dès la source. La politique résiduelle répond à un problème concret des systèmes d'imitation : la vue poignet seule est ambiguë lors d'occultations ou de passages critiques dans la trajectoire. Donner au modèle un accès conditionnel (gated) à la vue globale lève ces ambiguïtés sans déstabiliser le contrôle fin. Pour un intégrateur, cela signifie potentiellement moins d'heures de collecte humaine pour atteindre un niveau de performance équivalent. EgoGuide s'inscrit dans la lignée directe de l'UMI, développé par Cheng Chi et ses collaborateurs à Stanford et Columbia, qui a popularisé la collecte de démonstrations via des dispositifs portatifs instrumentés. Le verrou adressé ici n'est pas la quantité brute de données mais leur qualité et leur diversité informationnelle. Les approches concurrentes incluent ACT (Action Chunking Transformer), Diffusion Policy et les plateformes de téléopération à faible coût comme ALOHA. Ce travail reste une publication académique arXiv sans déploiement industriel annoncé, et les expériences présentées restent à l'échelle laboratoire. La combinaison guidage en ligne et politique bi-caméra présente toutefois un intérêt direct pour les équipes cherchant à réduire le coût opérationnel de la démonstration à grande échelle.

RechercheOpinion
1 source
Kine2Go : jeu de données cinématiques pour le robot Unitree Go2, avec allures et mouvements variés
525arXiv cs.RO 

Kine2Go : jeu de données cinématiques pour le robot Unitree Go2, avec allures et mouvements variés

Une équipe de chercheurs a publié en juin 2026 Kine2Go, un jeu de données cinématiques open-source destiné au robot quadrupède Unitree Go2. Le dataset contient 800 trajectoires de marche couvrant une large variété de gaits, issues de 40 politiques de contrôle distinctes. Le pipeline développé accepte des données de locomotion provenant de morphologies quadrupèdes variées et les retraduit dans un format compatible Go2. Ces politiques sont entraînées par renforcement (RL) pour reproduire fidèlement les trajectoires cibles, puis les données collectées en simulation incluent des perturbations, ce qui produit des séquences cinématiques robustes accompagnées des commandes moteur correspondantes, niveau actionneur. Le problème que Kine2Go cherche à résoudre est concret : les approches modernes d'apprentissage sur robots, qu'il s'agisse d'imitation learning, de behavioral cloning ou de RL, nécessitent des données de démonstration incluant l'état cinématique complet du robot et les actions appliquées aux moteurs. Construire le pipeline d'acquisition de ces données est coûteux en temps et en ingénierie, ce qui constitue un frein réel pour les équipes de recherche à ressources limitées. En prépackageant 800 trajectoires prêtes à l'emploi avec leurs labels moteur, le dataset réduit significativement ce coût d'entrée pour les travaux en navigation, contrôle de locomotion et transfert sim-to-real. La présence de perturbations dans les données est un choix pertinent : elle expose les modèles apprenants à de la variabilité, ce qui améliore la robustesse des politiques résultantes en condition réelle. Le Unitree Go2 s'est imposé ces deux dernières années comme plateforme de référence accessible dans la recherche en locomotion quadrupède, notamment face au Boston Dynamics Spot, beaucoup plus onéreux. Sa démocratisation tient au rapport coût-performance : moins de 2 000 dollars en version grand public, contre plusieurs dizaines de milliers pour ses concurrents institutionnels. Ce contexte de coût hardware décroissant est précisément la motivation affichée par les auteurs. La prochaine étape logique serait l'extension du pipeline à d'autres plateformes quadrupèdes populaires comme l'ANYmal de ANYbotics ou le Spot de Boston Dynamics, voire aux robots bipèdes, que le pipeline générique semble en principe permettre. Le preprint est disponible sur arXiv (2606.14433).

RecherchePaper
1 source
ReactVLA : manipulation robotique rapide et légère par génération d'actions Mean Flow améliorée
526arXiv cs.RO 

ReactVLA : manipulation robotique rapide et légère par génération d'actions Mean Flow améliorée

Des chercheurs ont publié en juin 2026 un préprint arXiv (2606.14255) présentant ReactVLA, un framework VLA (Vision-Language-Action) conçu pour réduire drastiquement la latence d'inférence des politiques de manipulation robotique. Le problème ciblé est précis : les architectures VLA basées sur la diffusion, comme π₀ (Physical Intelligence) ou SmolVLA (HuggingFace/LeRobot), génèrent des distributions d'action expressives mais exigent un échantillonnage itératif coûteux, qui plombe leur utilisabilité en boucle fermée temps-réel. ReactVLA propose deux mécanismes complémentaires pour y remédier : un générateur d'actions iMF (improved Mean Flow) qui ramène la diffusion multi-étapes à une ou quelques passes seulement, et AttnRes (Attention Residuals), un mécanisme de routage dynamique des features par couche d'attention censé mieux préserver les représentations multimodales liées à la tâche. Sur les benchmarks de simulation LIBERO et RoboIMI, ainsi que sur des tâches de manipulation physique, ReactVLA affiche jusqu'à 1,65× de gain en taux de succès sur les tâches de précision et plus de 4× d'accélération à l'inférence par rapport aux VLA de référence de taille comparable. La latence de politique en conditions réelles tombe sous 38,6 ms. Ce seuil de 38,6 ms est le chiffre à retenir pour un intégrateur ou un ingénieur robotique : il passe sous la barre des 40 ms généralement considérée comme nécessaire pour un contrôle réactif crédible en manipulation dynamique, là où les modèles de diffusion standards restent souvent au-delà de 150 à 300 ms. Si les résultats se confirment hors contexte académique, cela répond à l'une des critiques récurrentes contre les VLA pour l'industrie : la qualité d'action est là, mais la cadence ne suit pas. L'approche Mean Flow (accélération de la diffusion par réduction du nombre d'étapes via un flux de probabilité direct) n'est pas nouvelle en vision générative, mais son application aux espaces d'action robotiques avec maintien des performances sur tâches de précision reste un résultat non trivial. Il faut cependant nuancer : il s'agit d'un preprint non relu, les benchmarks LIBERO et RoboIMI sont des environnements académiques standardisés loin des contraintes industrielles réelles, et les vidéos de démonstration présentées sur le site projet ne constituent pas une validation de déploiement. ReactVLA s'inscrit dans une course dense à l'efficacité des VLA depuis 2024. π₀ (Physical Intelligence) reste la référence en qualité d'action sur tâches bimanuelle complexes mais souffre précisément de cette latence. SmolVLA, publié par HuggingFace début 2025, vise la légèreté et l'accessibilité open-source. Côté industriel, GR00T N2 de NVIDIA et Helix (co-développé par Figure et d'autres partenaires) intègrent leurs propres pipelines VLA dans des architectures humanoïdes avec des contraintes de déploiement très différentes. Aucune affiliation institutionnelle ni source de financement n'est mentionnée dans le preprint, ce qui limite l'évaluation du contexte de transfert technologique. Les prochaines étapes naturelles seraient une validation sur des manipulateurs industriels (6-DOF, scénarios de pick-and-place variables) et une soumission en conférence de référence comme CoRL ou ICRA pour validation par les pairs.

UESmolVLA (HuggingFace, entreprise française) est cité comme référence comparative directe, mais ReactVLA est un preprint sans affiliation institutionnelle connue et sans déploiement démontré en Europe, l'impact reste indirect via l'écosystème open-source LeRobot.

IA physiqueOpinion
1 source
Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné
527arXiv cs.RO 

Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné

Des chercheurs publient sur arXiv (référence 2606.14084) une méthode baptisée SDN (Selected Diffusion Noise), conçue pour améliorer à l'inférence les politiques VLA (Vision-Language-Action) basées sur la diffusion, sans nécessiter de réentraînement. SDN opère dans l'espace du bruit de diffusion en sélectionnant dynamiquement des vecteurs de bruit maximalement séparés d'un ensemble de référence, ce qui réduit la dépendance aux corrélations visuelles parasites, tout en filtrant les candidats produisant des trajectoires d'action plus cohérentes. La méthode a été évaluée sur deux benchmarks de simulation (Google Robot, Widow-X) et deux jeux de données réels, sur plusieurs politiques VLA majeures dont pi0 (Physical Intelligence), Groot-N1.5 et Groot-N1.6 (NVIDIA). Les gains annoncés sont de +8 points de taux de succès en simulation et +10 points en conditions réelles, avec une réduction mesurable du "action jitter", c'est-à-dire l'instabilité des trajectoires articulaires. Ces résultats sont issus d'un preprint non encore évalué par les pairs. L'intérêt pratique tient à l'approche "training-free" : SDN s'applique à l'inférence sans modifier les paramètres du modèle, ce qui permet d'améliorer un système déjà déployé sans refondre le pipeline ML ni supporter les coûts d'un réentraînement. Pour un intégrateur ou un décideur achetant une solution robotique basée sur une politique VLA, ce type de méthode représente un levier de fiabilité à faible coût opérationnel. La robustesse maintenue sous des observations avec occultation partielle (object-masked observations) est également pertinente pour les environnements industriels réels. SDN s'inscrit dans la tendance plus large des techniques d'optimisation test-time appliquées aux modèles génératifs, analogues au best-of-N sampling dans les LLMs. Les politiques VLA basées sur la diffusion, popularisées par Physical Intelligence (pi0, pi0.5) et NVIDIA Isaac (GR00T N1.5, N1.6), sont devenues en 2025-2026 la référence de facto en manipulation robotique généraliste. Elles héritent toutefois d'une sensibilité aux artefacts visuels hors distribution et d'une certaine instabilité d'action, deux problèmes que SDN cible directement. L'abstract ne mentionne ni affiliation institutionnelle ni dépôt de code public, ce qui limite pour l'instant la reproductibilité et les comparaisons indépendantes. Les prochaines étapes naturelles seraient une validation sur plateformes humanoïdes complètes (Figure, 1X, Unitree H1) et des benchmarks de manipulation plus diversifiés que Widow-X ou Google Robot.

UELes intégrateurs européens déployant des solutions robotiques basées sur des politiques VLA (pi_0, GR00T) pourraient bénéficier de cette méthode d'optimisation sans réentraînement, mais aucun acteur FR/EU n'est directement impliqué dans ces travaux.

IA physiqueOpinion
1 source
Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles
528arXiv cs.RO 

Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles

Des chercheurs ont publié en juin 2026 (arXiv:2606.13746) un système de peau tactile dynamique basé sur des guides d'ondes acoustiques passifs et flexibles. L'architecture repose sur des résonateurs de Helmholtz à membranes élastiques interconnectés par des microtubes renforcés par ressorts, formant un réseau fermé dont la transmission acoustique reste stable sous flexion macroscopique, sans électronique distribuée dans la structure. Quatre microphones suffisent à couvrir 64 noeuds de détection avec une résolution spatiale de 4 mm et une précision de localisation supérieure à 99 %. L'inférence, fondée sur une transformée en ondelettes continue rapide (Fast CWT) couplée à un réseau de neurones léger, s'exécute en 5,5 ms. Les prototypes démontrés (réseau d'extrémité de doigt, gant tactile, peaux de grande surface) détectent des stimuli allant du contact d'un seul cheveu à un impact de particule de 5 mg, ainsi que des ondes de pouls artériel et des effleurements de plume, sur des signaux inférieurs à 100 Hz. La contribution clé n'est pas la sensibilité brute mais le découplage entre performance et flexibilité structurelle : contrairement aux capteurs piézorésistifs ou capacitifs qui se dégradent sur des substrats courbés, la transmission acoustique passive reste invariante. Ramener à quatre microphones la couverture de 64 points de mesure réduit câblage, coût et modes de défaillance, trois leviers critiques pour une mise en série industrielle. La précision annoncée de 99 % reste à confirmer hors conditions de laboratoire contrôlé et sur des cycles de manipulation réels. Ces travaux s'inscrivent dans une compétition dense autour de la peau tactile robotique, face aux capteurs optiques (famille GelSight du MIT), aux matrices piézorésistives (BeBop Sensors, SynTouch) et aux peaux capacitives développées en Europe et en Asie. Aucune approche n'a encore atteint la trifecta scalabilité-robustesse-coût sur un corps humanoïde complet. Ce paradigme passif pourrait intéresser des plateformes comme Agility Robotics, Figure AI ou Apptronik, qui cherchent à intégrer du retour tactile sans multiplier la complexité d'assemblage. La validation mécanique sur cycles répétés et la soumission à une revue à comité de lecture constituent les prochaines étapes critiques.

RecherchePaper
1 source
AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique
529arXiv cs.RO 

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion
1 source
Commande prédictive adaptative d'un robot continu souple par réseau neuronal informé par la physique (tiges de Cosserat)
530arXiv cs.RO 

Commande prédictive adaptative d'un robot continu souple par réseau neuronal informé par la physique (tiges de Cosserat)

Des chercheurs ont publié sur arXiv (2508.12681) un framework de contrôle prédictif par modèle (MPC) non linéaire pour robots continus souples, capables de se déformer en flexion continue plutôt que par articulations rigides. Le coeur du système est un réseau de neurones physiquement informé à découplage de domaine (DD-PINN), entraîné comme substitut du modèle dynamique de tige de Cosserat, la référence mathématique pour la mécanique des structures élancées déformables. Ce substitut atteint un facteur d'accélération de 44 000 par rapport au modèle complet, ce qui permet de faire tourner le MPC en temps réel à 70 Hz sur GPU. En parallèle, un filtre de Kalman non parfumé (UKF) exploite le DD-PINN pour estimer en ligne les états internes du robot et la compliance en flexion, à partir des seules mesures de position de l'effecteur terminal. En simulation, les erreurs de position restent inférieures à 3 mm, soit 2,3 % de la longueur de l'actionneur. Sur le robot physique, le contrôleur atteint des accélérations jusqu'à 3,55 m/s², avec une précision comparable. Ce résultat est notable parce qu'il démontre un contrôle dynamique (et non quasi-statique) d'un robot souple en conditions réelles, à une fréquence compatible avec les exigences industrielles. La majorité des approches antérieures, dont les méthodes basées sur l'opérateur de Koopman, sacrifient soit la précision de forme globale, soit l'adaptabilité aux variations de rigidité. Ici, le DD-PINN reconstruit la forme complète du robot et adapte en ligne la compliance, ce qui ouvre la voie à des manipulateurs souples capables de compenser vieillissement matériau ou déformations sous charge variable. Pour un intégrateur ou un décideur industriel, c'est la convergence entre modèle physique et inférence rapide qui est structurante : on cesse de choisir entre fidélité du modèle et temps réel. Les robots continus souples sont étudiés depuis une quinzaine d'années, principalement pour des applications médicales (endoscopes actifs, outils chirurgicaux), l'inspection en espace confiné, et la manipulation de pièces fragiles. Le modèle de Cosserat est le standard théorique du domaine, mais son coût computationnel avait jusqu'ici limité son usage au contrôle quasi-statique ou offline. Les PINN, réseaux intégrant des équations différentielles comme contraintes de loss, constituent depuis 2019 une piste active pour contourner ce verrou. Ce preprint ne mentionne pas de partenaires industriels ni de calendrier de déploiement ; il s'agit à ce stade d'un résultat de recherche académique, sans produit ni pilote terrain annoncé. Les prochaines étapes naturelles concernent la robustesse aux perturbations externes, l'extension à des structures à plusieurs segments, et une validation sur des cas d'usage médicaux ou d'assemblage délicat.

RecherchePaper
1 source
Mana : manipulation habile d'outils articulés
531arXiv cs.RO 

Mana : manipulation habile d'outils articulés

Des chercheurs présentent Mana (Manipulation Animator), un framework sim-to-real conçu pour la manipulation dextre d'outils articulés, c'est-à-dire des outils dotés de degrés de liberté internes comme des ciseaux, des pinces ou des instruments à charnières. Publié en preprint sur arXiv (réf. 2606.13677), le travail comble une lacune notable : la quasi-totalité des recherches antérieures en robotique dextre s'est concentrée sur des objets rigides, laissant de côté les outils dont les parties mobiles exigent une coordination fine entre préhension et manipulation in-hand. Le pipeline repose sur une approche coarse-to-fine inspirée de l'animation par ordinateur : des keyframes de préhension générées procéduralement sont transformées en trajectoires de manipulation via planification de mouvement et apprentissage par renforcement. La génération de données est largement automatisée, spécifier les affordances fonctionnelles d'un nouvel outil ne demandant que quelques clics de souris, soit moins d'une minute par outil. Testé sur quatre outils articulés couvrant différentes échelles et types de liaisons cinématiques, Mana obtient un transfert sim-to-real zéro-shot pour la préhension comme pour la manipulation in-hand, sans fine-tuning supplémentaire sur robot réel. Ce résultat est significatif à plusieurs titres. Le transfert zéro-shot reste un défi ouvert en manipulation dextre, particulièrement pour des objets dont la dynamique de contact varie selon l'état interne de l'outil. La scalabilité du pipeline constitue également un argument fort : moins d'une minute d'annotation par outil contraste avec les pipelines d'imitation classiques qui nécessitent des heures de démonstrations humaines par tâche. Il convient toutefois de nuancer, les résultats étant ceux d'un preprint académique évalué sur quatre outils seulement, sans données de robustesse à grande échelle ni validation industrielle. Si les chiffres se confirment sur un éventail plus large, cela modifie le calcul économique pour les intégrateurs robotiques cherchant à déployer des manipulateurs dextres sur des lignes de production diversifiées. L'approche s'inscrit dans un courant qui cherche à réduire le sim-to-real gap via des pipelines de génération de données synthétiques plutôt que par le domain randomization seul. Les travaux concurrents incluent des frameworks VLA comme pi0 de Physical Intelligence ou les approches de manipulation généraliste développées à CMU et Stanford, qui misent davantage sur la généralisation via de larges datasets de démonstrations humaines. Mana prend un pari différent en substituant l'animation procédurale à la téléopération. Les prochaines étapes naturelles consisteraient à valider le framework sur des outils industriels concrets comme des tournevis ou des clés à cliquet, et à tester sa robustesse face aux variations de fabrication et aux conditions réelles de production.

RecherchePaper
1 source
Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres
532arXiv cs.RO 

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

Une équipe de chercheurs a publié le 10 mai 2026 sur arXiv un travail (2605.07381) remettant en cause une pratique répandue dans l'adaptation des modèles Vision-Language-Action (VLA) à des robots réels : la collecte de démonstrations aussi variées que possible. Leur étude formalise ce qu'ils appellent un "piège de la diversité", le fait que, sous un budget de données fixe et limité, multiplier les conditions uniques introduit un bruit d'estimation qui ne converge pas vers zéro, dégradant finalement la fiabilité de la politique apprise. Pour le quantifier, ils décomposent l'erreur de politique en deux composantes : un terme d'estimation lié à la densité des démonstrations, et un terme d'extrapolation lié à la couverture des conditions. Ils montrent qu'il existe un point optimal intérieur, c'est-à-dire non aux extrêmes, pour l'allocation des configurations uniques avec un budget contraint. Sur cette base, ils proposent l'Anchor-Centric Adaptation (ACA), un cadre en deux étapes : d'abord stabiliser un squelette de politique via des démonstrations répétées sur des ancres centrales, puis étendre sélectivement la couverture vers des zones à haut risque d'erreur via un "teacher-forced error mining" et des mises à jour résiduelles contraintes. Des expériences sur robot réel valident l'approche et montrent des taux de succès supérieurs à la stratégie diversifiée standard avec le même budget. Ce résultat a des implications directes pour les équipes qui tentent de déployer des VLA généralistes, tels que pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, sur des plateformes matérielles spécifiques. Le coût de collecte de démonstrations physiques est élevé, et la pratique habituelle consistant à "maximiser la diversité" repose sur une intuition empruntée au machine learning classique qui ne tient pas ici. ACA suggère qu'un protocole structuré, ciblant d'abord la répétabilité sur des configurations critiques avant d'explorer les marges, peut réduire significativement les besoins en données tout en améliorant la robustesse. Cela touche directement le "reality gap" : les VLA entraînés en simulation ou en général échouent souvent à l'adaptation fine non pas par manque de couverture, mais par instabilité statistique sur les ancres critiques. Le travail s'inscrit dans un mouvement plus large de rationalisation du fine-tuning des VLA pour des applications industrielles, où chaque heure de télé-opération coûte cher. Les approches concurrentes incluent DAgger, des méthodes de résidual policy learning, et diverses stratégies de curriculum. Ce papier est un preprint non encore évalué par les pairs ; les expériences réelles décrites restent à reproduire indépendamment. Les prochaines étapes probables incluent une validation sur plusieurs plateformes (bras industriels, manipulateurs mobiles) et une intégration dans des pipelines de déploiement VLA existants.

RechercheOpinion
1 source
Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne
533arXiv cs.RO 

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Des chercheurs ont publié sur arXiv (arXiv:2605.05544, mai 2026) une méthode appelée Adaptive Q-Chunking (AQC), visant à résoudre une limitation structurelle de l'apprentissage par renforcement offline-to-online avec action chunking. Toutes les approches existantes appliquent une taille de chunk fixe à chaque état, ce qui est sous-optimal : près d'un contact physique, des chunks courts sont nécessaires pour un contrôle réactif ; en déplacement libre, des chunks longs améliorent l'attribution du crédit temporel. La solution naïve, entraîner un critique par taille de chunk puis comparer les valeurs Q, échoue systématiquement par désalignement des échelles de remise (discount-scale mismatch) et dégénère en bruit dans les états à faible valeur. AQC corrige ce double problème en comparant l'avantage relatif de chaque horizon par rapport à une baseline normalisée par le facteur de remise, rendant les comparaisons non biaisées même en l'absence de signal discriminant. La méthode atteint des taux de succès état de l'art sur les benchmarks OGBench et Robomimic, et améliore significativement les performances de modèles VLA à grande échelle sur les tâches RoboCasa-GR1. L'enjeu est concret pour les équipes qui intègrent des modèles Vision-Language-Action en production. Ces architectures, dont Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, prédisent des séquences d'actions dont l'efficacité dépend directement de la granularité temporelle de ces séquences. AQC est applicable sans modifier l'architecture sous-jacente, ce qui en fait un correctif plug-and-play pour des pipelines existants. Les auteurs fournissent également des bornes formelles sur l'immunité au bruit du sélecteur d'avantage et sur la dominance en valeur du chunking adaptatif face à toute taille fixe, donnant une assise théorique à des performances que les benchmarks confirment empiriquement. L'action chunking s'est imposé comme paradigme de référence en manipulation apprise depuis ACT (Action Chunking with Transformers, Chi et al., 2023) et Diffusion Policy. La limitation d'une taille fixe était documentée mais sans solution rigoureuse. Des approches concurrentes adressent la granularité temporelle via la planification hiérarchique ou le fine-tuning online de politiques de diffusion, sans résoudre le biais de comparaison entre horizons. AQC se positionne comme correctif algorithmique orthogonal, applicable en surcouche de ces méthodes. Les résultats présentés portent intégralement sur des environnements simulés ; la validation sur plateformes physiques reste à établir, le gap sim-to-real demeurant une variable non résolue dans ce domaine.

RechercheOpinion
1 source
VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés
534arXiv cs.RO 

VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés

Une équipe de chercheurs publie VLA-GSE (Generalized and Specialized Experts) sur arXiv en mai 2026 (arXiv:2605.06175), une méthode d'affinage efficace en paramètres (PEFT) pour les modèles vision-langage-action (VLA). Ces modèles, construits sur des dorsales visuelles et linguistiques pré-entraînées comme celles d'OpenVLA ou pi-0, souffrent d'oubli catastrophique lorsqu'on les affine entièrement sur des données de contrôle robotique. VLA-GSE répond à ce problème via une décomposition spectrale de la dorsale gelée : les composantes singulières dominantes alimentent des experts généralisés partagés entre toutes les tâches, tandis que les composantes résiduelles disjointes alimentent des experts spécialisés routés selon la tâche. Seuls 2,51 % des paramètres totaux sont entraînables. Sur le benchmark LIBERO-Plus, la méthode atteint 81,2 % de taux de succès moyen en zéro-shot, surpassant à la fois l'affinage complet (FFT) et LoRA, tout en préservant des performances comparables à LoRA sur les benchmarks de compréhension multimodale. Ce résultat remet en question une hypothèse implicite du secteur : préserver les connaissances pré-entraînées et adapter efficacement au contrôle robotique seraient deux objectifs incompatibles. La décomposition spectrale permet d'allouer la capacité d'adaptation là où elle est nécessaire sans écraser les représentations visuelles-sémantiques acquises. Pour les équipes R&D et les intégrateurs travaillant sur des robots manipulateurs, cela signifie qu'un modèle de fondation peut être spécialisé sur un domaine restreint avec un budget computationnel réduit sans sacrifier la généralisation. La robustesse observée face à plusieurs changements de distribution (environnement, objets, éclairage) renforce la crédibilité de l'approche, même si les expériences sur plateformes physiques restent limitées dans les résultats publiés. Les modèles VLA constituent depuis 2023-2024 un axe de recherche majeur, portés notamment par OpenVLA (UC Berkeley), pi-0 (Physical Intelligence) et GR00T N1/N2 (NVIDIA). La stratégie dominante jusqu'ici reposait sur un affinage complet coûteux ou sur LoRA standard, qui peine à capturer la complexité des politiques de contrôle. VLA-GSE se positionne entre ces deux extrêmes avec un ratio paramètres/performance favorable. Le code source est disponible sur GitHub (YuhuaJiang2002/VLA-GSE), facilitant la reproduction. Les prochaines étapes logiques incluent des validations sur des plateformes physiques variées, notamment des bras à 6-7 DOF et des robots mobiles manipulateurs, ainsi qu'une comparaison directe avec des approches concurrentes comme SpatialVLA en conditions de déploiement réel.

RechercheOpinion
1 source
RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée
535arXiv cs.RO 

RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée

Une équipe de chercheurs a publié en mai 2025 RobotEQ (arXiv:2605.06234), un benchmark conçu pour évaluer ce qu'ils appellent l'intelligence active dans les systèmes d'IA incarnée. Contrairement aux approches actuelles, où un robot exécute des tâches sur instruction explicite de l'utilisateur (intelligence passive), l'intelligence active désigne la capacité d'un système à identifier de manière autonome quelles actions sont socialement acceptables ou interdites, sans consigne préalable. Pour mesurer cette aptitude, les auteurs ont constitué RobotEQ-Data : un jeu de données de 1 900 images en vue égocentrique, couvrant 10 catégories scénario typiques de l'IA incarnée et 56 sous-catégories. Via annotation manuelle intensive, ils ont produit 5 353 questions de jugement d'action et 1 286 questions d'ancrage spatial, formant ensemble le socle du benchmark RobotEQ-Bench. Les résultats d'évaluation sur les modèles de pointe actuels sont sans ambiguïté : aucun ne satisfait de manière fiable aux exigences de l'intelligence active, avec des lacunes particulièrement marquées sur l'ancrage spatial, c'est-à-dire la capacité à localiser précisément les objets ou zones pertinents dans une scène pour motiver un comportement conforme aux normes sociales. L'étude montre cependant qu'intégrer des bases de connaissances externes via des techniques de RAG (Retrieval-Augmented Generation) améliore significativement les performances, ce qui suggère une piste concrète pour les développeurs de systèmes robotiques sociaux. Pour les industriels et intégrateurs, ce résultat pointe une limite critique avant tout déploiement en environnement humain non contrôlé : les robots actuels ne sont pas équipés pour naviguer les conventions implicites du quotidien. RobotEQ s'inscrit dans un effort académique plus large visant à combler le fossé entre capacités de manipulation assistée et autonomie sociale réelle, un sujet de plus en plus pressant à mesure que les robots humanoïdes entrent dans des espaces partagés avec des humains. Les grandes plateformes évaluées ne sont pas nommées explicitement dans l'abstract, mais le benchmark cible les VLMs (Vision-Language Models) utilisés dans les architectures d'IA incarnée actuelles, comme ceux sous-tendant des systèmes tels que Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Aucun partenaire industriel ni calendrier de déploiement n'est annoncé, ce papier restant à ce stade une contribution de recherche fondamentale avec dataset et benchmark disponibles pour la communauté.

RecherchePaper
1 source
Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts
536arXiv cs.RO 

Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts

Des chercheurs ont publié DreamTacVLA, un framework qui dote les modèles Vision-Language-Action (VLA) d'un sens du toucher anticipatif. Ces architectures, parmi lesquelles Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, généralisent des comportements robotiques à partir de connaissances web-scale, mais restent aveugles à la physique du contact : force, texture et glissement. DreamTacVLA introduit une perception hiérarchique à trois niveaux : images tactiles haute résolution (micro-vision), caméra poignet (vision locale) et vue tierce (macro-vision), le tout aligné par une perte baptisée Hierarchical Spatial Alignment (HSA). Le système est ensuite affiné par un modèle de monde tactile prédisant des états de contact futurs, ce qui lui permet de conditionner ses décisions à la fois sur des observations réelles et sur des conséquences anticipées ; sur des benchmarks de manipulation contact-riche (vissage, pelage, textiles), il atteint jusqu'à 95 % de succès face aux baselines VLA état de l'art, appuyé par un dataset hybride combinant simulation haute-fidélité (digital twin) et expériences en monde réel. Ce résultat quantifie concrètement le "gap tactile" des VLA modernes : intégrer des signaux de contact haute résolution est discriminant pour des tâches industrielles entières, de l'assemblage de précision au conditionnement de composants déformables. Conditionner les décisions sur des conséquences tactiles anticipées, et non seulement sur des observations en temps réel, rapproche les VLA du raisonnement physique implicite des opérateurs expérimentés. Pour les intégrateurs B2B, cela laisse entrevoir une prochaine génération de politiques robotiques capables de manipulation fine sans capteurs de force-couple coûteux, à condition d'embarquer des capteurs tactiles conformes haute résolution. La démonstration reste cependant purement académique : aucun déploiement industriel ni partenariat de production n'est annoncé dans le papier. Le travail s'inscrit dans un mouvement d'enrichissement des VLA au-delà du seul canal vision-langage, aux côtés d'approches intégrant proprioception, retour de force ou audio. DreamTacVLA se distingue par l'application au domaine tactile de techniques issues des modèles de monde visuels (Dreamer, RSSM), une transposition méthodologiquement originale. L'article est à sa troisième révision arXiv (v3), signe d'une évaluation par les pairs active. Parmi les acteurs à surveiller : Sanctuary AI et Agility Robotics sur les politiques de manipulation, GelSight et Contactile sur les capteurs tactiles, et en Europe, Pollen Robotics qui explore des effecteurs sensoriellement enrichis.

UEPollen Robotics, identifié comme acteur européen explorant des effecteurs sensoriellement enrichis, est directement positionné pour intégrer ce type d'avancée tactile dans ses politiques de manipulation VLA.

IA physiqueOpinion
1 source
Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot
537arXiv cs.RO 

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

Des chercheurs du RAI Institute publient sur arXiv (2605.05172, mai 2026) Q2RL, un algorithme d'apprentissage offline-to-online conçu pour améliorer automatiquement des politiques de contrôle robotique après une phase d'imitation. La méthode repose sur deux composants distincts : Q-Estimation, qui extrait une Q-function à partir d'une politique de Behavior Cloning (BC) en quelques étapes d'interaction avec l'environnement, et Q-Gating, qui alterne dynamiquement entre les actions BC et les actions RL en comparant leurs Q-values respectives pour guider la collecte de données d'entraînement. Sur les benchmarks standards D4RL et robomimic, Q2RL surpasse les meilleures baselines offline-to-online existantes en taux de succès et en vitesse de convergence. Appliqué directement sur robot réel, il apprend des politiques robustes pour des tâches de manipulation à contact riche et haute précision, assemblage de tuyaux et kitting industriel, en 1 à 2 heures d'interaction, avec des taux de succès atteignant 100 % et un gain jusqu'à 3,75x par rapport à la politique BC initiale. L'enjeu pratique est significatif : le BC reste la méthode dominante pour apprendre à partir de démonstrations humaines, notamment dans les architectures VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence, mais il souffre d'une limite structurelle, il ne s'améliore pas seul une fois déployé. Les approches offline-to-online existantes se heurtent à un problème de distribution mismatch : en passant à l'apprentissage en ligne, le RL tend à écraser les bonnes actions apprises hors ligne. Q2RL adresse ce problème directement via le Q-Gating, qui agit comme un filtre de qualité empêchant la dégradation de la politique. Un délai de convergence de 1 à 2 heures sur robot physique est une performance notable pour des tâches à contact, où la variabilité mécanique rend le sim-to-real particulièrement difficile. Le contexte est celui d'une course intense à l'autonomie post-démonstration. Physical Intelligence (Pi-0), Figure AI, Apptronik et d'autres misent massivement sur le fine-tuning en ligne pour réduire le gap démo-to-deployment. Q2RL s'inscrit dans cette dynamique mais en ciblant l'efficacité computationnelle : l'algorithme est conçu pour tourner sans infrastructure cloud lourde, directement sur le contrôleur embarqué. Le RAI Institute, relativement discret sur la scène robotique, positionne ici une contribution technique solide sur un verrou bien identifié. Le code et les vidéos sont disponibles publiquement, ce qui facilite la reproductibilité et l'éventuelle intégration dans des pipelines industriels existants.

IA physiquePaper
1 source
Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)
538arXiv cs.RO 

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

Des chercheurs de l'Université Renmin de Chine (RUC) ont publié le 7 mai 2026 une étude systématique sur la supervision par actions latentes dans les modèles VLA (Vision-Language-Action), une architecture clé pour les robots capables de comprendre des instructions en langage naturel et d'agir dans le monde physique. L'article, référencé arXiv:2605.04678, pose une question concrète : comment entraîner efficacement un VLA sur des datasets hétérogènes, issus de robots différents avec des espaces d'action incompatibles ? La réponse explorée est l'action latente, une représentation intermédiaire abstraite qui sert de pivot commun entre perception visuelle, langage et commande motrice. Les auteurs comparent quatre stratégies d'intégration sous une baseline VLA unifiée, en distinguant deux familles : les actions latentes basées sur l'image (qui encodent les transitions visuelles entre frames) et celles basées sur l'action (qui compressent directement les commandes moteurs dans un espace latent). Les résultats révèlent une correspondance formulation-tâche claire, ce qui est utile pour tout intégrateur qui choisit une architecture : les actions latentes image-based sont plus efficaces sur les tâches longues nécessitant un raisonnement multi-étapes et une généralisation au niveau de la scène, tandis que les actions latentes action-based surperforment sur la coordination motrice fine et complexe. La découverte la plus opérationnelle est que superviser directement le modèle de langage vision (VLM) avec des tokens discrets d'actions latentes donne les meilleures performances globales, devançant les approches de supervision continue ou indirecte. L'étude apporte également des premières preuves que la supervision par actions latentes améliore l'entraînement en données mixtes (multi-robot, multi-tâche), un verrou majeur pour passer du lab au déploiement à grande échelle. Ce travail s'inscrit dans une course effrénée à la généralisation des VLA, après les succès récents de Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA), qui ont tous démontré des capacités cross-embodiment limitées mais prometteuses. La contribution de RUC est moins un nouveau modèle qu'un benchmark de design choices, un type de contribution rare et précieux dans un domaine encore dominé par les démonstrations spectaculaires. La prochaine étape naturelle serait de valider ces résultats sur du matériel réel au-delà des benchmarks simulés, notamment sur des plateformes comme ALOHA 2 ou des manipulateurs industriels, pour confirmer que le gap sim-to-real ne neutralise pas les gains observés en simulation. Le code est disponible sur GitHub (RUCKBReasoning/FromPixelsto_Tokens).

RechercheOpinion
1 source
Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil
539arXiv cs.RO 

Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil

Des chercheurs ont déposé sur arXiv (identifiant 2507.23045, version révisée) un algorithme de calibration extrinsèque pour plateformes multi-capteurs, formulé comme une solution générale au problème dit de "robot-world and hand-eye calibration" (RWHEC). La contribution centrale est la garantie de convergence vers l'optimum global, une propriété que les méthodes précédentes, souvent fondées sur une optimisation locale par descente de gradient, ne pouvaient pas assurer. L'algorithme résout simultanément la pose de plusieurs capteurs et de plusieurs cibles, et prend en charge les caméras monoculaires, qui présentent une ambiguïté d'échelle intrinsèque : seules, elles ne peuvent pas mesurer la distance absolue sans information supplémentaire. Une implémentation open-source accompagne la publication pour faciliter reproductibilité et adoption. La calibration extrinsèque, la détermination précise de la position et de l'orientation relative entre un capteur (caméra, LiDAR) et l'effecteur ou la base d'un robot, est un prérequis critique pour tout système multi-capteurs, qu'il s'agisse de robotique industrielle, de véhicules autonomes ou de manipulation. En pratique, les méthodes existantes exigent soit des hypothèses fortes sur l'environnement (cibles connues, mouvements structurés), soit des initialisations manuelles proches de la solution, au risque de converger vers un minimum local erroné. Les auteurs dérivent des critères d'identifiabilité a priori, c'est-à-dire des conditions mathématiques permettant de vérifier avant le calcul si le problème admet une solution unique, ainsi que des garanties d'optimalité globale pour des instances à erreurs de mesure bornées. Cela réduit la charge opérateur et élimine le risque d'échec silencieux en production. Techniquement, l'algorithme repose sur une relaxation SDP (Semidefinite Programming) d'un programme quadratique à contraintes quadratiques (QCQP), une famille de méthodes popularisée notamment par TEASER++ (MIT, 2020) pour le recalage de nuages de points. Les auteurs introduisent en parallèle une nouvelle qualification de contraintes pour les programmes non linéaires à contraintes redondantes, une contribution de théorie de l'optimisation valable indépendamment du problème de calibration. À noter que ce travail reste un preprint non encore évalué par les pairs. Dans un secteur où des acteurs comme Boston Dynamics, Agility Robotics, ou côté français Wandercraft, investissent massivement dans la perception embarquée multi-capteurs, disposer d'une calibration certifiée, générale et peu contraignante représente un gain opérationnel concret pour le passage à l'échelle en environnements réels.

UELes entreprises françaises multi-capteurs comme Wandercraft pourraient intégrer cet algorithme open-source pour fiabiliser leur calibration robot en production sans risque de minimum local silencieux.

RecherchePaper
1 source
STEP : politiques visuomotrices pré-initialisées avec prédiction de cohérence spatiotemporelle
540arXiv cs.RO 

STEP : politiques visuomotrices pré-initialisées avec prédiction de cohérence spatiotemporelle

Publiée sur arXiv en février 2026 (arXiv:2602.08245v2), STEP (Spatiotemporal Consistency Prediction) est une méthode conçue pour accélérer les diffusion policies en manipulation robotique sans dégrader la qualité d'exécution. Les diffusion policies modélisent des distributions de séquences d'actions avec une forte capacité à capturer la multimodalité des comportements, mais leur processus de débruitage itératif engendre une latence d'inférence élevée qui limite la fréquence de contrôle en boucle fermée temps réel. STEP génère des actions de démarrage à chaud (warm-start) distributivement proches de la cible et temporellement cohérentes, couplées à un mécanisme d'injection de perturbation sensible à la vélocité qui module dynamiquement l'excitation d'actuation pour éviter les blocages d'exécution en conditions réelles. Avec seulement 2 pas de débruitage, la méthode surpasse BRIDGER de 21,6% en taux de succès moyen sur le benchmark RoboMimic, et DDIM de 27,5% sur deux tâches physiques réelles, pour un total de neuf benchmarks simulés évalués. Le code est publié en open source sur GitHub (github.com/Kimho666/STEP). L'enjeu pratique est la déployabilité en production: une fréquence de contrôle trop basse rend une politique visuomotrice fragile face aux perturbations dynamiques, ce qui freine l'adoption industrielle de ces approches pourtant performantes en simulation. STEP avance la frontière de Pareto entre latence d'inférence et taux de succès là où les méthodes précédentes, réduction du nombre de pas d'échantillonnage, prédiction directe ou réutilisation d'actions passées, sacrifiaient l'une ou l'autre. La validation sur des tâches physiques réelles, et non uniquement en simulation, renforce la crédibilité du sim-to-real transfer, souvent contesté dans la littérature robotique. Les auteurs fournissent également une analyse théorique montrant que le mécanisme de prédiction introduit un mapping localement contractant, garantissant la convergence des erreurs d'action pendant le raffinement par diffusion, un argument formel solide pour des équipes R&D cherchant à fiabiliser leur pipeline avant déploiement. Les diffusion policies pour la manipulation ont émergé autour de 2023 avec les travaux de Chi et al. (Diffusion Policy), suivis rapidement de variantes d'accélération comme DDIM, emprunté à la génération d'images, et BRIDGER, que STEP dépasse désormais sur les deux métriques clés simultanément. Dans le paysage plus large des architectures visuomotrices, la méthode est complémentaire des VLA (Vision-Language-Action) comme pi-zero de Physical Intelligence ou OpenVLA, où la latence d'inférence constitue un goulot d'étranglement comparable. Aucun acteur européen n'est directement impliqué dans cette publication, mais la disponibilité open source permettra à des équipes comme celles de l'INRIA ou de laboratoires spécialisés en manipulation flexible d'intégrer directement la méthode dans leurs pipelines existants. Les prochaines étapes naturelles incluront l'évaluation sur des robots mobiles manipulateurs et des environnements industriels non structurés, ainsi que l'intégration dans des architectures VLA de plus grande envergure.

RechercheOpinion
1 source
De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM
541arXiv cs.RO 

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM

Une étude publiée sur arXiv (référence 2604.27267) propose la première modélisation unifiée des menaces de sécurité pour les systèmes robotiques autonomes pilotés par des grands modèles de langage (LLM). Les auteurs ont modélisé un robot autonome déployé en architecture edge-cloud sous la forme d'un Data Flow Diagram (DFD) hiérarchique, puis appliqué la méthode STRIDE-per-interaction sur six points de franchissement de frontières de confiance. Cette analyse identifie trois familles de menaces distinctes : les menaces cyber conventionnelles (injections réseau, falsification de données), les menaces adversariales (attaques sur la perception visuelle ou sensorielle) et les menaces conversationnelles (prompt injection, manipulation des sorties du LLM). Trois chaînes d'attaque cross-boundary sont tracées de l'entrée externe jusqu'à l'actionnement physique non sécurisé du robot. Ce travail est significatif parce qu'il démontre que ces trois catégories de menaces convergent aux mêmes points d'interface architecturale, ce qui invalide l'hypothèse implicite de nombreux intégrateurs selon laquelle les couches perception, planification et actuation peuvent être sécurisées indépendamment. L'étude expose trois failles structurelles distinctes : l'absence de validation sémantique indépendante entre l'entrée utilisateur et la commande d'actionneur, la translation cross-modale de la perception visuelle vers l'instruction LLM, et le franchissement non médié des frontières via les outils côté fournisseur (tool use). Pour un COO industriel ou un intégrateur déployant des robots LLM-enabled en production, ces résultats impliquent que le pipeline perception-planification-actuation constitue une surface d'attaque continue, et non un empilement de composants isolables. Le contexte est celui d'une intégration accélérée des LLM dans la robotique autonome, portée par des acteurs comme Figure AI, 1X Technologies, Boston Dynamics ou Physical Intelligence (pi0), qui utilisent des architectures VLA (Vision-Language-Action) pour le contrôle haut niveau. Les travaux antérieurs traitaient séparément la cybersécurité robotique, les attaques adversariales sur la perception et la sécurité des LLM, sans modèle architectural unifié. Cette étude, encore au stade preprint et non évaluée par les pairs, comble ce vide méthodologique et devrait alimenter les discussions dans les groupes de standardisation (ISO TC 299, IEC) sur la certification des systèmes robotiques cognitifs. Les auteurs ne précisent pas d'affiliations institutionnelles spécifiques ni de financements dans l'abstract.

UECette étude devrait alimenter les groupes de standardisation européens (IEC, ISO TC 299) travaillant sur la certification des systèmes robotiques cognitifs dans le cadre de l'AI Act, en fournissant une méthodologie unifiée manquante.

RechercheOpinion
1 source
FASTER : repenser les VLA de flux en temps réel
542arXiv cs.RO 

FASTER : repenser les VLA de flux en temps réel

Des chercheurs ont publié sur arXiv (2603.19199v2) une méthode baptisée FASTER (Fast Action Sampling for ImmediaTE Reaction) visant à réduire la latence de réaction des modèles VLA (Vision-Language-Action) sur des robots physiques. Le problème ciblé est précis : dans les politiques génératives basées sur le flow matching, comme π₀.₅ de Physical Intelligence ou X-VLA, le système doit compléter l'intégralité des étapes d'échantillonnage avant de pouvoir déclencher le moindre mouvement. FASTER introduit un "Horizon-Aware Schedule" qui réorganise l'ordre de débruitage pour prioriser les actions immédiates, comprimant leur génération de dix étapes à une seule, soit une réduction d'un facteur dix. La méthode a été validée sur des robots réels, dont une tâche de tennis de table à haute dynamique, et s'exécute sur GPU grand public via une architecture client-serveur en streaming. L'apport central est analytique avant d'être technique : les auteurs formalisent le temps de réaction comme une distribution uniforme déterminée conjointement par le TTFA (Time to First Action) et l'horizon d'exécution. Cette modélisation démontre que la pratique standard d'un schedule constant dans les VLA basées sur le flow constitue un goulot d'étranglement structurel, et non un simple détail d'implémentation. En comprimant la génération des actions proches en une seule passe de débruitage tout en préservant la qualité des trajectoires longues, FASTER réduit effectivement la latence mesurée sur robot physique. Le test sur ping-pong, tâche reconnue pour son exigence en temps de boucle fermée, représente un signal de validation plus robuste que les benchmarks de manipulation statique habituellement retenus dans ce type de papier. Le contexte est celui d'une concurrence accrue entre architectures VLA depuis la publication de π₀ par Physical Intelligence fin 2024, rapidement suivie de π₀.₅, d'OpenVLA-OFT et de X-VLA. Ces modèles héritent tous du paradigme "action chunking" issu de ACT et Diffusion Policy, qui génère des segments d'actions plutôt que des commandes individuelles, introduisant mécaniquement de la latence. FASTER s'inscrit dans ce courant d'optimisation de l'inférence, aux côtés de travaux de distillation de policies, sans requérir de réentraînement du modèle de base. La démonstration sur GPU grand public est un signal d'accessibilité notable pour les intégrateurs sans infrastructure HPC, mais le stade reste celui d'une preuve de concept académique, sans déploiement industriel annoncé à ce stade.

RechercheOpinion
1 source
Apprentissage du parkour pour quadrupèdes : mélange d'experts parcimonieux avec entrée visuelle
543arXiv cs.RO 

Apprentissage du parkour pour quadrupèdes : mélange d'experts parcimonieux avec entrée visuelle

Des chercheurs ont publié sur arXiv (référence 2604.19344) une étude comparant deux architectures de réseaux de neurones pour le contrôle d'un robot quadrupède Unitree Go2 face à des obstacles de parkour, notamment des marches et discontinuités élevées. L'architecture testée repose sur un mécanisme dit de "mixture d'experts à portes creuses" (sparsely gated MoE) : au lieu d'activer tous les paramètres du réseau à chaque inférence, seul un sous-ensemble d'experts spécialisés est sollicité selon le contexte. Les résultats sur robot réel sont nets : la politique MoE atteint le double de taux de succès dans la traversée de grands obstacles par rapport à une baseline MLP classique, à budget computationnel identique (même nombre de paramètres actifs à l'inférence). Pour obtenir des performances équivalentes avec un MLP dense, il faut augmenter sa taille totale au niveau du MoE complet, ce qui entraîne une hausse de 14,3 % du temps de calcul. L'intérêt de ce résultat tient moins aux performances brutes qu'à ce qu'il démontre structurellement : les gains architecturaux qui ont propulsé les grands modèles de langage (Mixtral, GPT-4 et consorts utilisent des variantes MoE) sont transférables aux politiques de contrôle robotique bas niveau. Cela valide une intuition croissante dans la communauté : la scalabilité des politiques de locomotion n'est pas uniquement une question de données ou de sim-to-real, mais aussi d'architecture. Pour les équipes travaillant sur des robots embarqués avec contraintes computationnelles, l'activation creuse offre un levier concret pour améliorer les performances sans alourdir les exigences matérielles. Le parkour quadrupède s'est imposé ces deux dernières années comme un benchmark exigeant pour la locomotion, avec des travaux notables issus de Berkeley, ETH Zurich et CMU sur des plateformes similaires (ANYmal, Spot, Go1/Go2). L'approche dominante jusqu'ici reposait sur des MLP séquentiels entraînés par reinforcement learning en simulation puis transférés sur le robot physique. Cette étude, dont le code est accessible en version anonymisée, ouvre une piste d'amélioration architecturale orthogonale aux efforts habituels sur les données ou les environnements de simulation. Les prochaines étapes naturelles concerneraient l'extension à des environnements plus complexes et l'évaluation du comportement des experts spécialisés pour mieux comprendre la décomposition fonctionnelle apprise.

RecherchePaper
1 source
RoboWM-Bench : un benchmark pour évaluer les modèles du monde en manipulation robotique
544arXiv cs.RO 

RoboWM-Bench : un benchmark pour évaluer les modèles du monde en manipulation robotique

Une équipe de chercheurs a déposé sur arXiv (identifiant 2604.19092) RoboWM-Bench, un benchmark dédié à l'évaluation des world models vidéo pour la manipulation robotique. Le protocole est exigeant : les comportements générés par ces modèles, à partir de vidéos de mains humaines ou de robots en action, sont convertis en séquences d'actions exécutables, puis validés par exécution réelle sur robot physique. Les évaluations conduites sur les meilleurs world models actuels sont sans appel : produire des comportements physiquement exécutables de manière fiable reste un problème ouvert. Les modes d'échec récurrents identifiés incluent les erreurs de raisonnement spatial, la prédiction instable des contacts entre effecteur et objet, et les déformations non physiques de matériaux. Un fine-tuning sur données de manipulation améliore les résultats, mais les incohérences physiques persistent. Ce constat soulève une question stratégique pour l'industrie : peut-on utiliser des world models comme simulateurs bon marché pour générer des données d'entraînement, en remplacement des démonstrations terrain coûteuses ? Le réalisme visuel d'une vidéo générée ne garantit pas sa plausibilité physique, une distinction que les benchmarks existants, majoritairement orientés perception ou diagnostic, ne permettaient pas de mesurer. En imposant la validation par exécution réelle comme critère central, RoboWM-Bench dépasse les métriques habituelles de cohérence temporelle ou de FID. Pour les équipes engineering et les intégrateurs, la conclusion est opérationnelle : les world models actuels ne sont pas encore substituables aux démonstrations réelles pour l'apprentissage de politiques de manipulation précise. L'intérêt pour les world models en robotique s'est intensifié depuis 2024, porté par des modèles génératifs comme Sora (OpenAI), Genie 2 (Google DeepMind) ou UniSim, et alimenté par les avancées des VLA (Vision-Language-Action). L'hypothèse qu'un monde simulé pourrait tenir lieu de terrain d'entraînement, évitant la collecte de données réelles, est au coeur des investissements d'une dizaine de startups et labos académiques actifs sur ce créneau. RoboWM-Bench s'inscrit dans une dynamique de standardisation comparable à ce que RoboMimic ou MetaWorld ont établi pour l'imitation learning : un protocole unifié et reproductible. Aucune affiliation institutionnelle ni timeline d'extension du benchmark ne figurent dans le preprint, ce qui en limite la portée immédiate, mais la publication envoie un signal net : la communauté robotique commence à exiger des preuves d'exécutabilité physique, et non plus seulement de cohérence visuelle.

RecherchePaper
1 source
Flow-Opt : optimisation centralisée et scalable de trajectoires multi-robots par flow matching et optimisation différentiable
545arXiv cs.RO 

Flow-Opt : optimisation centralisée et scalable de trajectoires multi-robots par flow matching et optimisation différentiable

Flow-Opt est une méthode de planification de trajectoires multi-robots publiée sur arXiv (référence 2510.09204v2) qui s'attaque à un verrou connu de la robotique en essaim : l'optimisation centralisée dans l'espace joint de plusieurs robots est théoriquement supérieure (accès à un espace de solutions plus large, trajectoires plus fluides dans les espaces contraints), mais devient informatiquement intractable dès que la flotte dépasse quelques unités. L'approche proposée décompose le problème en deux étapes : un modèle génératif basé sur le flow matching, implémenté via un diffusion transformer (DiT) augmenté d'encodeurs invariants aux permutations pour les positions des robots et la carte, produit des trajectoires candidates ; un Safety-Filter (SF) différentiable, doté d'un réseau de neurones qui prédit une initialisation spécifique au contexte de façon auto-supervisée, garantit ensuite la satisfaction des contraintes à l'inférence. Résultat annoncé : génération de trajectoires pour des dizaines de robots en environnement encombré en quelques dizaines de millisecondes, avec la capacité de résoudre plusieurs dizaines d'instances en parallèle en une fraction de seconde. Ces performances, si elles se confirment hors benchmark contrôlé, changeraient concrètement le dimensionnement des systèmes de gestion de flotte (FMS) pour les AMR en entrepôt ou en environnement industriel. Aujourd'hui, les planificateurs centralisés sont réservés à de petites flottes ou nécessitent des horizons de planification longs ; les approches décentralisées sacrifient l'optimalité globale. Flow-Opt revendique de combler cet écart en rendant le calcul centralisé compatible avec les contraintes temps-réel. La capacité de batching est particulièrement notable : elle permet de traiter des dizaines d'instances simultanément, ce qui ouvre la voie à une planification à re-planification fréquente ou à des architectures de simulation-dans-la-boucle. Il faut cependant noter que les résultats sont présentés sur des benchmarks simulés et que le gap sim-to-real n'est pas adressé dans ce papier. La planification de trajectoires multi-robots centralisée est un problème ouvert depuis les années 2010, avec des travaux fondateurs comme CBS (Conflict-Based Search) et ses dérivés. Les approches par apprentissage profond, notamment les modèles de diffusion appliqués à la planification (DDPM, Score Matching), ont montré des gains de vitesse mais peinaient à garantir la faisabilité des trajectoires produites. Flow-Opt se positionne comme une alternative plus rapide et plus fiable face à ces baselines diffusion, tout en restant dans le registre académique : aucun déploiement industriel n'est annoncé. Les acteurs comme Exotec (Hauts-de-France), qui opère des flottes denses de robots Skypod, ou MiR et Locus Robotics, pourraient être des débouchés naturels si les auteurs industrialisent leur approche. La prochaine étape logique serait une validation sur hardware réel avec des perturbations dynamiques.

UEExotec (Hauts-de-France), opérateur de flottes denses de robots Skypod, est explicitement cité comme débouché naturel si la méthode est industrialisée, ce qui représente un impact potentiel direct sur l'écosystème robotique français.

RecherchePaper
1 source
ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique
546arXiv cs.RO 

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Des chercheurs ont mis en ligne en avril 2026 sur arXiv (référence 2604.16677) un framework nommé ReconVLA, conçu pour doter les modèles vision-langage-action (VLA) d'une capacité jusque-là absente : estimer leur propre degré de confiance avant d'agir. ReconVLA applique la prédiction conforme (conformal prediction) directement sur les tokens d'action produits par un VLA pré-entraîné, sans modification ni réentraînement du modèle. Cette couche génère des intervalles d'incertitude calibrés, corrélés à la qualité d'exécution et au taux de succès de la tâche. Le même mécanisme est étendu à l'espace d'état du robot pour détecter des configurations anormales avant qu'une défaillance ne survienne. L'évaluation couvre des tâches de manipulation variées en simulation et sur robot réel. L'absence de mesure de confiance calibrée est aujourd'hui l'un des principaux verrous à l'industrialisation des VLA. Un modèle comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut produire une action avec une assurance apparente même lorsque la scène perçue sort de sa distribution d'entraînement. ReconVLA contourne ce problème sans toucher au modèle sous-jacent : les intégrateurs peuvent envelopper n'importe quel VLA existant avec cette surcouche de sécurité. En pratique, le framework réduit les erreurs catastrophiques et fournit un signal exploitable par les superviseurs humains ou les systèmes de fail-safe industriels. Il convient de souligner que les résultats présentés restent à l'échelle laboratoire, sans validation sur des lignes de production réelles. La prédiction conforme est une méthode statistique bien établie dans la communauté du machine learning certifié, mais son application aux VLA robotiques reste émergente. Ces architectures ont connu une accélération notable depuis 2023 avec RT-2 (Google DeepMind), puis OpenVLA, Pi-0 et GR00T N2, chacune promettant un contrôle généraliste sans garantie formelle de comportement hors distribution. ReconVLA s'inscrit dans une tendance visant à rendre ces modèles auditables et déployables dans des contextes à risque industriel ou réglementé. Les prochaines étapes naturelles incluent l'intégration avec des pipelines temps réel et la validation sur des horizons de tâches plus longs, domaines où la calibration de l'incertitude devient critique pour les décideurs industriels.

UEImpact indirect : si validé à l'échelle industrielle, ce framework faciliterait le déploiement de VLA dans des environnements réglementés européens (AI Act, sécurité machines), sans nécessiter de réentraînement des modèles existants.

RechercheOpinion
1 source
Guidance stable par le langage pour les modèles vision-langage-action (VLA)
547arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source
Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux
548arXiv cs.RO 

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

Des chercheurs ont publié sur arXiv (référence 2505.19237) une étude portant sur la capacité des grands modèles de langage multimodaux (LLM multimodaux) à développer une forme de conscience proprioceptive lorsqu'ils sont embarqués sur un robot mobile autonome. L'équipe a intégré un LLM multimodal directement dans la boucle de contrôle d'un robot mobile, puis a évalué si le système pouvait construire une représentation interne de son propre corps dans l'environnement, sans programmation explicite de cette capacité. Les résultats montrent que le robot démontre trois propriétés distinctes : une conscience environnementale (perception cohérente du monde extérieur), une auto-identification (le système infère lui-même sa nature robotique et ses caractéristiques de mouvement), et une conscience prédictive (anticipation de ses propres états futurs). Les chercheurs ont utilisé la modélisation par équations structurelles (SEM) pour quantifier comment l'intégration sensorielle influence les différentes dimensions du "soi minimal", et ont conduit des tests d'ablation sur les entrées sensorielles pour isoler le rôle de la mémoire épisodique et structurée. Ces résultats ont des implications concrètes pour les intégrateurs et les équipes de développement travaillant sur des architectures d'agents incarnés. Jusqu'ici, la conscience de soi dans les systèmes robotiques reposait sur des modèles cinématiques codés en dur ou des estimateurs d'état dédiés. Démontrer qu'un LLM peut inférer sa propre nature physique à partir de l'expérience sensorimotrice ouvre la voie à des robots plus adaptatifs, capables de recalibrer leur comportement sans reconfiguration manuelle. Les tests d'ablation confirment que les capteurs se compensent mutuellement en cas de défaillance partielle, ce qui est un indicateur de robustesse opérationnelle réelle, pas seulement de performance en conditions idéales. La mémoire épisodique s'avère indispensable, ce qui renforce l'intérêt des architectures de type RAG (retrieval-augmented generation) pour la robotique embarquée. Ce travail s'inscrit dans un mouvement plus large visant à unifier les capacités cognitives des LLM avec l'action physique, un champ que des acteurs comme Physical Intelligence (Pi-0), Figure AI ou le projet GR00T de NVIDIA explorent depuis 2023-2024 sous l'angle des architectures VLA (Vision-Language-Action). La particularité ici est de remonter à une couche plus fondamentale : non pas "comment le robot agit" mais "comment le robot se sait robot", ce que les philosophes cognitifs appellent le "soi minimal". Aucun acteur européen n'est directement cité dans ce papier académique, mais des laboratoires comme celui de Wandercraft à Paris ou des groupes de recherche en robotique cognitive à l'INRIA travaillent sur des questions adjacentes. La prochaine étape naturelle sera de tester cette architecture sur des plateformes humanoïdes à degrés de liberté élevés, où l'auto-modélisation corporelle devient critique pour la sécurité et la planification de mouvement.

UEAucun acteur européen n'est impliqué directement, mais l'INRIA et des groupes de robotique cognitive français travaillent sur des problématiques adjacentes susceptibles de bénéficier de ces résultats sur l'auto-modélisation embarquée.

RechercheOpinion
1 source
Distillation de représentations tactiles simulées pour la manipulation dextérique (PTLD)
549arXiv cs.RO 

Distillation de représentations tactiles simulées pour la manipulation dextérique (PTLD)

Des chercheurs ont publié sur arXiv (référence 2603.04531) une méthode baptisée PTLD, pour "Privileged Tactile Latent Distillation", visant à résoudre l'un des verrous fondamentaux de la manipulation dextère robotique : intégrer le retour tactile dans des politiques de contrôle sans disposer de simulation réaliste de capteurs tactiles. L'approche repose sur un entraînement par renforcement en simulation, puis une phase de distillation en monde réel : des capteurs tactiles "privilégiés" (accessibles uniquement lors de la collecte de données réelles) servent à entraîner un estimateur d'état latent, qui est ensuite intégré dans la politique proprioceptive déjà apprise. Sur la tâche de référence de rotation en main (in-hand rotation), PTLD affiche une amélioration de 182 % par rapport à une politique basée uniquement sur la proprioception. Sur la tâche plus difficile de réorientation en main guidée par le toucher, le gain atteint 57 % en nombre d'objectifs atteints. L'enjeu industriel est direct : la manipulation fine avec des mains multi-doigts bute depuis des années sur deux obstacles simultanés, l'impossibilité de simuler fidèlement les capteurs tactiles et le coût prohibitif des démonstrations téléopérées de qualité suffisante. PTLD contourne les deux en découplant apprentissage en simulation (pour la dynamique) et distillation en monde réel (pour le sens du toucher), sans jamais exiger de simulation tactile. Ce résultat valide l'hypothèse que le sim-to-real n'implique pas nécessairement de simuler chaque modalité sensorielle, à condition de concevoir intelligemment la phase de transfert. Pour les intégrateurs et les équipes de R&D travaillant sur l'assemblage précis ou la manipulation d'objets déformables, c'est un signal fort : des politiques robustes sont atteignables sans infrastructure de téléopération lourde. La manipulation dextère avec retour tactile reste un chantier ouvert dans le champ robotique : des acteurs comme Sanctuary AI, Dexterous Robotics, ou encore Shadow Robot explorent des approches similaires, tandis que des laboratoires académiques (Stanford, CMU, MIT) publient régulièrement sur le sim-to-real pour mains multi-doigts. PTLD se distingue en évitant la simulation tactile là où d'autres groupes investissent dans des moteurs physiques spécialisés (ex. Isaac Gym avec contact enrichi). Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'un résultat académique publié sur preprint ; la reproductibilité sur des plateformes matérielles variées (Allegro, LEAP Hand, Dexterous Hand de Shadow) reste à démontrer.

RecherchePaper
1 source
Filtre de Kalman étendu itératif invariant pour l'odométrie des robots quadrupèdes
550arXiv cs.RO 

Filtre de Kalman étendu itératif invariant pour l'odométrie des robots quadrupèdes

Une équipe de chercheurs a publié sur arXiv (référence 2604.15449, avril 2026) un algorithme open-source d'estimation d'état pour robots à pattes, fondé sur le filtre de Kalman étendu invariant itéré, ou IterIEKF. L'algorithme s'applique aux robots quadrupèdes et repose exclusivement sur des mesures proprioceptives : il exploite les contraintes cinématiques sur la vitesse des pieds en phase de contact et la vitesse exprimée dans le référentiel du châssis, sans capteurs extéroceptifs (caméras, lidar). Les évaluations ont été conduites via simulations numériques approfondies et sur des jeux de données réels. Les résultats montrent que l'IterIEKF surpasse l'IEKF classique, le filtre de Kalman basé SO(3) et sa variante itérée, aussi bien en précision qu'en cohérence statistique. L'intérêt de cette contribution réside dans la rigueur mathématique apportée à l'odométrie des robots à pattes, un problème notoirement difficile à cause des contacts intermittents, des glissements et des dynamiques non linéaires. Les filtres de Kalman étendus standard souffrent de deux hypothèses rarement vérifiées en pratique : linéarité des dynamiques et linéarité du modèle de mesure, toutes deux avec bruit gaussien. L'IEKF avait partiellement résolu le premier problème en opérant sur des groupes de Lie à dynamiques group-affines. Le travail présenté ici généralise cette approche à l'étape de mise à jour, en montrant que l'itération de cette étape préserve des propriétés de compatibilité analogues à celles du filtre linéaire classique. Pour un intégrateur ou un ingénieur robotique, cela se traduit par une localisation plus robuste aux conditions terrain, sans dépendance à la perception visuelle ni à l'infrastructure externe. Le filtre de Kalman étendu invariant (IEKF) a été formalisé théoriquement dans les années 2010, notamment par Barrau et Bonnabel, et appliqué depuis à des plateformes variées allant des drones aux robots humanoïdes. Sa variante itérée (IterIEKF) avait été proposée récemment dans [1], mais son application à la locomotion quadrupède et la mise à disposition en open-source constituent des étapes concrètes vers l'adoption industrielle. Les concurrents directs sur ce segment incluent des approches basées sur des facteurs graphiques (GTSAM, iSAM2) et des estimateurs hybrides vision-inertie comme VILENS ou Pronto. La disponibilité open-source de ce filtre ouvre la voie à une intégration directe dans des stacks de navigation pour plateformes comme ANYmal, Spot ou Go2.

UELes chercheurs français Barrau et Bonnabel, à l'origine de la théorie IEKF, sont cités comme fondateurs de cette approche ; la disponibilité open-source de l'IterIEKF renforce la boîte à outils accessible aux équipes de recherche et startups européennes travaillant sur la locomotion de robots à pattes.

RecherchePaper
1 source