Aller au contenu principal

Dossier Physical Intelligence — π0 — page 10

1320 articles · page 10 sur 27

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

Vidéo : un nouveau modèle d'IA permet aux robots humanoïdes de réussir 90 % des missions complexes
451Interesting Engineering IA physiqueOpinion

Vidéo : un nouveau modèle d'IA permet aux robots humanoïdes de réussir 90 % des missions complexes

Flexion Robotics a dévoilé Reflect v1.0, une plateforme d'intelligence robotique destinée aux humanoïdes, capable d'exécuter des missions longues et multi-étapes sans intervention humaine pendant l'exécution. Pour illustrer les capacités du système, la société a présenté une démonstration en environnement de bureau : un robot humanoïde reçoit une instruction en langage naturel, récupère un colis de snacks livré au bâtiment, emprunte escaliers et ascenseur, déballe le carton à l'aide d'outils, puis range les articles dans un tiroir désigné. Selon Flexion, l'intégration du reinforcement learning sur plusieurs couches du système a fait passer le taux de complétion end-to-end d'une mission interne à 16 étapes de 38 % à 90 %, contre un modèle supervisé seul. La plateforme gère des charges comprises entre 100 grammes et 3,5 kilogrammes, et le robot est capable de repositionner un colis via des mouvements coordonnés du corps entier, d'opérer un ascenseur, de traverser des escaliers répétés et de contourner des obstacles dynamiques tout en portant des objets. Ce résultat est significatif parce qu'il s'attaque directement au problème de l'autonomie longue durée, considéré comme l'un des verrous majeurs de la robotique humanoïde commerciale. Dans une séquence de tâches, l'accumulation d'erreurs de navigation, de manipulation ou de perception finit statistiquement par faire échouer le système : c'est le "long-horizon failure mode" que les industriels connaissent bien. Reflect v1.0 le traite via un modèle vision-langage (VLM) personnalisé qui fait office de contrôleur de mission, surveille en continu l'avancement, raisonne sur l'environnement et re-planifie à la demande. La couche de mouvement combine des vision-language-action models (VLA) entraînés sur données réelles et des primitives issues du reinforcement learning, tandis qu'un contrôleur corps-entier temps réel assure équilibre et précision des gestes. Pour un COO industriel ou un intégrateur, le signal concret est le suivant : on passe de 38 % à 90 % de succès sur une mission à 16 étapes grâce au RL seul, ce qui suggère que le sim-to-real gap et la fiabilité multi-tâche sont partiellement solubles sans refonte matérielle. Flexion Robotics est une startup relativement récente dans l'écosystème humanoïde, qui se positionne comme fournisseur de couche logicielle agnostique au hardware, à l'image de ce que Apptronik ou 1X cherchent à faire sur leurs propres plateformes. L'article mentionne également ShengShu Technology et son modèle Motubrain, un "cerveau général" combinant perception, raisonnement et action, qui vise le même marché. La concurrence directe inclut Figure (Helix), Physical Intelligence (pi0), Boston Dynamics (Atlas Gen 2) et Tesla (Optimus Gen 3), tous engagés dans une course à l'autonomie longue horizon. Flexion reconnaît que Reflect v1.0 reste limité à des environnements définis, ce qui tempère le chiffre de 90 % : il s'agit d'une évaluation interne sur mission contrôlée, pas d'un déploiement industriel validé en conditions réelles. Les prochaines étapes annoncées concernent l'extension à des environnements moins structurés et la capacité à recevoir des instructions modifiées en cours de mission, deux marqueurs qui, s'ils sont confirmés en production, rapprocheraient Reflect d'une utilisabilité opérationnelle sérieuse.

1 source
Apprentissage de dynamiques transférables : des modèles d'action aux modèles du monde
452arXiv cs.RO 

Apprentissage de dynamiques transférables : des modèles d'action aux modèles du monde

Des chercheurs ont publié en juin 2026 un préprint arXiv (2606.29501) décrivant A2World, un modèle de monde diffusion multi-vues conditionné par les actions, pré-entraîné sur de larges volumes de données de manipulation robotique avec annotations d'actions réelles. L'idée centrale est que prédire comment une action modifie visuellement une scène, plutôt que simplement générer des vidéos plausibles, force le modèle à capturer des dynamiques d'interaction réutilisables. Ce pré-entraînement produit ce que les auteurs appellent des "priors de dynamiques transférables". À partir des mêmes poids pré-entraînés, deux variantes sont dérivées : A2World-sim, adapté en simulateur spécialisé par tâche ou environnement, et A2World-policy, un modèle de prédiction jointe vidéo-action conditionné par des instructions visuelles. Les expériences sont validées sur des benchmarks de simulation et en conditions réelles, sans que les auteurs ne publient de métriques quantitatives précises dans le résumé. L'enjeu concret pour les équipes de robotique industrielle est le coût des données de rollout réel : A2World-sim vise à remplacer les passages physiques sur robot par des déroulements dans le modèle de monde, permettant une évaluation de politique à grande échelle et des analyses contrefactuelles ("que se passerait-il si...") sans mobiliser de hardware. C'est le noeud dur du problème sim-to-real : les simulateurs classiques (Isaac Sim, MuJoCo) échouent sur la fidélité visuelle et de contact, tandis qu'un modèle de monde appris sur des données réelles devrait, en théorie, hériter de la physique implicite du monde réel. A2World-policy s'inscrit dans la lignée des VLA (Vision-Language-Action models) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, en conditionnant la prédiction d'action sur le flux visuel et des instructions en langage naturel. Il s'agit toutefois d'un préprint non revu par les pairs, et les métriques présentées (benchmarks de simulation) restent à confirmer sur des déploiements réels à l'échelle. Ce travail s'inscrit dans une dynamique de recherche active sur les modèles de monde pour la robotique, portée depuis 2023-2024 par des approches comme UniSim (Google), RoboDreamer, ou Genie, qui toutes cherchent à découpler l'apprentissage de politique du coût de la collecte de données physiques. Physical Intelligence (pi-0, pi-0.5), Figure AI (Figure 02/03) et 1X Technologies misent sur des architectures VLA similaires pour la généralisation multi-tâches. La contribution spécifique d'A2World est de partager les poids pré-entraînés entre le simulateur et le modèle de politique, plutôt que de les traiter comme deux systèmes distincts. Les prochaines étapes attendues dans ce type de travaux sont la publication de benchmarks ouverts, une comparaison directe contre des rollouts réels, et, pour les acteurs industriels, la question de savoir si ces approches tiennent sur des environnements non structurés hors laboratoire.

IA physiqueOpinion
1 source
WoVR : des modèles du monde comme simulateurs fiables pour l'entraînement post-déploiement des politiques VLA par renforcement
453arXiv cs.RO 

WoVR : des modèles du monde comme simulateurs fiables pour l'entraînement post-déploiement des politiques VLA par renforcement

Des chercheurs ont publié sur arXiv (référence 2602.13977v2) un framework nommé WoVR, conçu pour entraîner via du reinforcement learning (RL) des politiques de type Vision-Language-Action (VLA) sans recourir à des milliers d'heures d'interaction physique réelle. Le principe : substituer le robot réel par un modèle du monde appris, c'est-à-dire un modèle vidéo conditionné par les actions qui prédit le comportement de l'environnement. WoVR articule trois mécanismes distincts : un modèle vidéo action-conditionné à stabilité contrôlée, une stratégie baptisée Keyframe-Initialized Rollouts qui réinitialise les trajectoires imaginées à partir d'images-clés pour limiter l'accumulation d'erreurs sur l'horizon, et une co-évolution conjointe du modèle du monde et de la politique pour maintenir leur cohérence dans le temps. Les expériences rapportées montrent des gains sur le benchmark LIBERO et des améliorations mesurées sur plusieurs plateformes robotiques physiques. Ce travail s'attaque à un verrou central du post-entraînement des VLA : le RL promet d'aller au-delà de l'imitation learning, mais ses besoins en données d'interaction rendent son application directe sur robot physique quasi prohibitive. La contribution de WoVR est de montrer qu'un modèle du monde imparfait peut néanmoins servir de simulateur RL fiable, à condition de contrôler explicitement ses hallucinations plutôt que de les ignorer. C'est un signal positif pour la thèse que le sim-to-real, appliqué non au niveau du rendu physique mais au niveau de la prédiction vidéo apprise, peut débloquer l'optimisation de politiques à grande échelle. La nuance importante : les résultats sont publiés sous forme de papier de recherche, les démonstrations sont disponibles sur wovr-corl.github.io, mais aucun déploiement industriel n'est revendiqué. WoVR s'inscrit dans une vague de recherche qui cherche à reproduire pour la robotique ce que le RL a accompli pour les grands modèles de langage. Les VLA comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA ont montré des capacités impressionnantes en imitation, mais leur amélioration par RL reste un problème ouvert. D'autres approches concurrentes misent sur des simulateurs physiques classiques (Isaac Lab, MuJoCo) ou sur du RL directement en conditions réelles, avec des cycles de collecte longs et coûteux. WoVR propose une troisième voie via les world models vidéo, dans la lignée des travaux de type DIAMOND ou DreamerV3 appliqués à la robotique. La soumission cible CORL, conférence de référence du domaine, ce qui suggère une prochaine validation par les pairs et potentiellement une intégration dans les pipelines d'entraînement open-source des équipes académiques et industrielles dès 2026.

RechercheOpinion
1 source
GROW² : ancrage du choix d'outil et de sa position pour la manipulation robotique
454arXiv cs.RO 

GROW² : ancrage du choix d'outil et de sa position pour la manipulation robotique

Des chercheurs ont publié le 30 juin 2026 un système baptisé GROW² (GROunding Which and Where), conçu pour permettre à un robot d'utiliser des objets du quotidien comme outils de substitution lorsque l'outil nominal est absent. L'exemple canonique : couper un gâteau avec une assiette faute de couteau. Le problème technique sous-jacent est ce que les auteurs nomment l'« open-world affordance grounding », identifier quel objet peut remplir la fonction d'un outil et localiser précisément la zone d'action sur cet objet, sans avoir été entraîné spécifiquement sur cette combinaison. GROW² décompose ce problème en deux niveaux hiérarchiques : un niveau sémantique, qui mobilise des Vision-Language Models (VLMs) pour interpréter une instruction en langage naturel, sélectionner l'objet-outil et identifier les parties pertinentes ; et un niveau géométrique, qui utilise des modèles de vision fondamentaux pour ancrer ces parties dans des régions 3D précises à partir d'une seule image RGB-D. L'intérêt industriel est réel : les pipelines robotiques actuels supposent que les outils sont prédéfinis et présents. Dès qu'un objet manque ou qu'une tâche sort du périmètre nominal, le robot s'arrête. GROW² ouvre la voie à une flexibilité opérationnelle sans retraining coûteux, ce qui est directement pertinent pour les intégrateurs en logistique, chirurgie assistée ou fabrication flexible. Les résultats reportés montrent des performances supérieures aux baselines sur les benchmarks d'affordance prediction et une généralisation zero-shot sur des catégories d'objets ouvertes, en simulation comme en conditions réelles. Un point de nuance : l'article ne communique pas de métriques de temps de cycle ni de taux de succès chiffrés en déploiement réel, ce qui rend difficile l'évaluation de la robustesse opérationnelle hors labo. GROW² s'inscrit dans la dynamique des architectures VLA (Vision-Language-Action) qui tentent de résoudre le « sim-to-real gap » en exploitant des modèles fondamentaux pré-entraînés plutôt que de collecter massivement des données robotiques spécifiques. Sur ce créneau, les travaux concurrents incluent notamment π₀ (Physical Intelligence), RT-2 (Google DeepMind) et les recherches autour de SayCan (Google). L'approche de GROW² se distingue par sa modularité hiérarchique et l'absence de fine-tuning bout-en-bout, un choix architectural qui réduit les besoins en données mais dont la robustesse à grande échelle reste à démontrer. La prochaine étape naturelle serait des tests sur des plateformes humanoïdes ou des bras industriels en environnement semi-structuré.

IA physiqueOpinion
1 source
Mémoire analytique centrée sur les concepts pour la manipulation incarnée à base d'agents
455arXiv cs.RO 

Mémoire analytique centrée sur les concepts pour la manipulation incarnée à base d'agents

Une équipe de recherche a soumis le 30 juin 2026 sur arXiv (arXiv:2606.29774) un cadre de mémoire structurée pour agents de manipulation robotique à long horizon. Baptisé "analytic concept-centric memory", le système organise l'expérience autour de concepts analytiques : chaque objet est représenté par ses parties sémantiques, des gabarits paramétriques, des poses ancrées dans l'espace, ses affordances et ses états de manipulation. Deux couches supplémentaires complètent l'architecture : une mémoire de transitions enregistrant les effets des actions sur l'état de scène, et une mémoire de compétences (skill memory) stockant des politiques réutilisables ancrées dans ces gabarits. À l'exécution, l'agent effectue une récupération coarse-to-fine pour identifier objets pertinents, états courants et compétences applicables. Les auteurs valident leur approche sur des tâches de manipulation dépendantes de la mémoire, la généralisation à des objets articulés (portes, tiroirs) et une évaluation en environnement réel. La gestion de mémoire reste un goulet d'étranglement critique en manipulation longue durée. Les agents actuels, y compris ceux fondés sur des architectures VLA (Vision-Language-Action), peinent à réutiliser les connaissances acquises lors d'interactions passées, forçant une replanification coûteuse à chaque nouvelle tâche. Ce cadre montre que structurer explicitement la mémoire autour de concepts physiques améliore le taux de complétion de tâches, la précision de récupération, la réidentification d'objets et la généralisation de compétences inter-objets, par rapport aux baselines non structurées et aux représentations vectorielles par embeddings. Pour les intégrateurs industriels, c'est un signal que la réutilisabilité des compétences sans réentraînement complet commence à devenir atteignable, ce qui réduit potentiellement les coûts de déploiement dans des environnements variables. La manipulation robotique à long horizon est un chantier actif chez plusieurs acteurs majeurs : Google DeepMind avec ses architectures RT-2 et SayCan, Physical Intelligence et son modèle Pi-0, Boston Dynamics, ainsi que des laboratoires comme Stanford et ETH Zurich. Ce travail s'inscrit dans une lignée cherchant à concilier planification symbolique structurée et politiques neuronales, deux paradigmes longtemps opposés. Ce preprint n'a pas encore été soumis à revue par les pairs, et les benchmarks restent des environnements de laboratoire contrôlés. La démonstration sur une plateforme industrielle réelle, avec la diversité des objets, le bruit sensoriel et les contraintes temps réel, reste à établir. Les prochaines étapes naturelles incluent l'intégration avec des VLA à grande échelle et l'évaluation sur des manipulateurs ou humanoïdes en contexte de production semi-réelle.

RechercheOpinion
1 source
CORE : régularités communes issues de démonstrations visuelles sans actions pour la manipulation robotique
456arXiv cs.RO 

CORE : régularités communes issues de démonstrations visuelles sans actions pour la manipulation robotique

Des chercheurs ont publié fin juin 2026 CORE (Common Outcome Regularities from Action-Free Visual Demonstrations), un cadre d'apprentissage de politique robotique conçu pour exploiter des vidéos humaines sans annotations de mouvements, afin d'entraîner des robots manipulateurs. La méthode s'appuie sur une observation clé : bien que les trajectoires menant à une même tâche varient, leurs états terminaux partagent des configurations d'objets stables, des relations spatiales et des contraintes de contact reproductibles. CORE entraîne d'abord un encodeur d'état terminal par apprentissage contrastif et objectifs temporels auxiliaires, agrège ensuite les embeddings terminaux réussis en prototypes visuels de but (visual goal prototypes), puis injecte ces prototypes comme conditions globales dans la politique de contrôle du robot. Les gains de taux de succès mesurés sur les benchmarks de référence sont de +3,9 points de pourcentage sur Meta-World, +11,1 pp sur RoboTwin 2.0, et jusqu'à +17,0 pp en manipulation réelle. L'enjeu est direct pour les intégrateurs : collecter des démonstrations robotiques est coûteux en équipement, en opérateurs et en temps de setup, tandis que des millions d'heures de vidéos humaines d'assemblage, de logistique ou de cuisine existent déjà. L'écart morphologique entre la main humaine et un préhenseur robotique a jusqu'ici rendu ces vidéos inutilisables pour l'apprentissage par imitation direct. CORE contourne le problème en ne cherchant pas à transférer les actions elles-mêmes, mais uniquement les régularités des états finaux. Le gain de +17 pp en conditions réelles est particulièrement notable car il indique une réduction du fossé sim-to-real sans contrainte sur la morphologie du robot. En surpassant les variantes conditionnées par texte (architecture VLA classique), CORE suggère que les prototypes visuels de but apportent des contraintes géométriques et physiques plus exploitables que les instructions en langage naturel, une nuance importante pour la calibration de politiques multi-tâches. L'apprentissage par imitation depuis des vidéos humaines est un axe de recherche actif, porté notamment par Google DeepMind avec RT-2, Physical Intelligence avec pi-0, et Meta FAIR. Des méthodes comme R3M ou VIP apprennent des représentations visuelles transférables depuis des vidéos humaines, mais CORE cible spécifiquement les états terminaux plutôt que les représentations d'observation générales, ce qui constitue sa distinction architecturale principale. Les benchmarks retenus, Meta-World et RoboTwin 2.0, sont reconnus sans être universellement adoptés, ce qui limite les comparaisons directes avec les résultats concurrents. Aucun partenariat industriel ni déploiement commercial n'est mentionné : il s'agit d'un preprint arXiv, dont les suites dépendront de réplications indépendantes et d'extensions vers des tâches plus complexes, notamment la manipulation en chaîne longue ou en environnements non structurés.

RechercheOpinion
1 source
Zhipingfang valorisé à 2,8 milliards : première licorne d'IA incarnée de la Greater Bay Area
457Pandaily 

Zhipingfang valorisé à 2,8 milliards : première licorne d'IA incarnée de la Greater Bay Area

Zhipingfang, startup d'IA incarnée basée à Shenzhen, a bouclé une levée de fonds d'environ 5 milliards de yuans (700 millions de dollars), portant sa valorisation à plus de 20 milliards de yuans (2,8 milliards de dollars). L'opération en fait le premier licorne de l'IA incarnée de la Greater Bay Area à franchir ce seuil. Le tour réunit un spectre inhabituellement large d'investisseurs : fonds publics nationaux (National SME Development Fund, China Cultural Industry System Fund), fonds provinciaux dédiés à l'IA, compagnies d'assurance et maisons de titres, et investisseurs industriels dont CP Group (China Biologic Products), Pharmaron, Moutai Group et China Merchants Capital. La société commercialise une architecture baptisée NeuroVLA, présentée par son fondateur et CEO, Guo Yandong, au Summer Davos Forum de juin 2026, où le Premier ministre Li Qiang a expressément cité le Shenzhen Robot Valley comme vitrine de l'écosystème d'innovation chinois. NeuroVLA organise le traitement en trois couches hiérarchiques calquées sur le système nerveux humain : un module cortical pour le raisonnement sémantique de haut niveau, un module cérébelleux pour le contrôle moteur coordonné, et un module spinal pulsé pour les boucles de rétroaction à ultra-faible latence. L'intérêt industriel de cette architecture réside dans l'efficacité computationnelle, problème structurel des systèmes robotiques actuels. Les architectures VLA (Vision-Language-Action) conventionnelles mobilisent l'intégralité de la puissance de calcul quelle que soit la complexité de la tâche, ce qui se traduit par des coûts d'inférence prohibitifs et des latences incompatibles avec le contrôle temps réel. NeuroVLA prétend résoudre cela par un routage événementiel : les boucles rapides (réflexes, stabilisation) sont traitées en couches basses, libérant le "cortex" pour le raisonnement symbolique. Le modèle biologique invoqué est le cerveau humain, 86 milliards de neurones fonctionnant à environ 20 watts, soit une densité de calcul que les GPU actuels n'approchent pas à consommation équivalente. Il faut cependant noter que les performances opérationnelles de NeuroVLA en conditions industrielles réelles ne sont pas documentées publiquement au-delà des communications de la société, et que l'affirmation de "première mondiale" reste invérifiable en l'absence de benchmark comparatif indépendant. La trajectoire financière de Zhipingfang est en elle-même un signal de marché : 12 tours de financement bouclés en un an, et une valorisation doublée de 10 à 20 milliards de yuans en quatre mois seulement, ce qui en fait, selon ses propres déclarations, la startup d'IA incarnée la plus rapide à lever à ce rythme et à cette échelle. L'entreprise est implantée au Shenzhen Robot Valley, pôle qui concentre également des acteurs comme Unitree, et s'inscrit dans une dynamique nationale où Pékin oriente massivement les fonds souverains vers l'IA incarnée pour concurrencer Figure AI (valorisé à 2,6 milliards de dollars fin 2024), Physical Intelligence et 1X côté américain, et Agility Robotics côté déploiements industriels. Aucune timeline de déploiement commercial ni volume de commandes n'ont été communiqués ; la levée reste pour l'instant une étape de financement de R&D et d'industrialisation, pas une annonce de mise en production à grande échelle.

UELa levée de 700 M$ consolide la position de la Chine dans la course à l'IA incarnée, renforçant la pression concurrentielle indirecte sur les acteurs français et européens sans impact direct sur le marché UE à ce stade.

Chine/AsieOpinion
1 source
StereoVLA : améliorer les modèles vision-langage-action grâce à la vision stéréoscopique
458arXiv cs.RO 

StereoVLA : améliorer les modèles vision-langage-action grâce à la vision stéréoscopique

Des chercheurs ont publié sur arXiv (référence 2512.21970v2) StereoVLA, un modèle Vision-Language-Action (VLA) qui intègre la stéréovision dans les pipelines de manipulation robotique généraliste. L'architecture repose sur un encodeur visuel GeoSem (Geometric-and-Semantic), qui extrait en parallèle des indices géométriques issus des disparités entre vues stéréoscopiques et des représentations sémantiques classiques à partir des pixels RGB. Le modèle intègre deux objectifs de co-entraînement : l'Interaction-Region Depth Estimation, pour affiner le raisonnement spatial lors des saisies, et la Camera Parameter Estimation, pour aligner implicitement les repères de perception et d'action du robot. Entraîné sur des données stéréo synthétiques à grande échelle, StereoVLA atteint un gain absolu de 33,4 points de pourcentage en taux de succès en conditions réelles par rapport aux baselines monoculaires, et démontre une robustesse marquée à des angles de caméra proches de l'hémisphère supérieur. Ce gain de 33,4 % est substantiel dans un domaine où les progrès incrémentaux dominent la littérature. Il confirme une hypothèse structurelle : les encodeurs visuels préentraînés sur lesquels s'appuient les VLA actuels (CLIP, SigLIP) sont optimisés pour l'alignement sémantique, au détriment de la représentation géométrique 3D indispensable à la manipulation fine. Pour un intégrateur ou un COO industriel, cette démonstration repositionne le choix du capteur (stéréo vs monoculaire) comme décision architecturale critique dans toute cellule robotisée guidée par VLA. La robustesse aux angles hémisphériques est également un signal de maturité opérationnelle : en déploiement réel, la posture du bras et les contraintes d'encombrement imposent des perspectives de caméra qui mettent en défaut les VLA classiques. Les VLA (Pi-0 de Physical Intelligence, OpenVLA, GR00T N2 de NVIDIA) constituent depuis 2024 le nouveau paradigme de contrôle généraliste pour la manipulation, mais reposent tous sur des encodeurs conçus pour la vision sémantique, non géométrique. StereoVLA adresse directement ce goulot d'étranglement en exploitant la stéréovision, technologie éprouvée dans les AMR et les caméras industrielles de profondeur (RealSense, ZED), mais restée jusqu'ici absente des pipelines VLA. L'étude demeure au stade de la recherche académique : aucun déploiement industriel ni partenariat constructeur n'est annoncé. La validité externe du gain de 33,4 % devra être éprouvée sur des bras commerciaux variés (Franka, UR, xArm) et dans des environnements moins contrôlés avant de conclure à une transférabilité industrielle.

IA physiqueOpinion
1 source
PA-BiCoop : un cadre coopératif principal-auxiliaire pour la manipulation bimanuelle généraliste
459arXiv cs.RO 

PA-BiCoop : un cadre coopératif principal-auxiliaire pour la manipulation bimanuelle généraliste

Des chercheurs ont publié le 29 juin 2026 sur arXiv (arXiv:2606.28192) PA-BiCoop, un framework de manipulation bimanualle à modèle unique reposant sur une différenciation dynamique des rôles "primaire-auxiliaire". L'architecture déploie un encodeur de caractéristiques global partagé alimentant deux décodeurs spécialisés : le décodeur primaire génère la pose du bras principal en coordonnées absolues ainsi que des heatmaps d'affordance pour la tâche centrale, tandis que le décodeur auxiliaire produit la pose relative du bras de support dans le repère du bras primaire. Un module d'assignation dynamique des rôles détermine automatiquement quel bras (gauche ou droit) prend la position primaire ou auxiliaire à chaque étape de la tâche, sans pré-définition manuelle. Les benchmarks rapportés indiquent une progression de 48 % en moyenne sur les tâches de simulation RLBench2 par rapport aux meilleures baselines existantes, et de plus de 50 % sur des tâches en environnement réel. Ces résultats, s'ils se confirment à l'échelle, adressent un verrou bien identifié dans la manipulation bimanualle : la quasi-totalité des approches actuelles traitent les deux bras comme des agents symétriques et interchangeables, ce qui force des synchronisations coûteuses et empêche l'émergence d'une division du travail naturelle. L'asymétrie primaire-auxiliaire est au contraire la norme dans la manipulation humaine, que ce soit pour visser un couvercle, positionner une pièce ou assembler un connecteur. Un gain de 50 % sur des tâches réelles est une affirmation forte : les benchmarks RLBench2 sont réputés pour permettre des optimisations d'artefacts de simulation, et les auteurs ne précisent pas le nombre de tâches réelles testées ni les conditions d'évaluation, deux points qui mériteront une vérification indépendante avant toute intégration industrielle. La manipulation bimanualle mobilise actuellement plusieurs équipes de premier plan : Physical Intelligence (pi) avec Pi-0, Figure AI avec le modèle embarqué sur Figure 02 et 03, et les équipes de recherche de Boston Dynamics, Toyota Research Institute et NVIDIA (GR00T N2) travaillent toutes sur des politiques bimanuelles généralisables. PA-BiCoop se distingue par son approche à modèle unique, là où des concurrents recourent à des architectures hiérarchiques séparées ou à du reinforcement learning multi-agent. Il s'agit pour l'instant d'une publication de recherche sans déploiement annoncé, ni code public ni partenaire industriel identifié ; la prochaine étape logique serait une validation sur des manipulateurs commerciaux type Franka, UR ou Kinova dans un contexte de production réelle.

IA physiquePaper
1 source
DIM-WAM : modélisation monde-action avec mémoire d'événements historiques diversifiés
460arXiv cs.RO 

DIM-WAM : modélisation monde-action avec mémoire d'événements historiques diversifiés

Des chercheurs du CASIA (Institute of Automation de l'Académie des sciences chinoise) ont publié fin juin 2026 sur arXiv un préprint décrivant DiM-WAM, un modèle de type "world-action model" augmenté d'une mémoire multi-échelle conçue pour les tâches de manipulation robotique à longue séquence. Sur le benchmark RMBench, l'architecture fait passer le taux de succès moyen de 28,4 % (baseline LingBot-VA) à 69,8 %, dépassant nettement la baseline à mémoire explicite Mem-0 qui plafonnait à 42,0 %. Sur quatre tâches réelles exécutées sur bras Franka, DiM-WAM améliore le succès par étape de 70,7 % à 91,5 % et le succès complet de tâche de 52,5 % à 80,0 %, soit un gain absolu de 27,5 points. Ce résultat est notable car il attaque directement l'un des points d'échec systématiques des modèles vision-langage-action actuels : l'oubli des événements antérieurs lors de séquences longues. Contrairement aux architectures VLA classiques qui se limitent à un contexte court (quelques frames récentes), DiM-WAM maintient plusieurs banques mémoire mises à jour par fusion basée sur la similarité, et conditionne conjointement la dénoisation vidéo et la génération d'action sur ce contexte historique long. Un signal d'entraînement inédit, la "progress supervision", pousse les tokens mémoire à encoder non seulement les événements passés mais aussi l'étape courante de la tâche et ses implications sur la suite. Pour un intégrateur industriel, cela adresse un prérequis concret : permettre à un robot de reprendre une séquence après une interruption ou de conditionner une action sur un état observé plusieurs secondes plus tôt. Les world-action models constituent une évolution récente des VLA, inspirée des travaux sur la prédiction vidéo (world models) appliqués à la robotique, avec des architectures comme celles de Physical Intelligence (Pi-0) ou DreamerV3 adaptés au contrôle. DiM-WAM se positionne dans ce champ en ajoutant la dimension mémoire longue, un problème que le domaine reconnaît mais peu de travaux ont quantifié en conditions réelles. La validation sur Franka, robot académique standard à 7 DOF, reste modeste en échelle (quatre tâches, environnement contrôlé), et le preprint n'annonce pas de déploiement industriel ni de partenariat commercial. Les prochaines étapes probables incluent une évaluation sur des benchmarks plus larges comme SimplerEnv ou des plateformes humanoïdes, et une ouverture du code source évoquée via la page projet.

💬 28 % à 70 % de taux de succès sur des séquences longues, c'est pas un artefact de benchmark, c'est enfin quelqu'un qui s'attaque au vrai problème : un robot qui oublie ce qu'il vient de faire n'a aucune valeur en contexte industriel réel. La "progress supervision" est l'idée maline du lot, parce qu'elle force la mémoire à encoder non pas juste le passé mais où en est la tâche à l'instant T. Reste à voir si ça tient au-delà du Franka en environnement contrôlé, mais le signal est là.

IA physiqueOpinion
1 source
Li Hongyang (HKU) lance une startup d'IA incarnée corps entier et lève des centaines de millions en seed
46136Kr 

Li Hongyang (HKU) lance une startup d'IA incarnée corps entier et lève des centaines de millions en seed

Archon Robotics (源策未来, "Yuance Weilai"), startup fondée en avril 2026 et basée dans la zone de développement de Caohejing à Shanghai, vient de boucler un tour de table seed de plusieurs centaines de millions de yuans. La levée réunit des fonds de premier plan dont Zhenge Fund, Gaorong Capital, IDG Capital et Wuyuan Capital, auxquels s'ajoutent le fonds conjoint Gobi Ventures / Université de Hong Kong, Miracle Plus et le Shanghai AI Innovation Institute. Light Source Capital agissait comme conseiller financier exclusif. Les fonds serviront à accélérer le développement d'un modèle fondateur humanoïde "whole-body", à constituer des jeux de données multimodaux de mouvements plein corps, et à ouvrir plusieurs centres de R&D. L'entreprise vise la publication d'un modèle open-source avant fin 2026. La société est dirigée par Li Hongyang, actuellement assistant professor et vice-doyen à l'Université de Hong Kong, dont le projet de conduite autonome end-to-end UniAD a remporté le Best Paper au CVPR 2023, seul travail d'une institution académique continentale à décrocher ce prix depuis dix ans. Il a également reçu en 2026 le RSS Early Career Award, première distinction de ce type décernée à un chercheur chinois en vingt ans d'existence du prix. Le CEO Li Tianyu, docteur de Fudan University, a co-développé le moteur "World Engine" de la solution de conduite autonome ADS 4.0 de Huawei. Le co-fondateur Chen Li, premier auteur d'UniAD, est issu du programme d'excellence Zhiyuan de l'Université Jiao Tong de Shanghai. Le pari technique d'Archon Robotics répond à une limite structurelle largement ignorée : les datasets actuels en robotique incarnée reposent quasi exclusivement sur des vidéos en vue première personne du poste de travail, enregistrant uniquement des trajectoires de bras ou de préhenseurs. Ces données ne capturent ni les déplacements du centre de gravité, ni la coordination tronc-membres, ni le transfert de force des membres inférieurs vers les membres supérieurs, c'est-à-dire précisément ce qui permet à un humain d'ouvrir une porte lourde en inclinant le corps plutôt qu'en tirant simplement le bras. La conséquence directe est que la quasi-totalité des robots actuels reste cantonnée à des préhensions sur surface plane à position fixe, incapable d'adaptation en environnement domestique non préétabli. Li Tianyu résume : "une donnée plein corps intégrant le déplacement du centre de gravité et l'angle du tronc a une densité d'information bien supérieure à cent enregistrements de trajectoire de main." La société construit donc une architecture tri-couche propriétaire : un "grand cerveau" pour la planification longue portée, un "mésencéphale" apprenant des représentations de mouvement plein corps transferrables d'un châssis à l'autre, et un "cervelet" assurant le suivi de pose et l'équilibre en temps réel. L'output n'est pas une liste d'angles articulaires spécifiques à un modèle de robot, mais une trajectoire de mouvement plein corps compatible avec plusieurs morphologies. Le contexte sectoriel est porteur mais saturé : au premier semestre 2026, le secteur de la robotique incarnée en Chine a enregistré 288 opérations de financement pour un total déclaré de plus de 46 milliards de yuans, proche du niveau annuel 2025 (55,4 milliards). Archon se positionne sur un créneau encore peu occupé en ciblant directement le modèle fondateur humanoïde généraliste plutôt que les solutions hybrides à châssis roulant avec bras manipulateurs, qui dominent actuellement le marché faute de savoir-faire en locomotion bipède. Li Hongyang compare l'état actuel de l'industrie à un niveau "L1,5" par analogie avec les grades de conduite autonome : les démos publiques relèvent encore majoritairement du contrôle à distance ou de scénarios entièrement scriptés, sans capacité autonome réelle sur des tâches multi-étapes en environnement ouvert. Les concurrents directs sur la brique modèle fondateur incluent Physical Intelligence (Pi-0), NVIDIA (GR00T N2), et Figure AI côté occidental, ainsi que plusieurs équipes chinoises moins bien documentées. Archon se différencie en ciblant explicitement les données "human-centric" incluant posture complète et marqueurs de force, avec une collecte mixte alliant données humaines dans des scènes réelles et données de téléopération sur robots physiques, dans une boucle ferme collecte-entraînement-retour d'erreur destinée à constituer une barrière concurrentielle durable.

Chine/AsieOpinion
1 source
PhysReflect-VLA : faisabilité physique et régulation auto-réflexive pour des modèles VLA fiables
462arXiv cs.RO 

PhysReflect-VLA : faisabilité physique et régulation auto-réflexive pour des modèles VLA fiables

Une équipe de chercheurs a publié fin juin 2026, via arXiv (2606.27146), PhysReflect-VLA, un module d'exécution conçu pour être greffé sur n'importe quel modèle Vision-Language-Action (VLA) existant sans réentraînement complet. L'architecture repose sur trois composants : un opérateur de faisabilité (Feasibility Operator) qui évalue si une action candidate produit une transition d'état dynamiquement cohérente avant exécution, un opérateur d'explication d'action (Action Explanation Operator) qui vérifie la cohérence de la transition, et un module de réflexion basé sur un LLM qui analyse les écarts d'état observés pour générer des corrections à la volée. Le tout s'intègre dans une boucle de contrôle fermée via une procédure d'entraînement en deux étapes. Sur des tâches de manipulation multi-étapes impliquant des contacts riches en environnement réel, PhysReflect-VLA affiche un gain moyen de 5,4 % de taux de succès par rapport aux baselines VLA représentatifs testés. Ce résultat, modeste en valeur absolue, adresse un point structurel des VLA actuels : ils fonctionnent en mode feed-forward, sans mécanisme d'auto-correction en ligne. Le problème est connu dans le domaine sous le terme de "recovery from disturbances", dès qu'un contact imprévu perturbe la trajectoire, la politique ne sait pas diagnostiquer l'échec et continuer. L'approche plug-and-play est stratégiquement intéressante pour les intégrateurs : elle évite de requalifier un modèle VLA entier (coût computationnel et données considérables) pour améliorer la robustesse en déploiement. Les ablations confirment que les deux composants, faisabilité et réflexion, contribuent indépendamment au gain, ce qui suggère une modularité réelle plutôt qu'un effet de combinaison artificiel. Cela dit, un gain de 5,4 % sur des benchmarks internes, sans précision sur le nombre de tâches, de répétitions, ni le profil de défaillance évité, mérite prudence avant généralisation. Les VLA comme pi0 (Physical Intelligence), OpenVLA (Berkeley), ou les variantes GR00T N2 de NVIDIA constituent le terrain sur lequel ce module se pose. La tendance récente dans la recherche en manipulation est précisément de dépasser le "sim-to-real gap" et de rendre ces politiques robustes aux perturbations contact, deux problèmes que PhysReflect-VLA cible explicitement. L'abstract ne mentionne pas l'institution d'origine ni de code public disponible, ce qui limite l'évaluation indépendante à ce stade. Les prochaines étapes naturelles seraient une intégration sur des VLA à grande échelle comme pi0 ou OpenVLA-OFT, et des tests sur plateformes humanoïdes où les transitions d'état en contact sont particulièrement critiques. Ce type de framework d'exécution supervisée pourrait également intéresser des acteurs européens actifs sur la couche contrôle, comme Enchanted Tools (Mirokaï) ou les équipes robotique d'IRT Jules Verne.

UEDes acteurs français comme Enchanted Tools (Mirokaï) et l'IRT Jules Verne pourraient bénéficier de ce module plug-and-play pour renforcer la robustesse de leurs couches de contrôle VLA, mais aucun déploiement ou partenariat européen n'est établi à ce stade.

💬 5,4 % de gain sur des benchmarks internes sans code public ni institution connue, je reste prudent. Mais le problème qu'ils ciblent est réel : les VLA actuels ne savent pas se rattraper quand un contact imprévu perturbe la trajectoire, c'est un défaut structurel de toute l'approche feed-forward. Ce que j'attendais, c'est ce genre de module de supervision plug-and-play, parce que requalifier un VLA complet pour chaque déploiement c'est hors budget pour 99 % des intégrateurs.

IA physiqueOpinion
1 source
Affinage par renforcement des politiques de flux pour les modèles vision-langage-action (VLA)
463arXiv cs.RO 

Affinage par renforcement des politiques de flux pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (papier 2510.09976v2) un algorithme baptisé Flow Policy Optimization (FPO), conçu pour affiner par renforcement les modèles Vision-Language-Action (VLA) basés sur le flow-matching, en particulier le modèle π₀ (Pi-0) de Physical Intelligence. L'évaluation porte sur deux benchmarks de simulation robotique standards : LIBERO et ALOHA. FPO intègre quatre composants : une attribution de crédit sensible à la structure du réseau (structure-aware credit assignment), des objectifs surrogate clippés à la manière de PPO, une exploration latente multi-étapes, et un ensemble de Q-functions (Q-ensemble) pour estabiliser l'estimation de valeur. Les résultats montrent des gains constants sur le prior d'imitation et sur des baselines concurrentes, dont π₀-FAST, des approches RL autorégressive et diffusion, dans un régime de récompenses éparses. Le verrou technique résolu par FPO est fondamental : les méthodes de policy gradient classiques (PPO, GRPO) requièrent le calcul explicite de ratios de probabilité entre l'ancienne et la nouvelle politique (importance sampling), ce qui est mathématiquement intractable pour les modèles à flow-matching continu comme π₀. FPO contourne ce problème en reformulant l'importance sampling à partir des variations par échantillon de l'objectif conditionnel de flow-matching. C'est un déblocage algorithmique, pas un simple réglage d'hyperparamètres. Cela signifie que la famille de modèles la plus performante actuellement pour la manipulation généraliste, les VLA basées sur des politiques diffusion/flow, devient désormais accessible au fine-tuning par RL en ligne, sans qu'il faille revenir à des architectures autorégressive ou gaussiennes moins expressives. Le contexte est celui d'une course intense pour convertir la généralisation des grands modèles VLA en performance réelle sur tâches industrielles. π₀, développé par Physical Intelligence (ex-chercheurs de Google DeepMind et Stanford, fondée en 2023), a démontré une polyvalence remarquable sur données multi-robot, mais reste contraint par la qualité de ses démonstrations supervisées. FPO s'inscrit dans une tendance plus large, après RFT sur LLMs (DeepSeek-R1, Qwen), d'appliquer le fine-tuning par renforcement aux politiques robotiques. Les concurrents directs incluent OpenVLA (Berkeley), Octo (également Berkeley), et les approches RL sur modèles diffusion comme DPPO. Le papier reste pour l'instant en simulation ; le transfert sim-to-real sur π₀ avec FPO n'est pas encore documenté, ce qui constitue la prochaine étape critique avant tout déploiement industriel.

💬 Ce qui bloquait le fine-tuning par RL sur π₀, c'était mathématiquement intractable, pas un détail de tuning. FPO contourne ça proprement, et le résultat c'est que la famille de modèles VLA la plus expressive devient enfin accessible au renforcement en ligne, sans avoir à rétrograder vers des architectures moins capables. La prochaine étape, c'est le sim-to-real, et là j'attends de voir.

IA physiqueOpinion
1 source
RouterVLA : des tests de fumée transformés en supervision pour la sélection de modèles VLA hétérogènes
464arXiv cs.RO 

RouterVLA : des tests de fumée transformés en supervision pour la sélection de modèles VLA hétérogènes

RouterVLA, présenté dans un preprint arXiv déposé en juin 2026 (identifiant 2606.27355), s'attaque à un problème concret souvent ignoré dans le déploiement robotique : comment choisir, parmi plusieurs politiques vision-language-action (VLA) candidates, celle que l'on installe réellement sur le robot. Les équipes robotiques effectuent systématiquement des "smoke tests" - des séries d'essais courts avant déploiement - pour comparer les candidats, puis retiennent un seul vainqueur global. RouterVLA propose de capitaliser sur ces essais déjà réalisés via une technique dite de "cross-fitting à résultats disjoints" : les essais enregistrés construisent un profil de performance pour chaque politique expert gelée, tandis qu'un essai distinct, non inclus dans ce profil, sert à noter l'expert retenu. Évalué sur 34 752 enregistrements de rollouts issus du benchmark LIBERO-Plus, une règle transparente basée sur le taux de succès des probes fait passer le taux de succès hors-échantillon de 0,4686 à 0,6149, soit un gain de 14,64 points de pourcentage. Le résultat le plus saillant n'est pas le gain lui-même, mais ce qui le produit. Sous les profils scalaires étudiés, les scoreurs appris sont statistiquement indiscernables de la simple règle de succès-probe, ce qui implique que la valeur de routage vient du processus de commissionnement - les smoke tests eux-mêmes - et non d'une capacité ML supplémentaire. Ajouter des couches d'apprentissage pour scorer les politiques ne crée donc pas de valeur additionnelle si les profils restent scalaires. Tout aussi important pour l'intégrité des benchmarks : réutiliser le même essai pour sélectionner et évaluer l'expert gonfle artificiellement le gain mesuré par un facteur de 1,87. Ce résultat constitue un avertissement méthodologique direct pour la communauté, car de nombreux papiers comparatifs en robotique pourraient souffrir de ce biais de contamination si la séparation des outcomes n'est pas garantie. LIBERO-Plus est un environnement de simulation pour la manipulation robotique de table, largement utilisé pour évaluer des politiques de généralisation. RouterVLA s'inscrit dans le champ croissant de la sélection hétérogène de politiques VLA, un problème qui devient critique à mesure que les fondations VLA se multiplient : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), ou les politiques maison des labs comme Google DeepMind. La question de savoir quel modèle router selon la tâche est un vrai enjeu d'industrialisation, distinct de celui d'entraîner de meilleurs modèles individuels. Ce preprint ne mentionne ni déploiement réel ni partenaire industriel : il s'agit d'une contribution méthodologique évaluée en simulation. Les suites naturelles seraient d'étendre l'analyse à des profils non-scalaires (embeddings, séquences temporelles) et de valider la séparation des outcomes en manipulation physique réelle.

RechercheOpinion
1 source
PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes
465arXiv cs.RO 

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes

Une équipe de chercheurs a publié PhyGile (arXiv:2603.19305v2), un framework unifié visant à combler le fossé entre la génération de mouvements en texte naturel et l'exécution physiquement réaliste sur robots humanoïdes réels. Le problème central que ce travail adresse est connu dans le secteur sous le nom de "reality gap" : les modèles text-to-motion existants sont entraînés sur des captures de mouvement humain, ce qui leur confère des priors biomécaniques incompatibles avec les robots (distribution de masse, stratégies de contact, actuation). Résultat : les trajectoires générées paraissent géométriquement correctes (limites articulaires respectées, continuité de pose), mais violent la faisabilité physique dès qu'on tente de les exécuter. PhyGile génère directement des mouvements natifs-robot dans un espace squelettique à 262 dimensions, guidé par des "physics prefixes" calculés à l'inférence, éliminant ainsi l'étape de retargeting et ses artefacts. Le contrôleur General Motion Tracking (GMT) est d'abord entraîné avec un schéma curriculum à mixture-of-experts, puis affiné sur des données de mouvement non étiquetées pour améliorer la robustesse, avant une phase d'adaptation fine guidée par les préfixes physiques. Des expériences offline et sur robots réels valident l'approche sur des mouvements agiles et à haute dynamique dépassant la marche ou les locomotions lentes habituellement testées. Sur le plan de l'impact sectoriel, ce papier s'attaque à l'un des problèmes les plus résistants de la commande humanoïde : le sim-to-real pour des mouvements expressifs et agiles, pas seulement pour la marche stable. La démonstration sur robots réels (et pas uniquement en simulation) est notable, même si les vidéos sélectionnées restent une métrique partielle et difficile à généraliser sans benchmarks standardisés. Pour les intégrateurs et les équipes R&D, l'approche mixture-of-experts combinée à une adaptation post-entraînement sur données non étiquetées représente une voie pragmatique pour étendre la couverture de mouvement sans collecter massivement de nouvelles données étiquetées. Ce travail s'inscrit dans un contexte de compétition intense autour du contrôle locomoteur humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi-0), NVIDIA (GR00T N2) et Agility Robotics travaillent tous sur des pipelines VLA (Vision-Language-Action) ou text-to-motion à large échelle. PhyGile se distingue en ciblant explicitement les mouvements agiles entiers du corps, là où la plupart des travaux récents se concentrent sur la manipulation ou la locomotion basique. Le papier étant une révision arXiv (v2), il n'y a pas encore d'annonce de déploiement industriel ni de partenariat commercial associé.

HumanoïdesOpinion
1 source
TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence
466arXiv cs.RO 

TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence

Des chercheurs ont publié sur arXiv (papier 2601.14945, version 2) un cadre architectural nommé TIDAL, Temporally Interleaved Diffusion and Action Loop, qui s'attaque directement au goulot d'étranglement en latence des modèles Vision-Language-Action (VLA). Le problème est précis : les VLA actuels basés sur la diffusion tournent typiquement à environ 2,4 Hz sur hardware embarqué, imposant un paradigme "batch-and-execute" où le robot planifie en bloc puis exécute en boucle ouverte. TIDAL introduit une architecture à double fréquence qui découple le raisonnement sémantique (boucle basse fréquence qui met en cache les embeddings d'intention) de l'actuation motrice (boucle haute fréquence qui entrelace intégration de flux à un pas et exécution). Résultat mesuré : environ 9 Hz de mises à jour de contrôle sur edge hardware, soit 4x la fréquence de feedback des baselines, avec un gain de performance 2x sur des tâches d'interception dynamique. La méthode ajoute également un prédicteur différentiel de mouvement pour compenser l'insensibilité à la vélocité des encodeurs visuels statiques, et une stratégie d'entraînement à désalignement temporel pour apprendre à compenser la latence résiduelle. L'impact concret pour les intégrateurs robotiques réside dans ce que le papier nomme "l'angle mort d'exécution" : quand une cible se déplace pendant la fenêtre d'exécution en boucle ouverte, les baselines VLA échouent systématiquement sous protocole d'inférence non-pausée, TIDAL reste opérationnel. C'est architectural et orthogonal aux optimisations système (quantification, batching), ce qui signifie qu'il peut s'empiler sur d'autres gains de performance. La régression marginale sur les tâches statiques (cibles immobiles) est honnêtement reconnue par les auteurs, ce qui est de bonne pratique évaluative. Pour un décideur B2B, la question pertinente reste ouverte : les gains sont mesurés en simulation et sur tâches de laboratoire, pas sur déploiement réel. TIDAL s'inscrit dans une compétition dense autour de la latence des VLA, portée par les modèles Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA. Ces architectures partagent le défi structurel du sim-to-real et de la fréquence de contrôle insuffisante pour les environnements industriels dynamiques (convoyeurs, pièces en mouvement, collaboration humain-robot). TIDAL est un travail de recherche académique sans annonce de déploiement ni partenaire industriel identifié, ce qui tempère toute projection immédiate. La prochaine étape naturelle serait une validation sur hardware réel, bras manipulateur ou humanoïde, avec métriques de robustesse en conditions non-contrôlées.

IA physiqueOpinion
1 source
Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique
467Interesting Engineering 

Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique

MindOne Robotics, startup chinoise fondée à Shenzhen en 2025, a présenté une démonstration de son framework robotique Mind-0, capable de piloter simultanément des robots humanoïdes Unitree G1 et des systèmes bras-double fixes à partir d'un unique modèle d'IA. Le scénario illustré couvre un workflow logistique complet: récupération d'objets, transport, emballage et fermeture de caisses, avec une flotte mixte opérant sous la même intelligence centralisée. L'entreprise revendique une précision de manipulation inférieure au centimètre sur la plateforme Unitree G1 en conditions réelles. L'architecture Mind-0 sépare le raisonnement de haut niveau (perception, planification, décision) du contrôle moteur bas niveau, ce qui permet de déployer le même cerveau logiciel sur des morphologies différentes sans pipeline d'entraînement séparé par plateforme. Particularité notable: le modèle est entraîné exclusivement sur des données humaines capturées par motion capture corps entier, caméras égocentrées et dispositifs manuels, et non sur de la téléopération robot directe, ce que MindOn présente comme un moyen de préserver les comportements naturels de résolution de problèmes. L'enjeu industriel est double. D'abord, l'agnosticisme matériel: si un seul modèle orchestre humanoïdes et bras fixes sur une même tâche, les intégrateurs n'ont plus à développer des pipelines d'IA distincts par plateforme, ce qui réduit le coût d'entrée dans les déploiements multi-robots. Ensuite, MindOn s'attaque frontalement au sim-to-real, l'un des verrous les plus persistants de la robotique moderne: son Real-World Execution Compensation Model utilise un volume réduit de données réelles pour corriger les dérives dues aux différences de dynamique entre simulation et environnement physique. Les métriques annoncées (précision sub-centimétrique sur une démonstration sélectionnée) restent toutefois à valider dans des conditions de déploiement industriel répétable, avec cadences et taux d'erreur documentés. Le système de raisonnement hiérarchique compensant les délais d'actuation répond par ailleurs à un problème souvent sous-estimé: contrairement aux démonstrations humaines, les robots subissent des latences de capteur, de calcul et d'actionneur que le modèle doit continuellement corriger en temps réel. MindOne Robotics évolue dans un espace concurrentiel très chargé. Sur l'agnosticisme matériel et les modèles unifiés cross-embodiment, elle fait face à GR00T N2 de NVIDIA (conçu pour humanoïdes multiples), à pi0 de Physical Intelligence (modèle généraliste pour la manipulation), ainsi qu'aux stacks maison de Fourier Intelligence et d'Unitree. En Europe, Enchanted Tools avec son robot Miroka et Wandercraft positionnent des approches verticales différentes. MindOne reste une très jeune société, et cette démonstration constitue à ce stade un teaser technologique, non un produit commercialement déployé: aucun client pilote ni délai de mise en production n'ont été annoncés publiquement. L'entreprise indique vouloir étendre ses datasets humains et industrialiser son pipeline cross-embodiment, sans préciser de calendrier.

UELa montée en puissance de l'approche cross-embodiment chinoise (Mind-0) crée une pression concurrentielle indirecte sur les acteurs français Enchanted Tools et Wandercraft, qui développent des approches verticales différentes sans modèle unifié cross-morphologie.

Chine/AsieOpinion
1 source
One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras
468arXiv cs.RO 

One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras

Des chercheurs ont publié le 24 juin 2026 sur arXiv (2606.19897) ExS2D, un framework hiérarchique permettant à un robot bras unique d'exécuter des tâches bimanuelle sans aucune démonstration en configuration deux bras. Le système décompose d'abord des instructions textuelles en sous-tâches structurées, en capturant explicitement les dépendances temporelles entre elles. Un module de grounding traduit ensuite chaque sous-tâche en actions exécutables via une cartographie guidée par l'observation. Enfin, un coordinateur basé sur un grand modèle de langage multimodal (MLLM) orchestre l'allocation des actions entre les deux bras et planifie les trajectoires sans collision. En simulation, ExS2D réduit le nombre moyen d'étapes d'exécution de 54,4 % tout en maintenant un taux de succès comparable au baseline mono-bras. Des expériences sur robot réel portant sur quatre tâches distinctes confirment la fiabilité du système, entraîné uniquement sur quelques échantillons mono-bras en régime few-shot. L'enjeu principal ici est le coût de collecte des données bimanuelles, qui constitue l'un des principaux freins à la manipulation duale en robotique industrielle et service. Les systèmes comme ALOHA ou les plateformes de télé-opération bimanuelle nécessitent des configurations spécialisées et des opérateurs formés, rendant le passage à l'échelle difficile. ExS2D contourne ce goulot d'étranglement en réutilisant des démonstrations mono-bras existantes, potentiellement déjà disponibles dans les parcs robotiques en production. La réduction de 54,4 % des étapes d'exécution représente un gain de débit concret pour des lignes d'assemblage ou de tri, bien que les conditions expérimentales exactes (vitesse, complexité des objets, variabilité de la scène) ne soient pas détaillées dans l'abstract, ce qui invite à nuancer cette métrique avant toute extrapolation industrielle. La manipulation bimanuelle attire des investissements croissants de la part d'acteurs comme Figure AI (Figure 03), Physical Intelligence (pi0) ou Apptronik, tous confrontés au même problème de données. La tendance actuelle est d'utiliser des VLA (Vision-Language-Action models) entraînés sur de vastes corpus de démonstrations humaines, mais la collecte bimanuelle reste coûteuse même pour ces acteurs. ExS2D s'inscrit dans une direction complémentaire, celle du transfer learning structural depuis des données mono-bras, une approche qui pourrait intéresser les intégrateurs travaillant sur des cellules robotiques existantes en mono-bras. Il s'agit pour l'instant d'un travail académique sans déploiement commercial annoncé ; la prochaine étape logique serait une validation sur des tâches industrielles plus complexes et avec une plus grande variabilité d'objets.

RecherchePaper
1 source
Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel
469arXiv cs.RO 

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Des chercheurs ont publié en décembre 2024 (arXiv:2512.20014) une méthode appelée Visual Attentive Prompting (VAP), conçue pour permettre aux modèles Vision-Language-Action (VLA) de répondre à des consignes personnalisées du type "apporte ma tasse". Le problème adressé est précis : un VLA classique, même performant sur des instructions génériques, échoue à identifier un objet spécifique parmi plusieurs visuellement identiques sans avoir été entraîné sur cet objet. VAP fonctionne sans ré-entraînement (training-free), c'est son argument central. Il prend quelques images de référence de l'objet cible, effectue une détection en vocabulaire ouvert dans la scène, compare les embeddings visuels pour localiser l'instance correcte, puis injecte cette localisation directement dans le flux d'entrée du VLA : surlignage de l'objet et réécriture de l'instruction. Les auteurs ont construit deux benchmarks en simulation (Personalized-SIMPLER et Personalized-VLABench) et un benchmark réel sur table pour valider l'approche sur plusieurs robots et tâches. VAP surpasse les politiques génériques et les baselines par apprentissage de tokens, à la fois en taux de succès global et en taux de manipulation du bon objet. L'enjeu industriel derrière ce travail est la personnalisation au niveau de l'instance, un verrou jusqu'ici sous-traité dans la recherche VLA. Pour un intégrateur ou un COO déployant des robots en environnement résidentiel ou hospitalier, la capacité à distinguer "la tasse de Paul" de "la tasse de Marie" sans pipeline d'apprentissage dédié par utilisateur représente un gain opérationnel significatif. VAP démontre que l'attention sélective top-down, couplée à une mémoire visuelle non-paramétrique, peut combler l'écart entre compréhension sémantique et contrôle au niveau de l'instance, un problème que les approches fondées sur le langage seul ne résolvent pas. L'absence de ré-entraînement est un avantage de déploiement réel, même si les benchmarks restent à l'échelle tabletop, loin de la chaîne logistique. Ce travail s'inscrit dans la dynamique post-RT-2 et post-OpenVLA : les VLA généralistes (π0 de Physical Intelligence, GR00T N2 de NVIDIA, ou encore les approches Octo et RoboFlamingo) excellent sur des distributions larges mais restent aveugles à la sémantique d'instance. VAP propose une surcouche légère compatible avec n'importe quel VLA gelé, ce qui le positionne comme un adaptateur potentiel pour des systèmes existants plutôt qu'un modèle concurrent. Les prochaines étapes naturelles incluent des tests hors tabletop (manipulation mobile, environnements encombrés), l'évaluation à plus grande échelle d'objets personnels, et l'intégration dans des frameworks open-source comme LeRobot d'Hugging Face. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans la publication.

UEImpact indirect limité via la mention de LeRobot (HuggingFace, entreprise franco-américaine) comme cible d'intégration naturelle, sans implication directe d'acteurs ou institutions français/européens dans la publication.

💬 Le vrai verrou des robots en environnement réel, c'est pas la compréhension du langage, c'est la sémantique d'instance : distinguer "ma tasse" de "ta tasse" sans ré-entraîner le modèle pour chaque utilisateur. VAP règle exactement ça, avec quelques photos de référence et une surcouche légère compatible avec n'importe quel VLA existant. Reste à voir ce que ça donne hors tabletop, mais comme brique vers des robots vraiment personnalisables en déploiement réel, c'est ce qui manquait.

IA physiqueOpinion
1 source
VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage
470arXiv cs.RO 

VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage

Des chercheurs présentent dans un preprint arXiv (2606.20056) VFILC, une méthode d'apprentissage par imitation pour robots qui résout le problème de l'extrapolation en fréquence de mouvement. Les approches classiques à base de réseaux de neurones pour les mouvements à vitesse variable se limitaient à interpoler dans la plage d'entraînement ou produisaient des trajectoires imprévisibles au-delà. VFILC combine VFIL (Variable-Frequency Imitation Learning), qui couple la fréquence d'échantillonnage du modèle à la fréquence de mouvement souhaitée, avec une commande par apprentissage itératif (ILC) dotée d'un terme feedforward et d'un terme feedback correcteur. Sur trois tâches de manipulation, les résultats montrent une réduction des erreurs de fréquence de 81 % sur une tâche d'essuyage et de 50 % sur une tâche de secouage, comparé à VFIL seul, lorsque le robot opère au double de la vitesse moyenne présente dans les données d'entraînement. Sur une tâche de malaxage riche en contacts, où la friction complexe perturbe le mouvement même en régime interpolé, VFILC améliore la précision de 27 % par rapport à VFIL seul. L'enjeu est la programmabilité par démonstration à des allures variables, cas courant en robotique manufacturière : adapter la cadence d'une tâche apprise sans recollecter de nouvelles démonstrations. Le fait que le composant ILC feedback corrige les erreurs de fréquence sans déstabiliser le comportement global est significatif pour les tâches à contact (essuyage, assemblage par insertion), où la dynamique réelle diverge du modèle nominal. Les réductions annoncées sont concrètes, mais les auteurs ne précisent pas le contexte de charge ni la durée des cycles, ce qui limite la comparabilité directe avec d'autres benchmarks de manipulation publiés. L'apprentissage par imitation est une approche de plus en plus adoptée pour programmer les robots manipulateurs sans modèle explicite, popularisée par des méthodes comme ACT (Action Chunking with Transformers, Stanford) ou Diffusion Policy. La gestion des vitesses variables y reste un angle mort : la plupart des méthodes supposent une fréquence de contrôle fixe. VFIL avait ouvert la voie en couplant fréquence d'échantillonnage et fréquence de mouvement, mais souffrait de son architecture en boucle ouverte. VFILC apporte la boucle de correction manquante via l'ILC, technique bien établie en contrôle industriel (presses, robots de soudage à répétition). La prochaine étape logique serait l'intégration dans des pipelines VLA (Vision-Language-Action) pour adapter dynamiquement la cadence sur commande en langage naturel, une direction que Physical Intelligence, CMU et ETH Zurich explorent activement.

RecherchePaper
1 source
Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices
471arXiv cs.RO 

Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.19586) un cadre d'augmentation de données baptisé Action-View Augmentation, conçu pour améliorer la robustesse des politiques visuomotrices dans les tâches de manipulation robotique. Le système repose sur un préhenseur parallèle portable équipé d'une unique caméra fisheye montée en configuration eye-in-hand, capable de capturer des démonstrations réelles en milieu non contrôlé. À partir d'une seule démonstration humaine, le framework génère automatiquement des séquences d'images fisheye visuellement réalistes ainsi que des trajectoires d'actions physiquement cohérentes. Pour reconstruire et éditer la scène 3D en y introduisant des objets inédits, les auteurs ont développé une nouvelle formulation de Gaussian Splatting adaptée aux champs de vision larges des optiques fisheye. Une optimisation de trajectoire produit ensuite des chemins fluides, sans collision et compatibles avec le rendu de nouvelles vues caméra. Les expériences menées en simulation et en environnement réel montrent une amélioration du taux de succès sur plusieurs tâches de manipulation, aussi bien dans des scènes identiques qu'en présence d'obstacles requérant un évitement de collision. L'enjeu central est la fragilité des politiques visuomotrices actuelles face aux observations hors-distribution : une légère variation de configuration initiale ou un obstacle imprévu suffit à provoquer un échec d'exécution catastrophique. Collecter suffisamment de données pour couvrir ces variations est coûteux et chronophage, ce qui constitue l'un des principaux freins à l'industrialisation de la manipulation robotique. Le titre du papier résume l'ambition : multiplier artificiellement la valeur d'une seule démonstration réelle pour entraîner des politiques plus robustes. L'adaptation du Gaussian Splatting aux optiques fisheye, jusqu'ici peu traitée dans la littérature robotique, élargit le champ d'application à des setups matériels légers et peu coûteux. Ce type d'approche répond directement au problème du sim-to-real gap en générant des données synthétiques ancrées dans une scène réelle reconstruite, plutôt qu'en simulateurs déconnectés du terrain. Ce travail s'inscrit dans la dynamique des politiques de manipulation end-to-end, où des systèmes comme pi-0 de Physical Intelligence ou les architectures à diffusion (Diffusion Policy, ACT) ont prouvé que l'imitation de démonstrations humaines peut générer des comportements complexes, mais restent gourmands en données. Le Gaussian Splatting, popularisé à partir de 2023, s'est progressivement imposé en robotique grâce à sa capacité à synthétiser des vues nouvelles de haute qualité à partir de captures réelles. L'approche eye-in-hand à caméra fisheye se distingue des setups multi-capteurs fixes, réduisant le matériel embarqué à un seul composant. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit exclusivement d'un résultat académique, sans partenariat industriel déclaré ni timeline commerciale. Les prochaines étapes naturelles concerneraient l'évaluation à plus grande échelle et l'intégration dans des pipelines de fine-tuning pour des politiques de type VLA (Vision-Language-Action).

RecherchePaper
1 source
CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle
472arXiv cs.RO 

CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle

Des chercheurs ont publié sur arXiv (référence 2505.17006, version 3) une méthode baptisée CoMo, pour "Continuous Motion", conçue pour extraire automatiquement des représentations continues du mouvement à partir de vidéos issues d'Internet, et les réutiliser comme étiquettes d'action pour entraîner des politiques robotiques. CoMo repose sur deux mécanismes distincts : une différence temporelle précoce (Td) appliquée en amont de l'encodeur pour rendre plus difficile l'apprentissage par raccourcis visuels (les modèles ont tendance à coder l'arrière-plan statique plutôt que le mouvement lui-même), et un apprentissage contrastif temporel (Tcl) qui construit des paires positives avec un décalage temporel réduit vers le futur, et des paires négatives en inversant la direction du temps. Le résultat est un espace latent continu, entraîné sur des vidéos à grande échelle, capable de générer des pseudo-étiquettes d'action pour des vidéos jamais vues en phase d'inférence. Des expériences en simulation et en conditions réelles montrent des gains de performance par rapport aux approches discrètes, aussi bien avec des architectures diffusion que autorégressives. L'enjeu industriel est direct : l'un des goulots d'étranglement du robot learning est la rareté des démonstrations téléopérées, coûteuses à collecter. Si une méthode peut extraire un signal d'action utilisable depuis des vidéos YouTube ou des caméras industrielles non étiquetées, elle réduit mécaniquement le coût de constitution des datasets. La contribution principale de CoMo face aux méthodes discrètes par quantification vectorielle (VQ) est de supprimer la perte d'information liée à la projection dans un codebook de petite taille, et surtout de combler le fossé de distribution entre un espace discret de tokens visuels et un espace d'actions continues à valeurs réelles, fossé qui pénalise l'apprentissage conjoint d'une politique unifiée. La généralisation zéro-shot annoncée est la prétention la plus forte : elle signifie que CoMo pourrait étiqueter des vidéos de nouveaux environnements ou tâches sans ré-entraînement, ce qui reste à valider sur des benchmarks standardisés ; l'abstract ne cite pas de métriques numériques précises. Ce travail s'inscrit dans un axe de recherche très actif depuis 2023, qui cherche à exploiter Internet comme source de supervision pour les robots, aux côtés de méthodes comme RT-2 de Google DeepMind, Pi-0 de Physical Intelligence, ou encore les travaux sur les VLA (Vision-Language-Action models) d'UC Berkeley et du MIT. Les approches discrètes concurrentes (type GROOT ou méthodes VQ-VAE appliquées à la vidéo) souffrent précisément des limitations que CoMo prétend résoudre. La prochaine étape naturelle serait une validation sur des benchmarks robotiques communautaires comme RLBench, LIBERO ou BridgeData V2, et un test à l'échelle de données réellement "internet-scale" pour confirmer si la généralisation zéro-shot tient face à la diversité des distributions visuelles du monde réel.

RecherchePaper
1 source
Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences
473arXiv cs.RO 

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

Une équipe de recherche propose FAFM (Frequency-Aware Flow Matching), une méthode de génération d'actions robotiques présentée en préprint arXiv (2606.20135, juin 2026), qui reformule le problème du flow matching pour la manipulation robotique dans le domaine fréquentiel. Le principe : plutôt que de prédire directement des séquences d'actions discrètes (des "chunks"), FAFM applique une transformée en cosinus discrète (DCT) sur ces séquences pour les convertir en coefficients fréquentiels, effectue le flow matching sur ces coefficients, puis reconstruit des actions continues via expansion en base cosinus. Pour garantir la cohérence temporelle, la méthode ajoute une contrainte de type Sobolev sur la dérivée temporelle du premier ordre, ce qui pénalise les changements brusques et atténue les erreurs hautes fréquences. L'approche s'applique sans paramètres réseau supplémentaires, aussi bien aux politiques de flow matching autonomes qu'aux modèles vision-langage-action (VLA). Les résultats sont validés sur les benchmarks LapGym, LIBERO et évitement d'obstacles, ainsi qu'en déploiement réel sur un bras Franka. L'intérêt industriel est direct : la fragmentation des fréquences de contrôle est un problème concret lors de l'agrégation de données de démonstration provenant de robots différents (certains à 10 Hz, d'autres à 50 Hz), et les méthodes actuelles de diffusion policy ou de flow matching standard y sont explicitement vulnérables. Les actions temporellement incohérentes qui en résultent dégradent la stabilité du contrôle en boucle fermée, un facteur bloquant pour le déploiement en production. Le fait que FAFM améliore simultanément le taux de succès, la fluidité du mouvement, la robustesse aux biais mécaniques et la vitesse de convergence sans modifier l'architecture existante est une proposition de valeur claire pour les intégrateurs : pas de refonte du pipeline, pas de surcoût computationnel. La compatibilité avec les VLA est également notable, car ces modèles dominent les annonces récentes (pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) et souffrent précisément de ce type d'artefacts temporels à l'inférence. Le flow matching s'est imposé ces dix-huit derniers mois comme alternative crédible à la diffusion policy (Chi et al., 2023, Columbia), avec des temps d'inférence plus courts et une meilleure expressivité multimodale. Les travaux récents de Physical Intelligence (pi-0, pi-0.5) et de Figure AI ont largement adopté ce paradigme pour leurs politiques générales. FAFM s'inscrit dans une tendance de raffinement de ces fondations plutôt que de rupture : on optimise la stabilité et la généralisation inter-fréquences, deux verrous identifiés lors des premiers déploiements industriels à grande échelle. La validation sur Franka reste modeste en termes de diversité de tâches, et le code est disponible sous revue anonyme, ce qui signifie que la méthode n'est pas encore auditée par la communauté. Les prochaines étapes naturelles seraient une validation sur des plateformes humanoïdes multi-articulées et sur des datasets hétérogènes à grande échelle, là où la question des fréquences mixtes est la plus aiguë.

RecherchePaper
1 source
R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique
474arXiv cs.RO 

R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique

Des chercheurs ont publié sur arXiv en octobre 2024 (arXiv:2510.18085v2) une méthode baptisée R2BC (Round-Robin Behavior Cloning), conçue pour entraîner des systèmes multi-robots à partir de démonstrations réalisées par un seul opérateur humain. Le principe : l'humain téléopère un robot à la fois, de façon séquentielle en "round-robin", sans jamais avoir à contrôler plusieurs agents simultanément ni à fournir des démonstrations dans l'espace d'action conjoint. La méthode a été évaluée sur quatre tâches simulées multi-agents, puis déployée sur deux tâches physiques avec des démonstrations humaines réelles. Résultat : R2BC atteint, voire dépasse dans certains cas, les performances d'une approche oracle de behavior cloning entraînée sur des démonstrations synchronisées privilégiées, c'est-à-dire des données idéales rarement disponibles en pratique. L'intérêt de R2BC tient à son approche de la collecte de données d'imitation learning. En robotique collaborative multi-bras ou en manipulation industrielle coordonnée, constituer des démonstrations synchronisées entre plusieurs agents représente un goulot d'étranglement logistique majeur : cela exige plusieurs opérateurs, une coordination temporelle précise, et multiplie les coûts d'instrumentation. R2BC supprime cette contrainte en permettant à un seul technicien de construire progressivement un dataset multi-agent, ce qui rend la méthode directement applicable aux déploiements à budget contraint. Que R2BC tienne la comparaison face à un oracle entraîné sur des données idéales constitue une validation empirique solide, même si les tâches physiques testées restent relativement simples et que les détails sur les configurations matérielles ne sont pas communiqués dans le préprint. L'imitation learning par clonage comportemental s'est imposé comme une voie centrale pour l'apprentissage robot depuis les travaux fondateurs de DAgger (Ross et al., 2011) et, plus récemment, avec les architectures VLA (Vision-Language-Action) portées notamment par Physical Intelligence (pi0) et Google DeepMind. Son extension au multi-agent reste néanmoins peu explorée : la plupart des travaux existants supposent des démonstrations conjointes ou une coordination centralisée, là où des méthodes de renforcement multi-agent comme MAPPO ou QMIX opèrent sans contrainte de collecte humaine. R2BC occupe ce blanc de la littérature avec une approche pragmatique. Les suites naturelles seraient de tester la méthode sur des équipes de robots plus nombreuses, dans des environnements dynamiques proches des standards industriels, et d'évaluer sa robustesse sur des tâches longue-horizon.

RecherchePaper
1 source
DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine
475arXiv cs.RO 

DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine

Une équipe de chercheurs a publié fin juin 2026 sur arXiv (arXiv:2606.17418) les spécifications techniques de la DexLink Hand, une main robotique anthropomorphe à 16 degrés de liberté intégrant 20 articulations commandées par 16 actionneurs indépendants. Le prototype, de la taille d'une main humaine, pèse 320 grammes et affiche un coût total inférieur à 400 dollars, un seuil rarissime pour ce niveau de polyvalence. L'architecture mécanique repose sur un système hybride de mécanismes à liaisons planes et spatiales, permettant des mouvements multidirectionnels découplés, des synergies articulaires biomimétiques et une forte capacité de charge passive sans actionnement. Le pouce intègre des caractéristiques biomimétiques supportant les mouvements de reconfiguration et d'opposition propres à la main humaine. Lors des évaluations expérimentales, la main a atteint le score de Kapandji maximal (référence standard en chirurgie et robotique pour évaluer l'amplitude de mouvement du pouce) et a reproduit les 33 types de préhension du catalogue Feix, couvrant l'intégralité des prises répertoriées sur des sujets humains. L'intérêt industriel du travail réside principalement dans le ratio coût/dextérité : les mains robotiques commerciales atteignant un niveau comparable (Shadow Dexterous Hand, Allegro Hand) se situent entre 5 000 et 70 000 dollars, rendant leur déploiement en série peu viable. Un module à moins de 400 dollars change les calculs pour les intégrateurs de robots humanoïdes ou de cellules de téléopération. La masse de 320 g est également compatible avec les bras des humanoïdes de nouvelle génération, dont les payloads distaux sont souvent contraints à moins de 500 g. La reproduction de l'intégralité des types Feix constitue une donnée concrète pour le robot learning : les datasets entraînés sur des démonstrations humaines deviennent directement exploitables sans remapping cinématique, ce qui réduit le gap sim-to-real pour les approches VLA (vision-language-action). Le défi de la main dextère est structurel dans le secteur : la majorité des plateformes humanoïdes commerciales (Figure 03, Tesla Optimus Gen 3, Agility Digit, Unitree H1) utilisent encore des mains simplifiées à 2 à 6 DOF pour des raisons de robustesse et de coût. Ce prototype reste pour l'heure un démonstrateur académique sans annonce de commercialisation ni partenariat industriel déclaré. Les chercheurs le positionnent explicitement pour la manipulation dextère, la téléopération et le robot learning en environnements centrés sur l'humain, des cas d'usage directement alignés avec les feuilles de route de Boston Dynamics, de 1X Technologies ou des équipes travaillant sur Pi-0 (Physical Intelligence). Aucune timeline d'intégration sur un bras complet ni d'évaluation en conditions industrielles n'est communiquée.

HumanoïdesPaper
1 source
Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée
476arXiv cs.RO 

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper
1 source
WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles
477arXiv cs.RO 

WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles

Une équipe de recherche a publié sur arXiv (ref. 2606.18097) WireCraft, un benchmark de simulation dédié à la manipulation industrielle d'objets linéaires déformables (DLO), typiquement les câbles et faisceaux électriques omniprésents dans les lignes d'assemblage. Le benchmark couvre trois familles de tâches représentatives du câblage industriel réel : l'insertion de connecteurs, le routage de clips et la mise en place de goulottes (channel seating). Il intègre deux modèles physiques complémentaires pour simuler le comportement des câbles, l'un articulé et l'autre véritablement déformable, et les trajectoires de référence proviennent à la fois de la simulation et d'un bras UR5 physique. Les auteurs ont évalué trois familles de politiques de contrôle : apprentissage par renforcement (RL), apprentissage par imitation (IL) et politiques vision-langage-action (VLA). Sous conditions de RL avec état privilégié (accès direct aux variables d'état internes de la simulation), chaque famille de tâches est résolue avec un taux de succès supérieur à 82 %, confirmant que les tâches sont bien posées et non artificiellement impossibles. Ces résultats exposent un écart critique entre manipulation sous état privilégié et manipulation guidée uniquement par la vision, un problème central pour tout intégrateur cherchant à déployer des cellules robotisées sur des opérations de câblage. Le vrai verrou identifié par WireCraft n'est pas la phase d'approche, mais la transition entre atteindre un connecteur et exécuter l'alignement en contact riche, où les politiques visuelles (RL vision, IL et VLA) échouent de façon significative. Cela contredit implicitement plusieurs narratifs optimistes autour des VLA polyvalents : malgré des performances impressionnantes sur des objets rigides, ces architectures peinent dès que la géométrie est déformable et que le retour d'état est limité à la perception visuelle. Pour un COO industriel ou un intégrateur, le message est pragmatique : les câbles ne sont pas encore un problème résolu, même en simulation propre avec des benchmarks bien construits. Le manque de benchmarks partagés et reproductibles pour les DLO freine depuis longtemps la comparaison objective des approches dans ce domaine. Les benchmarks existants sont généralement liés à du matériel propriétaire ou traitent des objets déformables génériques sans les contraintes de fixation propres au câblage industriel. WireCraft comble cette lacune avec des assets configurables en difficulté et des protocoles d'évaluation communs. Le code, les données et les outils seront mis en open source après acceptation de l'article. Côté concurrence, des acteurs comme OpenAI (avec ses travaux sur la manipulation déformable) ou des laboratoires comme Physical Intelligence (pi) avec Pi-0 poussent également sur la manipulation généraliste, mais aucun benchmark industriel câble de ce type n'était encore disponible publiquement. La prochaine étape naturelle sera le sim-to-real transfer systématique : WireCraft pose les rails, mais la question de savoir quelle architecture franchira le gap reste entièrement ouverte.

RecherchePaper
1 source
WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive
478arXiv cs.RO 

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Des chercheurs ont publié WeaveLA (Weave Latent Memory for Vision-Language-Action Policies) sur arXiv (identifiant 2606.17463v1), un module de mémoire inter-sous-tâches qui se greffe sur un backbone VLA gelé, en l'occurrence π₀.₅ de Physical Intelligence, sans modifier ses poids. À chaque franchissement d'un sous-objectif, WeaveLA compresse le segment d'actions accompli en tokens latents via attention pooling guidé par requêtes, puis injecte ces tokens dans le chemin de génération d'actions du sous-objectif suivant. Évalué sur le benchmark RoboMME, le résultat le plus saillant porte sur la tranche "SwingXtimes" à N=3 répétitions : le taux de succès passe de 0 % à 47,8 %, tandis que les épisodes à exécution unique restent inchangés, confirmant que les gains sont strictement confinés aux tâches causalement dépendantes entre sous-objectifs. Ce résultat pointe une limite structurelle précise des VLA à fenêtre courte : l'absence d'un canal explicite pour propager l'état entre sous-tâches. Les architectures actuelles, qu'il s'agisse de π₀, OpenVLA ou des variantes à mémoire existantes, gèrent bien la manipulation pas-à-pas, mais peinent dès que la réussite d'une étape conditionne la suivante. WeaveLA montre qu'un module léger, déclenché uniquement sur les événements de complétion de sous-objectifs, suffit à corriger cette fragilité sans régression sur les tâches simples. C'est un signal favorable pour les intégrateurs industriels qui cherchent à déployer des politiques génériques sur des workflows multi-étapes sans réentraîner l'intégralité du modèle. Le backbone π₀.₅ utilisé est celui de Physical Intelligence, startup fondée à San Francisco en 2023 et ayant levé environ 400 millions de dollars, devenue référence de facto en manipulation généraliste. WeaveLA s'inscrit dans un courant visant à augmenter les VLA par des modules de mémoire externe plutôt que de les remplacer, une direction concurrente aux travaux de Google DeepMind (RT-2, RT-X), NVIDIA (GR00T N2) et Figure AI (Helix). Étant un preprint non relu par les pairs, le travail ne s'accompagne d'aucun calendrier de déploiement ni de partenariat annoncé, et ses résultats, obtenus en environnement simulé, restent à valider sur des plateformes réelles.

RechercheOpinion
1 source
Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées
479arXiv cs.RO 

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Des chercheurs ont publié sur arXiv (2606.15550) Roken, pour "Robots as Tokens", un transformeur de diffusion unifié capable de générer simultanément des trajectoires coordonnées pour plusieurs robots mobiles. Contrairement aux approches dominantes, qui soit se limitent à la planification monorobot, soit enchaînent les trajectoires de façon séquentielle avant d'appliquer des post-traitements itératifs pour résoudre les conflits inter-robots, Roken produit l'ensemble des trajectoires en une seule passe feed-forward. Chaque robot est représenté comme un token discret dans le modèle, ce qui lui permet d'interagir naturellement avec les autres via la self-attention, et de se référer aux tokens de carte pour percevoir l'environnement par cross-attention. Des tâches auxiliaires fondées sur le théorème de Bayes fournissent une supervision spatio-temporelle multi-échelle pour apprendre la distribution conditionnelle. À l'inférence, le modèle supporte indifféremment la planification monorobot, la génération coordonnée multi-robot et la génération conditionnelle (en fixant certains tokens comme conditions). Les expériences, menées en simulation dans des environnements encombrés variés, montrent des taux de succès élevés sur des tâches de navigation avec contraintes de connectivité, dépassant le planificateur classique qui avait servi à générer les données d'entraînement. L'intérêt principal de Roken réside dans sa scalabilité et sa généralisation : le modèle est entraîné sur des équipes de tailles mixtes et se généralise à des équipes et des environnements non vus lors de l'entraînement, y compris en observation partielle. Pour les intégrateurs de flottes AMR ou les systèmes multi-agents en entrepôt, cette capacité à planifier pour N robots sans replanification itérative représente un gain de latence significatif. Que le modèle surpasse son propre générateur de données d'entraînement est notable, mais il faut souligner que toutes les expériences sont en simulation ; le transfert sim-to-real reste non démontré, ce qui est le verrou habituel pour ce type d'approche. Ce travail s'inscrit dans une vague de recherche qui transpose les succès des modèles génératifs (diffusion, transformeurs) du langage et de la vision vers la planification robotique. Des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) explorent des architectures similaires pour le contrôle mono-robot, mais la coordination multi-agents via des tokens partagés reste un territoire peu défriché. Roken propose une formalisation élégante du problème, mais son évaluation reste entièrement simulée à ce stade. Les prochaines étapes naturelles seraient une validation sur robots réels et une comparaison avec des planificateurs multi-agents classiques comme CBS (Conflict-Based Search) sur des métriques standardisées.

RecherchePaper
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
480arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source
Filtrage de l'information par régularisation variationnelle pour la manipulation robotique
481arXiv cs.RO 

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2601.21926v3) une étude portant sur un défaut structurel des politiques visuomotrices par diffusion appliquées à la manipulation robotique. Ces architectures, fondées sur des représentations visuelles 3D et un décodeur de débruitage, sont aujourd'hui parmi les plus performantes pour apprendre des comportements complexes à un bras robotique. L'équipe identifie un problème précis : dans les architectures U-Net et DiT (Diffusion Transformer), les blocs intermédiaires du décodeur contiennent des features parasites, sans rapport avec la tâche à exécuter. La preuve expérimentale est frappante, masquer aléatoirement les features du backbone U-Net ou sauter des couches intermédiaires du DiT pendant l'inférence, sans aucune modification de l'entraînement, améliore les performances. Pour corriger cela, les auteurs proposent un module baptisé Variational Regularization (VR) : un composant plug-and-play qui impose une distribution gaussienne conditionnée au contexte sur les features bruitées, et applique un régulariseur KL-divergence formant un goulot d'information adaptatif. Les évaluations couvrent trois benchmarks de simulation, RoboTwin2.0, Adroit et MetaWorld, et des tests en conditions réelles. Ce travail remet en cause une hypothèse tacite du domaine : augmenter la capacité du modèle de débruitage améliore mécaniquement les résultats. Les auteurs montrent que c'est faux, et que la redondance dans les features intermédiaires est une source active de dégradation. L'approche VR, combinée aux architectures DP3-UNet et DP3-DiT, établit de nouveaux résultats état de l'art sur l'ensemble des benchmarks testés. Pour les intégrateurs et équipes R&D travaillant sur des politiques d'imitation ou de reinforcement learning pour la manipulation, l'intérêt est double : le module est réutilisable sans réentraînement complet, et le diagnostic (tester le masquage aléatoire à l'inférence) est immédiatement applicable pour auditer ses propres architectures. Ce type de recherche s'inscrit dans la lignée des travaux sur les diffusion policies initiés par Chi et al. (2023) et leur extension 3D (DP3), qui ont rapidement supplanté les approches behavior cloning classiques sur les tâches de manipulation fine. Sur ce terrain, les concurrents directs incluent les politiques basées sur les transformers de vision-action comme ACT (Action Chunking with Transformers) ou les approches Flow Matching comme Pi-0 de Physical Intelligence. La contribution ici n'est pas une nouvelle architecture de bout en bout, mais un correctif ciblé sur un problème de capacité mal calibrée, un angle plus susceptible d'être intégré rapidement dans des pipelines existants que de remplacer l'ensemble de la stack.

IA physiqueOpinion
1 source
AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)
482arXiv cs.RO 

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié AsyncVLA (arXiv:2511.14148), un cadre pour modèles Vision-Language-Action (VLA) qui remplace le flow matching synchrone (SFM) conventionnel par un mécanisme asynchrone (AFM) à calendrier temporel non uniforme. Là où le SFM applique un pas de temps identique à tous les tokens d'action, AsyncVLA ajuste ce calendrier en fonction du contexte actionnel en cours, et intègre un module "confidence rater" qui évalue la fiabilité de chaque token généré pour déclencher une auto-correction sélective avant exécution. La procédure d'entraînement est unifiée: un seul modèle peut opérer en mode SFM ou AFM, avec une meilleure utilisation du cache KV. Sur les benchmarks de manipulation robotique en simulation et en conditions réelles, AsyncVLA surpasse les méthodes existantes avec une efficacité accrue en données d'entraînement. Le code est publié en open source sur GitHub. L'instabilité des VLA sur les tâches longue durée (long-horizon) est l'un des principaux freins à leur déploiement industriel: en SFM, une erreur d'action se propage en cascade jusqu'à l'échec complet de la séquence. La capacité d'auto-correction d'AsyncVLA adresse directement ce point, ce qui intéresse les intégrateurs et les équipes robotiques confrontées à des cycles opératoires de plusieurs minutes. L'efficacité en données est un argument complémentaire: entraîner des VLA compétitifs nécessite aujourd'hui des datasets massifs et coûteux, et une méthode qui atteint de meilleures performances avec moins de données réduit la barrière d'entrée. Il faut toutefois nuancer: le papier se limite à des benchmarks de manipulation sans publier de chiffres de déploiement à l'échelle, de temps de cycle réels, ni de résultats sur une flotte opérationnelle. Les VLA à base de flow matching ont été popularisés par Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2024, établissant un standard de génération d'actions continues pour la robotique généraliste. AsyncVLA s'inscrit dans une tendance de raffinement algorithmique de ces architectures, aux côtés d'approches comme OpenVLA, la distillation de politique diffusion, ou les modèles hybrides VLA et planificateur symbolique. Son avantage comparatif est la compatibilité directe avec les pipelines SFM existants, sans rupture architecturale majeure, ce qui facilite l'adoption par les équipes déjà engagées sur ces bases. Les prochaines étapes crédibles seraient une validation sur des robots humanoïdes (Figure, 1X, Unitree) ou des bras industriels en production réelle, là où la robustesse long-horizon reste le goulot d'étranglement dominant.

💬 Le problème de propagation d'erreur en cascade dans les VLA, c'est exactement ce qui bloque le déploiement industriel depuis des mois. AsyncVLA l'attaque frontalement avec un mécanisme de correction sélective avant exécution, et la compatibilité directe avec les pipelines SFM existants (Pi-0, GR00T) rend l'adoption crédible sans tout casser. Reste à voir ce que ça donne sur des cycles de 10 minutes en prod réelle, pas juste en simulation.

IA physiqueOpinion
1 source
Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire
483arXiv cs.RO 

Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire

Des chercheurs ont publié le 6 mai 2026 sur arXiv (référence 2605.03363) un framework de contrôle hiérarchique hybride pour la préhension dextre réactive. L'architecture sépare explicitement deux niveaux d'exécution : un planificateur haut niveau basé sur du multi-agent RL, avec deux agents spécialisés distincts (un pour le bras, un pour la main), qui génère des commandes de vitesse en espace tâche; et un contrôleur bas niveau de programmation quadratique (QP) parallélisé sur GPU, qui traduit ces commandes en vitesses articulaires tout en respectant strictement les limites cinématiques et en assurant l'évitement de collisions. Le système a été validé sur matériel réel, avec un bras 7-DOF équipé d'une main anthropomorphique 20-DOF, en démontrant un transfert zero-shot depuis la simulation vers des objets non vus pendant l'entraînement, dans des environnements non structurés. La contribution principale n'est pas seulement la performance de saisie : c'est la propriété de "zero-shot steerability", c'est-à-dire la capacité d'un opérateur à ajuster dynamiquement les marges de sécurité ou à contourner des obstacles imprévus sans réentraîner la politique. Pour un intégrateur industriel, cela change radicalement le calcul de déploiement : les approches end-to-end classiques (VLA inclus) nécessitent typiquement un fine-tuning coûteux pour chaque variation d'environnement. Ici, la séparation structurelle entre planification et exécution permet d'injecter des contraintes nouvelles au niveau du QP sans toucher à la politique RL, ce qui accélère aussi la convergence en entraînement. La robustesse aux perturbations physiques imprévues, démontrée en conditions réelles, renforce la crédibilité du pipeline sim-to-real. Ce travail s'inscrit dans un mouvement de recherche qui cherche à dépasser les architectures purement end-to-end pour la manipulation dextre, en réintroduisant des couches de contrôle classiques (QP, contraintes cinématiques) comme fondation sûre sous une politique apprise. Des approches similaires émergent chez des équipes comme Physical Intelligence (Pi-0), Figure AI (Figure 03) ou 1X Technologies, qui combinent toutes apprentissage et contrôle structuré. La prochaine étape naturelle pour ce type de framework sera la validation sur des tâches d'assemblage industriel avec variabilité de forme et de matière, ainsi que l'extension à des mains à plus haute densité de capteurs pour fermer la boucle tactile.

IA physiquePaper
1 source
Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue
484arXiv cs.RO 

Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue

Une équipe de chercheurs a publié MVP-LAM (Multi-ViewPoint Latent Action Model), une méthode visant à améliorer le pré-entraînement des modèles vision-langage-action (VLA) à partir de vidéos humaines non étiquetées. Le problème ciblé : les actions latentes apprises depuis des vidéos mono-vue encodent des indices visuels propres à l'angle de caméra, plutôt que la sémantique réelle du mouvement. MVP-LAM impose un objectif de reconstruction inter-vues (cross-viewpoint reconstruction) : une action latente extraite depuis une caméra doit prédire l'évolution de la scène telle que vue depuis une autre caméra. Évalué sur le jeu de données Bridge V2, le modèle produit des actions latentes dont l'information mutuelle avec les vraies actions de référence dépasse celle des baselines, y compris en conditions hors-distribution. Ces représentations améliorées se traduisent par de meilleures performances de manipulation en aval sur plusieurs benchmarks standards. Le code et les checkpoints entraînés sont disponibles publiquement. La contrainte géométrique multi-vues a un impact direct pour les intégrateurs : un modèle pré-entraîné sur des actions latentes robustes au changement de point de vue devrait mieux résister au gap entre démonstration et déploiement réel, notamment dans des cellules robotiques où la position des caméras diffère entre collecte de données et production. MVP-LAM valide aussi l'usage de larges corpus vidéo non supervisés (vidéos internet, archives industrielles) sans démonstrations téléopérées : la cohérence inter-vues remplace partiellement le signal proprioceptif, réduisant le coût de collecte des données d'entraînement. Le pré-entraînement VLA depuis des vidéos non annotées s'inscrit dans la continuité de travaux comme RT-2 (Google DeepMind), UniPi, et plus récemment pi-0 (Physical Intelligence) ou OpenVLA. Ces approches partagent l'ambition d'exploiter des données vidéo à grande échelle pour doter les robots d'une compréhension généraliste du mouvement avant fine-tuning sur tâches spécifiques. MVP-LAM apporte une contribution méthodologique en renforçant la qualité des pseudo-labels d'action, une étape souvent négligée au profit de l'architecture des modèles aval. Il s'agit d'un travail académique sans déploiement industriel annoncé, mais dont la disponibilité du code facilite la reproduction et l'adaptation sur d'autres plateformes robotiques.

IA physiqueOpinion
1 source
Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur
485arXiv cs.RO 

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

Des chercheurs proposent Hydra-DP3 (HDP3), une politique de diffusion 3D allégée pour le contrôle visuomoteur en manipulation robotique, déposée sur arXiv le 2 mai 2025 (arXiv:2605.01581). Le point de départ est théorique : les trajectoires d'action robotique sont intrinsèquement lisses, avec l'essentiel de leur énergie concentrée dans quelques modes basses fréquences de la transformée en cosinus discrète (DCT). Cette propriété implique que l'erreur du débruiteur optimal est bornée par la dimension du sous-espace basse fréquence, ce qui signifie que le débruitage sature en très peu d'étapes. HDP3 exploite cette observation pour concevoir un décodeur "Diffusion Mixer" minimaliste, compatible avec une inférence DDIM en deux étapes seulement. Évalué sur les benchmarks RoboTwin 2.0, Adroit et MetaWorld ainsi que sur des tâches en conditions réelles, HDP3 atteint les performances état de l'art avec moins de 1 % des paramètres des politiques de diffusion 3D existantes et une latence d'inférence significativement réduite. Le goulot d'étranglement des politiques de diffusion pour la robotique réside précisément dans la vitesse d'inférence : des modèles comme DP3 ou Pi-0 requièrent typiquement 10 à 100 étapes de débruitage, ce qui pénalise le contrôle temps réel. HDP3 démontre empiriquement et théoriquement que deux étapes suffisent pour les trajectoires robotiques, contrairement à la génération d'images où de nombreuses étapes restent nécessaires. Réduire les paramètres à moins de 1 % de l'état de l'art tout en maintenant les performances remet en question l'hypothèse implicite selon laquelle des modèles massifs seraient indispensables en visuomoteur. Pour les intégrateurs et les équipes R&D industrielles, cela ouvre la voie à des déploiements sur matériel embarqué contraint, sans GPU serveur dédié, et à des cycles d'entraînement bien plus rapides. La politique de diffusion 3D (DP3, 2024) est née de Diffusion Policy (Chi et al., 2023), elle-même inspirée des modèles de score pour la génération d'images. HDP3 rompt explicitement avec cet héritage en justifiant théoriquement pourquoi la robotique n'a pas besoin de décodeurs lourds copiés sur la vision générative. Dans la course aux politiques visuomotrices, les principaux concurrents incluent Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les approches VLA comme OpenVLA ou RDT-1B, qui misent sur la montée en échelle paramétrique. HDP3 parie à l'inverse sur la compression théoriquement motivée. L'article reste un preprint non évalué par les pairs, et les résultats temps réel portent sur des tâches de manipulation sélectionnées : la généralisation à des environnements industriels non contrôlés reste à démontrer. Aucun déploiement commercial n'est annoncé à ce stade.

UELes équipes R&D européennes en robotique embarquée pourraient intégrer cette approche pour déployer des politiques visuomotrices sur matériel contraint sans GPU serveur dédié.

IA physiqueOpinion
1 source
Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système
486arXiv cs.RO 

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

Une équipe de recherche publie sur arXiv (2605.02739) une méthode baptisée Latent Bridge, conçue pour accélérer l'inférence des modèles Vision-Language-Action (VLA) à double système, architecture qui combine un backbone de grand modèle de vision-langage (VLM) lent avec une tête d'action rapide. Le problème identifié : dans ce paradigme, le VLM doit s'exécuter à chaque pas de contrôle, même lorsque la scène visuelle évolue peu entre deux timesteps, ce qui crée un goulot d'étranglement computationnel majeur. Latent Bridge est un modèle léger entraîné pour prédire le delta des sorties du VLM entre deux appels, permettant à la tête d'action de fonctionner sur des features interpolées pendant que le backbone coûteux ne tourne que périodiquement. La méthode est validée sur deux VLAs architecturalement distincts : GR00T-N1.6 de NVIDIA (pont dans l'espace des features) et π0.5 de Physical Intelligence (pont sur le KV-cache). Sur quatre suites LIBERO, 24 tâches cuisine RoboCasa et la tâche ALOHA sim transfer-cube, Latent Bridge conserve 95 à 100 % des performances initiales tout en réduisant les appels VLM de 50 à 75 %, pour un gain net de 1,65x à 1,73x en vitesse d'exécution par épisode. Ce résultat est structurellement important pour quiconque envisage de déployer des VLAs sur du matériel réel : jusqu'ici, la richesse sémantique des VLM se payait en latence, rendant difficile un contrôle à haute fréquence sur robots à ressources embarquées limitées. Le fait que la méthode fonctionne sur deux familles architecturales différentes, l'une opérant dans l'espace des features, l'autre sur le KV-cache, suggère une généralisation potentiellement large plutôt qu'une optimisation opportuniste. Le pipeline d'entraînement DAgger utilisé est task-agnostic et transfert sans modification entre benchmarks, ce qui réduit le coût d'adaptation. Il reste à noter que toutes les évaluations sont conduites en simulation ; l'écart sim-to-real n'est pas adressé dans ce travail, et les gains de vitesse annoncés restent à confirmer sur hardware physique. GR00T-N1.6 est le modèle humanoïde de NVIDIA issu de la roadmap GR00T, tandis que π0.5 est la dernière itération du VLA de Physical Intelligence (ex-pi0), entreprise fondée par Sergey Levine et Chelsea Finn qui a levé 400 millions de dollars en 2024. Ces deux modèles représentent l'état de l'art des VLA duaux, face à des concurrents comme OpenVLA (Berkeley), RoboFlamingo ou les approches ACT/Diffusion Policy. La pression sur l'efficacité computationnelle devient un axe de différenciation croissant à mesure que les déploiements industriels à grande échelle approchent ; des travaux parallèles explorent la distillation et la quantification des VLM, mais Latent Bridge propose une voie orthogonale en exploitant la redondance temporelle plutôt qu'en compressant le modèle. La prochaine étape logique serait une validation sur plateforme physique, idéalement sur des robots comme Fourier GR-1 ou Figure 02 dont les équipes utilisent des pipelines VLA similaires.

IA physiqueOpinion
1 source
LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA
487arXiv cs.RO 

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

Des chercheurs ont publié le 29 avril 2026 sur arXiv (2604.28192) un nouveau cadre pour les modèles Vision-Langage-Action (VLA) baptisé LaST-R1, accompagné d'un algorithme d'apprentissage par renforcement inédit appelé LAPO (Latent-to-Action Policy Optimization). Le système atteint un taux de succès moyen de 99,8 % sur le benchmark de manipulation robotique LIBERO, après un unique épisode d'imitation supervisée en guise d'amorçage. En déploiement réel sur quatre tâches complexes, dont des configurations monobranche et bras-double, LAPO améliore les performances de 44 % par rapport à la politique issue de cet amorçage initial. L'apport central de LaST-R1 est de relier explicitement le raisonnement sur la physique à la génération d'actions, là où les approches existantes traitaient ces deux étapes séparément. Les VLA actuels raisonnent soit en langage naturel (coûteux en latence et discret), soit dans un espace latent continu, mais dans les deux cas par imitation statique, sans capacité d'adaptation par essais-erreurs. LAPO co-optimise simultanément le processus de raisonnement latent et la production d'actions via du renforcement en ligne, ce qui améliore la modélisation du monde physique et la robustesse en environnement interactif. Un mécanisme de "latent Chain-of-Thought adaptatif" permet en outre au modèle d'ajuster dynamiquement son horizon de raisonnement selon la complexité de la situation, sans coût fixe à chaque pas. Il s'agit d'une annonce académique sous forme de preprint, pas encore d'un produit embarqué sur robot commercial. Ce travail s'inscrit dans la course à la généralisation des VLA, portée ces derniers mois par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. L'un des verrous récurrents du secteur est l'écart simulation-réalité (sim-to-real gap) et la difficulté à faire converger rapidement un modèle en conditions réelles sans millions d'épisodes supervisés. LaST-R1 revendique une convergence significativement accélérée grâce à l'optimisation jointe du raisonnement latent, une piste que suivent aussi des équipes européennes travaillant sur l'apprentissage par renforcement pour la manipulation, notamment dans l'orbite des laboratoires universitaires français. Les prochaines étapes naturelles seront la validation sur des benchmarks plus diversifiés (AgiBot World, RLBench) et l'intégration dans des plateformes matérielles commerciales.

UELes laboratoires français et européens travaillant sur la manipulation robotique par apprentissage par renforcement peuvent s'appuyer sur l'approche LAPO pour réduire leur dépendance aux grandes quantités de données supervisées, accélérant potentiellement leurs cycles de recherche.

IA physiqueOpinion
1 source
PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives
488arXiv cs.RO 

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

PRTS (Primitive Reasoning and Tasking System) est un modèle fondation Vision-Langage-Action (VLA) présenté dans un preprint arXiv (réf. 2604.27472, avril 2026). Il reformule le préentraînement des VLA en substituant le clonage comportemental supervisé classique par de l'apprentissage par renforcement conditionné sur des objectifs (Goal-Conditioned Reinforcement Learning, GCRL). Chaque instruction en langage naturel est traitée comme un but à atteindre : PRTS apprend un espace d'embedding unifié où le produit scalaire entre vecteurs état-action et vecteur objectif approxime la log-probabilité actualisée d'atteindre cet objectif depuis l'état courant, une quantité appelée log-discounted goal occupancy. Ce signal de supervision dense est extrait directement de trajectoires offline sans annotation de récompense, puis injecté dans le backbone multimodal via un masque causal adaptatif (role-aware causal mask), avec un surcoût computationnel marginal. Le modèle est préentraîné sur 167 milliards de tokens couvrant des données de manipulation et de raisonnement embodied. Il atteint l'état de l'art sur les benchmarks LIBERO, LIBERO-Pro, LIBERO-Plus et SimplerEnv, ainsi que sur une suite de 14 tâches physiques réelles, avec des gains particulièrement nets sur les tâches longue-horizon, riches en contacts, et sur les instructions zero-shot inédites. L'enjeu est structurant pour le domaine des politiques robotiques générales. Les VLA actuels les plus avancés, notamment Pi-0 et Pi-0.5 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, reposent tous sur une logique de clonage comportemental : le modèle imite des démonstrations sans représentation explicite du progrès vers un objectif. PRTS introduit une conscience intrinsèque de l'atteignabilité des buts (goal reachability awareness), ce qui se traduit par des améliorations précisément là où les VLA peinent le plus en déploiement réel : planification longue-horizon, robustesse aux contacts et généralisation zéro-shot. Si ces résultats se confirment indépendamment, l'approche contrastive GCRL pourrait redéfinir le paradigme de préentraînement dominant dans le domaine. Le contexte compétitif est celui d'une convergence accélérée vers des fondations VLA à grande échelle capables de généralisation zéro-shot. Physical Intelligence, NVIDIA Robotics, Google DeepMind (RT-2, Octo) et de nombreuses équipes académiques travaillent simultanément sur ce segment. La contribution de PRTS est avant tout méthodologique : en n'exigeant aucune annotation de récompense et en tirant sa supervision de trajectoires offline déjà disponibles, l'approche est potentiellement reproductible avec des ressources plus modestes. Il s'agit toutefois d'un résultat de recherche à ce stade, non d'un déploiement commercial : les évaluations physiques portent sur 14 tâches dont les conditions expérimentales restent à vérifier indépendamment, et aucune timeline de productisation n'est mentionnée.

IA physiqueOpinion
1 source
AI² Robotics défend les modèles VLA et lance NeuroVLA
489Pandaily 

AI² Robotics défend les modèles VLA et lance NeuroVLA

Guo Yandong, fondateur et PDG d'AI² Robotics, a présenté NeuroVLA, un modèle d'action robotique de troisième génération qui réduit la latence de réponse de plusieurs centaines de millisecondes à quelques dizaines de millisecondes. L'entreprise articule l'évolution des architectures VLA (Vision-Language-Action) en trois stades : les modèles end-to-end de première génération unifiant perception et contrôle ; les systèmes de deuxième génération intégrant des world models pour le raisonnement prédictif ; et désormais NeuroVLA, architecture neuro-inspirée permettant une optimisation continue comparable à la mémoire musculaire. En parallèle, AI² Robotics a lancé AlphaBrain Platform, une boîte à outils open-source combinant modèles VLA neuro-inspirés, entraînement par reinforcement learning à base de tokens et architectures modulaires de world model, avec support des benchmarks de référence LIBERO et CALVIN. L'annonce ne précise ni contexte de déploiement réel, ni clients industriels : il s'agit d'un lancement de modèle et de plateforme, pas d'un déploiement terrain. La réduction de latence revendiquée est le chiffre à surveiller. En manipulation robotique, passer sous 50 ms est généralement considéré comme le seuil nécessaire pour des gestes précis en environnement non structuré. Si NeuroVLA tient ces performances hors laboratoire, cela représenterait une avancée concrète sur le sim-to-real gap, obstacle persistant à la commercialisation des robots VLA. L'ouverture d'AlphaBrain en open-source signale une stratégie d'écosystème : AI² Robotics cherche à fédérer des contributeurs autour de son approche architecturale, à l'image de ce que tente Physical Intelligence avec pi0. AI² Robotics est une startup chinoise spécialisée dans l'embodied AI pour robots manipulateurs et humanoïdes. La prise de position publique de Guo Yandong en faveur des VLA intervient dans un débat architectural actif : les pipelines VLA end-to-end, portés aussi par Figure AI et 1X Technologies, s'affrontent aux approches hybrides modulaires de Sanctuary AI ou Apptronik. Les prochains jalons crédibles à suivre sont les résultats publiés sur LIBERO et CALVIN, qui permettront une comparaison objective avec les modèles concurrents, ainsi que l'annonce éventuelle de pilotes industriels validant les métriques en conditions réelles.

IA physiqueOpinion
1 source
ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux
490arXiv cs.RO 

ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux

Une équipe de chercheurs a publié sur arXiv (arXiv:2505.20032) ViTaPEs, une architecture transformer conçue pour fusionner les perceptions visuelles et tactiles dans les robots manipulateurs. Le principe central est un encodage positionnel à deux étages : un encodage local propre à chaque modalité (vision d'un côté, capteurs tactiles de l'autre), suivi d'un encodage global appliqué sur la séquence de tokens fusionnés juste avant le mécanisme d'attention croisée. Cette double injection positionn­elle fournit un vocabulaire spatial partagé au moment précis où les deux flux d'information interagissent. Les expériences ont été conduites sur plusieurs jeux de données réels à grande échelle, et les résultats montrent des gains sur des tâches de reconnaissance visuotactile, ainsi qu'une capacité de généralisation zero-shot vers des scénarios hors domaine non vus pendant l'entraînement. En transfert vers une tâche de saisie robotique, ViTaPEs surpasse les baselines actuelles dans la prédiction du succès de préhension. L'enjeu industriel de ces travaux est concret : les capteurs tactiles (GelSight, DIGIT et dérivés) fournissent des informations que la vision seule ne capture pas, texture de surface, compliance d'un matériau, force de contact locale. Sans fusion visuotactile robuste, un robot de manipulation en environnement non structuré reste fragile face aux objets inconnus ou aux variations de surface. La contribution de ViTaPEs n'est pas seulement de performance brute : c'est de montrer qu'un encodage positionnel explicitement conçu pour le cross-modal permet une meilleure généralisation, sans s'appuyer lourdement sur des modèles vision-langage pré-entraînés comme CLIP. Pour les intégrateurs et les équipes robotiques industrielles, c'est un signal que le sim-to-real et le cross-domain gap sur la perception tactile peuvent être partiellement résolus par l'architecture plutôt que par la masse de données supervisées. Ce travail s'inscrit dans une vague de recherche sur la représentation visuotactile, on pense aux travaux antérieurs de Meta AI sur DIGIT, aux représentations auto-supervisées de Calandra et al., ou encore à Pi-0 de Physical Intelligence qui intègre déjà des flux multimodaux pour le contrôle de robots polyvalents. Côté acteurs européens, des startups comme Wandercraft (France) ou des laboratoires comme le LAAS-CNRS travaillent sur la manipulation dextère, et ce type d'architecture pourrait s'intégrer à leurs pipelines. Les prochaines étapes probables incluent l'évaluation sur des manipulateurs commerciaux (Franka, UR) et l'intégration dans des pipelines de contrôle visuomoteur de type VLA, où la précision tactile manque encore cruellement.

UELes équipes françaises de manipulation dextère (Wandercraft, LAAS-CNRS) pourraient intégrer cette architecture visuotactile dans leurs pipelines, réduisant la dépendance aux données supervisées massives pour la généralisation cross-domain.

IA physiquePaper
1 source
Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets
491arXiv cs.RO 

Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets

Des chercheurs ont publié sur arXiv (référence 2512.22519v2) un cadre baptisé OBEYED-VLA, acronyme de OBject-centric and gEometrY groundED VLA, conçu pour rendre les modèles Vision-Language-Action robustes aux environnements encombrés. L'évaluation a été conduite sur un bras UR10e d'Universal Robots en configuration tabletop réelle, selon quatre régimes de difficulté croissante : présence d'objets distracteurs, rejet de cible absente, variation d'arrière-plan, et manipulation en environnement encombré d'objets non vus à l'entraînement. Le modèle est entraîné exclusivement sur des démonstrations d'objets isolés, sans fouillis ni objets parasites lors de la collecte des données. L'architecture se décompose en deux étages : un module de grounding objet-centrique basé sur un VLM qui sélectionne les régions pertinentes sur plusieurs vues caméra, suivi d'un module de grounding géométrique qui encode la structure 3D de ces objets plutôt que leur apparence brute. L'intérêt industriel est direct : les VLA actuels, malgré leurs performances en conditions contrôlées, échouent de manière systématique dès que la scène s'éloigne du contexte d'entraînement. Le sur-graspinq en l'absence de la cible, la distraction par des objets voisins et l'overfitting à l'arrière-plan sont des défauts documentés qui bloquent le passage du laboratoire à la cellule de production. OBEYED-VLA démontre qu'en découplant explicitement la perception de la commande, au lieu de les fondre dans un pipeline monolithique optimisé pour l'action, il est possible d'améliorer substantiellement la généralisation sans réentraîner le modèle VLA sous-jacent depuis zéro. Les ablations confirment que ni le grounding sémantique ni le grounding géométrique ne suffisent seuls : les deux étages sont nécessaires. Ce travail s'inscrit dans la course à la robustesse des VLA post-entraînés, un chantier où s'affrontent des approches comme OpenVLA, Octo, ou Pi-0 de Physical Intelligence. La plupart des VLA actuels héritent d'un paradigme end-to-end qui maximise les performances sur benchmarks propres mais peine à gérer la variabilité du monde réel. OBEYED-VLA n'est pas un produit commercialisé mais une contribution de recherche publiée sur arXiv, dont le code et les protocoles d'évaluation restent à préciser pour une adoption industrielle. Les prochaines étapes naturelles seraient de valider le cadre sur des plateformes plus mobiles et des scènes plus denses, ainsi que de tester sa compatibilité avec des VLA récents de plus grande capacité.

UEL'évaluation sur bras UR10e (Universal Robots, entreprise danoise) confère une pertinence indirecte pour les intégrateurs européens qui déploient des robots UR en cellule de production et cherchent à industrialiser des VLA robustes.

IA physiqueOpinion
1 source
Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome
492arXiv cs.RO 

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

Des chercheurs ont publié sur arXiv (identifiant 2310.02635, cinquième révision) un cadre appelé RLFP, Reinforcement Learning with Foundation Priors, conçu pour rendre l'apprentissage par renforcement viable sur des robots réels, sans ingénierie manuelle des récompenses. Au coeur du système se trouve l'algorithme FAC (Foundation-guided Actor-Critic), qui s'appuie simultanément sur trois types de modèles fondationnels : un modèle de politique, un modèle de valeur, et un modèle de récompense de succès. Sur cinq tâches de manipulation dextère réalisées avec de vrais robots, FAC atteint un taux de succès moyen de 86 % après seulement une heure d'apprentissage en temps réel. Sur le benchmark simulé Meta-world, il obtient 100 % de succès sur 7 des 8 tâches évaluées, en moins de 100 000 frames d'interaction, là où les méthodes de référence avec récompenses manuelles nécessitent 1 million de frames pour des performances comparables. L'impact industriel potentiel est significatif. L'un des verrous majeurs du déploiement de la robotique apprenante en environnement réel est double : la quantité astronomique de données requise par le RL classique, et le coût humain de la conception des fonctions de récompense, qui exige des ingénieurs spécialisés pour chaque nouvelle tâche. RLFP adresse les deux simultanément, en multipliant par environ dix l'efficacité en données et en automatisant la génération de signal de récompense via des modèles pré-entraînés. Si les résultats se confirment hors conditions de laboratoire, ce type de cadre pourrait réduire drastiquement le temps de mise en service d'un bras industriel sur une nouvelle opération, un enjeu clé pour les intégrateurs. Ce travail s'inscrit dans une tendance de fond qui voit les grands modèles de langage et de vision (VLM/LLM) utilisés comme priors pour guider l'exploration robotique, une approche concurrente des méthodes par imitation pure (apprentissage à partir de démonstrations humaines) ou par curriculum appris. Parmi les travaux proches figurent SayCan (Google), Code as Policies (DeepMind) et les récents VLA comme pi-0 (Physical Intelligence) ou OpenVLA. L'équipe indique que RLFP est agnostique au type de modèle fondationnel utilisé et robuste aux priors bruités, ce qui est une affirmation forte qu'il faudra valider sur des benchmarks extérieurs. Le code et les visualisations sont disponibles publiquement, ce qui facilite la reproduction indépendante.

IA physiqueOpinion
1 source
Simulé ou réel : robustesse des VLM au décalage de domaine en compréhension de scène robotique
493arXiv cs.RO 

Simulé ou réel : robustesse des VLM au décalage de domaine en compréhension de scène robotique

Une équipe de chercheurs a publié sur arXiv (identifiant 2506.19579, troisième révision, juin 2025) une évaluation systématique des modèles vision-langage (VLM) appliqués à la compréhension de scènes robotiques en vue unique. Le protocole expérimental cible des scènes de table captées par un bras manipulateur, avec un cadre de domain shift contrôlé : chaque outil réel est mis en parallèle avec un homologue imprimé en 3D, géométriquement identique mais différent en texture, couleur et matière. Plusieurs VLM déployables localement, parmi les plus récents du domaine, ont été soumis à un benchmark multicritères axé sur l'alignement sémantique et l'ancrage factuel des descriptions textuelles générées. Les résultats montrent que les VLM décrivent correctement les objets courants du monde réel, mais que leurs performances se dégradent sensiblement dès que ces objets sont remplacés par des pièces imprimées en 3D, malgré une forme structurelle identique. Le constat a une portée directe pour les intégrateurs robotiques et les équipes industrielles qui s'appuient sur des VLM pour la perception de scènes. En atelier, les gabarits, les pièces de fixation et les prototypes imprimés en 3D sont omniprésents : un système de perception qui confond la texture avec la fonction risque de produire des descriptions erronées, voire de déclencher de mauvaises instructions de préhension. Plus préoccupant encore, les chercheurs démontrent que les métriques d'évaluation standard présentent des vulnérabilités critiques : certaines ne détectent pas le domain shift, d'autres récompensent des descriptions linguistiquement fluides mais factuellement incorrectes. Ce double problème, défaillance du modèle et défaillance de la métrique simultanément, rend l'échec invisible pour les équipes qui s'appuient sur les indicateurs habituels. Cette publication s'inscrit dans un courant croissant de travaux questionnant la maturité des modèles fondationnels pour les applications physiques. Le sim-to-real gap est bien documenté dans la littérature robotique, mais ce papier pointe un défi distinct : le real-to-real domain shift entre catégories de matériaux. Alors que les pipelines robotiques modernes, comme ceux qui sous-tendent GR00T N2 (NVIDIA), Pi-0 (Physical Intelligence) ou les architectures VLA en général, intègrent de plus en plus des composants vision-langage, l'étude souligne que les protocoles d'évaluation doivent évoluer en parallèle. Les auteurs appellent à des architectures plus robustes et à des protocoles de validation adaptés aux contraintes physiques du déploiement réel, sans toutefois proposer de solution concrète dans ce travail préliminaire.

RecherchePaper
1 source
Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle
494arXiv cs.RO 

Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle

Une équipe de recherche présente Hi-WM (Human-in-the-World-Model), un cadre de post-entraînement pour politiques robotiques généralisées, publié sur arXiv (2604.21741). L'approche remplace l'exécution physique par un modèle du monde appris : la politique est d'abord déroulée en boucle fermée dans ce simulateur interne, et lorsqu'une trajectoire devient incorrecte ou risquée, un opérateur humain intervient directement dans le modèle pour fournir des actions correctives courtes. Hi-WM met en cache les états intermédiaires et supporte le rollback et le branchement, ce qui permet de réutiliser un seul état d'échec pour générer plusieurs continuations correctives distinctes. Les trajectoires ainsi produites sont réinjectées dans le jeu d'entraînement. Évalué sur trois tâches de manipulation réelle (objets rigides et déformables) avec deux architectures de politique différentes, le système affiche un gain de 37,9 points en taux de succès réel par rapport à la politique de base, et de 19,0 points par rapport à une ligne de base en boucle fermée dans le modèle du monde. La corrélation entre les évaluations dans le modèle et les performances réelles atteint r = 0,953. Ce résultat adresse un goulot d'étranglement structurel du déploiement robotique : le post-entraînement actuel exige du temps robot, des resets de scène, une supervision opérateur en continu, autant de contraintes qui rendent la correction itérative coûteuse à l'échelle. En décorrélant la phase corrective de l'exécution physique, Hi-WM densifie la supervision précisément là où la politique échoue, sans mobiliser le matériel. La forte corrélation sim-to-real (r > 0,95) est notable : elle suggère que le modèle du monde est suffisamment fidèle pour qualifier les politiques avant déploiement, ce qui contredit en partie l'hypothèse que l'évaluation dans le modèle reste trop éloignée des conditions réelles pour être exploitable. Les modèles du monde conditionnés sur les actions sont étudiés depuis plusieurs années principalement pour la génération de données synthétiques et l'évaluation de politiques, notamment dans les travaux autour des VLA (Vision-Language-Action models) et des politiques généralisées comme celles portées par Physical Intelligence (Pi-0) ou les recherches internes de Google DeepMind. Hi-WM repositionne ces modèles comme substrat correctif actif, une troisième fonction jusqu'ici peu explorée. Les suites naturelles incluent l'extension à des tâches de locomotion, la réduction du coût de construction du modèle du monde, et l'intégration dans des pipelines de fine-tuning continu pour robots déployés en environnement industriel variable.

RechercheOpinion
1 source
Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies
495arXiv cs.RO 

Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies

Des chercheurs présentent eSEC-LAM, un cadre neuro-symbolique conçu pour permettre aux robots opérant dans des environnements humains de comprendre les manipulations d'objets en temps réel. Publié sur arXiv (2604.21053), ce travail s'appuie sur les enriched Semantic Event Chains (eSECs), une représentation symbolique relationnelle qui décrit comment les relations spatiales entre objets évoluent au fil d'une séquence de manipulation. eSEC-LAM augmente ces chaînes classiques avec cinq couches d'information supplémentaires : des prédicats pondérés par un score de confiance, des rôles fonctionnels d'objets (outil, patient, récipient), des priors d'affordance, une abstraction en primitives de mouvement, et des indicateurs de saillance pour l'explicabilité. Le système est évalué sur trois benchmarks vidéo reconnus : EPIC-KITCHENS-100, EPIC-KITCHENS VISOR, et Assembly101, couvrant la reconnaissance d'actions, la prédiction de la prochaine primitive, la robustesse au bruit perceptuel et la cohérence des explications. L'intérêt industriel réside dans la prédiction de la prochaine étape de manipulation, un verrou critique pour les robots collaboratifs et les systèmes d'assistance à l'assemblage. Les résultats montrent qu'eSEC-LAM améliore substantiellement cette capacité par rapport aux baselines symboliques classiques et aux modèles vidéo bout-en-bout, tout en restant plus robuste lorsque la perception est dégradée, un scénario fréquent en usine ou à domicile. L'architecture hybride évite la boîte noire des approches purement neuronales : chaque décision est ancrée dans des preuves relationnelles explicites, ce qui facilite l'audit et la certification, deux exigences croissantes pour les intégrateurs industriels soumis aux normes de sécurité fonctionnelle (ISO 10218, EN 13849). Ce n'est pas un modèle VLA qui apprend tout end-to-end depuis des vidéos brutes : c'est délibérément un système de raisonnement léger, conçu pour tourner sans GPU dédié au moment de l'inférence symbolique. Les eSECs ont émergé dans les laboratoires de robotique cognitive au début des années 2010 comme alternative interprétable aux réseaux de neurones pour la compréhension de gestes, mais ils restaient jusqu'ici principalement descriptifs. eSEC-LAM est une tentative de les transformer en états internes actifs pour un raisonnement décisionnel. Dans le paysage concurrent, les approches VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent sur l'apprentissage massif généraliste ; eSEC-LAM propose une voie opposée, plus modulaire et explicable, potentiellement plus adaptée aux certifications réglementaires ou aux domaines à données rares. Les prochaines étapes logiques seraient une validation sur robot réel en boucle fermée et une intégration avec des couches de planification symbolique (PDDL, HTN), pour aller au-delà de la reconnaissance vers l'exécution autonome de tâches multi-étapes.

UEL'architecture explicable d'eSEC-LAM et sa légèreté à l'inférence facilitent la certification selon les normes européennes de sécurité fonctionnelle (ISO 10218, EN 13849), un avantage concret pour les intégrateurs industriels européens soumis à l'AI Act.

RecherchePaper
1 source
GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle
496arXiv cs.RO 

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

Des chercheurs ont soumis sur arXiv (arXiv:2604.19522) un framework baptisé GenerativeMPC, destiné aux robots manipulateurs mobiles bimanaux. Le système articule un modèle de vision-langage couplé à une génération augmentée par récupération (VLM-RAG) avec un contrôleur prédictif sur le corps entier (Whole-Body MPC). Concrètement, le module VLM-RAG analyse la scène en temps réel, visuellement et en langage naturel, puis génère des contraintes de contrôle numériques directement exploitables: limites de vitesse dynamiques et marges de sécurité injectées dans le MPC. Parallèlement, il module les gains de raideur et d'amortissement virtuels d'un contrôleur impédance-admittance unifié pour adapter la compliance du robot au contexte. Les expériences menées dans les simulateurs MuJoCo et IsaacSim, puis sur une plateforme physique bimanuale, font état d'une réduction de vitesse de 60% à proximité des humains. Le système s'appuie sur une base de données vectorielle alimentée par l'expérience passée, ce qui permet d'ancrer les paramètres de contrôle sans ré-entraînement du modèle. L'enjeu architectural est significatif pour les intégrateurs et les décideurs industriels. Les approches end-to-end de type VLA, comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), délèguent entièrement la traduction sémantique-physique au réseau neuronal, rendant les garanties de sécurité difficiles à certifier formellement. GenerativeMPC propose une architecture hybride explicite: le grand modèle raisonne sur le contexte (présence humaine, nature de la tâche) et produit des paramètres numériques interprétables qui alimentent un MPC classique au comportement auditable et déterministe. Pour les secteurs à forte contrainte réglementaire, c'est un argument de poids. La réduction de 60% reste cependant une métrique à contextualiser: le papier ne précise pas la vitesse de référence initiale ni les conditions exactes des essais physiques, un bémol courant dans les publications de ce type. La manipulation mobile bimanuale est l'un des problèmes ouverts les plus exigeants de la robotique collaborative, coincé entre contrôleurs classiques contextuellement aveugles et modèles end-to-end difficilement certifiables. L'utilisation du RAG pour paramétrer des contrôleurs physiques est une direction de recherche émergente, distincte de l'apprentissage par renforcement. Dans l'écosystème concurrent, Figure AI (Figure 03), Boston Dynamics (Atlas) et 1X Technologies explorent des architectures hybrides pour des tâches bimanales. En Europe, Enchanted Tools (France) et des laboratoires comme le LAAS-CNRS avancent sur des architectures de contrôle sûres pour la collaboration humain-robot. GenerativeMPC reste pour l'instant un résultat de recherche académique sans déploiement industriel annoncé, mais son approche explicitement certifiable ouvre des perspectives concrètes pour la logistique collaborative et la robotique médicale.

UELe LAAS-CNRS et Enchanted Tools (France) travaillent sur des architectures de contrôle sûres similaires ; l'approche hybride certifiable de GenerativeMPC pourrait renforcer le positionnement européen dans les débats réglementaires sur la certification des robots collaboratifs au titre de l'AI Act.

RechercheOpinion
1 source
Assemblage robotique à contacts multiples dans la construction par politique de diffusion
497arXiv cs.RO 

Assemblage robotique à contacts multiples dans la construction par politique de diffusion

Des chercheurs ont publié sur arXiv (arXiv:2511.17774, version 3) une étude portant sur l'application de l'apprentissage par diffusion à l'assemblage robotique dans le secteur de la construction. Le cas d'usage retenu est l'assemblage tenon-mortaise en bois, une jonction à contact riche soumise à des contraintes de friction et de géométrie strictes, avec des jeux inférieurs au millimètre. Les politiques de diffusion sensori-motrices ont été entraînées à partir de démonstrations téléopérées collectées sur un poste de travail robotique industriel équipé de capteurs force/couple. L'évaluation s'est déroulée en deux phases : une baseline en conditions nominales et un test de robustesse avec des perturbations positionnelles aléatoires allant jusqu'à 10 mm, soit un ordre de grandeur au-delà de la tolérance d'assemblage. La politique la plus performante atteint 100 % de taux de succès en conditions nominales et 75 % en moyenne sous perturbation. Ce résultat est notable car il adresse directement un verrou industriel structurel : l'accumulation de tolérances dans la construction empêche depuis longtemps l'automatisation fiable des tâches d'assemblage à contact. Le fait qu'une politique diffusion parvienne à compenser des désalignements de 10 mm pour des jeux sub-millimétriques suggère que ces architectures apprennent implicitement une stratégie de compliance active via le retour d'effort, sans modélisation géométrique explicite. Pour un intégrateur industriel ou un bureau de méthodes, cela signifie que le sim-to-real gap sur des tâches de précision en construction pourrait être en partie résorbé par l'apprentissage par imitation couplé à la force/couple, sans recalibration manuelle systématique. L'assemblage tenon-mortaise n'est pas un choix anodin : cette technique millénaire est revenue en force dans la construction bois massive (CLT, charpente lamellée-croisée), un segment en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann. Les politiques de diffusion appliquées à la robotique manipulatrice ont été popularisées par des travaux comme le Diffusion Policy de Chi et al. (2023, Columbia/Toyota) et sont désormais explorées par des labos comme Physical Intelligence (pi) avec Pi-0, ou par Boston Dynamics Research. Cette étude se distingue en ciblant explicitement la construction industrielle plutôt que la cuisine ou la logistique. La prochaine étape logique serait un déploiement en conditions chantier réelles, avec variation de matériaux et de géométries, ce que les auteurs n'ont pas encore testé.

UELe segment construction bois massive (CLT, charpente lamellée-croisée) est en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann ; une automatisation fiable des assemblages à contact ouvrirait une voie d'industrialisation directement applicable sur les chantiers européens.

RecherchePaper
1 source
InternScenes : un jeu de données de scènes intérieures simulables à grande échelle avec des agencements réalistes
498arXiv cs.RO 

InternScenes : un jeu de données de scènes intérieures simulables à grande échelle avec des agencements réalistes

Une équipe de chercheurs a publié InternScenes, un jeu de données massif de scènes d'intérieur simulables, conçu pour l'entraînement des agents en Embodied AI. Le dataset agrège environ 40 000 scènes issues de trois sources hétérogènes : scans du monde réel, scènes générées procéduralement et environnements créés par des designers. Il couvre 15 types de pièces et 288 classes d'objets, pour un total de 1,96 million d'objets 3D. La densité est un point distinctif : chaque région contient en moyenne 41,5 objets, incluant délibérément les petits éléments (tasses, télécommandes, livres) souvent absents des datasets existants. Le pipeline de traitement comprend la création de répliques real-to-sim pour les scans, l'ajout d'objets interactifs, et une résolution des collisions par simulation physique. Le tout sera publié en open source, avec modèles et benchmarks associés. L'intérêt pour les équipes travaillant sur la robotique incarnée et la navigation autonome est direct : les datasets existants souffrent soit d'un manque d'échelle, soit de layouts artificiellement épurés qui ne reflètent pas la réalité d'un environnement domestique ou industriel. Un robot entraîné dans des scènes stériles échoue face au désordre ordinaire d'un bureau ou d'une cuisine. InternScenes attaque ce sim-to-real gap par la densité et la diversité des layouts. Les deux benchmarks proposés, génération de layouts et navigation point-goal, montrent que les scènes complexes posent des défis inédits, et que la montée en échelle du dataset améliore les performances sur les deux tâches, un signal que le volume de données simulées reste un levier non saturé pour ces modèles. Dans le paysage de l'Embodied AI, les datasets de référence comme Habitat-Matterport 3D (HM3D, ~1 000 scènes) ou MultiScan restaient très limités en volume et en densité d'objets. Les laboratoires universitaires et industriels qui développent des VLA (Vision-Language-Action models) ou des agents de navigation domestique manquaient d'un terrain d'entraînement à grande échelle réaliste. InternScenes comble partiellement ce vide, sans toutefois aborder les environnements industriels ou extérieurs. La prochaine étape logique sera de voir si des équipes comme celles derrière GR00T N2 (NVIDIA) ou Pi-0 (Physical Intelligence) intègrent ce type de données synthétiques denses dans leurs pipelines de pré-entraînement, ce que les auteurs n'annoncent pas explicitement à ce stade.

RecherchePaper
1 source
ST-π : VLA spatio-temporel structuré pour la manipulation robotique
499arXiv cs.RO 

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Une équipe de chercheurs a publié fin avril 2026 ST-π (ST-pi), un modèle vision-langage-action (VLA) conçu pour améliorer la manipulation robotique fine en introduisant une planification spatiotemporelle explicitement structurée. Contrairement aux VLA classiques qui projettent directement les observations visuelles vers des actions step-by-step, ST-π décompose la tâche en deux niveaux distincts : un VLM spatiotemporel qui encode des observations 4D (vidéo + profondeur) et génère une séquence ordonnée de "prompts d'action" au niveau chunk, incluant sous-tâches, ancrage spatial et ancrage temporel ; puis un "action expert" conditionné sur ces prompts, qui utilise un mécanisme de double générateur pour modéliser conjointement les dépendances spatiales et la causalité temporelle, produisant in fine les paramètres d'action step-level. Les auteurs ont également constitué un dataset réel avec annotations spatiotemporelles structurées pour le fine-tuning. Le code source est disponible sur GitHub (chuanhaoma/ST-pi). L'intérêt de cette approche réside dans l'explicitation du raisonnement spatiotemporal, un point aveugle documenté des VLA actuels. Les modèles existants comme Pi-0 (Physical Intelligence), OpenVLA ou RT-2 encodent implicitement ce raisonnement dans les représentations visuelles et d'action, ce qui les rend fragiles face à des séquences comportementales multiples avec des frontières temporelles précises, typiquement les tâches d'assemblage, de tri ou de manipulation en plusieurs étapes que les intégrateurs industriels cherchent à automatiser. ST-π propose une architecture où le VLM planifie globalement et l'action expert raffine localement, ce qui est une séparation de responsabilités plus proche de la façon dont les ingénieurs roboticiens structurent eux-mêmes les programmes de manipulation. Ce travail s'inscrit dans une dynamique de recherche active sur le sim-to-real et la généralisation des VLA, portée notamment par Physical Intelligence, Google DeepMind (avec GR00T N2 côté NVIDIA) et des laboratoires académiques en Chine. ST-π est un preprint arXiv (2604.17880), pas encore évalué en peer review, et les métriques de performance annoncées restent à confronter à des benchmarks indépendants comme LIBERO ou RLBench. Aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade, il s'agit d'une contribution de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés et un test sur des robots réels en dehors du dataset des auteurs.

IA physiqueOpinion
1 source
Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique
500arXiv cs.RO 

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique

Une étude publiée sur arXiv (2604.17896) examine une lacune structurelle dans l'entraînement des modèles VLA (Vision-Language-Action) : ces architectures, qui transforment des entrées multimodales (vision, langage) directement en commandes motrices pour robots, sont typiquement entraînées par imitation à grande échelle, sans aucune supervision explicite des contraintes physiques dures. Les auteurs intègrent un objectif de faisabilité géométrique dans la phase d'entraînement d'une politique VLA basée sur la diffusion, et évaluent l'impact sur des tâches de manipulation avec obstacles, utilisées comme banc d'essai contrôlé de la faisabilité physique. Les résultats montrent une amélioration de la fiabilité physique, de la performance globale, et de l'efficacité d'apprentissage en régime de faibles données. L'enjeu est significatif pour quiconque déploie des VLA en environnement industriel non contrôlé. Jusqu'ici, l'hypothèse implicite du paradigme d'imitation était que suffisamment de démonstrations permettraient au modèle d'inférer les contraintes géométriques (évitement d'obstacles, faisabilité cinématique) de façon latente. Cette étude apporte une preuve empirique que cette inférence reste incomplète : ajouter un signal de faisabilité explicite, même simple, améliore à la fois la robustesse physique et les performances sur la tâche. L'effet est particulièrement marqué en faible volume de données, ce qui est précisément le régime courant en déploiement réel où les démonstrations sont coûteuses à collecter. Le contexte est celui d'une compétition intense autour des politiques de manipulation généralisable : OpenVLA, pi0 de Physical Intelligence, GR00T N2 de NVIDIA ou encore les travaux issus de RT-2/RT-X font tous le pari de l'imitation à grande échelle comme voie royale. Cette étude ne remet pas en cause ce paradigme, mais propose une correction ciblée, peu coûteuse à intégrer, sur le point précisément où les VLA actuels montrent leurs limites en production : la collision et la faisabilité cinématique. Aucun acteur commercial spécifique n'est impliqué ici, il s'agit d'une contribution académique, mais ses conclusions sont directement exploitables par les équipes d'intégration qui fine-tunent des VLA sur des postes de travail réels.

IA physiqueOpinion
1 source