IA physiquearXiv cs.RO 16 juin 2026

ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié fin juin 2026 ROVE (Reinforcement learning for humanoid VLA post-training with imperfect human interventions), un framework de renforcement dédié à l'amélioration des modèles Vision-Language-Action (VLA) sur robots humanoïdes à partir d'interventions humaines imparfaites. Le principe : un opérateur prend la main sur le robot lors des phases d'échec, générant des trajectoires correctives qui servent ensuite à affiner le modèle. Le problème bien identifié par les auteurs est que ces interventions humaines sont souvent hésitantes, sous-optimales, voire erronées, ce qui rend l'imitation naïve contre-productive. ROVE introduit deux mécanismes centraux : un pipeline human-in-the-loop capable de collecter simultanément des données de déploiement autonome et d'intervention, et une méthode d'estimation de valeur dite "optimiste" (Optimistic Value Estimation, OVE) qui filtre les comportements à haute valeur depuis des trajectoires de qualité mixte. Le framework intègre également des vidéos d'expériences humaines cross-embodiment pour enrichir la supervision sur les modes de défaillance et de récupération rares. Sur des tâches réelles de manipulation à contact-riche et fine-grained, ROVE surpasse les baselines par apprentissage par expérience et s'améliore de manière consistante à chaque itération rollout-intervention.

L'enjeu central ici est la scalabilité du déploiement humanoïde en conditions réelles. Les modèles VLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA -- ont démontré des capacités de généralisation remarquables, mais leur post-training sur hardware humanoïde reste un goulot d'étranglement : la cinématique whole-body et le contrôle de mains dextères compliquent radicalement la collecte de données téléopérées de qualité. ROVE invalide l'hypothèse selon laquelle l'intervention humaine doit être experte pour être utile : OVE permet d'extraire un signal d'avantage informatif même depuis des démonstrations imparfaites, ce qui signifie qu'on peut utiliser des opérateurs non-spécialistes pour améliorer continûment le modèle en production. C'est un changement de paradigme potentiellement significatif pour les intégrateurs : la qualité du déploiement n'est plus bornée par la disponibilité d'experts en téléopération.

Ce travail s'inscrit dans une vague de recherches sur le RLHF appliqué à la robotique physique, après les travaux pionniers sur l'imitation par intervention (HATO, HITL-TAMER) et les approches par feedback correctif. Les humanoïdes ciblés restent non précisés dans l'abstract (preprint arXiv, les détails hardware seront à vérifier dans le papier complet), mais les résultats sur tâches contact-rich suggèrent une applicabilité aux plateformes type Figure 03, Unitree H1/G1 ou Agility Digit. Le positionnement concurrentiel est clair : là où Physical Intelligence mise sur la qualité des données téléopérées en amont, ROVE parie sur la rectification en boucle fermée en aval. Les prochaines étapes probables incluent des tests à plus grande échelle et une évaluation sur plusieurs architectures VLA, mais en l'état de preprint, aucun déploiement commercial n'est annoncé.

Dans nos dossiers

Figure Unitree Agility Robotics — Digit NVIDIA GR00T

À lire aussi

1arXiv cs.RO

OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2605.15971) un cadre appelé OHP-RL (Online Human Preference as Guidance in Reinforcement Learning) pour améliorer l'apprentissage par renforcement appliqué à la manipulation robotique en conditions réelles. L'approche introduit une "preference gate" dépendante de l'état du robot, qui détermine dynamiquement quand et dans quelle mesure les interventions humaines doivent influencer l'apprentissage de la politique de contrôle. Contrairement aux méthodes existantes qui traitent ces interventions comme de simples signaux d'imitation, OHP-RL les interprète comme des expressions de préférences relatives entre comportements, intégrant des contraintes de sécurité et de tâche. Le système a été évalué sur trois tâches de manipulation en contact réel sur un robot Franka, où il obtient des taux de réussite élevés, une convergence plus rapide et un volume d'interventions humaines significativement réduit par rapport aux approches antérieures. L'enjeu est bien connu des équipes de robotique industrielle : le RL en environnement réel souffre d'une exploration inefficace et potentiellement dangereuse, ce qui freine son déploiement hors laboratoire. Les méthodes humain-dans-la-boucle existantes comme HIRL ou IWR exploitent les corrections humaines comme des démonstrations à imiter, une hypothèse qui surestime la précision et la cohérence des opérateurs réels. OHP-RL change de paradigme en traitant l'intervention non pas comme une action idéale à reproduire, mais comme un signal de préférence entre deux comportements, ce qui correspond mieux à la réalité opérationnelle. Un opérateur peu expert ou fatigué génère ainsi un signal utile, et le système tolère une supervision intermittente. Pour un intégrateur ou un responsable de production, cela signifie un coût de supervision réduit pendant l'apprentissage et un déploiement potentiellement plus rapide sur des tâches de manipulation en contact, vissage, assemblage, insertion, que les pipelines de programmation classiques peinent encore à automatiser. OHP-RL se positionne à l'intersection du RLHF (Reinforcement Learning from Human Feedback, popularisé par les LLMs) et du HiL-RL pour la robotique physique, un rapprochement conceptuel qu'explorent aussi Physical Intelligence avec pi0, Google DeepMind sur les plateformes Aloha et Franka, et plusieurs labos académiques travaillant sur les VLA (Vision-Language-Action models). L'utilisation du Franka Research 3, référence académique mondiale, facilite la comparaison directe avec ces concurrents. Le papier reste un preprint arXiv sans revue par les pairs confirmée, il convient donc de lire les résultats comme prometteurs plutôt que validés ; les prochaines étapes naturelles seraient une validation sur des bras industriels à plus fort payload et une intégration dans des pipelines de déploiement continu.

UEImpact indirect : les intégrateurs européens spécialisés en manipulation en contact (assemblage, vissage, insertion) pourraient suivre cette approche pour réduire le coût de supervision lors du déploiement de RL en production, sans lien direct avec une entreprise ou réglementation française ou européenne.

IA physiquePaper

1 source

2Robotics & Automation News

Humanoid (UK) lance un système d'apprentissage par renforcement pour améliorer la manipulation robotique

Humanoid, jeune pousse britannique de robotique, a dévoilé KinetIQ Ascend, une nouvelle couche d'apprentissage par renforcement destinée à ses robots humanoïdes industriels. L'objectif affiché est d'atteindre 99,9% de fiabilité de manipulation, à une vitesse égale ou supérieure à celle d'un humain. Le système s'appuie sur la plateforme KinetIQ annoncée précédemment par l'entreprise, fondée sur un apprentissage par essais-erreurs qui permet aux robots de s'améliorer directement sur des tâches industrielles réelles plutôt que via une simulation isolée. Selon Humanoid, KinetIQ Ascend a été testé sur plusieurs tâches de manipulation en conditions industrielles, mais le communiqué reste avare de précisions sur le nombre exact de tâches couvertes, les sites concernés ou un calendrier de déploiement. Ce chiffre de 99,9% de fiabilité, s'il se confirme hors du cadre contrôlé d'une démonstration, viserait directement le principal frein actuel à l'industrialisation des humanoïdes: la fiabilité de la manipulation fine, un problème bien plus tenace que la locomotion bipède, déjà largement maîtrisée par des robots comme Figure 03 ou Optimus Gen 3. En misant sur un apprentissage par renforcement ancré dans des tâches réelles plutôt que sur l'entraînement massif en simulation ou sur des modèles génériques vision-langage-action à la Pi-0 (Physical Intelligence), Helix (Figure AI) ou GR00T N2 (NVIDIA), Humanoid parie sur une spécialisation tâche par tâche, potentiellement plus rapide à mettre en production mais aussi moins généralisable. Pour les intégrateurs et décideurs industriels, la vraie inconnue reste de savoir si ce taux tient sur une diversité de tâches en usine, ou seulement sur un périmètre restreint choisi pour la vidéo de présentation. Humanoid s'est positionnée depuis sa création sur l'apprentissage par renforcement appliqué directement à l'industrie, plutôt que sur la seule prouesse mécanique de ses machines. La concurrence sur ce marché naissant s'est nettement densifiée: aux côtés des géants américains déjà cités, des acteurs européens comme le français Pollen Robotics, l'exosquelette devenu humanoïde de Wandercraft, ou l'automatisation d'entrepôt d'Exotec cherchent chacun à s'imposer avec une approche distincte de l'autonomie et du déploiement. Pour l'instant, Humanoid n'a communiqué ni calendrier de commercialisation ni client pilote nommé pour KinetIQ Ascend, ce qui place l'annonce du côté de la démonstration technologique plutôt que d'un déploiement industriel confirmé.

UERenforce indirectement la pression concurrentielle sur les acteurs européens de la robotique humanoïde (Pollen Robotics, Wandercraft, Exotec) sans impact direct ou vérifiable sur le marche français ou une réglementation UE.

IA physiqueOpinion

1 source

3arXiv cs.RO

VLK : apprentissage de la loco-manipulation humanoïde à partir d'interactions synthétiques dans des scènes reconstruites

Des chercheurs ont publié fin juin 2026, via arXiv (2606.30645), une méthode baptisée VLK (Vision-Language-Kinematics) permettant à un humanoïde d'apprendre à se déplacer et à manipuler des objets à partir d'observations égocentriques, sans aucune annotation humaine. Le pipeline génère automatiquement 48 000 trajectoires supervisées en reconstruisant des environnements intérieurs en 3D grâce à la technique de 3D Gaussian Splatting, puis en synthétisant des trajectoires de navigation et d'interaction avec des objets en exploitant les données de scène privilégiées, et enfin en rendant les images égocentriques correspondantes après coup. Une politique VLK est ensuite entraînée à prédire des trajectoires cinématiques corps entier à court horizon, converties en commandes physiques par un tracker corps entier. Les expériences physiques ont été réalisées sur le robot humanoïde Unitree G1, sur des tâches de navigation et de transport d'un objet unique dans des scènes reconstruites. L'intérêt technique de cette approche est de répondre à un verrou de données structurel : aucune source existante ne fournit à grande échelle le triplet complet (images égocentriques synchronisées, instructions en langage naturel, trajectoires cinématiques compatibles avec un humanoïde). VLK résout ce problème par génération synthétique totale, sans capture de mouvement, sans télé-opération, sans annotation. Cela positionne la méthode comme un levier de scalabilité réel pour les politiques VLA (Vision-Language-Action) appliquées aux humanoïdes, à condition que le rendu synthétique soit suffisamment fidèle pour passer le sim-to-real, ce que les auteurs revendiquent mais sur un périmètre de tâches encore limité (transport mono-objet, scènes intérieures). Le contexte situe ce travail dans la vague des politiques génératives pour humanoïdes, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (Nvidia) ou des approches diffusion-based de Figure. Le Unitree G1, plateforme abordable à environ 16 000 dollars, est devenu un banc de test standard dans la communauté académique, ce qui facilite la reproductibilité. La reconstruction par Gaussian Splatting, popularisée depuis 2023, permet ici de créer des environnements d'entraînement photoréalistes à partir de scans de quelques minutes. Les prochaines étapes naturelles seront d'étendre la méthode à la manipulation bi-manuelle, à des scènes plus dynamiques et à des horizons de prédiction plus longs, où la dérive cinématique reste un problème ouvert.

IA physiqueActu

1 source

4arXiv cs.RO

Refonte de la trajectoire par apprentissage par renforcement : REFINE-DP affine le contrôle locomoteur-manipulateur des humanoïdes

Traduction et synthèse de l'article demandée : Des chercheurs présentent REFINE-DP, un framework qui combine une diffusion policy (DP) pour la planification de mouvement avec un contrôleur d'apprentissage par renforcement pour la loco-manipulation humanoïde. L'approche s'attaque à un problème connu : quand une DP est entraînée hors ligne par démonstrations puis déployée sur un robot, elle reste découplée du contrôleur de loco-manipulation, ce qui dégrade le suivi de commande et provoque un décalage de distribution qui s'accumule au fil des tâches. Plutôt que de multiplier les démonstrations, une stratégie prohibitivement coûteuse pour un système humanoïde à haute dimension, REFINE-DP affine simultanément le planificateur DP via un gradient de politique de diffusion basé sur PPO et le contrôleur RL, afin que ce dernier suive la distribution de commandes évolutive du planificateur. Testé sur des tâches de franchissement de porte et de transport d'objets sur de longs horizons, le système atteint plus de 90% de taux de réussite en simulation, y compris sur des cas hors distribution absents des données d'entraînement, et s'exécute en conditions réelles sans recourir à des informations d'état privilégiées. Le résultat cible un point de friction bien identifié dans la robotique humanoïde actuelle : les diffusion policies apprises par imitation fonctionnent bien en démonstration mais se dégradent vite en déploiement réel, les erreurs de suivi de commande s'accumulant tâche après tâche. En couplant explicitement planification et contrôle plutôt qu'en les entraînant séparément, REFINE-DP s'attaque directement à l'écart démo/réalité que beaucoup de laboratoires contournent en multipliant les données de démonstration, une stratégie vite hors de prix à l'échelle d'un corps humanoïde complet. Pour les intégrateurs et équipes R&D qui évaluent des piles VLA ou DP pour la loco-manipulation, ce travail suggère qu'un affinage par renforcement ciblé peut améliorer la fiabilité sans multiplier le volume de téléopération nécessaire, un argument économique important tant que la collecte de démonstrations humanoïdes reste rare et coûteuse. REFINE-DP s'inscrit dans une lignée de travaux cherchant à combiner apprentissage par imitation et apprentissage par renforcement pour la robotique humanoïde, un terrain déjà exploré par des approches vision-language-action comme Pi-0 ou GR00T N2, mais avec un accent particulier sur le couplage planificateur-contrôleur plutôt que sur l'échelle des données. Le papier, publié sur arXiv (identifiant 2603.13707, version de remplacement), reste à ce stade une validation en simulation et sur un seul robot humanoïde de laboratoire, sans nom de plateforme commerciale ni annonce de déploiement industriel. La suite logique pour ce type de travaux consiste généralement à étendre les tâches testées, valider sur plusieurs plateformes matérielles, et voir si des acteurs commerciaux du secteur, américains ou européens comme Wandercraft ou Enchanted Tools, intègrent ces techniques de fine-tuning par RL dans leurs propres piles de contrôle.

IA physiqueActu

1 source