Piloter l'apprentissage par renforcement…

Vers des robots durables : affiner les modèles VLA par apprentissage par renforcement continu

42

1arXiv cs.RO

Vers des robots durables : affiner les modèles VLA par apprentissage par renforcement continu

Une équipe de chercheurs publie sur arXiv (2602.10503, février 2026) une méthode de fine-tuning appelée LifeLong-RFT, conçue pour permettre aux modèles VLA (Vision-Language-Action) de s'adapter en continu à de nouvelles tâches sans effacer les précédentes. Les VLA, tels que pi-0 de Physical Intelligence ou OpenVLA, sont pré-entraînés sur des datasets massifs et variés, ce qui leur confère une bonne généralisation. Leur adaptation à des domaines spécifiques repose cependant majoritairement sur le Supervised Fine-Tuning (SFT), une approche qui exige de larges volumes de données tâche-spécifiques et souffre du catastrophic forgetting : le modèle oublie ses acquis antérieurs en assimilant de nouvelles compétences. LifeLong-RFT substitue au SFT un mécanisme de Reinforcement Fine-Tuning (RFT) indépendant de tout feedback environnemental en ligne et de tout reward model pré-entraîné. La méthode repose sur trois signaux de récompense combinés : le QACR (Quantized Action Consistency Reward), qui vérifie la cohérence de la prédiction d'actions dans l'espace discret ; le CTAR (Continuous Trajectory Alignment Reward), qui aligne les chunks d'actions continues sur des trajectoires de référence ; et le FCR (Format Compliance Reward), qui garantit la validité structurelle des sorties. Sur le benchmark LIBERO dédié à l'apprentissage continu, LifeLong-RFT affiche un gain de 22 points de taux de succès moyen par rapport au SFT, en n'utilisant que 20 % des données d'entraînement pour s'adapter à de nouvelles tâches. Les expériences couvrent SimplerEnv, LIBERO et des scénarios réels. Ce résultat s'attaque directement au principal frein à l'apprentissage continu en déploiement : la nécessité de réentraîner un modèle depuis un checkpoint dès qu'on veut lui enseigner une nouvelle opération. Le fait que LifeLong-RFT ne nécessite ni feedback en ligne (interactions réelles avec l'environnement, coûteuses et parfois dangereuses en production) ni reward model séparé réduit considérablement la barrière à l'adaptation terrain. Pour un intégrateur ou un COO industriel, cela signifie qu'un bras manipulateur ou un robot mobile basé VLA pourrait théoriquement apprendre de nouvelles tâches avec un cinquième des données actuellement nécessaires, sans régresser sur ses acquis. La validation partielle sur des tâches réelles renforce la crédibilité des résultats, même si le papier reste un preprint arXiv et que les conditions expérimentales real-world ne sont pas détaillées dans le résumé public. La course aux VLA comme politique unifiée pour la robotique généraliste s'est intensifiée depuis 2024 avec pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) et Helix (Figure AI), tous cherchant à résoudre l'adaptation domaine-spécifique avec un minimum de données supplémentaires. LifeLong-RFT s'inspire directement des techniques GRPO et RLHF qui ont transformé le post-training des LLMs, les transposant ici au niveau des chunks d'actions robotiques. Il se positionne comme un paradigme post-training alternatif au SFT, sans contrainte d'infrastructure lourde. Aucun déploiement ni partenariat industriel n'est annoncé : il s'agit d'une contribution académique avec page projet dédiée. Les suites naturelles incluent l'extension à des architectures VLA plus récentes et des benchmarks multi-tâches à plus longue durée, critères encore absents de cette évaluation.

IA physiqueOpinion

1 source

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

42

2arXiv cs.RO

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

Une équipe de chercheurs publie sur arXiv (réf. 2604.03540, version 3) un cadre en deux étapes baptisé Drift-Based Policy Optimization (DBPO), conçu pour ramener les politiques génératives de manipulation robotique à une seule passe de réseau au moment de l'inférence. La première brique, la Drift-Based Policy (DBP), exploite des objectifs de "fixed-point drifting" pour internaliser le raffinement itératif directement dans les paramètres du modèle pendant l'entraînement, supprimant ainsi le besoin de débruitage multi-étapes à l'exécution. La seconde brique, DBPO, greffe sur ce backbone une interface stochastique compatible avec le renforcement en ligne, autorisant des mises à jour on-policy stables sans sacrifier la propriété de déploiement en une étape. Sur un robot bi-bras réel, le système atteint 105,2 Hz en boucle fermée, soit une fréquence comparable aux contrôleurs industriels classiques. Sur les benchmarks de manipulation, DBP égale ou dépasse les politiques de diffusion multi-étapes tout en réduisant le coût d'inférence jusqu'à un facteur 100 en nombre d'évaluations réseau (NFEs). Ce résultat touche directement l'un des verrous les plus concrets du déploiement de politiques diffusion en robotique : le coût computationnel à l'inférence. Les politiques de diffusion actuelles (Diffusion Policy, Chi et al., 2023) nécessitent typiquement 10 à 100 NFEs par action, ce qui les rend incompatibles avec du contrôle haute fréquence sans accélérateur dédié. Transférer ce coût vers l'entraînement plutôt que l'inférence change le profil économique du déploiement : un robot en production n'a plus besoin de GPU haut de gamme pour tourner en temps réel. Par ailleurs, coupler une politique one-step avec du renforcement en ligne ouvre la voie à une adaptation continue post-déploiement, hypothèse clé pour les environnements industriels non-structurés. Les politiques de diffusion pour la manipulation ont émergé comme référence de facto depuis 2022-2023, portées par des travaux comme Diffusion Policy ou les architectures VLA de Physical Intelligence (pi0) et d'autres. La course à réduire leur latence a produit plusieurs approches concurrentes : distillation de consistance (Consistency Policy), flow matching en une étape (comme dans certaines variantes de pi0-fast), ou encore les politiques à action chunking. DBPO s'inscrit dans cette compétition avec une approche qui revendique de préserver la modélisation multimodale tout en atteignant la vitesse des méthodes one-shot. Les prochaines étapes naturelles seraient un test à plus grande échelle de tâches et de morphologies robotiques, ainsi qu'une validation sur des plateformes humanoïdes telles que celles de Figure AI ou 1X Technologies, pour lesquelles la fréquence de contrôle est un critère de sécurité, pas seulement de performance.

UELes équipes de recherche et industriels européens en robotique manipulatrice pourraient réduire leurs besoins en accélérateurs GPU à l'inférence en adoptant cette approche, mais aucun acteur français ou européen n'est directement impliqué.

IA physiquePaper

1 source

Humanoid (UK) lance un système d'apprentissage par renforcement pour améliorer la manipulation robotique

37

3Robotics & Automation News

Humanoid (UK) lance un système d'apprentissage par renforcement pour améliorer la manipulation robotique

Humanoid, jeune pousse britannique de robotique, a dévoilé KinetIQ Ascend, une nouvelle couche d'apprentissage par renforcement destinée à ses robots humanoïdes industriels. L'objectif affiché est d'atteindre 99,9% de fiabilité de manipulation, à une vitesse égale ou supérieure à celle d'un humain. Le système s'appuie sur la plateforme KinetIQ annoncée précédemment par l'entreprise, fondée sur un apprentissage par essais-erreurs qui permet aux robots de s'améliorer directement sur des tâches industrielles réelles plutôt que via une simulation isolée. Selon Humanoid, KinetIQ Ascend a été testé sur plusieurs tâches de manipulation en conditions industrielles, mais le communiqué reste avare de précisions sur le nombre exact de tâches couvertes, les sites concernés ou un calendrier de déploiement. Ce chiffre de 99,9% de fiabilité, s'il se confirme hors du cadre contrôlé d'une démonstration, viserait directement le principal frein actuel à l'industrialisation des humanoïdes: la fiabilité de la manipulation fine, un problème bien plus tenace que la locomotion bipède, déjà largement maîtrisée par des robots comme Figure 03 ou Optimus Gen 3. En misant sur un apprentissage par renforcement ancré dans des tâches réelles plutôt que sur l'entraînement massif en simulation ou sur des modèles génériques vision-langage-action à la Pi-0 (Physical Intelligence), Helix (Figure AI) ou GR00T N2 (NVIDIA), Humanoid parie sur une spécialisation tâche par tâche, potentiellement plus rapide à mettre en production mais aussi moins généralisable. Pour les intégrateurs et décideurs industriels, la vraie inconnue reste de savoir si ce taux tient sur une diversité de tâches en usine, ou seulement sur un périmètre restreint choisi pour la vidéo de présentation. Humanoid s'est positionnée depuis sa création sur l'apprentissage par renforcement appliqué directement à l'industrie, plutôt que sur la seule prouesse mécanique de ses machines. La concurrence sur ce marché naissant s'est nettement densifiée: aux côtés des géants américains déjà cités, des acteurs européens comme le français Pollen Robotics, l'exosquelette devenu humanoïde de Wandercraft, ou l'automatisation d'entrepôt d'Exotec cherchent chacun à s'imposer avec une approche distincte de l'autonomie et du déploiement. Pour l'instant, Humanoid n'a communiqué ni calendrier de commercialisation ni client pilote nommé pour KinetIQ Ascend, ce qui place l'annonce du côté de la démonstration technologique plutôt que d'un déploiement industriel confirmé.

UERenforce indirectement la pression concurrentielle sur les acteurs européens de la robotique humanoïde (Pollen Robotics, Wandercraft, Exotec) sans impact direct ou vérifiable sur le marche français ou une réglementation UE.

IA physiqueOpinion

1 source

Robot Control : un pré-entraînement vidéo-action natif pour un contrôle robotique généralisable

36

4arXiv cs.RO

Robot Control : un pré-entraînement vidéo-action natif pour un contrôle robotique généralisable

Une équipe de recherche présente, dans un preprint publié sur arXiv (arXiv:2607.08639v1), LingBot-VA 2.0, un modèle fondation vidéo-action conçu spécifiquement pour le contrôle robotique, en succession directe de LingBot-VA. Quatre changements architecturaux structurent cette évolution. D'abord, l'équipe abandonne les VAE classiques axés sur la reconstruction d'image au profit d'un tokenizer visuel-action sémantique, qui aligne les représentations visuelles à la fois sur le sens et sur l'action, ce qui améliore le suivi d'instructions et la précision des gestes lors de l'apprentissage de politiques. Ensuite, le modèle adopte un pré-entraînement causal from scratch plutôt qu'une architecture bidirectionnelle adaptée après coup, pour éviter l'oubli catastrophique observé lors de ce type d'adaptation. Troisième point, un backbone MoE (mixture of experts) épars permet d'augmenter la capacité du modèle sans alourdir l'inférence, condition nécessaire pour du contrôle à haute fréquence. Enfin, un schéma d'inférence asynchrone prédit les futurs états latents en parallèle de l'exécution des actions, en recalant chaque rollout sur la dernière observation via une dynamique prédictive apprise, pour du contrôle en boucle fermée temps réel. Le papier ne précise ni le nombre de degrés de liberté, ni le payload, ni les sites ou volumes de déploiement, ni de calendrier commercial. Cette publication s'inscrit dans la course aux modèles VLA (vision-language-action) pour la robotique généraliste, où l'enjeu central est de dépasser le simple réemploi de générateurs vidéo pensés pour le contenu numérique, souvent inadaptés à la physique du monde réel faute d'ancrage dans l'action. En traitant frontalement l'oubli catastrophique et le coût d'inférence, LingBot-VA 2.0 répond à deux limites fréquemment citées des modèles fondation robotiques actuels: la difficulté à tenir un contrôle réactif et la fragilité des architectures reconverties depuis la génération vidéo pure. LingBot-VA 2.0 vient after LingBot-VA, dans un paysage où rivalisent des modèles comme GR00T N2 (Nvidia), Helix (Figure) ou Pi-0 (Physical Intelligence). Le papier revendique une validation par déploiement réel et une généralisation few-shot sur des tâches de manipulation complexes, mais sans benchmark chiffré ni comparaison directe publiée à ce stade, la portée exacte de ces résultats reste à confirmer par des évaluations indépendantes.

IA physiqueActu

1 source

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable

À lire aussi

Vers des robots durables : affiner les modèles VLA par apprentissage par renforcement continu

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

Humanoid (UK) lance un système d'apprentissage par renforcement pour améliorer la manipulation robotique

Robot Control : un pré-entraînement vidéo-action natif pour un contrôle robotique généralisable