Comparaison des espaces d'action en apprentissage…

Combinaison d'échantillonnage contraint et d'apprentissage par renforcement pour la manipulation robotique

44

1arXiv cs.RO

Combinaison d'échantillonnage contraint et d'apprentissage par renforcement pour la manipulation robotique

Manipulation robotique non préhensile : des chercheurs de la TU Berlin combinent échantillonnage contraint et apprentissage par renforcement Une équipe de la TU Berlin, associée au laboratoire de Marc Toussaint, publie une nouvelle version de ses travaux sur l'entraînement de politiques de manipulation robotique en environnement riche en contacts (arXiv:2602.08557v2). Le problème visé est la manipulation dite non préhensile, c'est à dire pousser, faire glisser ou réorienter un objet sans le saisir, une tâche où l'apprentissage par renforcement (RL) peine souvent à explorer suffisamment l'espace des stratégies possibles. La méthode proposée combine deux idées existantes mais rarement associées : d'une part des stratégies de réinitialisation qui contrôlent la distribution des états de départ de chaque épisode d'entraînement, et d'autre part un échantillonnage basé modèle sur des variétés contraintes, une technique reconnue pour son efficacité à générer des états physiquement valides. Le nouvel échantillonneur tient explicitement compte de la structure des contacts pour couvrir un large éventail de modes de contact, le tout combiné à une interpolation projetée et à un apprentissage curriculaire progressif. Sur le plan des résultats, l'équipe affirme surpasser à la fois le RL classique sans échantillonnage contraint et les méthodes alternatives de réinitialisation, en entraînant des politiques universelles, non préhensiles et dynamiques. L'intérêt pour le secteur tient moins à un produit qu'à une brique méthodologique : la manipulation en contact riche, aujourd'hui l'un des points durs de la robotique appliquée (tri industriel, réorientation d'objets sur convoyeur, préhension d'objets déformables), reste largement dominée par des politiques apprises en simulation qui échouent à généraliser sur des configurations de contact non vues à l'entraînement. Une méthode qui améliore la couverture des modes de contact pendant l'apprentissage adresse directement ce problème de généralisation, sans dépendre d'un matériel ou d'un actionneur particulier. Il s'agit ici d'une contribution académique, pas d'une annonce produit ni d'un déploiement industriel, du matériel supplémentaire étant disponible sur le site du laboratoire. Le travail s'inscrit dans la continuité des recherches de Toussaint sur la planification géométrico logique et les approches hybrides modèle/apprentissage, un courant de recherche européen qui contraste avec les approches purement data-driven (type VLA) privilégiées par les laboratoires américains sur les plateformes humanoïdes commerciales.

UEContribution de la TU Berlin (laboratoire de Marc Toussaint) qui renforce l'expertise européenne en manipulation robotique hybride modèle/apprentissage, une approche qui se distingue des méthodes VLA data-driven privilégiées par les laboratoires américains.

RecherchePaper

1 source

Apprentissage par renforcement avec supervision humaine calibré sur les préférences pour la manipulation robotique

41

2arXiv cs.RO

Apprentissage par renforcement avec supervision humaine calibré sur les préférences pour la manipulation robotique

Une équipe de chercheurs publie dans un préprint arXiv daté du 3 juin 2026 PACT (Preference-calibrated Actor-Critic Training), un cadre d'apprentissage par renforcement avec supervision humaine (HIL-RL) pour la manipulation robotique. Le problème ciblé est connu : quand un opérateur reprend la main pour corriger le robot, les trajectoires collectées contiennent des segments suboptimaux que les méthodes actuelles propagent indistinctement dans le calcul des récompenses, surestimant les Q-valeurs et biaisant la politique vers des comportements sous-performants. PACT introduit un modèle de progression entraîné sur des démonstrations humaines pour identifier ces segments défaillants, puis construit des paires de préférence entre l'action correctrice humaine et l'action rééchantillonnée de la politique au même état d'intervention. Cette comparaison génère un avantage contrefactuel qui pénalise les cibles de Bellman sur les segments suboptimaux, complété par un alignement direct de la politique sur les actions correctives dans l'espace des moyennes bornées. Sur cinq tâches de manipulation réelle-robot, PACT affiche une amélioration moyenne du taux de succès de 24,5 % et une convergence 1,3 fois plus rapide que les méthodes HIL-RL de référence. Le code est disponible en open source sur dépôt GitHub anonymisé. Ces résultats s'attaquent à un goulot d'étranglement pratique du HIL-RL : la supervision humaine améliore l'efficacité en échantillons, mais introduit du bruit quand les corrections arrivent après plusieurs actions déjà incorrectes. En extrayant les signaux de préférence implicitement des interventions, sans annotation post-hoc coûteuse, PACT permet à un opérateur non-expert d'intervenir naturellement pendant l'entraînement sans dégrader la qualité des données. La convergence accélérée réduit directement le temps d'adaptation sur de nouvelles tâches, un facteur critique pour le déploiement en environnements industriels variables. Le HIL-RL s'appuie sur des travaux fondateurs comme DAgger (Ross et al., 2011) et IWR (Mandlekar et al., 2020), complétés par des variantes comme HG-DAgger, qui pondèrent les transitions différemment sans toutefois distinguer explicitement les segments suboptimaux. PACT se positionne comme une extension ciblée de cette famille. La manipulation robotique est par ailleurs traversée par les approches VLA (Vision-Language-Action), comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur la généralisation zero-shot, une stratégie complémentaire plutôt qu'opposée au fine-tuning supervisé par intervention humaine. Le préprint, non encore peer-reviewed, ne mentionne ni partenaires industriels ni calendrier de déploiement ; la distance entre banc de test robotique de laboratoire et production industrielle reste entière.

UEImpact indirect : ce cadre HIL-RL open-source pourrait accélérer les travaux des équipes européennes de robotique industrielle cherchant à réduire le coût d'adaptation de robots à de nouvelles tâches en production.

RecherchePaper

1 source

Apprentissage d'une exécution robuste en manipulation robotique par apprentissage par renforcement à base d'agents

39

3arXiv cs.RO

Apprentissage d'une exécution robuste en manipulation robotique par apprentissage par renforcement à base d'agents

Traduction en cours. Ce papier de recherche s'attaque à un problème central de la manipulation robotique : la fragilité d'exécution face à l'incertitude et aux tâches longues, où une petite déviation peut faire échouer toute une séquence d'actions. Les modèles vision-langage-action (VLA) actuels, malgré leurs bonnes capacités de généralisation, manquent de mécanismes explicites pour détecter qu'une exécution dérape et pour s'en remettre. Les auteurs proposent deux contributions complémentaires : des métriques permettant d'évaluer en temps réel la qualité de l'exécution, et un cadre d'apprentissage par renforcement dit "agentique", où une politique de haut niveau observe l'historique récent d'exécution et choisit parmi un petit ensemble de modes d'exécution pour réguler le comportement du robot. Plutôt que de réapprendre directement les actions bas niveau, cette politique déclenche des mécanismes de récupération qui ramènent le robot vers des états nominaux déjà visités, permettant à la tâche de reprendre son cours. Testée sur le benchmark LIBERO, la méthode améliore le taux de réussite jusqu'à 13,7% en conditions standards, et jusqu'à 39,2% en conditions perturbées. L'enjeu dépasse la simple performance chiffrée : c'est une réponse directe à l'écart entre démonstration et réalité qui pénalise l'industrie humanoïde et les intégrateurs. Un modèle VLA capable d'enchaîner des tâches en laboratoire s'effondre souvent dès qu'un objet glisse, qu'un capteur bruite, ou qu'une perturbation externe survient sur une ligne réelle. En ajoutant une couche de supervision qui détecte la dérive et enclenche une correction plutôt que de laisser le modèle bas niveau tenter d'improviser, cette approche s'attaque directement à la robustesse, le principal frein à la mise en production de bras manipulateurs et d'humanoïdes en environnement industriel non contrôlé. Le gain nettement plus marqué en conditions perturbées (39,2%) qu'en conditions standards (13,7%) suggère que le bénéfice réel se manifeste précisément là où les décideurs B2B en ont besoin: en présence d'aléas, pas en démo scriptée. Ce travail s'inscrit dans la lignée des recherches récentes sur les modèles VLA généralistes (dans la veine de Pi-0 ou GR00T N2), qui ont démontré une capacité de généralisation impressionnante mais restent critiqués pour leur manque de garanties d'exécution en conditions réelles. En séparant la décision de haut niveau (quel mode d'exécution adopter) de l'apprentissage bas niveau des actions, les auteurs évitent de devoir réentraîner l'ensemble du modèle VLA pour gagner en robustesse, une approche modulaire qui pourrait s'intégrer à des piles existantes plutôt que les remplacer. Reste à voir si cette architecture agentique se transpose au-delà du benchmark simulé LIBERO vers des déploiements physiques réels, où la latence de décision et la diversité des modes de défaillance sont bien plus complexes qu'en simulation.

RecherchePaper

1 source

D'observateur passif à critique actif : l'apprentissage par renforcement révèle un raisonnement de processus pour la manipulation robotique

45

4arXiv cs.RO

D'observateur passif à critique actif : l'apprentissage par renforcement révèle un raisonnement de processus pour la manipulation robotique

Une équipe de recherche propose PRIMO R1 (Process Reasoning Induced Monitoring), un framework de 7 milliards de paramètres qui transforme les modèles vidéo multimodaux (MLLM) en "critiques" actifs capables d'évaluer la progression d'une tâche de manipulation robotique, plutôt qu'en simples "observateurs" qui se contentent de reconnaître les actions en cours. La méthode s'appuie sur de l'apprentissage par renforcement basé sur le résultat final pour inciter le modèle à générer un raisonnement explicite en chaîne de pensée (chain-of-thought) lors de l'estimation de la progression. L'architecture ancre la séquence vidéo entre une image de l'état initial et une image de l'état courant, une construction temporelle structurée soutenue par un nouveau jeu de données et benchmark, le PRIMO Dataset. Les résultats annoncés sont significatifs : une réduction de 50% de l'erreur absolue moyenne par rapport aux meilleures références spécialisées, des gains face à des MLLM généralistes de 72 milliards de paramètres malgré une taille dix fois inférieure, et 67,0% de précision sur le benchmark RoboFail, dépassant le modèle o1 d'OpenAI de 6 points. Cette avancée cible un vrai point de friction du secteur : pour les tâches de manipulation longues, les robots doivent non seulement reconnaître ce qu'ils font, mais estimer où ils en sont par rapport à l'objectif final, une capacité clé pour la détection autonome d'échecs sans supervision humaine. Qu'un modèle de 7B batte des systèmes bien plus lourds, y compris o1, sur ce type de raisonnement suggère que le renforcement orienté résultat peut compenser la taille, un argument important pour un déploiement embarqué sur des robots humanoïdes où latence et coût de calcul comptent. Le travail s'inscrit dans la vague de modèles de raisonnement entraînés par RL appliquée spécifiquement à la robotique, avec des tests validés aussi bien en environnements simulés qu'en scénarios réels sur humanoïdes. Il s'agit à ce stade d'une publication de recherche (preprint arXiv, version révisée) accompagnée d'un dataset et d'un benchmark ouverts, pas d'un produit déployé, mais elle pose une référence explicite face aux modèles généralistes et aux systèmes propriétaires comme o1 sur la détection d'échec robotique.

RecherchePaper

1 source

Comparaison des espaces d'action en apprentissage par renforcement pour la manipulation robotique basée sur la vision

À lire aussi

Combinaison d'échantillonnage contraint et d'apprentissage par renforcement pour la manipulation robotique

Apprentissage par renforcement avec supervision humaine calibré sur les préférences pour la manipulation robotique

Apprentissage d'une exécution robuste en manipulation robotique par apprentissage par renforcement à base d'agents

D'observateur passif à critique actif : l'apprentissage par renforcement révèle un raisonnement de processus pour la manipulation robotique