Aller au contenu principal
Objectifs définis par ensembles, pas par états : des buts de robots interrogeables via le réétiquetage rétrospectif par ensemble d'objectifs
RecherchearXiv cs.RO5h

Objectifs définis par ensembles, pas par états : des buts de robots interrogeables via le réétiquetage rétrospectif par ensemble d'objectifs

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (référence 2606.09476) une méthode baptisée Goal-Set Hindsight Relabeling (GS-HER), qui reformule le problème du ré-étiquetage a posteriori en apprentissage robot hors-ligne. Là où la technique standard HER (Hindsight Experience Replay) convertit chaque état final atteint en objectif singleton exact, GS-HER opère au niveau des prédicats : une requête binaire spécifie quelles variables de l'état définissent le succès, transformant le critère d'objectif en paramètre configurable à l'inférence plutôt qu'en constante d'entraînement. Le système a été évalué sur les benchmarks OGBench avec cinq algorithmes d'apprentissage offline orientés objectifs (GCRL), et améliore les performances sur l'ensemble des configurations testées lorsque les objectifs en pleine dimension sont pénalisés par des variables parasites -- les "nuisance dimensions" -- qui n'ont aucun impact sur le succès réel de la tâche.

L'intérêt de GS-HER pour un intégrateur ou un déploiement industriel tient dans sa modularité : un unique checkpoint entraîné peut répondre à plusieurs définitions d'objectifs sans nécessiter de ré-entraînement. Concrètement, une même politique apprise peut être interrogée différemment selon le contexte opérationnel, en modifiant uniquement la requête à l'inférence. La méthode adresse aussi une limite bien connue du GCRL offline : dans les tâches réelles, la définition exacte d'un état-but final est souvent impossible à spécifier sans introduire de contraintes artificielles. GS-HER relaxe cette sur-contrainte en ne demandant au robot de vérifier que les dimensions effectivement pertinentes au succès, ce qui rapproche la formulation théorique de la réalité opérationnelle.

HER a été introduit par Andrychowicz et al. (OpenAI) en 2017 et est devenu l'une des pierres angulaires du GCRL, notamment pour la manipulation robotique. Des variantes ont depuis émergé pour gérer les trajectoires sous-optimales et les objectifs bruités, mais peu s'attaquaient à la sur-contrainte dimensionnelle. GS-HER se positionne comme une couche de généralisation compatible avec les algorithmes GCRL existants, ce qui limite la friction d'adoption. La limite principale à ce stade : les résultats sont exclusivement issus de simulations (OGBench), sans validation sur hardware réel -- l'écart sim-to-real reste donc à démontrer. Aucun acteur européen n'est impliqué dans la publication selon les informations disponibles.

À lire aussi

Au-delà des objets prédéfinis : modèle d'interaction pensée-apprentissage pour une robotique autonome et à jour
1arXiv cs.RO 

Au-delà des objets prédéfinis : modèle d'interaction pensée-apprentissage pour une robotique autonome et à jour

Une équipe de chercheurs publie sur arXiv (ref. 2605.23987, mai 2026) un modèle d'interaction pensée-apprentissage (thinking-learning interaction model) pour robots autonomes évoluant en environnements ouverts et changeants. Le problème visé est structurel : la quasi-totalité des méthodes d'apprentissage robot actuelles fixent à l'avance leurs objets d'apprentissage, qu'il s'agisse des features d'entrée, des catégories de sortie, de l'architecture réseau ou des séquences d'action, ce qui bloque toute adaptation lorsque l'environnement dérive en exploitation longue durée. Le modèle proposé repose sur un mécanisme bidirectionnel : la pensée guide l'apprentissage en identifiant les changements potentiels, en sélectionnant les preuves pertinentes et en planifiant des actions de vérification, tandis que l'apprentissage améliore en retour les processus de raisonnement. Les résultats expérimentaux font état d'une progression de la précision de reconnaissance de 0,419 à 0,845 en adaptation de features, d'une réduction de la longueur moyenne des séquences d'action de 13,0 à 4,0 étapes, et d'une hausse du taux de sélection de preuves utiles de 0,272 à 0,965. L'enjeu est concret pour quiconque déploie des robots en environnement non structuré sur la durée. Les approches VLA (vision-language-action) et d'apprentissage par renforcement supposent généralement un espace d'états relativement stable : toute dérive contextuelle, nouvelle référence produit sur une ligne, réaménagement d'entrepôt, apparition d'obstacle inédit, impose un recalibrage humain ou un nouveau cycle d'entraînement coûteux. Un système capable de redéfinir ses propres catégories de sortie et de reconstruire ses routines d'action sans intervention extérieure réduirait considérablement le coût total de maintenance dans des contextes à forte variabilité, comme la logistique ou le manufacturing discret. Ces résultats restent toutefois issus d'expériences de laboratoire sur des scénarios contrôlés, et la généralisation à des déploiements industriels réels n'est pas encore démontrée. Ce travail s'inscrit dans un courant actif autour de l'apprentissage continu (continual learning), en réponse aux limites du fine-tuning ponctuel. Les approches concurrentes incluent le meta-apprentissage (MAML), les architectures à mémoire épisodique, et les agents LLM embarqués pour la planification robotique comme SayCan (Google DeepMind) ou Code-as-Policies. La spécificité de la contribution est de viser l'autonomie dans la définition des objets d'apprentissage eux-mêmes, pas seulement dans l'exécution de tâches prédéfinies. Le papier est un preprint sans annonce de déploiement ni partenariat industriel ; les prochaines étapes naturelles seraient une validation sur des benchmarks standardisés comme RLBench ou Open X-Embodiment, et des tests sur des plateformes physiques diversifiées.

RecherchePaper
1 source
Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs
2arXiv cs.RO 

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

Le comportement par clonage (behavior cloning, BC) est l'une des méthodes les plus utilisées pour entraîner des politiques robotiques à partir de démonstrations humaines : chaque geste fourni par l'opérateur y est traité comme une étiquette exacte à reproduire. Des chercheurs ont publié en février 2025 (arXiv:2502.07645, version 3 disponible) une alternative baptisée CLIC, Contrastive policy Learning from Interactive Corrections, qui remplace ces étiquettes ponctuelles par des cibles dites à ensemble de valeurs (set-valued action targets). Au lieu d'optimiser la politique vers un seul geste cible, CLIC utilise les corrections humaines en temps réel pour construire et affiner des ensembles d'actions désirées, puis entraîne le modèle à placer de la masse de probabilité sur cet ensemble plutôt que sur un point unique. Cette reformulation adresse un problème connu mais sous-estimé du BC classique : lorsque les démonstrations humaines sont imparfaites, gestes partiels, corrections relatives ("un peu plus à gauche"), ambiguïtés multimodales, forcer la politique à reproduire chaque label à la lettre peut la faire dériver loin du comportement voulu, notamment avec des modèles expressifs tels que les energy-based models (EBMs). Les expériences en simulation et sur robot réel montrent que CLIC reste compétitif avec l'état de l'art quand les données sont propres, et se révèle substantiellement plus robuste sous données bruitées, corrections relatives ou feedback partiel. Pour les équipes de déploiement robotique, c'est une voie concrète pour réduire les coûts de collecte de démonstrations de haute qualité : CLIC tolère des opérateurs moins expérimentés ou des interfaces de téléopération imprécises sans dégradation majeure des performances. Le BC reste une brique fondamentale de l'apprentissage par imitation, popularisé par les travaux de Pieter Abbeel au début des années 2000 et au coeur aujourd'hui des politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les politiques diffusion-based d'OpenPI. CLIC s'inscrit dans un courant "human-in-the-loop" qui inclut DAgger, HG-DAgger et TAMER, mais se distingue par la formalisation ensembliste des corrections. Le code et les environnements de test sont disponibles publiquement sur clic-webpage.github.io. Les auteurs n'annoncent pas de partenariat industriel ni de déploiement terrain, ce qui positionne ce travail comme une contribution aux fondations méthodologiques de l'imitation learning, avec des implications directes pour les pipelines de téléopération et de fine-tuning de politiques générales.

UEImpact indirect : la méthode CLIC, en réduisant les besoins en démonstrations de haute qualité, pourrait bénéficier aux équipes de R&D robotique européennes travaillant sur des pipelines d'imitation learning et de téléopération, sans lien direct avec un acteur français ou une réglementation UE.

RechercheOpinion
1 source
Méthode reproductible de sensibilisation à la robotique par interaction LLM : résultats d'un défi d'entreprise
3arXiv cs.RO 

Méthode reproductible de sensibilisation à la robotique par interaction LLM : résultats d'un défi d'entreprise

Une équipe de chercheurs a conçu et testé une méthode de sensibilisation à la robotique en milieu industriel réel, en déployant un robot humanoïde contrôlé par un grand modèle de langage (LLM) lors d'un événement interne organisé par AD Ports Group aux Émirats arabes unis. Les employés du groupe portuaire, sans formation préalable en robotique, ont interagi avec le robot via des commandes vocales dans un environnement d'exercice inspiré de la logistique, structuré en équipes avec des rôles attribués. Au terme de l'activité, un questionnaire resté ouvert 16 jours a recueilli 102 réponses. La satisfaction globale atteint 8,46/10, l'intérêt déclaré pour la robotique et l'IA 4,47/5, et la compréhension des nouvelles formes de collaboration homme-robot 4,45/5. Les participants ayant interagi directement avec le robot ont évalué la naturalité de l'échange à 4,37/5 et la progression de la facilité d'interaction à 4,74/5. Les scores concernant la fiabilité et la prédictibilité du robot restent en revanche sensiblement plus bas, ce que les auteurs identifient comme un défi technique à adresser. Ce travail fournit l'une des rares mesures quantitatives issues d'un déploiement en organisation réelle, hors contexte laboratoire, sur l'efficacité des LLM comme interface d'entrée en robotique pour des non-spécialistes. Pour les décideurs industriels et les intégrateurs, il valide un format concret d'onboarding technique : une activité compétitive courte peut suffire à modifier la perception et l'appétence pour la robotique collaborative. La méthode est présentée comme réplicable, ce qui est significatif pour des groupes industriels cherchant à préparer leurs effectifs à des déploiements d'IA incarnée sans passer par une formation longue. L'exploration des LLM comme couche de contrôle en langage naturel pour les robots s'intensifie depuis 2023, portée notamment par des architectures comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), mais les preuves d'usage en conditions industrielles non contrôlées restent rares. AD Ports Group, opérateur de ports et de zones logistiques parmi les plus importants du Moyen-Orient, constitue un terrain d'expérimentation pertinent. L'étude ne précise pas le modèle de robot humanoïde utilisé ni l'architecture LLM sous-jacente, une limite notable pour qui voudrait reproduire l'approche. Les prochaines étapes annoncées portent sur l'amélioration de la fiabilité perçue et la réplication de la méthode dans d'autres contextes opérationnels industriels.

UELa méthodologie réplicable d'onboarding robotique par interaction LLM peut être directement adoptée par des groupes industriels français et européens pour préparer leurs effectifs aux déploiements de robots collaboratifs sans formation longue.

RecherchePaper
1 source
Apprentissage inverse de récompenses transférables par abstraction d'états
4arXiv cs.RO 

Apprentissage inverse de récompenses transférables par abstraction d'états

Une équipe de chercheurs a publié sur arXiv (identifiant 2501.01669) une méthode d'apprentissage par renforcement inverse (IRL) visant à extraire des fonctions de récompense abstraites et transférables à partir de trajectoires comportementales observées dans plusieurs configurations différentes d'un même domaine. Plutôt que de simplement reproduire le comportement observé, l'approche cherche à inférer les préférences intrinsèques sous-jacentes, puis à les réutiliser pour générer des comportements adaptés à des instances du domaine non vues pendant l'entraînement. La méthode requiert au minimum deux instances du domaine source pour apprendre la fonction abstraite, qui est ensuite testée sur une troisième instance distincte. Les expériences sont conduites exclusivement en simulation sur les benchmarks OpenAI Gym et AssistiveGym ; aucune validation sur hardware physique n'est présentée dans ce papier. L'enjeu opérationnel pour la robotique industrielle est direct : intégrer un robot dans une nouvelle ligne de production implique aujourd'hui une reprogrammation quasi-complète dès que la tâche évolue, même marginalement. Si une fonction de récompense abstraite peut capturer ce qui est "intrinsèquement souhaité" dans une famille de tâches alignées, un intégrateur pourrait déployer un robot sur une variante de tâche sans repartir de zéro. La méthode teste explicitement cette transférabilité, ce qui constitue une preuve de généralisation au-delà du simple ajustement de paramètres. Le gap sim-to-real n'est pas adressé dans cette version, ce qui limite la portée pratique immédiate, et les métriques présentées restent confinées aux benchmarks de simulation. L'IRL est un domaine de recherche actif depuis les travaux fondateurs d'Abbeel et Ng (début des années 2000), avec des développements récents vers les approches adversariales comme GAIL (Generative Adversarial Imitation Learning) et AIRL (Adversarial IRL). Cette contribution se distingue par l'utilisation de l'abstraction des états comme levier de transfert, plutôt que par l'adaptation de domaine ou le fine-tuning d'un modèle pré-entraîné. Les approches concurrentes incluent le méta-IRL et les méthodes IRL multi-tâches, qui partagent l'objectif de généralisation mais avec des formulations différentes. La suite logique serait une validation sur des plateformes robotiques physiques, en manipulation notamment sur des bras comme Franka Emika ou UR5, pour confirmer que l'abstraction apprise en simulation survit au passage au monde réel.

RecherchePaper
1 source