Objectifs définis par ensembles, pas par états :…

Au-delà des objets prédéfinis : modèle d'interaction pensée-apprentissage pour une robotique autonome et à jour

38

1arXiv cs.RO

Au-delà des objets prédéfinis : modèle d'interaction pensée-apprentissage pour une robotique autonome et à jour

Une équipe de chercheurs publie sur arXiv (ref. 2605.23987, mai 2026) un modèle d'interaction pensée-apprentissage (thinking-learning interaction model) pour robots autonomes évoluant en environnements ouverts et changeants. Le problème visé est structurel : la quasi-totalité des méthodes d'apprentissage robot actuelles fixent à l'avance leurs objets d'apprentissage, qu'il s'agisse des features d'entrée, des catégories de sortie, de l'architecture réseau ou des séquences d'action, ce qui bloque toute adaptation lorsque l'environnement dérive en exploitation longue durée. Le modèle proposé repose sur un mécanisme bidirectionnel : la pensée guide l'apprentissage en identifiant les changements potentiels, en sélectionnant les preuves pertinentes et en planifiant des actions de vérification, tandis que l'apprentissage améliore en retour les processus de raisonnement. Les résultats expérimentaux font état d'une progression de la précision de reconnaissance de 0,419 à 0,845 en adaptation de features, d'une réduction de la longueur moyenne des séquences d'action de 13,0 à 4,0 étapes, et d'une hausse du taux de sélection de preuves utiles de 0,272 à 0,965. L'enjeu est concret pour quiconque déploie des robots en environnement non structuré sur la durée. Les approches VLA (vision-language-action) et d'apprentissage par renforcement supposent généralement un espace d'états relativement stable : toute dérive contextuelle, nouvelle référence produit sur une ligne, réaménagement d'entrepôt, apparition d'obstacle inédit, impose un recalibrage humain ou un nouveau cycle d'entraînement coûteux. Un système capable de redéfinir ses propres catégories de sortie et de reconstruire ses routines d'action sans intervention extérieure réduirait considérablement le coût total de maintenance dans des contextes à forte variabilité, comme la logistique ou le manufacturing discret. Ces résultats restent toutefois issus d'expériences de laboratoire sur des scénarios contrôlés, et la généralisation à des déploiements industriels réels n'est pas encore démontrée. Ce travail s'inscrit dans un courant actif autour de l'apprentissage continu (continual learning), en réponse aux limites du fine-tuning ponctuel. Les approches concurrentes incluent le meta-apprentissage (MAML), les architectures à mémoire épisodique, et les agents LLM embarqués pour la planification robotique comme SayCan (Google DeepMind) ou Code-as-Policies. La spécificité de la contribution est de viser l'autonomie dans la définition des objets d'apprentissage eux-mêmes, pas seulement dans l'exécution de tâches prédéfinies. Le papier est un preprint sans annonce de déploiement ni partenariat industriel ; les prochaines étapes naturelles seraient une validation sur des benchmarks standardisés comme RLBench ou Open X-Embodiment, et des tests sur des plateformes physiques diversifiées.

RecherchePaper

1 source

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

40

2arXiv cs.RO

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

Le comportement par clonage (behavior cloning, BC) est l'une des méthodes les plus utilisées pour entraîner des politiques robotiques à partir de démonstrations humaines : chaque geste fourni par l'opérateur y est traité comme une étiquette exacte à reproduire. Des chercheurs ont publié en février 2025 (arXiv:2502.07645, version 3 disponible) une alternative baptisée CLIC, Contrastive policy Learning from Interactive Corrections, qui remplace ces étiquettes ponctuelles par des cibles dites à ensemble de valeurs (set-valued action targets). Au lieu d'optimiser la politique vers un seul geste cible, CLIC utilise les corrections humaines en temps réel pour construire et affiner des ensembles d'actions désirées, puis entraîne le modèle à placer de la masse de probabilité sur cet ensemble plutôt que sur un point unique. Cette reformulation adresse un problème connu mais sous-estimé du BC classique : lorsque les démonstrations humaines sont imparfaites, gestes partiels, corrections relatives ("un peu plus à gauche"), ambiguïtés multimodales, forcer la politique à reproduire chaque label à la lettre peut la faire dériver loin du comportement voulu, notamment avec des modèles expressifs tels que les energy-based models (EBMs). Les expériences en simulation et sur robot réel montrent que CLIC reste compétitif avec l'état de l'art quand les données sont propres, et se révèle substantiellement plus robuste sous données bruitées, corrections relatives ou feedback partiel. Pour les équipes de déploiement robotique, c'est une voie concrète pour réduire les coûts de collecte de démonstrations de haute qualité : CLIC tolère des opérateurs moins expérimentés ou des interfaces de téléopération imprécises sans dégradation majeure des performances. Le BC reste une brique fondamentale de l'apprentissage par imitation, popularisé par les travaux de Pieter Abbeel au début des années 2000 et au coeur aujourd'hui des politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les politiques diffusion-based d'OpenPI. CLIC s'inscrit dans un courant "human-in-the-loop" qui inclut DAgger, HG-DAgger et TAMER, mais se distingue par la formalisation ensembliste des corrections. Le code et les environnements de test sont disponibles publiquement sur clic-webpage.github.io. Les auteurs n'annoncent pas de partenariat industriel ni de déploiement terrain, ce qui positionne ce travail comme une contribution aux fondations méthodologiques de l'imitation learning, avec des implications directes pour les pipelines de téléopération et de fine-tuning de politiques générales.

UEImpact indirect : la méthode CLIC, en réduisant les besoins en démonstrations de haute qualité, pourrait bénéficier aux équipes de R&D robotique européennes travaillant sur des pipelines d'imitation learning et de téléopération, sans lien direct avec un acteur français ou une réglementation UE.

RechercheOpinion

1 source

Vers des objectifs de navigation par le langage : une approche vision-langage pour la navigation sémantique de robots mobiles par perception RGB-D

39

3arXiv cs.RO

Vers des objectifs de navigation par le langage : une approche vision-langage pour la navigation sémantique de robots mobiles par perception RGB-D

Une équipe de recherche présente un framework open source de navigation sémantique piloté par le langage naturel pour robots mobiles, publié sur arXiv (2607.13624v1). Le système, bâti sur des composants modulaires ROS 2, traduit des requêtes en langage naturel comme "va vers la boîte aux lettres" en objectifs de navigation exécutables. Concrètement, le pipeline identifie l'objet cible mentionné dans la phrase, estime sa position dans l'espace à partir de données RGB-D, puis génère un point de navigation transmis à la pile Nav2 de ROS 2 pour l'exécution autonome. Les auteurs ont validé l'approche à la fois en simulation et en conditions réelles, sur deux plateformes distinctes : un TurtleBot3 Waffle et un Unitree Go2 équipé d'une caméra RealSense. Le code sera publié en open source après acceptation de l'article. Cette architecture illustre une tendance de fond dans la robotique mobile : le passage d'une navigation pilotée par coordonnées ou par carte à une navigation pilotée par l'intention exprimée en langage naturel, sans expertise technique requise de l'utilisateur. Pour les intégrateurs, l'intérêt réside moins dans la performance brute que dans la portabilité : en s'appuyant sur ROS 2 et sur des topics et services standardisés, le framework promet une adaptation à différentes plateformes robotiques via une simple reconfiguration plutôt qu'un développement spécifique par robot. Le système va au-delà des commandes directes en interprétant aussi des requêtes contextuelles et en générant du feedback en langage naturel, deux capacités clés pour une interaction homme-robot fluide dans des environnements domestiques ou logistiques où les utilisateurs finaux ne sont pas des opérateurs formés. Ce travail s'inscrit dans la vague plus large des architectures vision-langage-action qui traversent la robotique depuis l'essor de modèles comme Pi-0 ou GR00T N2, même si ceux-ci ciblent surtout la manipulation plutôt que la navigation pure. Plutôt qu'une approche end-to-end déléguant tout le raisonnement à un modèle unique, les auteurs optent pour une architecture modulaire combinant perception RGB-D, compréhension du langage et planification via Nav2, une pile de navigation déjà largement adoptée dans l'écosystème ROS 2 académique et industriel. L'ambition de portabilité multi-plateforme et la publication annoncée du code positionnent ce travail comme une brique réutilisable plutôt qu'une démonstration isolée, même si, à ce stade, rien n'indique un calendrier de diffusion précis ni des tests en environnements plus complexes ou à grande échelle.

RecherchePaper

1 source

Méthode reproductible de sensibilisation à la robotique par interaction LLM : résultats d'un défi d'entreprise

40

4arXiv cs.RO

Méthode reproductible de sensibilisation à la robotique par interaction LLM : résultats d'un défi d'entreprise

Une équipe de chercheurs a conçu et testé une méthode de sensibilisation à la robotique en milieu industriel réel, en déployant un robot humanoïde contrôlé par un grand modèle de langage (LLM) lors d'un événement interne organisé par AD Ports Group aux Émirats arabes unis. Les employés du groupe portuaire, sans formation préalable en robotique, ont interagi avec le robot via des commandes vocales dans un environnement d'exercice inspiré de la logistique, structuré en équipes avec des rôles attribués. Au terme de l'activité, un questionnaire resté ouvert 16 jours a recueilli 102 réponses. La satisfaction globale atteint 8,46/10, l'intérêt déclaré pour la robotique et l'IA 4,47/5, et la compréhension des nouvelles formes de collaboration homme-robot 4,45/5. Les participants ayant interagi directement avec le robot ont évalué la naturalité de l'échange à 4,37/5 et la progression de la facilité d'interaction à 4,74/5. Les scores concernant la fiabilité et la prédictibilité du robot restent en revanche sensiblement plus bas, ce que les auteurs identifient comme un défi technique à adresser. Ce travail fournit l'une des rares mesures quantitatives issues d'un déploiement en organisation réelle, hors contexte laboratoire, sur l'efficacité des LLM comme interface d'entrée en robotique pour des non-spécialistes. Pour les décideurs industriels et les intégrateurs, il valide un format concret d'onboarding technique : une activité compétitive courte peut suffire à modifier la perception et l'appétence pour la robotique collaborative. La méthode est présentée comme réplicable, ce qui est significatif pour des groupes industriels cherchant à préparer leurs effectifs à des déploiements d'IA incarnée sans passer par une formation longue. L'exploration des LLM comme couche de contrôle en langage naturel pour les robots s'intensifie depuis 2023, portée notamment par des architectures comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), mais les preuves d'usage en conditions industrielles non contrôlées restent rares. AD Ports Group, opérateur de ports et de zones logistiques parmi les plus importants du Moyen-Orient, constitue un terrain d'expérimentation pertinent. L'étude ne précise pas le modèle de robot humanoïde utilisé ni l'architecture LLM sous-jacente, une limite notable pour qui voudrait reproduire l'approche. Les prochaines étapes annoncées portent sur l'amélioration de la fiabilité perçue et la réplication de la méthode dans d'autres contextes opérationnels industriels.

UELa méthodologie réplicable d'onboarding robotique par interaction LLM peut être directement adoptée par des groupes industriels français et européens pour préparer leurs effectifs aux déploiements de robots collaboratifs sans formation longue.

RecherchePaper

1 source

Objectifs définis par ensembles, pas par états : des buts de robots interrogeables via le réétiquetage rétrospectif par ensemble d'objectifs

À lire aussi

Au-delà des objets prédéfinis : modèle d'interaction pensée-apprentissage pour une robotique autonome et à jour

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

Vers des objectifs de navigation par le langage : une approche vision-langage pour la navigation sémantique de robots mobiles par perception RGB-D

Méthode reproductible de sensibilisation à la robotique par interaction LLM : résultats d'un défi d'entreprise