Aller au contenu principal
RecherchearXiv cs.RO47min

Apprentissage de règles symboliques compositionnelles à partir de démonstrations par programmation logique inductive

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont déposé sur arXiv (réf. 2605.26828) une méthode combinant apprentissage par démonstration (LfD) et programmation logique inductive (ILP) pour extraire des règles symboliques à partir d'exemples fournis par un opérateur humain. Plutôt que de reproduire les gestes observés, le système décompose une tâche complexe en une hiérarchie d'objectifs d'apprentissage à plusieurs niveaux d'abstraction ontologique : les règles inférées au bas de la hiérarchie sont réutilisées comme briques pour construire des structures de tâches plus élaborées, selon un principe de raisonnement compositionnel. Les expériences ont été conduites dans un scénario synthétique d'assemblage de blocs, et montrent une généralisation aux configurations inédites, y compris avec des objets absents de la phase d'entraînement.

À mesure que les robots industriels gagnent en autonomie, la lisibilité et la réutilisabilité de leurs représentations internes de tâches deviennent des enjeux critiques pour les intégrateurs et les équipes de validation. L'ILP produit des règles symboliques explicites et modifiables par un ingénieur, à l'opposé des approches neuronales d'imitation telles que le behavior cloning ou les VLA (vision-language-action models), dont les décisions restent opaques et difficiles à auditer. La capacité du système à généraliser à des tâches plus difficiles avec des objets jamais vus est un résultat encourageant, que les auteurs qualifient eux-mêmes de "preuve préliminaire" : l'évaluation se limite à un environnement entièrement simulé, sans validation sur robot physique ni mesure du sim-to-real gap.

L'apprentissage par démonstration est un paradigme fondateur de la robotique programmable, mais les méthodes récentes basées sur le deep learning sacrifient souvent l'interprétabilité à la performance brute. L'ILP, issu de l'IA symbolique des années 1990, connaît un regain d'intérêt dans le mouvement plus large du raisonnement neurosymbolique, qui cherche à allier la flexibilité du machine learning et la rigueur du raisonnement logique. Ce travail s'inscrit dans ce courant sans prétendre à un déploiement industriel immédiat : les étapes suivantes attendues sont la validation sur hardware réel et des scénarios de manipulation plus diversifiés, seuls capables de mesurer la robustesse effective de l'approche hors simulation.

Dans nos dossiers

À lire aussi

Apprentissage de politiques robotiques structurées à partir de modèles vision-langage par supervision neuro-symbolique synthétique
1arXiv cs.RO 

Apprentissage de politiques robotiques structurées à partir de modèles vision-langage par supervision neuro-symbolique synthétique

Une équipe de recherche publie sur arXiv (référence 2604.02812) une approche neuro-symbolique permettant à un modèle de langage vision (VLM) de générer automatiquement des politiques robotiques exécutables sous forme d'arbres de comportement (Behavior Trees, BTs), à partir d'observations visuelles, d'instructions en langage naturel et de spécifications système structurées. La contribution centrale est un pipeline entièrement automatisé qui produit un jeu de données synthétique multimodal : des scènes à randomisation de domaine sont générées procéduralement, chacune associée à des exemples instruction-politique produits par un modèle fondamental. Un modèle de 12 milliards de paramètres est ensuite entraîné exclusivement sur ces données synthétiques, sans annotation humaine. Les expériences physiques, conduites sur deux manipulateurs robotiques hétérogènes, confirment un transfert zéro-shot vers des environnements réels. L'enjeu industriel est direct : la grande majorité des politiques visuomotrices actuelles reposent sur des architectures end-to-end opaques, difficilement auditables ou certifiables pour un déploiement en production. En produisant des BTs, cette méthode offre interprétabilité, modularité et exécution réactive, trois propriétés que les intégrateurs industriels exigent mais que les approches VLA classiques (Pi-0, GR00T N2, OpenVLA) ne garantissent pas nativement. Le fait que le transfert sim-to-real soit obtenu sans aucune donnée réelle lors de l'entraînement contredit l'hypothèse persistante selon laquelle le gap simulation-réalité rendrait ce type d'approche impraticable pour la manipulation. C'est sur ce point que les résultats méritent attention, même si les auteurs ne détaillent pas la complexité des scènes testées ni les métriques de robustesse sur longues séquences. Les Behavior Trees sont un standard hérité du jeu vidéo et de la robotique classique, adoptés notamment dans ROS 2 via BehaviorTree.CPP, précisément pour leur lisibilité et leur capacité de reprise sur erreur. La tension entre contrôle symbolique et apprentissage end-to-end est au coeur des débats actuels, avec des acteurs comme 1X, Physical Intelligence ou Boston Dynamics cherchant des compromis différents. Cette recherche positionne les VLMs non plus comme générateurs de mouvements bruts, mais comme compilateurs de plans structurés, une distinction architecturale qui pourrait orienter les prochains cycles de développement vers des systèmes hybrides plus auditables. La prochaine étape naturelle serait de valider l'approche sur des manipulateurs commerciaux dans des environnements non contrôlés et sur des horizons de tâches plus longs.

RechercheOpinion
1 source
ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits
2arXiv cs.RO 

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

ExpertGen est un framework de recherche publié sur arXiv (2603.15956) qui automatise l'apprentissage de politiques de manipulation robotique en simulation pour en faciliter le transfert vers du matériel réel. Le système initialise une politique de diffusion à partir de démonstrations imparfaites, générées par un grand modèle de langage ou fournies manuellement, puis applique du renforcement pour l'affiner sans jamais modifier les poids du modèle préentraîné. L'optimisation porte uniquement sur le bruit initial de la diffusion, ce qui maintient l'exploration dans des trajectoires cohérentes avec le comportement humain, même avec des récompenses binaires éparses. Sur les benchmarks publiés, ExpertGen atteint 90,5 % de succès sur des tâches d'assemblage industriel et 85 % sur des tâches de manipulation à long horizon, surpassant toutes les méthodes de référence testées. Le transfert sim-to-réel est validé par distillation DAgger : les politiques d'état apprises en simulation sont converties en politiques visuomotrices et déployées sur du matériel robotique physique. Ce résultat s'attaque directement au principal goulot d'étranglement du robot learning industriel : la collecte de données de qualité. La téléopération à grande échelle est coûteuse, lente et ne se généralise pas. ExpertGen propose une alternative crédible en utilisant des démonstrations imparfaites, y compris synthétiques, comme amorce, puis en laissant le renforcement corriger l'écart de qualité en simulation. Le fait de geler la politique de diffusion est une décision architecturale clé : elle évite le mode collapse typique du fine-tuning RL sur des politiques expressives, tout en permettant la convergence sans reward engineering manuel. Pour les intégrateurs industriels, c'est un signal concret que le sim-to-real gap sur des tâches d'assemblage n'est pas insurmontable, à condition de disposer d'un simulateur suffisamment fidèle. Ce travail s'inscrit dans la vague des politiques de diffusion pour la robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et prolongée par des systèmes comme pi-zero de Physical Intelligence ou les politiques dextères développées chez Google DeepMind et NVIDIA avec GR00T N2. ExpertGen reste pour l'instant un résultat académique : les métriques de succès sont issues de benchmarks de simulation contrôlés, et le déploiement réel mentionné dans le papier est préliminaire. Aucune timeline commerciale ni partenaire industriel ne sont annoncés. Les prochaines étapes logiques incluent des tests de robustesse à des variations de capteurs et d'environnement plus sévères, ainsi qu'une intégration éventuelle avec des politiques de fondation multimodales pour généraliser au-delà des tâches d'assemblage structurées.

RechercheOpinion
1 source
HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines
3arXiv cs.RO 

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.03243v2) HoMMI, pour Whole-Body Mobile Manipulation Interface, un framework d'apprentissage par imitation permettant à un robot mobile de maîtriser la manipulation bimanuelle et la navigation à partir de démonstrations humaines réalisées sans robot. Le principe : un opérateur humain porte une interface portative héritée du projet UMI (Universal Manipulation Interface), enrichie d'une caméra égocentrique capturant le contexte global de la scène (position dans l'espace, état de l'environnement). Ces données brutes alimentent une politique apprise, transférée ensuite sur un robot à corps entier (bras, torse, base mobile) sans que celui-ci n'ait été présent lors de la collecte. La difficulté centrale que HoMMI cherche à résoudre est l'"embodiment gap" : la différence morphologique et sensorielle entre humain et robot rend le transfert de politique difficile, particulièrement en perception égocentrique où les champs de vue et hauteurs d'oeil divergent fortement. Les auteurs proposent trois briques techniques pour combler cet écart : une représentation visuelle agnostique à l'embodiment, une représentation d'action "head relaxed" qui neutralise les variations de mouvement de tête, et un contrôleur corps entier réalisant les trajectoires main-oeil sous contraintes physiques du robot. Ces choix permettent des tâches longue-séquence mobilisant navigation, perception active et coordination bimanuelle, le type de scénario que les architectures Vision-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent également à résoudre. Les résultats, présentés sous forme de vidéos sur hommi-robot.github.io, restent à valider en conditions non contrôlées et sur des benchmarks standardisés. HoMMI s'inscrit dans la continuité directe du projet UMI (Columbia/Stanford, 2024), qui avait popularisé la collecte portable de démonstrations pour la manipulation fixe sur table. L'extension au robot mobile ajoute la dimension navigation, saut de complexité majeur pour le sim-to-real et la généralisation hors laboratoire. Les approches concurrentes incluent Mobile ALOHA (Stanford), les pipelines de distillation de données de Physical Intelligence, et les travaux de manipulation bimanuelle ALOHA/ACT de Berkeley. HoMMI reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni métriques de taux de succès publiées, une limite habituelle des publications en robotique d'apprentissage avant revue par les pairs.

RecherchePaper
1 source
Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides
4arXiv cs.RO 

Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides

Une équipe de recherche a publié sur arXiv (arXiv:2512.08411v2, décembre 2025) le Prismatic World Model (PRISM-WM), une architecture de modèle du monde destinée à améliorer la planification dans les systèmes robotiques à dynamiques hybrides. Le problème central que PRISM-WM cherche à résoudre est structurel : les mouvements continus sont régulièrement interrompus par des événements discrets, contacts, impacts, transitions de phases (vol vs appui, glissement vs adhérence), qui créent des discontinuités difficiles à modéliser. Les architectures classiques à réseaux neuronaux monolithiques, comme les modèles latents de type RSSM ou DreamerV3, imposent une continuité globale qui lisse ces transitions et génère des erreurs cumulatives lors des simulations à long horizon (rollouts), rendant la planification peu fiable aux frontières physiques. PRISM-WM y répond par un cadre Mixture-of-Experts (MoE) contextuel : un mécanisme de gating identifie implicitement le mode physique courant, et des experts spécialisés prédisent la dynamique de transition associée. Une contrainte d'orthogonalisation latente force la diversité des experts, prévenant l'effondrement de modes. Les expériences portent sur des benchmarks de contrôle continu incluant des humanoïdes haute dimension et des configurations multi-tâches, couplés à l'algorithme d'optimisation de trajectoires TD-MPC. Les résultats montrent que PRISM-WM réduit le drift en simulation lors des rollouts étendus, offrant un substrat de haute fidélité pour les algorithmes d'optimisation de trajectoires. Pour les équipes de contrôle en robotique humanoïde, cela adresse directement le gap simulation-réalité lié à la gestion des contacts, une limitation structurelle des approches model-based existantes. La décomposition en primitives composables ouvre aussi une piste vers des architectures plus interprétables, un enjeu concret pour les déploiements industriels où la robustesse aux variations de terrain ou de tâche est critique. PRISM-WM s'inscrit dans la dynamique des world models pour la robotique, domaine en forte progression depuis les travaux de Hafner et al. sur DreamerV3 et les avancées de TD-MPC sur des tâches de locomotion complexe. L'approche MoE transposée à la dynamique physique rejoint des tendances observées dans les grands modèles de langage (Mixtral, GPT-4). Il n'est pas associé à une entreprise commerciale identifiée ; il s'agit d'une contribution académique pure, sans pilote industriel annoncé. La prochaine étape logique serait une validation sur hardware réel, notamment sur des plateformes humanoïdes où la gestion des contacts reste un verrou technique central de la sim-to-real transfer.

RecherchePaper
1 source