SeeTraceAct : planification latente par…

44

1arXiv cs.RO

WALA : apprendre des actions latentes exécutables à partir de démonstrations étiquetées et de vidéos sans action

Voici la traduction/synthèse de l'article WALA en français : Des chercheurs présentent WALA (arXiv:2607.11397), un framework qui apprend des actions latentes exécutables à partir de deux types de données distincts : des démonstrations robotiques annotées d'actions et de simples vidéos sans annotation d'action. Le problème visé est bien connu du secteur : les démonstrations robotiques étiquetées coûtent cher à collecter et passent mal à l'échelle, alors que les vidéos humaines et robotiques disponibles en masse restent inexploitables faute d'étiquettes d'action exécutables. WALA fonctionne en deux temps. D'abord, un pré-entraînement d'un modèle d'action latente sémantique-géométrique sur des vidéos, en modélisant l'évolution entre l'observation courante et des observations futures échantillonnées de façon éparse. Plutôt que de reconstruire les pixels bruts, le système prédit les deltas futurs dans l'espace de features DINOv3 et dans l'espace de profondeur dense, ce qui conserve la structure sémantique et géométrique utile à la tâche tout en réduisant la sensibilité aux détails d'apparence. Lors de l'entraînement de la politique, l'encodeur pré-entraîné fournit des cibles d'action latente stables, et le décodeur sert de modèle du monde latent entraînable, avec une supervision conjointe par prédiction d'action robotique, correspondance de cible d'action latente et prédiction de dynamique future. Résultat annoncé : un nouveau record sur RoboCasa avec 75,2% de taux de réussite moyen, ainsi que de bonnes performances sur RoboTwin et en manipulation réelle. L'enjeu pour l'industrie robotique tient moins à la performance brute qu'à la promesse de découplage entre données d'entraînement et coût d'annotation. Si une politique VLA peut effectivement tirer une supervision de dynamique utile de vidéos non annotées, cela ouvre la voie à des jeux de données d'entraînement bien plus vastes sans multiplier les campagnes de téléopération robotique, un goulot d'étranglement connu pour tout intégrateur ou labo qui cherche à généraliser au-delà d'un jeu de tâches restreint. Cela dit, il s'agit d'un résultat de recherche publié sur arXiv, pas d'un produit déployé : les métriques de succès sur RoboCasa et RoboTwin sont des benchmarks de simulation ou semi-contrôlés, et la mention de "manipulation réelle" reste peu détaillée dans l'abstract, sans précision sur le nombre de tâches, le taux de réussite exact en conditions réelles ni le hardware utilisé. Le travail s'inscrit dans la lignée des architectures vision-langage-action (VLA) comme Pi-0 ou GR00T N2, qui cherchent à unifier perception, langage et contrôle moteur dans un même backbone, et dans la tendance plus large des "world models" latents pour la robotique, où l'usage de features pré-entraînées (ici DINOv3) remplace la reconstruction pixel pour la supervision. Aucun acteur français ou européen n'est mentionné dans cet abstract. Les suites logiques incluraient une publication complète avec code et poids, ainsi que des tests de généralisation croisée entre familles de robots, un point sur lequel l'abstract reste volontairement vague.

RechercheActu

1 source

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

33

2arXiv cs.RO

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.03243v2) HoMMI, pour Whole-Body Mobile Manipulation Interface, un framework d'apprentissage par imitation permettant à un robot mobile de maîtriser la manipulation bimanuelle et la navigation à partir de démonstrations humaines réalisées sans robot. Le principe : un opérateur humain porte une interface portative héritée du projet UMI (Universal Manipulation Interface), enrichie d'une caméra égocentrique capturant le contexte global de la scène (position dans l'espace, état de l'environnement). Ces données brutes alimentent une politique apprise, transférée ensuite sur un robot à corps entier (bras, torse, base mobile) sans que celui-ci n'ait été présent lors de la collecte. La difficulté centrale que HoMMI cherche à résoudre est l'"embodiment gap" : la différence morphologique et sensorielle entre humain et robot rend le transfert de politique difficile, particulièrement en perception égocentrique où les champs de vue et hauteurs d'oeil divergent fortement. Les auteurs proposent trois briques techniques pour combler cet écart : une représentation visuelle agnostique à l'embodiment, une représentation d'action "head relaxed" qui neutralise les variations de mouvement de tête, et un contrôleur corps entier réalisant les trajectoires main-oeil sous contraintes physiques du robot. Ces choix permettent des tâches longue-séquence mobilisant navigation, perception active et coordination bimanuelle, le type de scénario que les architectures Vision-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent également à résoudre. Les résultats, présentés sous forme de vidéos sur hommi-robot.github.io, restent à valider en conditions non contrôlées et sur des benchmarks standardisés. HoMMI s'inscrit dans la continuité directe du projet UMI (Columbia/Stanford, 2024), qui avait popularisé la collecte portable de démonstrations pour la manipulation fixe sur table. L'extension au robot mobile ajoute la dimension navigation, saut de complexité majeur pour le sim-to-real et la généralisation hors laboratoire. Les approches concurrentes incluent Mobile ALOHA (Stanford), les pipelines de distillation de données de Physical Intelligence, et les travaux de manipulation bimanuelle ALOHA/ACT de Berkeley. HoMMI reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni métriques de taux de succès publiées, une limite habituelle des publications en robotique d'apprentissage avant revue par les pairs.

RecherchePaper

1 source

Planification du mouvement multi-robots à partir de la vision et du langage par diffusion inspirée de la chaleur

44

3arXiv cs.RO

Planification du mouvement multi-robots à partir de la vision et du langage par diffusion inspirée de la chaleur

Des chercheurs ont présenté LHD (Language-conditioned Heat-inspired Diffusion), un framework de planification de mouvement multi-robots publié sur arXiv (réf. 2512.13090v2). Le système génère, en réponse à des commandes en langage naturel, des trajectoires sans collision pour plusieurs robots opérant simultanément dans un espace partagé, sans nécessiter de représentation explicite de l'environnement à l'inférence. LHD combine les priors sémantiques de CLIP, le modèle vision-langage d'OpenAI, avec un noyau de diffusion inspiré de l'équation de la chaleur. Ce noyau agit comme un biais inductif physique : en simulant la propagation thermique depuis les positions cibles, il délimite naturellement l'espace atteignable par chaque robot, guidant la planification à l'intérieur de la zone effectivement accessible. Les évaluations menées sur des environnements simulés inspirés du monde réel et des expériences en conditions physiques réelles montrent des gains en taux de succès et une réduction de la latence de planification par rapport aux planificateurs par diffusion antérieurs. L'enjeu industriel est direct : des systèmes multi-robots capables d'interpréter des instructions verbales sans reconfiguration manuelle représentent un levier clé pour les entrepôts et les lignes de production flexible. Les approches par diffusion existantes souffraient de deux limites bloquantes pour le déploiement réel : un coût computationnel élevé à l'inférence et une dépendance à une cartographie explicite des obstacles. LHD adresse les deux simultanément. Le système gère également les scénarios hors distribution en termes d'accessibilité physique : si une cible est hors de portée, il redirige le robot vers l'alternative accessible la plus proche sémantiquement, exactement le type de robustesse attendu en conditions industrielles. Ces résultats renforcent l'hypothèse que des VLA (Vision-Language-Action) peuvent opérer sans représentation géométrique explicite, sans constituer pour autant une preuve de déploiement à l'échelle commerciale. Ce travail s'inscrit dans une vague de planificateurs neuronaux multi-robots apparue depuis 2023, en concurrence directe avec les approches MAPF (Multi-Agent Path Finding) classiques et les méthodes d'apprentissage par renforcement multi-agent comme QMIX ou MAPPO. L'intégration de CLIP distingue LHD par son conditionnement sémantique flexible, là où la plupart des approches concurrentes raisonnent en coordonnées ou en graphes discrets. Aucun acteur industriel ou institutionnel européen n'est associé à cette publication, dont les affiliations d'équipe ne sont pas précisées dans l'abstract arXiv. Une page projet accompagnée de démos vidéo et de code est accessible à jebeom.github.io/lhdprojectpage/, mais des intégrations avec des flottes AMR commerciales restent à démontrer.

RechercheOpinion

1 source

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

42

4arXiv cs.RO

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Des chercheurs ont proposé PO-PDDL (arXiv:2606.15654, juin 2026), une formulation symbolique des processus de décision markoviens partiellement observables (POMDP) pour la planification robotique en conditions réelles. Le système étend PDDL, standard de facto en planification symbolique depuis les années 1990, en y intégrant explicitement l'observabilité partielle, la stochasticité des actions et la gestion des croyances (beliefs). Un pipeline d'apprentissage reconstruit automatiquement les trajectoires d'état symbolique latentes à partir de vidéos d'exécution de robot réel, détecte les incohérences entre états inférés et observations visuelles pour localiser les zones d'incertitude perceptive, puis apprend les modèles de transition et d'observation stochastiques correspondants. Les domaines générés sont réutilisables entre tâches et permettent une planification en ligne dans l'espace des croyances. Testée sur des tâches de manipulation longue durée (long-horizon) en environnement physique réel, la méthode surpasse les approches existantes d'apprentissage de modèles PDDL et POMDP, avec un coût de planification significativement réduit. L'apport concret pour les intégrateurs robotiques est de supprimer l'effort d'ingénierie lié à la construction manuelle des modèles POMDP, traditionnellement l'un des verrous de la planification symbolique déployable. Apprendre depuis des vidéos de robots réels plutôt que depuis des simulateurs contourne partiellement le gap sim-to-real qui fragilise nombre d'approches d'apprentissage. La syntaxe PDDL préservée ouvre une voie d'intégration avec des LLM pour la spécification de tâches, un axe actif en recherche (voir LLM+P, ProgPrompt). Le fait que les domaines soient réutilisables et que la planification opère en temps réel sous incertitude perceptive et d'exécution représente un pas vers des architectures neuro-symboliques exploitables hors laboratoire. La planification symbolique butte depuis longtemps sur la difficulté de paramétrer les POMDP pour des environnements physiques réels. Des travaux antérieurs comme FAMA ou LOCM ont progressé sur l'apprentissage de modèles PDDL déterministes, sans traiter simultanément stochasticité et observabilité partielle depuis des observations visuelles brutes. PO-PDDL se positionne aussi face aux politiques de bout en bout (VLA, politiques de diffusion) qui absorbent l'incertitude dans le réseau sans la modéliser explicitement. La lisibilité et débuggabilité du formalisme symbolique restent un argument différenciant pour le déploiement industriel. Il s'agit pour l'instant d'un preprint non évalué par les pairs ; les prochaines étapes naturelles incluent l'évaluation sur des manipulations plus complexes et l'intégration dans des stacks open-source comme ROS 2.

RecherchePaper

1 source

SeeTraceAct : planification latente par visibilité à partir de vidéos de démonstration multi-corps

À lire aussi

WALA : apprendre des actions latentes exécutables à partir de démonstrations étiquetées et de vidéos sans action

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Planification du mouvement multi-robots à partir de la vision et du langage par diffusion inspirée de la chaleur

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude