Aller au contenu principal
VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées
RecherchearXiv cs.RO4h

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en juin 2026 sur arXiv (référence 2606.09286) VAIC, un cadre de contrôle unifié pour robots humanoïdes capable d'interagir avec des objets en milieu non structuré. La contribution principale est l'élimination de deux hypothèses restrictives qui limitent la transposition terrain des contrôleurs existants : les trajectoires de référence denses et l'observabilité complète de l'état. VAIC opère exclusivement à partir d'un flux de profondeur embarqué et de la proprioception historique, via une interface de commandes découplées composée de cibles de vitesse multi-axes et d'un indicateur d'interaction par segment corporel. L'apprentissage suit un paradigme de distillation en deux étapes : une politique "enseignant" privilégiée, entraînée avec accès complet à la cinématique des objets et à l'état environnemental exact, transfère ses compétences à une politique "étudiant" déployable qui reconstruit implicitement la dynamique des objets depuis le flux de profondeur brut via un module d'adaptation récurrent. Sur robot humanoïde (non nommé dans le preprint), cette politique unique exécute en conditions réelles trois familles de tâches dynamiques : transport de carton, interaction avec un chariot, et skateboard, surpassant selon les auteurs les approches baseline comparées.

Ce résultat, s'il se confirme à plus grande échelle, adresse directement le "deployment gap" qui freine la commercialisation des humanoïdes : la quasi-totalité des démos publiques repose encore sur des systèmes de capture de mouvement externe ou sur des objets instrumentés avec tracking précis. Proposer une politique unique généraliste, sans trajectoires de référence et fonctionnant sur capteurs embarqués bas coût, réduirait significativement la friction d'intégration pour les opérateurs industriels et les intégrateurs robotiques. La distillation enseignant-étudiant avec module d'adaptation récurrent n'est pas une architecture inédite, mais son application à des tâches aussi hétérogènes sur un humanoïde réel constitue un pas mesurable vers la généralisation. À noter que le preprint ne fournit ni métriques de cycle time par tâche, ni taux de succès quantifiés, ni spécification du robot utilisé, ce qui limite l'évaluation indépendante des performances annoncées.

Ce travail s'inscrit dans une course aux contrôleurs généralisés qui oppose des équipes académiques (Berkeley, CMU, ETH Zurich) aux acteurs commerciaux : Figure Robotics avec son pipeline VLA sur Figure 02/03, Physical Intelligence et sa politique Pi-0, 1X Technologies et Unitree, tous actifs simultanément sur le sim-to-real et les architectures polyvalentes. L'approche de VAIC, centrée sur la profondeur et la proprioception plutôt que sur les vision-language models à grande échelle, constitue un positionnement différenciant en termes de coût de calcul embarqué et de simplicité sensorielle. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé dans ce preprint : il s'agit à ce stade d'une démonstration de recherche, dont la validation sur plusieurs plateformes robotiques et environnements variés reste entièrement à mener.

À lire aussi

HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique
1arXiv cs.RO 

HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique

Des chercheurs ont publié sur arXiv (référence 2602.11758v2) un framework baptisé HAIC, Humanoid Agile Object Interaction Control, destiné à doter les robots humanoïdes d'une capacité de manipulation d'objets à dynamique indépendante, sans recours à des capteurs externes d'état. Le système repose sur un prédicteur de dynamique qui estime la vitesse et l'accélération d'un objet en contact uniquement à partir de l'historique proprioceptif du robot, c'est-à-dire ses propres données articulaires, sans caméra ni lidar dédié à l'objet. Ces estimations sont projetées sur des priors géométriques statiques pour générer une carte d'occupation dynamique spatialement ancrée, permettant au contrôleur d'inférer les limites de collision et les affordances de contact même dans les zones de l'espace occultées. Les tâches validées expérimentalement sur robot humanoïde incluent le skateboard, la poussée et traction de chariot sous charges variables, et le transport d'un carton sur terrain irrégulier avec plusieurs objets en interaction simultanée. L'apport industriel de HAIC est de combler un angle mort structurel de la robotique humanoïde actuelle : la quasi-totalité des méthodes d'interaction humain-objet (HOI) supposent que l'objet est rigidement couplé au robot et entièrement actionné. Cette hypothèse exclut les objets sous-actionnés à dynamique propre, roues, chariots, caisses sur sol glissant, qui sont précisément les objets courants en entrepôt logistique ou en atelier industriel. En gérant les forces de couplage et les perturbations inertielles de façon proactive, HAIC réduit la dépendance aux capteurs périphériques coûteux et améliore la robustesse aux variations de charge. Le mécanisme d'apprentissage asymétrique (asymmetric fine-tuning), où le world model s'adapte en continu à la politique apprise, adresse directement le problème de distribution shift, un point de fragilité classique des pipelines sim-to-real. La publication s'inscrit dans une course ouverte autour du contrôle whole-body pour humanoïdes, dominée par des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les travaux internes de Figure AI et Agility Robotics. HAIC se distingue en privilégiant une architecture model-based compacte plutôt qu'un grand modèle fondation, un choix de conception qui favorise la latence basse et l'embarquabilité. Le papier ne mentionne pas de partenaire industriel ni de timeline de déploiement ; il reste à ce stade une démonstration en laboratoire sur humanoïde non nommé, sans benchmark standardisé externe, ce qui rend la comparaison directe avec d'autres systèmes difficile à établir.

RechercheActu
1 source
EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes
2arXiv cs.RO 

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (réf. 2606.08495) EgoPriMo, un cadre unifié d'apprentissage de prior de mouvement pour robots humanoïdes, entraîné exclusivement à partir de démonstrations humaines en vue égocentrique (caméra portée sur la personne). Le système prend en entrée une séquence vidéo égocentrique et un prompt texte, puis reconstruit, génère ou prédit des mouvements corps entier au format SMPL (Skinned Multi-Person Linear model, le standard académique de représentation du squelette humain). L'architecture centrale est un Triple-stream Diffusion Transformer (DiT) qui modélise conjointement la dynamique corporelle, le contexte visuel égocentriique et le langage naturel via un seul checkpoint partagé, des masques de conditionnement de tâche routant les trois cas d'usage sans architecture distincte. Évalué sur les datasets Nymeria et EgoExo4D, EgoPriMo surpasse UniEgoMotion sur la génération égocentrique, et les trajectoires SMPL produites ont été exécutées avec succès sur le contrôleur humanoïde Unitree (probablement G1 ou H1). Il s'agit d'un papier de recherche, pas d'un déploiement industriel. L'intérêt de cette approche tient à son vecteur de données : les vidéos égocentrique humaines (Nymeria, EgoExo4D) sont disponibles à grande échelle, contrairement aux démonstrations téléopérées sur robots qui restent coûteuses et lentes à collecter. En utilisant le langage comme signal de contrôle haut niveau plutôt que comme spécification complète du mouvement, EgoPriMo vise la généralisation comportementale sans avoir à décrire exhaustivement chaque trajectoire, ce qui est l'un des verrous historiques des systèmes VLA (Vision-Language-Action). Le fait qu'un seul checkpoint gère reconstruction, génération et prévision simplifie le déploiement et réduit la dette de maintenance. La validation sur Unitree démontre une transition sim-to-real partielle, bien qu'aucun chiffre de robustesse en environnement non contrôlé ne soit communiqué dans l'abstract. Ce travail s'inscrit dans une compétition dense autour des priors de mouvement pour humanoïdes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Figure (03) investissent massivement dans des pipelines VLA capables de généraliser à des tâches variées. L'originalité d'EgoPriMo est de contourner la dépendance aux données robot en exploitant l'observation humaine égocentrique, une direction explorée également par des travaux issus de CMU et Stanford sur l'imitation via vidéo. Le choix de Unitree comme cible hardware est cohérent avec sa diffusion large dans les labos académiques. Les prochaines étapes naturelles seraient une validation en environnement semi-industriel et une intégration dans une boucle de contrôle fermée, deux dimensions absentes de ce preprint.

RechercheOpinion
1 source
AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents
3arXiv cs.RO 

AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents

Une équipe de chercheurs a présenté AGILE (arXiv:2602.04672v3), un framework de reconstruction d'interactions dynamiques main-objet à partir de vidéos monoculaires, ciblant deux applications majeures : la collecte de données pour la manipulation dextère en robotique et la création de jumeaux numériques pour la simulation et la réalité virtuelle. La méthode s'attaque à deux verrous techniques qui paralysent les approches existantes : d'une part, le rendu neuronal classique produit sous forte occultation des géométries fragmentées, inutilisables directement en simulation physique ; d'autre part, l'initialisation par Structure-from-Motion (SfM) est notoriellement fragile sur des vidéos captées en conditions réelles. AGILE bascule du paradigme de reconstruction vers ce que les auteurs appellent une "génération agentique" : un Vision-Language Model (VLM) pilote un modèle génératif pour synthétiser un mesh objet complet, fermé (watertight) et texturé haute fidélité, sans dépendre du contenu vidéo occulté. Une stratégie dite "anchor-and-track" initialise la pose de l'objet sur une unique frame d'interaction via un modèle fondation, puis propage cette pose temporellement en exploitant la similarité visuelle entre l'asset généré et les frames vidéo. Une optimisation finale dite contact-aware intègre des contraintes sémantiques, géométriques et de stabilité d'interaction pour garantir la plausibilité physique. Sur les benchmarks HO3D, DexYCB et ARCTIC, AGILE surpasse les baselines en précision géométrique globale. L'intérêt industriel de cette approche réside dans la production d'assets directement exploitables en simulation, une propriété validée par les auteurs via du retargeting real-to-sim pour des applications robotiques. C'est précisément le point de friction qui freinait l'adoption des pipelines de reconstruction vidéo dans les boucles d'entraînement de politiques de manipulation : les meshes obtenus par NeRF ou reconstruction multi-vues classique nécessitaient un travail de remaillage manuel avant d'être injectables dans un moteur physique comme MuJoCo ou Isaac Sim. En contournant le SfM, AGILE devient également utilisable sur des données de terrain non contrôlées, ce qui ouvre la voie à la collecte passive de démos humaines à grande échelle, un prérequis pour les approches VLA (Vision-Language-Action) qui peinent encore à obtenir suffisamment de trajectoires dextères annotées. Le problème de la reconstruction main-objet est étudié depuis plusieurs années, avec des datasets de référence comme HO-3D (2020) et DexYCB (2021), et des méthodes basées sur les modèles paramétriques MANO pour la main. L'originalité d'AGILE est de déporter la reconstruction de l'objet vers une génération guidée, plutôt que de l'estimer directement depuis le signal vidéo dégradé. Les concurrents directs sont les méthodes NeRF-based adaptées aux scènes dynamiques (D-NeRF, HO-NeRF) et les pipelines SfM+MVS classiques, tous sensibles aux occultations. Du côté des acteurs industriels, cette direction intéresse directement les équipes travaillant sur la télé-opération et l'imitation learning pour bras robotiques dextères, notamment chez Dexterous Robotics, Physical Intelligence (Pi) ou les labos académiques proches de Figure et Apptronik. Le projet dispose d'une page dédiée (agile-hoi.github.io) ; aucun code ni dataset supplémentaire n'est annoncé à ce stade.

RecherchePaper
1 source
Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation
4arXiv cs.RO 

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation

Une étude soumise en mai 2025 sur arXiv (référence 2605.00963) présente une analyse par ablation d'un système de manipulation robotique piloté par interaction homme-robot multimodale, appliqué à une tâche de détection et saisie d'objets. Les chercheurs ont ciblé trois modules du pipeline : le modèle de langage chargé d'extraire les actions à partir d'instructions verbales, le système de perception assurant l'ancrage visuel des objets cibles, et le contrôleur gérant l'exécution du mouvement. L'étude compare trois LLM distincts, cinq configurations de perception, et trois contrôleurs, avant de soumettre les meilleures combinaisons à une analyse factorielle croisée en seconde phase. L'objectif déclaré n'est pas de redessiner le pipeline, mais d'isoler la contribution de chaque composant sous un protocole expérimental commun. Cette approche répond à une question directement actionnable pour les intégrateurs et ingénieurs robotiques : quel module optimiser en priorité pour améliorer le taux de succès, et lequel pour réduire le temps d'exécution ? Dans un contexte industriel, ces deux métriques obéissent à des contraintes distinctes selon les postes de travail, et les confondre dans une évaluation globale masque les vrais leviers d'amélioration. La méthodologie par ablation reste encore rare dans les publications de manipulation robotique, où la tendance est d'évaluer un seul composant à la fois, ce qui rend les résultats difficiles à reproduire ou à transposer d'un système à l'autre. Les auteurs précisent que l'analyse vise aussi à orienter les choix d'ingénierie dans les prochaines versions du système. Ce travail s'inscrit dans un effort plus large de la communauté pour rendre opérationnels les pipelines de manipulation guidés par langage hors des environnements contrôlés de laboratoire. Sur le plan concurrentiel, deux écoles s'affrontent actuellement : les modèles unifiés de type VLA (Vision-Language-Action) entraînés à grande échelle, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, et les pipelines modulaires qui préservent la séparabilité des composants pour faciliter le débogage et l'adaptation sectorielle. L'étude n'annonce pas de déploiement industriel et reste pour l'instant au stade de la validation expérimentale. La prochaine étape logique serait de tester si les gains mesurés en laboratoire résistent au sim-to-real gap, qui demeure le principal obstacle à la mise en production des systèmes de manipulation guidés par instructions en langage naturel.

RecherchePaper
1 source