Aller au contenu principal
HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique
RecherchearXiv cs.RO6sem

HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2602.11758v2) un framework baptisé HAIC, Humanoid Agile Object Interaction Control, destiné à doter les robots humanoïdes d'une capacité de manipulation d'objets à dynamique indépendante, sans recours à des capteurs externes d'état. Le système repose sur un prédicteur de dynamique qui estime la vitesse et l'accélération d'un objet en contact uniquement à partir de l'historique proprioceptif du robot, c'est-à-dire ses propres données articulaires, sans caméra ni lidar dédié à l'objet. Ces estimations sont projetées sur des priors géométriques statiques pour générer une carte d'occupation dynamique spatialement ancrée, permettant au contrôleur d'inférer les limites de collision et les affordances de contact même dans les zones de l'espace occultées. Les tâches validées expérimentalement sur robot humanoïde incluent le skateboard, la poussée et traction de chariot sous charges variables, et le transport d'un carton sur terrain irrégulier avec plusieurs objets en interaction simultanée.

L'apport industriel de HAIC est de combler un angle mort structurel de la robotique humanoïde actuelle : la quasi-totalité des méthodes d'interaction humain-objet (HOI) supposent que l'objet est rigidement couplé au robot et entièrement actionné. Cette hypothèse exclut les objets sous-actionnés à dynamique propre, roues, chariots, caisses sur sol glissant, qui sont précisément les objets courants en entrepôt logistique ou en atelier industriel. En gérant les forces de couplage et les perturbations inertielles de façon proactive, HAIC réduit la dépendance aux capteurs périphériques coûteux et améliore la robustesse aux variations de charge. Le mécanisme d'apprentissage asymétrique (asymmetric fine-tuning), où le world model s'adapte en continu à la politique apprise, adresse directement le problème de distribution shift, un point de fragilité classique des pipelines sim-to-real.

La publication s'inscrit dans une course ouverte autour du contrôle whole-body pour humanoïdes, dominée par des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les travaux internes de Figure AI et Agility Robotics. HAIC se distingue en privilégiant une architecture model-based compacte plutôt qu'un grand modèle fondation, un choix de conception qui favorise la latence basse et l'embarquabilité. Le papier ne mentionne pas de partenaire industriel ni de timeline de déploiement ; il reste à ce stade une démonstration en laboratoire sur humanoïde non nommé, sans benchmark standardisé externe, ce qui rend la comparaison directe avec d'autres systèmes difficile à établir.

À lire aussi

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées
1arXiv cs.RO 

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées

Des chercheurs ont publié en juin 2026 sur arXiv (référence 2606.09286) VAIC, un cadre de contrôle unifié pour robots humanoïdes capable d'interagir avec des objets en milieu non structuré. La contribution principale est l'élimination de deux hypothèses restrictives qui limitent la transposition terrain des contrôleurs existants : les trajectoires de référence denses et l'observabilité complète de l'état. VAIC opère exclusivement à partir d'un flux de profondeur embarqué et de la proprioception historique, via une interface de commandes découplées composée de cibles de vitesse multi-axes et d'un indicateur d'interaction par segment corporel. L'apprentissage suit un paradigme de distillation en deux étapes : une politique "enseignant" privilégiée, entraînée avec accès complet à la cinématique des objets et à l'état environnemental exact, transfère ses compétences à une politique "étudiant" déployable qui reconstruit implicitement la dynamique des objets depuis le flux de profondeur brut via un module d'adaptation récurrent. Sur robot humanoïde (non nommé dans le preprint), cette politique unique exécute en conditions réelles trois familles de tâches dynamiques : transport de carton, interaction avec un chariot, et skateboard, surpassant selon les auteurs les approches baseline comparées. Ce résultat, s'il se confirme à plus grande échelle, adresse directement le "deployment gap" qui freine la commercialisation des humanoïdes : la quasi-totalité des démos publiques repose encore sur des systèmes de capture de mouvement externe ou sur des objets instrumentés avec tracking précis. Proposer une politique unique généraliste, sans trajectoires de référence et fonctionnant sur capteurs embarqués bas coût, réduirait significativement la friction d'intégration pour les opérateurs industriels et les intégrateurs robotiques. La distillation enseignant-étudiant avec module d'adaptation récurrent n'est pas une architecture inédite, mais son application à des tâches aussi hétérogènes sur un humanoïde réel constitue un pas mesurable vers la généralisation. À noter que le preprint ne fournit ni métriques de cycle time par tâche, ni taux de succès quantifiés, ni spécification du robot utilisé, ce qui limite l'évaluation indépendante des performances annoncées. Ce travail s'inscrit dans une course aux contrôleurs généralisés qui oppose des équipes académiques (Berkeley, CMU, ETH Zurich) aux acteurs commerciaux : Figure Robotics avec son pipeline VLA sur Figure 02/03, Physical Intelligence et sa politique Pi-0, 1X Technologies et Unitree, tous actifs simultanément sur le sim-to-real et les architectures polyvalentes. L'approche de VAIC, centrée sur la profondeur et la proprioception plutôt que sur les vision-language models à grande échelle, constitue un positionnement différenciant en termes de coût de calcul embarqué et de simplicité sensorielle. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé dans ce preprint : il s'agit à ce stade d'une démonstration de recherche, dont la validation sur plusieurs plateformes robotiques et environnements variés reste entièrement à mener.

RecherchePaper
1 source
EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes
2arXiv cs.RO 

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (réf. 2606.08495) EgoPriMo, un cadre unifié d'apprentissage de prior de mouvement pour robots humanoïdes, entraîné exclusivement à partir de démonstrations humaines en vue égocentrique (caméra portée sur la personne). Le système prend en entrée une séquence vidéo égocentrique et un prompt texte, puis reconstruit, génère ou prédit des mouvements corps entier au format SMPL (Skinned Multi-Person Linear model, le standard académique de représentation du squelette humain). L'architecture centrale est un Triple-stream Diffusion Transformer (DiT) qui modélise conjointement la dynamique corporelle, le contexte visuel égocentriique et le langage naturel via un seul checkpoint partagé, des masques de conditionnement de tâche routant les trois cas d'usage sans architecture distincte. Évalué sur les datasets Nymeria et EgoExo4D, EgoPriMo surpasse UniEgoMotion sur la génération égocentrique, et les trajectoires SMPL produites ont été exécutées avec succès sur le contrôleur humanoïde Unitree (probablement G1 ou H1). Il s'agit d'un papier de recherche, pas d'un déploiement industriel. L'intérêt de cette approche tient à son vecteur de données : les vidéos égocentrique humaines (Nymeria, EgoExo4D) sont disponibles à grande échelle, contrairement aux démonstrations téléopérées sur robots qui restent coûteuses et lentes à collecter. En utilisant le langage comme signal de contrôle haut niveau plutôt que comme spécification complète du mouvement, EgoPriMo vise la généralisation comportementale sans avoir à décrire exhaustivement chaque trajectoire, ce qui est l'un des verrous historiques des systèmes VLA (Vision-Language-Action). Le fait qu'un seul checkpoint gère reconstruction, génération et prévision simplifie le déploiement et réduit la dette de maintenance. La validation sur Unitree démontre une transition sim-to-real partielle, bien qu'aucun chiffre de robustesse en environnement non contrôlé ne soit communiqué dans l'abstract. Ce travail s'inscrit dans une compétition dense autour des priors de mouvement pour humanoïdes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Figure (03) investissent massivement dans des pipelines VLA capables de généraliser à des tâches variées. L'originalité d'EgoPriMo est de contourner la dépendance aux données robot en exploitant l'observation humaine égocentrique, une direction explorée également par des travaux issus de CMU et Stanford sur l'imitation via vidéo. Le choix de Unitree comme cible hardware est cohérent avec sa diffusion large dans les labos académiques. Les prochaines étapes naturelles seraient une validation en environnement semi-industriel et une intégration dans une boucle de contrôle fermée, deux dimensions absentes de ce preprint.

RechercheOpinion
1 source
Le futur est-il compatible ? Diagnostic de la cohérence dynamique dans les modèles d'action du monde
3arXiv cs.RO 

Le futur est-il compatible ? Diagnostic de la cohérence dynamique dans les modèles d'action du monde

Une équipe de recherche a soumis le 12 mai 2026 sur arXiv (référence 2605.07514) une étude ciblant un angle mort des World Action Models (WAMs) : la cohérence dynamique entre les actions prédites et les transitions d'état qu'elles sont supposées engendrer. Les WAMs sont des modèles capables de générer des "rollouts" imaginés, c'est-à-dire des séquences futures simulées d'observations et d'actions, pour guider la prise de décision d'un agent robotique. Les auteurs montrent, à travers une étude systématique de modèles de joint-prediction et d'inverse-dynamics, que ces futurs imaginés peuvent être visuellement plausibles tout en étant dynamiquement incompatibles avec la séquence d'actions associée. Ils définissent formellement l'action-state consistency comme l'alignement entre les actions prédites et les transitions d'état induites, et établissent empiriquement que cette métrique distingue fiablement les rollouts réussis des rollouts échoués sur une large variété de tâches. En s'appuyant sur ces résultats, ils proposent une stratégie dite "value-free consensus" pour la sélection à l'inférence : les candidats rollouts sont classés par accord entre futurs prédits, sans recours à un modèle de récompense ni à un entraînement supplémentaire. Cette stratégie améliore les taux de succès sur les benchmarks RoboCasa et RoboTwin 2.0. L'enjeu pratique est direct pour les équipes qui déploient des politiques basées sur des world models : une inconsistance action-état non détectée peut propager des erreurs tout au long d'une séquence planifiée, rendant les rollouts trompeurs même lorsqu'ils semblent visuellement convaincants. Le fait que la métrique suive des tendances similaires aux estimations de valeur apprises suggère qu'elle capture une structure pertinente pour la décision, au-delà du réalisme perceptif. La stratégie consensus sans valeur est notable car elle élimine le besoin d'un reward model, souvent coûteux à entraîner et fragile à distribuer, ce qui la rend directement utilisable dans des pipelines de déploiement existants. Les WAMs s'inscrivent dans le courant plus large des VLAs (Vision-Language-Action models) et des approches de planification par world model, où des systèmes comme DreamerV3 ou des dérivés de modèles de diffusion cherchent à faire planifier un agent dans un espace latent imaginé. Les benchmarks utilisés, RoboCasa et RoboTwin 2.0, sont des environnements de manipulation simulée de référence dans la communauté. Les auteurs identifient également un phénomène limite qu'ils nomment "background collapse" : les trajectoires échouées à faible dynamique peuvent paraître artificiellement cohérentes car prédire un futur statique est plus facile, ce qui constitue un biais à surveiller lors de l'utilisation de cette métrique. Les prochaines étapes naturelles seraient de valider la stratégie consensus sur des plateformes physiques et d'étendre l'analyse à des modèles de type diffusion policy.

RechercheActu
1 source
EA-WM : un modèle du monde génératif intégrant des champs d'action cinématique-visuel structurés
4arXiv cs.RO 

EA-WM : un modèle du monde génératif intégrant des champs d'action cinématique-visuel structurés

Des chercheurs ont déposé le 8 mai 2026 sur arXiv (2605.06192) un préprint présentant EA-WM (Event-Aware Generative World Model), un modèle de monde génératif pour la robotique fondé sur les modèles de diffusion vidéo préentraînés. L'originalité technique centrale réside dans l'introduction de "Structured Kinematic-to-Visual Action Fields" : plutôt que d'injecter les états articulaires ou les positions d'effecteur terminal sous forme de tokens abstraits de faible dimension, le modèle projette directement les actions et états cinématiques dans l'espace de la caméra cible, produisant une représentation géométriquement ancrée. Les auteurs introduisent également des blocs de fusion bidirectionnelle sensibles aux événements ("event-aware bidirectional fusion blocks"), qui modulent l'attention croisée entre branches et capturent les changements d'état des objets ainsi que la dynamique fine des interactions robot-objet. Évalué sur le benchmark WorldArena, EA-WM dépasse les baselines existantes par une marge que les auteurs qualifient de significative, sans préciser les écarts numériques dans l'abstract. L'enjeu est celui du "problème inverse" dans les world models robotiques : la plupart des approches actuelles traitent la génération vidéo comme une représentation auxiliaire au service de l'apprentissage de politiques, sans exploiter les signaux d'action pour guider la synthèse visuelle. EA-WM retourne cette perspective et produit des rollouts simulés qui préservent mieux la géométrie spatiale du robot et la dynamique des interactions, un défaut récurrent des world models qui génèrent des séquences visuellement plausibles mais cinématiquement incohérentes. Pour les équipes travaillant sur le sim-to-real, une meilleure fidélité géométrique dans les rollouts peut directement améliorer la qualité des politiques apprises sans données réelles supplémentaires, ce qui est l'un des arguments centraux de ce type d'approche. Les modèles de diffusion vidéo utilisés comme fondation pour les world models robotiques font l'objet d'une activité de recherche intense depuis 2024, avec des travaux comparables comme UniSim, IRASim ou Genie 2 de DeepMind. EA-WM se distingue par son traitement explicite de la géométrie cinématique projetée dans la vue caméra, là où la plupart des approches restent dans des espaces latents abstraits. Il s'agit strictement d'un article académique en préprint : aucun code public n'est mentionné, aucun partenariat industriel ni déploiement n'est annoncé. Les étapes suivantes attendues sont la validation sur des benchmarks de manipulation réels et l'intégration dans des pipelines de policy learning fondés sur des modèles VLA (Vision-Language-Action).

RechercheActu
1 source