
HarmoWAM : harmoniser manipulation généraliste et précise grâce aux modèles d'action du monde adaptatifs
Une équipe de chercheurs a soumis HarmoWAM (arXiv:2605.10942) en mai 2026, un nouveau modèle d'action mondial (WAM) end-to-end pour le contrôle de robots manipulateurs. L'architecture unifie deux paradigmes antagonistes dans la littérature : l'"Imagine-then-Execute" (prédiction vidéo puis dynamique inverse), généralisable mais imprécis, et le "Joint Modeling" (actions et représentations visuelles comodélisées), précis mais limité à sa distribution d'entraînement. HarmoWAM combine un world model fournissant des priors physiques spatio-temporels, deux experts d'action complémentaires (un expert prédictif exploitant les dynamiques latentes, un expert réactif inférant les actions depuis l'évolution visuelle prédite), et un Process-Adaptive Gating Mechanism qui sélectionne automatiquement lequel activer selon la phase de la tâche. Sur six tâches réelles évaluées dans trois environnements jamais vus à l'entraînement, le système surpasse les meilleurs VLAs de 33 % et les WAMs concurrents de 29 % en généralisation zéro-shot.
Le résultat stratégique n'est pas la performance brute, mais la capacité à généraliser sans réentraînement sur des configurations inédites -- le blocage central identifié par les intégrateurs industriels. Un robot précis en lab s'effondre dès qu'un fond, une position ou un objet change. En découplant transit généraliste et interaction précise, avec un mécanisme automatique pour basculer entre les deux selon la phase, HarmoWAM attaque directement le sim-to-real gap et la fragilité distributionnelle des VLAs actuels. Si ces gains se confirment sur des configurations plus variées, cela contredit l'hypothèse souvent défendue que précision et généralisation restent fondamentalement incompatibles à court terme.
Les WAMs émergent comme alternative aux VLAs classiques, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), en intégrant explicitement un modèle prédictif du monde physique dans la boucle de contrôle. HarmoWAM cherche à réconcilier deux branches qui s'étaient développées séparément au sein de cette famille. L'article reste un preprint arXiv non encore évalué par les pairs, sans partenaire industriel cité ni calendrier de déploiement annoncé -- il s'agit donc d'une annonce de recherche, pas d'un produit shipé. Aucune entreprise française ou européenne n'est mentionnée dans les travaux. La prochaine étape naturelle serait une évaluation sur des benchmarks standardisés comme LIBERO ou RLBench, ainsi que des tâches longue durée multi-étapes, domaines où les WAMs montrent encore des limites reconnues.
Dans nos dossiers




