VICX : manipulation robotique généralisable par…

HarmoWAM : la manipulation robotique généraliste

42

1arXiv cs.RO

HarmoWAM : la manipulation robotique généraliste

Une équipe de chercheurs a soumis HarmoWAM (arXiv:2605.10942) en mai 2026, un nouveau modèle d'action mondial (WAM) end-to-end pour le contrôle de robots manipulateurs. L'architecture unifie deux paradigmes antagonistes dans la littérature : l'"Imagine-then-Execute" (prédiction vidéo puis dynamique inverse), généralisable mais imprécis, et le "Joint Modeling" (actions et représentations visuelles comodélisées), précis mais limité à sa distribution d'entraînement. HarmoWAM combine un world model fournissant des priors physiques spatio-temporels, deux experts d'action complémentaires (un expert prédictif exploitant les dynamiques latentes, un expert réactif inférant les actions depuis l'évolution visuelle prédite), et un Process-Adaptive Gating Mechanism qui sélectionne automatiquement lequel activer selon la phase de la tâche. Sur six tâches réelles évaluées dans trois environnements jamais vus à l'entraînement, le système surpasse les meilleurs VLAs de 33 % et les WAMs concurrents de 29 % en généralisation zéro-shot. Le résultat stratégique n'est pas la performance brute, mais la capacité à généraliser sans réentraînement sur des configurations inédites -- le blocage central identifié par les intégrateurs industriels. Un robot précis en lab s'effondre dès qu'un fond, une position ou un objet change. En découplant transit généraliste et interaction précise, avec un mécanisme automatique pour basculer entre les deux selon la phase, HarmoWAM attaque directement le sim-to-real gap et la fragilité distributionnelle des VLAs actuels. Si ces gains se confirment sur des configurations plus variées, cela contredit l'hypothèse souvent défendue que précision et généralisation restent fondamentalement incompatibles à court terme. Les WAMs émergent comme alternative aux VLAs classiques, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), en intégrant explicitement un modèle prédictif du monde physique dans la boucle de contrôle. HarmoWAM cherche à réconcilier deux branches qui s'étaient développées séparément au sein de cette famille. L'article reste un preprint arXiv non encore évalué par les pairs, sans partenaire industriel cité ni calendrier de déploiement annoncé -- il s'agit donc d'une annonce de recherche, pas d'un produit shipé. Aucune entreprise française ou européenne n'est mentionnée dans les travaux. La prochaine étape naturelle serait une évaluation sur des benchmarks standardisés comme LIBERO ou RLBench, ainsi que des tâches longue durée multi-étapes, domaines où les WAMs montrent encore des limites reconnues.

IA physiqueOpinion

1 source

Représentations centrées sur l'objet pour une meilleure généralisation en manipulation robotique

44

2arXiv cs.RO

Représentations centrées sur l'objet pour une meilleure généralisation en manipulation robotique

Des chercheurs ont publié sur arXiv (2601.21416v2) une étude comparative sur les représentations visuelles utilisées pour entraîner des politiques de manipulation robotique. Le problème central : les robots peinent à généraliser lorsque les conditions visuelles changent, éclairage, textures ou présence d'objets parasites dans la scène. L'équipe a évalué trois familles de représentations extraites d'encodeurs pré-entraînés : les features globales (image résumée en un seul vecteur agrégé), les features denses (embedding par patch issu de la dernière couche de l'encodeur), et une approche intermédiaire baptisée SBOCR (Slot-Based Object-Centric Representations), qui regroupe ces features denses en un nombre fini d'entités "objet-like" via un mécanisme de slots. Testées sur une batterie de tâches de manipulation en simulation et en conditions réelles, allant de scénarios simples à complexes, les politiques SBOCR surpassent les deux autres familles en termes de généralisation, sans pré-entraînement spécifique à la tâche. Ce résultat intéresse directement les intégrateurs et équipes R&D en robotique : la principale cause d'échec en déploiement n'est pas la commande moteur, mais la robustesse perceptuelle aux conditions non vues à l'entraînement. Les features globales sacrifient le détail spatial ; les features denses transmettent trop d'information non pertinente (fond, reflets, distracteurs), dégradant la politique hors distribution. SBOCR agit comme un filtre structuré : en segmentant implicitement la scène en objets discrets, la représentation réduit le bruit transmis à la politique sans perdre les informations nécessaires à l'exécution de la tâche. C'est un signal significatif pour les architectures VLA (Vision-Language-Action), et cela valide empiriquement que la structure objet-centrique améliore la robustesse aux shifts visuels sans supervision supplémentaire. Ce travail s'inscrit dans la lignée des Slot Attention (Locatello et al., Google Brain, 2020). Dans le paysage concurrent, les politiques VLA majeures comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA) s'appuient majoritairement sur des features denses issues de ViT ou CLIP, sans structuration objet explicite. La question de l'intégration de SBOCR dans des architectures transformer de grande taille reste ouverte, notamment sur le plan du coût computationnel. Il s'agit d'un preprint arXiv sans évaluation par les pairs publiée à ce jour ; la scalabilité à des environnements industriels complexes, multi-objets et à fortes occlusions, reste à confirmer.

💬 Le problème de généralisation en robotique, c'est pas les moteurs, c'est la perception hors distribution. SBOCR montre qu'en structurant la scène en objets discrets plutôt qu'en features brutes, on gagne en robustesse visuelle sans aucun ré-entraînement spécifique. Pi-0 et GR00T N2 s'appuient encore sur des features denses, et si ce résultat tient à plus grande échelle, c'est un angle mort de design qu'il va falloir corriger.

IA physiqueOpinion

1 source

Vers une manipulation robotique généralisable dans des environnements dynamiques

40

3arXiv cs.RO

Vers une manipulation robotique généralisable dans des environnements dynamiques

Les chercheurs du consortium H-EmbodVis publient DOMINO, un jeu de données et un benchmark dédiés à la manipulation robotique dans des environnements dynamiques, où les objets à saisir bougent plutôt que de rester immobiles. L'ensemble couvre 35 tâches organisées par niveaux de complexité, plus de 110 000 trajectoires expertes et une suite d'évaluation multidimensionnelle. Parallèlement, l'équipe présente PUMA, une architecture Vision-Language-Action (VLA) conçue spécifiquement pour la dynamique de scène : elle combine un flux optique historique centré sur la scène avec des requêtes spécialisées ("world queries") qui anticipent implicitement l'état futur des objets. Résultat mesuré : un gain absolu de 6,3 points de taux de réussite par rapport aux modèles de référence, avec du code et des données disponibles sur GitHub (H-EmbodVis/DOMINO). L'enjeu dépasse la simple performance sur un benchmark académique. La plupart des modèles VLA actuels, du type de ceux qui alimentent les bras robotiques et les humanoïdes commercialisés, sont entraînés et évalués sur des scènes statiques, alors que les usages industriels réels impliquent souvent des objets en mouvement : pièces sur convoyeur, échanges main à main, tri en environnement encombré. Le papier documente que cette dépendance à l'observation mono-image limite le raisonnement spatio-temporel des modèles, ce qui explique un écart de performance encore mal quantifié entre démonstrations en laboratoire et déploiement réel. Les auteurs montrent aussi que l'entraînement sur données dynamiques améliore les représentations spatio-temporelles au point de bénéficier aux tâches statiques, un signal utile pour les équipes qui arbitrent leurs budgets de collecte de données. Ce travail s'inscrit dans la vague de modèles fondation pour la robotique (dans la lignée de familles comme Pi-0 ou GR00T) qui cherchent à généraliser au-delà des démonstrations scriptées. En publiant dataset, benchmark et code en open source, l'équipe positionne DOMINO comme une référence commune pour comparer les futurs VLA sur la dimension dynamique, un axe jusqu'ici sous-évalué par les benchmarks existants. Aucune date de déploiement industriel n'est annoncée, il s'agit pour l'instant d'une contribution de recherche destinée à orienter les prochains cycles d'entraînement des modèles de manipulation.

IA physiqueActu

1 source

Robot Control : un pré-entraînement vidéo-action natif pour un contrôle robotique généralisable

36

4arXiv cs.RO

Robot Control : un pré-entraînement vidéo-action natif pour un contrôle robotique généralisable

Une équipe de recherche présente, dans un preprint publié sur arXiv (arXiv:2607.08639v1), LingBot-VA 2.0, un modèle fondation vidéo-action conçu spécifiquement pour le contrôle robotique, en succession directe de LingBot-VA. Quatre changements architecturaux structurent cette évolution. D'abord, l'équipe abandonne les VAE classiques axés sur la reconstruction d'image au profit d'un tokenizer visuel-action sémantique, qui aligne les représentations visuelles à la fois sur le sens et sur l'action, ce qui améliore le suivi d'instructions et la précision des gestes lors de l'apprentissage de politiques. Ensuite, le modèle adopte un pré-entraînement causal from scratch plutôt qu'une architecture bidirectionnelle adaptée après coup, pour éviter l'oubli catastrophique observé lors de ce type d'adaptation. Troisième point, un backbone MoE (mixture of experts) épars permet d'augmenter la capacité du modèle sans alourdir l'inférence, condition nécessaire pour du contrôle à haute fréquence. Enfin, un schéma d'inférence asynchrone prédit les futurs états latents en parallèle de l'exécution des actions, en recalant chaque rollout sur la dernière observation via une dynamique prédictive apprise, pour du contrôle en boucle fermée temps réel. Le papier ne précise ni le nombre de degrés de liberté, ni le payload, ni les sites ou volumes de déploiement, ni de calendrier commercial. Cette publication s'inscrit dans la course aux modèles VLA (vision-language-action) pour la robotique généraliste, où l'enjeu central est de dépasser le simple réemploi de générateurs vidéo pensés pour le contenu numérique, souvent inadaptés à la physique du monde réel faute d'ancrage dans l'action. En traitant frontalement l'oubli catastrophique et le coût d'inférence, LingBot-VA 2.0 répond à deux limites fréquemment citées des modèles fondation robotiques actuels: la difficulté à tenir un contrôle réactif et la fragilité des architectures reconverties depuis la génération vidéo pure. LingBot-VA 2.0 vient after LingBot-VA, dans un paysage où rivalisent des modèles comme GR00T N2 (Nvidia), Helix (Figure) ou Pi-0 (Physical Intelligence). Le papier revendique une validation par déploiement réel et une généralisation few-shot sur des tâches de manipulation complexes, mais sans benchmark chiffré ni comparaison directe publiée à ce stade, la portée exacte de ces résultats reste à confirmer par des évaluations indépendantes.

IA physiqueActu

1 source

VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte

À lire aussi

HarmoWAM : la manipulation robotique généraliste

Représentations centrées sur l'objet pour une meilleure généralisation en manipulation robotique

Vers une manipulation robotique généralisable dans des environnements dynamiques

Robot Control : un pré-entraînement vidéo-action natif pour un contrôle robotique généralisable