Aller au contenu principal
IA physiqueRobotics & Automation News1h

Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

L'Allen Institute for AI (Ai2), centre de recherche indépendant basé à Seattle et fondé par Paul Allen en 2014, a publié cette semaine MolmoAct 2, un modèle de fondation robotique open source conçu pour améliorer l'exécution de tâches physiques en environnement réel. Contrairement aux approches précédentes centrées sur des scénarios de laboratoire hautement contrôlés, MolmoAct 2 cible la généralisation à des environnements non structurés, en s'appuyant sur l'architecture multimodale de Molmo, le modèle vision-langage qu'Ai2 avait rendu public en 2024. Le modèle est diffusé sous licence ouverte, avec poids et code disponibles publiquement.

L'enjeu pour l'industrie est direct : les modèles de fondation robotiques à diffusion ouverte réduisent la barrière d'entrée pour les intégrateurs et les équipes R&D qui ne disposent pas des ressources pour entraîner des politiques de zéro. MolmoAct 2 s'inscrit dans la lignée des travaux sur les VLA (Vision-Language-Action models), une architecture qui couple perception visuelle, compréhension du langage naturel et génération de commandes motrices. L'ouverture du modèle permet des audits indépendants et une adaptation à des morphologies robotiques variées, ce qui est difficile avec des modèles propriétaires comme GR00T N2 de NVIDIA ou π0 de Physical Intelligence.

Ai2 est surtout connu pour ses contributions au NLP (AllenNLP, Semantic Scholar) avant de pivoter vers la robotique incarnée. MolmoAct 2 le place directement en concurrence avec les initiatives open source existantes comme OpenVLA (Berkeley) et les modèles RT-X de Google DeepMind, dans un secteur où Physical Intelligence, Figure AI et 1X Technologies se disputent le leadership sur les déploiements industriels. L'article source étant partiellement tronqué, les métriques de performance (taux de succès, benchmarks sur manipulation) et les éventuels partenariats de déploiement n'ont pas pu être vérifiés.

Impact France/UE

Les équipes R&D et intégrateurs européens peuvent accéder librement aux poids et au code de MolmoAct 2, réduisant la dépendance aux modèles propriétaires américains pour le développement de politiques robotiques.

À lire aussi

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique
1arXiv cs.RO 

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2601.21926v3) une étude portant sur un défaut structurel des politiques visuomotrices par diffusion appliquées à la manipulation robotique. Ces architectures, fondées sur des représentations visuelles 3D et un décodeur de débruitage, sont aujourd'hui parmi les plus performantes pour apprendre des comportements complexes à un bras robotique. L'équipe identifie un problème précis : dans les architectures U-Net et DiT (Diffusion Transformer), les blocs intermédiaires du décodeur contiennent des features parasites, sans rapport avec la tâche à exécuter. La preuve expérimentale est frappante, masquer aléatoirement les features du backbone U-Net ou sauter des couches intermédiaires du DiT pendant l'inférence, sans aucune modification de l'entraînement, améliore les performances. Pour corriger cela, les auteurs proposent un module baptisé Variational Regularization (VR) : un composant plug-and-play qui impose une distribution gaussienne conditionnée au contexte sur les features bruitées, et applique un régulariseur KL-divergence formant un goulot d'information adaptatif. Les évaluations couvrent trois benchmarks de simulation, RoboTwin2.0, Adroit et MetaWorld, et des tests en conditions réelles. Ce travail remet en cause une hypothèse tacite du domaine : augmenter la capacité du modèle de débruitage améliore mécaniquement les résultats. Les auteurs montrent que c'est faux, et que la redondance dans les features intermédiaires est une source active de dégradation. L'approche VR, combinée aux architectures DP3-UNet et DP3-DiT, établit de nouveaux résultats état de l'art sur l'ensemble des benchmarks testés. Pour les intégrateurs et équipes R&D travaillant sur des politiques d'imitation ou de reinforcement learning pour la manipulation, l'intérêt est double : le module est réutilisable sans réentraînement complet, et le diagnostic (tester le masquage aléatoire à l'inférence) est immédiatement applicable pour auditer ses propres architectures. Ce type de recherche s'inscrit dans la lignée des travaux sur les diffusion policies initiés par Chi et al. (2023) et leur extension 3D (DP3), qui ont rapidement supplanté les approches behavior cloning classiques sur les tâches de manipulation fine. Sur ce terrain, les concurrents directs incluent les politiques basées sur les transformers de vision-action comme ACT (Action Chunking with Transformers) ou les approches Flow Matching comme Pi-0 de Physical Intelligence. La contribution ici n'est pas une nouvelle architecture de bout en bout, mais un correctif ciblé sur un problème de capacité mal calibrée, un angle plus susceptible d'être intégré rapidement dans des pipelines existants que de remplacer l'ensemble de la stack.

IA physiqueOpinion
1 source
OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste
2arXiv cs.RO 

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

OA-WAM (Object-Addressable World Action Model), soumis sur arXiv en mai 2025 (arXiv:2605.06481), propose une politique vision-langage-action (VLA) qui décompose chaque frame en N+1 "slots" d'état : un slot robot et N slots objets. Chaque slot combine un vecteur d'adresse persistant (identifiant stable de l'objet) et un vecteur de contenu variable décrivant son état courant. Ces représentations sont fusionnées avec des tokens textuels, visuels, proprioceptifs et d'actions dans une séquence causale par blocs, alimentant une tête "monde" (prédiction du frame suivant) et une tête d'action par flow-matching (chunk de 16 actions continues). Le modèle atteint 97,8 % de succès sur le benchmark LIBERO et 79,3 % sur SimplerEnv. Un test de "causal slot-intervention" mesure un cosinus de binding de 0,87 contre un maximum de 0,09 pour les baselines holistes, un écart difficile à ignorer. Le problème central est le "scene entanglement" : quand une politique représente l'évolution du monde comme une image globale ou des tokens vidéo, le décodeur d'action peine à cibler un objet précis dès que la scène varie (distracteurs, occlusions, changements d'éclairage). En séparant explicitement "quel objet" (l'adresse) de "comment il est" (le contenu), et en routant l'attention cross-slot via des clés d'adresse uniquement, l'architecture maintient l'identité des objets sous perturbations contextuelles sans surcoût en tokens. Pour un intégrateur B2B ou un COO industriel, c'est un argument concret vers des politiques robotiques stables face aux variations de ligne de production, sans retraining systématique à chaque changement de contexte. Les WAMs (World Action Models) sont une extension récente des VLA classiques (π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind) qui ajoutent une prédiction de scène en boucle fermée pour contraindre les décisions d'action. OA-WAM s'inscrit dans la lignée des modèles à slots (SAVi, IODINE) transposés au contrôle robot. Il s'agit d'un preprint académique : toutes les évaluations sont conduites en simulation (LIBERO, SimplerEnv), sans validation sur robot physique mentionnée. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade. La prochaine étape logique sera la validation sim-to-real sur manipulateurs réels et l'extension à des tâches de manipulation longue durée.

IA physiqueOpinion
1 source
Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne
3arXiv cs.RO 

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

Une équipe de chercheurs publie sur arXiv (réf. 2604.03540, version 3) un cadre en deux étapes baptisé Drift-Based Policy Optimization (DBPO), conçu pour ramener les politiques génératives de manipulation robotique à une seule passe de réseau au moment de l'inférence. La première brique, la Drift-Based Policy (DBP), exploite des objectifs de "fixed-point drifting" pour internaliser le raffinement itératif directement dans les paramètres du modèle pendant l'entraînement, supprimant ainsi le besoin de débruitage multi-étapes à l'exécution. La seconde brique, DBPO, greffe sur ce backbone une interface stochastique compatible avec le renforcement en ligne, autorisant des mises à jour on-policy stables sans sacrifier la propriété de déploiement en une étape. Sur un robot bi-bras réel, le système atteint 105,2 Hz en boucle fermée, soit une fréquence comparable aux contrôleurs industriels classiques. Sur les benchmarks de manipulation, DBP égale ou dépasse les politiques de diffusion multi-étapes tout en réduisant le coût d'inférence jusqu'à un facteur 100 en nombre d'évaluations réseau (NFEs). Ce résultat touche directement l'un des verrous les plus concrets du déploiement de politiques diffusion en robotique : le coût computationnel à l'inférence. Les politiques de diffusion actuelles (Diffusion Policy, Chi et al., 2023) nécessitent typiquement 10 à 100 NFEs par action, ce qui les rend incompatibles avec du contrôle haute fréquence sans accélérateur dédié. Transférer ce coût vers l'entraînement plutôt que l'inférence change le profil économique du déploiement : un robot en production n'a plus besoin de GPU haut de gamme pour tourner en temps réel. Par ailleurs, coupler une politique one-step avec du renforcement en ligne ouvre la voie à une adaptation continue post-déploiement, hypothèse clé pour les environnements industriels non-structurés. Les politiques de diffusion pour la manipulation ont émergé comme référence de facto depuis 2022-2023, portées par des travaux comme Diffusion Policy ou les architectures VLA de Physical Intelligence (pi0) et d'autres. La course à réduire leur latence a produit plusieurs approches concurrentes : distillation de consistance (Consistency Policy), flow matching en une étape (comme dans certaines variantes de pi0-fast), ou encore les politiques à action chunking. DBPO s'inscrit dans cette compétition avec une approche qui revendique de préserver la modélisation multimodale tout en atteignant la vitesse des méthodes one-shot. Les prochaines étapes naturelles seraient un test à plus grande échelle de tâches et de morphologies robotiques, ainsi qu'une validation sur des plateformes humanoïdes telles que celles de Figure AI ou 1X Technologies, pour lesquelles la fréquence de contrôle est un critère de sécurité, pas seulement de performance.

UELes équipes de recherche et industriels européens en robotique manipulatrice pourraient réduire leurs besoins en accélérateurs GPU à l'inférence en adoptant cette approche, mais aucun acteur français ou européen n'est directement impliqué.

IA physiquePaper
1 source
Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique
4Robotics Business Review 

Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI, startup californienne fondée par Zhou Xian et basée à San Carlos, a dévoilé GENE-26.5, un modèle fondamental d'IA conçu pour la manipulation robotique dextre bimanuelle. Sortie de stealth l'an dernier avec une levée de 105 millions de dollars, l'entreprise annonce avoir résolu le principal verrou du secteur : le manque de données d'entraînement pour les tâches à haute dextérité. GENE-26.5 repose sur deux composants propriétaires : un moteur de données à grande échelle et une main robotique dimensionnée à l'échelle humaine, couplée à un gant de collecte doté d'une peau électronique tactile. Ce gant permet une correspondance 1:1:1 entre la main du démonstrateur, le gant et l'effecteur robotique, facilitant le transfert direct de compétences humaines vers le robot sans recodage. Pour illustrer les capacités du modèle, Genesis AI a publié des vidéos montrant la réalisation d'une recette en 20 étapes (découpe de tomates, cassage d'oeuf à une seule main, coordination bimanuelle), la préparation d'un smoothie avec service en vol, des expériences de laboratoire impliquant pipetage et transferts de liquides, du câblage de faisceaux électriques, la résolution d'un Rubik's Cube en manipulation aérienne, la préhension simultanée de quatre objets de tailles différentes, et l'interprétation d'une composition pianistique complexe. L'enjeu industriel est direct : le câblage de faisceaux électriques, désigné par l'entreprise comme "l'une des tâches les plus difficiles en électronique", représente des milliers de postes non automatisés dans les secteurs automobile et aérospatial, faute de robots capables de gérer la variabilité géométrique des fils. Si les performances démontrées se confirment hors conditions de laboratoire contrôlées - ce que des vidéos promotionnelles soigneusement sélectionnées ne permettent pas d'établir -, cela ouvrirait un marché significatif pour les intégrateurs cherchant à robotiser des tâches à haute variabilité morphologique. L'approche de Genesis AI vise à combler l'"embodiment gap" : l'écart de morphologie entre humain et robot qui a historiquement limité l'efficacité des modèles entraînés sur données humaines. L'investissement d'Eric Schmidt, ex-PDG de Google, dans la société souligne l'intérêt stratégique croissant pour ce segment au-delà du seul milieu robotique. Genesis AI s'inscrit dans une course à la manipulation dextre où plusieurs acteurs avancent en parallèle : Physical Intelligence avec son modèle Pi-0, Sanctuary AI et les équipes manipulation de Figure (Figure 03) et Tesla (Optimus Gen 3) développent également des architectures de type VLA (Vision-Language-Action) pour le contrôle fin des effecteurs. Genesis AI se distingue en concentrant son offre exclusivement sur la main et la manipulation bimanuelles, sans plateforme humanoide annoncée à ce stade. Le communiqué reste toutefois vague sur les suites opérationnelles : aucun pilote industriel nommé, aucune timeline de déploiement ni tarification n'est communiqué, ce qui place cette annonce clairement du côté de la démonstration technologique plutôt que du produit commercialisé.

IA physiqueOpinion
1 source