Aller au contenu principal

Dossier Physical Intelligence — π0 — page 2

100 articles · page 2 sur 2

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

Robot Talk, épisode 153 : des robots inspirés de l'origami, avec Chenying Liu
51Robohub RecherchePaper

Robot Talk, épisode 153 : des robots inspirés de l'origami, avec Chenying Liu

Chenying Liu, Junior Research Fellow et Associate Member of Faculty au Department of Engineering Science de l'Université d'Oxford, était l'invitée du 153e épisode du podcast Robot Talk pour présenter ses travaux sur l'intelligence physique incarnée (embodied physical intelligence). Sa recherche explore comment la forme physique d'un robot peut activement contribuer à la perception, au traitement de l'information, à la prise de décision et au mouvement, en s'inspirant notamment des principes géométriques de l'origami. L'épisode ne communique pas de métriques techniques précises, pas de charges utiles, de degrés de liberté ni de résultats expérimentaux chiffrés, ce qui le situe davantage dans la vulgarisation académique que dans l'annonce produit. L'approche d'Oxford que défend Liu représente un contrepoids notable au paradigme dominant du tout-logiciel : plutôt que de déléguer l'intelligence uniquement aux modèles de fondation et aux VLA (Vision-Language-Action models), l'idée est d'intégrer la computation directement dans la géométrie et les matériaux du robot. Cette co-conception mécanique-contrôle promet des systèmes plus robustes et plus efficaces en énergie, particulièrement pertinents pour des environnements non structurés où les modèles sim-to-real peinent encore. Ce courant de recherche, parfois appelé morphological computation ou soft robotics computationnelle, est actif dans plusieurs laboratoires mondiaux, MIT CSAIL, ETH Zurich, EPFL, ainsi qu'en France au CNRS LIRMM et à l'INRIA. Oxford se positionne ici via une chercheuse indépendante dont le programme, encore jeune, n'a pas encore de partenaires industriels publiquement annoncés. La prochaine étape naturelle serait une publication de résultats expérimentaux ou un prototype démontrant le gain d'autonomie promis par cette philosophie de conception.

UELe CNRS LIRMM et l'INRIA sont cités comme acteurs du courant de computation morphologique, mais l'épisode de podcast n'a pas d'impact opérationnel direct sur l'écosystème français.

1 source
Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes
52arXiv cs.RO 

Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes

Une équipe de chercheurs a soumis sur arXiv (ref. 2604.05673, v2, avril 2026) un cadre baptisé Rectified Schrödinger Bridge Matching (RSBM), visant à réduire drastiquement le coût d'inférence des politiques génératives de navigation visuelle. Les modèles basés sur la diffusion ou les ponts de Schrödinger (SB) capturent fidèlement les distributions d'actions multimodales mais exigent dix étapes d'intégration ou plus, incompatibles avec le contrôle robotique temps-réel. RSBM unifie les SB standard (ε=1, entropie maximale) et le transport optimal déterministe (ε→0, comme en Conditional Flow Matching) via un unique paramètre de régularisation entropique ε. Les auteurs démontrent que le champ de vitesse conditionnel conserve la même forme fonctionnelle sur tout le spectre ε (un seul réseau suffit pour toutes les intensités de régularisation) et que réduire ε diminue linéairement la variance du champ, stabilisant l'intégration ODE à pas larges. Résultat : 94 % de similarité cosinus et 92 % de taux de réussite en 3 étapes seulement, sans distillation ni entraînement multi-étapes. Ce résultat s'attaque directement au goulot d'étranglement des politiques VLA (Vision-Language-Action) en déploiement industriel. Les architectures de diffusion embarquées dans les robots manipulateurs et humanoïdes actuels (π0 de Physical Intelligence, GR00T N2 de NVIDIA) plafonnent leur fréquence de contrôle à cause du nombre d'étapes de dénoising requises. Passer de dix à trois étapes sans distillation, technique qui ajoute un cycle d'entraînement coûteux et instable, ouvre la voie à des politiques embarquables sur matériel edge standard sans GPU serveur dédié. Limite à noter : les expériences portent sur des benchmarks de navigation visuelle simulés ; le transfert sim-to-real n'est pas validé dans cette publication. RSBM s'inscrit dans la continuité de travaux sur l'accélération du sampling génératif : Rectified Flow (Liu et al., 2022), Consistency Models, et l'application des ponts de Schrödinger au contrôle robotique étudiée par des groupes à Stanford et CMU. Face au Conditional Flow Matching de Meta AI, rapide mais moins expressif face aux distributions fortement multimodales, RSBM revendique un équilibre théoriquement fondé entre vitesse et couverture multimodale. Aucune implémentation open-source ni déploiement hardware n'est annoncé à ce stade. Les suites probables incluent une validation sur tâches de manipulation réelles et une comparaison directe avec des méthodes de distillation rapide comme le Shortcut Model de Physical Intelligence.

RechercheOpinion
1 source
Planification VLA à horizon étendu par conditionnement sur traces
53arXiv cs.RO 

Planification VLA à horizon étendu par conditionnement sur traces

Une équipe de chercheurs a publié en avril 2026 LoHo-Manip (arXiv:2604.21924), un cadre modulaire conçu pour étendre les politiques VLA (vision-language-action) aux tâches de manipulation longue durée. Le coeur du système repose sur une architecture découplée : un VLM gestionnaire de tâches et un VLA exécuteur distincts. Le gestionnaire opère selon un principe de planification à horizon glissant (receding-horizon) : à chaque étape, il prédit un plan résiduel combinant une séquence de sous-tâches avec une séparation explicite "fait / restant" comme mémoire légère en langage naturel, et une trace visuelle, une trajectoire 2D de points-clés indiquant au bras où se déplacer et quel objet approcher. L'exécuteur VLA est ensuite conditionné sur cette trace rendue pour produire ses commandes motrices. Les expériences couvrent la planification incarnée, le raisonnement longue portée, la prédiction de trajectoire et la manipulation bout-en-bout, à la fois en simulation et sur un robot Franka réel, avec des gains annoncés en taux de succès, robustesse et généralisation hors distribution. Les métriques précises ne sont pas communiquées dans le préprint. Ce qui distingue LoHo-Manip des approches VLA classiques, c'est le bouclage implicite sans logique de récupération codée en dur : lorsqu'une sous-tâche échoue, elle reste dans le plan résiduel prédit au pas suivant, et la trace visuelle se met à jour automatiquement. Les modèles VLA actuels comme pi0 (Physical Intelligence) ou OpenVLA peinent sur les séquences multi-étapes en raison de l'accumulation d'erreurs d'exécution ; LoHo-Manip traite ce problème en transformant la prise de décision longue portée en une série de contrôles locaux guidés par trace. Pour un intégrateur industriel, cela ouvre la voie à des chaînes de manipulation complexes (assemblage séquentiel, tri multi-objets) sans reprogrammation manuelle à chaque point de défaillance, ce que les approches purement symboliques ne permettent pas sans pipeline rigide. Le problème de la manipulation longue portée est un obstacle structurel de la robotique VLA depuis l'émergence des modèles fondationnels en action, notamment après les travaux RT-2 de Google DeepMind (2023) et pi0 de Physical Intelligence (2024). La plupart des solutions actuelles combinent un planificateur symbolique haut niveau avec des primitives de bas niveau, au prix d'une rigidité importante face aux perturbations. LoHo-Manip adopte une voie intermédiaire en ancrant le plan dans une modalité visuelle légère (la trace 2D) plutôt que dans des primitives figées, ce qui est comparable dans l'esprit aux travaux de trajecto-conditioned diffusion de chez Nvidia (GR00T) ou de Cobot Magic. Il s'agit pour l'instant d'un preprint non relu par les pairs, validé sur un seul robot académique (Franka 7 DOF), sans déploiement industriel ni pilote annoncé. Les prochaines étapes crédibles passeraient par une validation sur des manipulateurs à plus haute redondance et des environnements moins structurés.

IA physiqueOpinion
1 source
Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels
54arXiv cs.RO 

Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels

Un préprint déposé le 24 avril 2026 sur arXiv (réf. 2604.21391) présente ResVLA, une nouvelle architecture de politique VLA (Vision-Language-Action) pour le contrôle robotique. Le problème ciblé est le décalage spatiotemporel entre compréhension sémantique de haut niveau et contrôle physique de bas niveau : les VLA actuels génèrent des actions directement "à partir du bruit" (paradigme Generation-from-Noise), produisant une inefficacité de représentation et un alignement faible avec les instructions. ResVLA bascule vers un paradigme "Refinement-from-Intent" : via une analyse spectrale, le mouvement robotique est décomposé en une composante déterministe basse fréquence (l'intention globale) et une composante stochastique haute fréquence (la dynamique locale). Un pont de diffusion résiduel affine ensuite uniquement cette dynamique locale, ancré sur l'intention prédite. Les résultats déclarés incluent une convergence plus rapide que les baselines génératives standards, une robustesse aux perturbations linguistiques et aux variations d'embodiment, et des performances validées en conditions réelles, bien que le papier ne précise pas les plateformes matérielles testées ni les métriques exactes de déploiement physique. Ce travail s'attaque à une limite structurelle des VLA génératifs : ignorer la hiérarchie naturelle du mouvement nuit à l'alignement entre instruction et action. La robustesse à l'embodiment est un point concret pour les intégrateurs travaillant sur des flottes robotiques hétérogènes, où réentraîner un modèle complet par plateforme représente un coût prohibitif. La validation partielle en conditions réelles renforce la crédibilité de l'approche, même si l'absence de métriques détaillées (taux de succès par tâche, temps de cycle, nombre de démos d'entraînement) invite à la prudence avant d'extrapoler les résultats de simulation vers des déploiements industriels. Ce préprint s'inscrit dans une dynamique de recherche intense autour des VLA généralistes. Pi-0 de Physical Intelligence, OpenVLA (UC Berkeley) et les travaux RT-2 de Google DeepMind constituent les références immédiates du domaine. L'approche par résidu spectral est conceptuellement distincte des architectures de diffusion uniformes, mais ResVLA reste une contribution académique sans code public ni produit annoncé. La prochaine étape sera de voir si l'approche se confirme sur des benchmarks partagés comme LIBERO ou BridgeData V2, et si elle influence des frameworks ouverts comme LeRobot de Hugging Face, qui fédère une partie importante de la communauté robotique open-source.

UEImpact indirect et spéculatif : si ResVLA est validé sur des benchmarks partagés, LeRobot (Hugging Face, France) pourrait intégrer cette approche résiduelle, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

RechercheOpinion
1 source
GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle
55arXiv cs.RO 

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

Des chercheurs ont soumis sur arXiv (arXiv:2604.19522) un framework baptisé GenerativeMPC, destiné aux robots manipulateurs mobiles bimanaux. Le système articule un modèle de vision-langage couplé à une génération augmentée par récupération (VLM-RAG) avec un contrôleur prédictif sur le corps entier (Whole-Body MPC). Concrètement, le module VLM-RAG analyse la scène en temps réel, visuellement et en langage naturel, puis génère des contraintes de contrôle numériques directement exploitables: limites de vitesse dynamiques et marges de sécurité injectées dans le MPC. Parallèlement, il module les gains de raideur et d'amortissement virtuels d'un contrôleur impédance-admittance unifié pour adapter la compliance du robot au contexte. Les expériences menées dans les simulateurs MuJoCo et IsaacSim, puis sur une plateforme physique bimanuale, font état d'une réduction de vitesse de 60% à proximité des humains. Le système s'appuie sur une base de données vectorielle alimentée par l'expérience passée, ce qui permet d'ancrer les paramètres de contrôle sans ré-entraînement du modèle. L'enjeu architectural est significatif pour les intégrateurs et les décideurs industriels. Les approches end-to-end de type VLA, comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), délèguent entièrement la traduction sémantique-physique au réseau neuronal, rendant les garanties de sécurité difficiles à certifier formellement. GenerativeMPC propose une architecture hybride explicite: le grand modèle raisonne sur le contexte (présence humaine, nature de la tâche) et produit des paramètres numériques interprétables qui alimentent un MPC classique au comportement auditable et déterministe. Pour les secteurs à forte contrainte réglementaire, c'est un argument de poids. La réduction de 60% reste cependant une métrique à contextualiser: le papier ne précise pas la vitesse de référence initiale ni les conditions exactes des essais physiques, un bémol courant dans les publications de ce type. La manipulation mobile bimanuale est l'un des problèmes ouverts les plus exigeants de la robotique collaborative, coincé entre contrôleurs classiques contextuellement aveugles et modèles end-to-end difficilement certifiables. L'utilisation du RAG pour paramétrer des contrôleurs physiques est une direction de recherche émergente, distincte de l'apprentissage par renforcement. Dans l'écosystème concurrent, Figure AI (Figure 03), Boston Dynamics (Atlas) et 1X Technologies explorent des architectures hybrides pour des tâches bimanales. En Europe, Enchanted Tools (France) et des laboratoires comme le LAAS-CNRS avancent sur des architectures de contrôle sûres pour la collaboration humain-robot. GenerativeMPC reste pour l'instant un résultat de recherche académique sans déploiement industriel annoncé, mais son approche explicitement certifiable ouvre des perspectives concrètes pour la logistique collaborative et la robotique médicale.

UELe LAAS-CNRS et Enchanted Tools (France) travaillent sur des architectures de contrôle sûres similaires ; l'approche hybride certifiable de GenerativeMPC pourrait renforcer le positionnement européen dans les débats réglementaires sur la certification des robots collaboratifs au titre de l'AI Act.

RechercheOpinion
1 source
Contrôle d'admittance sensible aux torseurs pour la manipulation de charges utiles inconnues
56arXiv cs.RO 

Contrôle d'admittance sensible aux torseurs pour la manipulation de charges utiles inconnues

En avril 2026, des chercheurs ont présenté sur arXiv (réf. 2604.19469) un framework de contrôle en admittance pour la manipulation robotique d'objets à masse inconnue, validé expérimentalement sur un bras UR5e de Universal Robots. Lorsque le centre de masse d'un objet saisi ne coïncide pas avec le point central outil (TCP), la charge génère un couple parasite au poignet, amplifié par l'inertie de l'objet pendant le déplacement. Sans compensation, ce couple est interprété par le contrôleur comme une force d'interaction extérieure, déclenchant des déviations de trajectoire, des erreurs de suivi et une précision de dépose dégradée. La solution exploite le capteur force-couple du poignet selon deux modes séquentiels : une excitation translationnelle sur trois axes atténue l'effet de la charge en transit sans raidir le robot, puis, après la saisie, le contrôleur estime successivement la masse de l'objet et l'offset de son centre de masse par rapport au TCP en analysant les mesures collectées lors du mouvement. Pour les intégrateurs industriels, ce travail cible un problème récurrent : adapter un cobot à des lignes à références multiples sans recalibration manuelle à chaque changement de produit. Les contrôleurs en admittance sont le standard de fait pour les applications collaboratives (ISO/TS 15066), mais leur sensibilité aux perturbations non modélisées au niveau du capteur de couple les rend fragiles sur des tâches d'empilage ou de palettisation à charges variables. La méthode démontre qu'il est possible de préserver la compliance mécanique, garante de la cohabitation humain-robot, tout en corrigeant activement les biais de charge, sans recours à l'apprentissage par renforcement. Les résultats expérimentaux indiquent des gains en transport et en précision de dépose par rapport à la commande non corrigée, bien que l'abstract ne fournisse pas de métriques quantitatives détaillées permettant d'évaluer l'ampleur réelle des améliorations. Le contrôle en admittance, formalisé par Neville Hogan au MIT dans les années 1980, est aujourd'hui intégré nativement dans les plateformes Universal Robots et Franka Robotics. Ce travail s'inscrit dans un courant concurrent des approches VLA (vision-language-action) portées par Physical Intelligence (pi-0) ou Google DeepMind, qui misent sur l'apprentissage massif plutôt que sur la modélisation analytique de la physique. L'avantage différenciant de cette approche est sa traçabilité pour la certification industrielle et l'absence totale de données d'entraînement. Les extensions naturelles incluent la prise en compte des couples en rotation et la validation sur des architectures multi-bras pour la manipulation coordonnée d'objets asymétriques.

UECette méthode de contrôle en admittance robuste aux charges inconnues est directement applicable aux cobots UR5e (Universal Robots, Danemark) et Franka (Allemagne) largement déployés dans l'industrie européenne, facilitant la conformité ISO/TS 15066 sur les lignes à références multiples sans recalibration manuelle.

RecherchePaper
1 source
Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes
57arXiv cs.RO 

Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes

Une équipe de chercheurs publie sur arXiv (2604.19509) une évaluation empirique des modèles vision-langage (VLM) pour l'inférence d'affordances sur des robots à morphologie non humanoïde. L'"affordance" désigne ici la capacité d'un modèle à déterminer quelles actions sont physiquement réalisables par un robot donné face à un objet spécifique. Les auteurs ont constitué un jeu de données hybride combinant des annotations réelles de relations affordance-objet et des scénarios synthétiques générés par VLM, couvrant plusieurs catégories d'objets et plusieurs types de morphologies robotiques. Les résultats montrent une généralisation prometteuse aux formes non humanoïdes, mais des performances très variables selon les domaines d'objets. Le constat central est un schéma systématique de faible taux de faux positifs associé à un fort taux de faux négatifs, révélant que les VLM adoptent des prédictions trop conservatrices. Ce biais est particulièrement prononcé pour les outils inédits et les manipulations non conventionnelles. Pour les intégrateurs qui envisagent d'utiliser les VLM comme couche de planification sémantique, ce résultat est structurellement important. Le biais conservateur offre un avantage de sécurité intrinsèque, les robots n'entreprenant pas d'actions impossibles ou dangereuses, mais le taux élevé de faux négatifs freine l'exploitation réelle : le système refuse des tâches qu'il pourrait pourtant accomplir. Pour un architecte de système ou un COO industriel, cela confirme qu'un VLM seul ne peut pas servir de module d'affordance universel pour des cobots ou des AMR (robots mobiles autonomes) aux morphologies spécifiques. Des couches complémentaires, simulation physique ou vérification cinématique, restent nécessaires pour corriger ce défaut sans sacrifier la sécurité. La recherche sur les affordances VLM s'est construite massivement sur des corpus centrés sur l'interaction humain-objet, laissant les robots non humanoïdes structurellement sous-représentés. Des architectures VLA (Vision-Language-Action) comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA ont été évaluées principalement sur des tâches de manipulation humain-like. Cette étude pointe un enjeu distinct pour des plateformes comme Spot de Boston Dynamics ou ANYmal d'ANYbotics, dont les effecteurs et degrés de liberté (DOF) diffèrent fondamentalement de la main humaine. Les auteurs proposent des architectures hybrides et des jeux de données morpho-spécifiques comme prochaines étapes pour réduire le biais conservateur tout en préservant les faibles taux de faux positifs, seul acquis de sécurité clairement démontré.

UELes intégrateurs européens déployant des AMR ou cobots non humanoïdes (ANYmal d'ANYbotics, Spot) doivent anticiper des couches de vérification cinématique complémentaires aux VLM avant tout déploiement autonome en planification sémantique.

RechercheOpinion
1 source
Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques
58arXiv cs.RO 

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques

Des chercheurs ont publié sur arXiv (réf. 2604.19683) le Mask World Model (MWM), une architecture de world model pour l'apprentissage de politiques robotiques robustes. Contrairement aux approches dominantes qui entraînent des modèles génératifs sur de la vidéo RGB, MWM prédit l'évolution de masques sémantiques, des représentations géométriques des objets en scène, à l'aide d'une architecture de diffusion vidéo. Une tête de politique basée sur la diffusion est intégrée en aval pour un contrôle bout-en-bout. Évalué sur les benchmarks de simulation LIBERO et RLBench, MWM surpasse significativement les world models RGB de l'état de l'art. Un protocole de robustesse par élagage aléatoire de tokens et des expériences en conditions réelles confirment la résilience du modèle face à la perte partielle d'information visuelle. Le problème ciblé est structurel : les world models entraînés à prédire des pixels RGB mémorisent des corrélations parasites liées aux arrière-plans dynamiques, aux variations d'éclairage ou aux textures changeantes. Ces distracteurs produisent des politiques fragiles qui échouent hors distribution, phénomène central du "demo-to-real gap" qui freine le déploiement industriel des robots apprenants. En contraignant le modèle à opérer sur des masques géométriques plutôt que sur des pixels bruts, MWM impose un goulot d'information qui force la représentation interne à capturer ce qui importe réellement pour la manipulation : dynamiques physiques, relations de contact, géométrie des objets. C'est une contribution méthodologique notable dans le débat sur ce que les world models doivent apprendre pour être fiables à l'échelle opérationnelle. Les world models pour la robotique ont émergé comme paradigme dominant ces deux dernières années, portés par des architectures comme UniSim, Dreamer, ou les VLA récents de Physical Intelligence (pi-0), Google DeepMind (GR00T N2) et Figure Robotics, qui misent presque tous sur la fidélité de reconstruction RGB. MWM propose une alternative centrée sur l'abstraction géométrique, un positionnement distinct dans cet écosystème en pleine consolidation. Il convient de noter qu'il s'agit d'une prépublication non encore relue par des pairs, et que les expériences en conditions réelles restent limitées en échelle et en diversité de tâches. Les suites naturelles incluent une validation sur des manipulateurs industriels en environnement non contrôlé, étape que les auteurs n'ont pas encore franchie.

RechercheOpinion
1 source
ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits
59arXiv cs.RO 

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

ExpertGen est un framework de recherche publié sur arXiv (2603.15956) qui automatise l'apprentissage de politiques de manipulation robotique en simulation pour en faciliter le transfert vers du matériel réel. Le système initialise une politique de diffusion à partir de démonstrations imparfaites, générées par un grand modèle de langage ou fournies manuellement, puis applique du renforcement pour l'affiner sans jamais modifier les poids du modèle préentraîné. L'optimisation porte uniquement sur le bruit initial de la diffusion, ce qui maintient l'exploration dans des trajectoires cohérentes avec le comportement humain, même avec des récompenses binaires éparses. Sur les benchmarks publiés, ExpertGen atteint 90,5 % de succès sur des tâches d'assemblage industriel et 85 % sur des tâches de manipulation à long horizon, surpassant toutes les méthodes de référence testées. Le transfert sim-to-réel est validé par distillation DAgger : les politiques d'état apprises en simulation sont converties en politiques visuomotrices et déployées sur du matériel robotique physique. Ce résultat s'attaque directement au principal goulot d'étranglement du robot learning industriel : la collecte de données de qualité. La téléopération à grande échelle est coûteuse, lente et ne se généralise pas. ExpertGen propose une alternative crédible en utilisant des démonstrations imparfaites, y compris synthétiques, comme amorce, puis en laissant le renforcement corriger l'écart de qualité en simulation. Le fait de geler la politique de diffusion est une décision architecturale clé : elle évite le mode collapse typique du fine-tuning RL sur des politiques expressives, tout en permettant la convergence sans reward engineering manuel. Pour les intégrateurs industriels, c'est un signal concret que le sim-to-real gap sur des tâches d'assemblage n'est pas insurmontable, à condition de disposer d'un simulateur suffisamment fidèle. Ce travail s'inscrit dans la vague des politiques de diffusion pour la robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et prolongée par des systèmes comme pi-zero de Physical Intelligence ou les politiques dextères développées chez Google DeepMind et NVIDIA avec GR00T N2. ExpertGen reste pour l'instant un résultat académique : les métriques de succès sont issues de benchmarks de simulation contrôlés, et le déploiement réel mentionné dans le papier est préliminaire. Aucune timeline commerciale ni partenaire industriel ne sont annoncés. Les prochaines étapes logiques incluent des tests de robustesse à des variations de capteurs et d'environnement plus sévères, ainsi qu'une intégration éventuelle avec des politiques de fondation multimodales pour généraliser au-delà des tâches d'assemblage structurées.

RechercheOpinion
1 source
UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde
60arXiv cs.RO 

UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde

UniT (Unified Latent Action Tokenizer via Visual Anchoring) est un framework de recherche présenté début avril 2026 sur arXiv (2604.19734), conçu pour transférer les politiques de mouvement humain directement vers des robots humanoïdes. Le problème adressé est bien documenté : l'entraînement de modèles fondation pour humanoïdes bute sur la rareté des données robotiques. UniT propose d'exploiter les vastes corpus de données égocentrées humaines existants en construisant un espace latent discret partagé entre les deux types de corps. Le mécanisme central, dit tri-branch cross-reconstruction, fonctionne en trois voies : les actions prédisent la vision pour ancrer les cinématiques aux conséquences physiques, la vision reconstruit les actions pour éliminer les biais visuels non pertinents, et une branche de fusion unifie ces modalités purifiées en tokens d'intention physique indépendants de l'embodiment. Le framework est validé sur deux usages : VLA-UniT pour l'apprentissage de politique (Vision-Language-Action), et WM-UniT pour la modélisation du monde, qui permet la génération de vidéos humanoïdes contrôlées par des données de mouvement humain brutes. Les auteurs revendiquent un transfert zero-shot de tâches et une efficacité données state-of-the-art sur benchmark de simulation et sur des déploiements réels, sans toutefois publier de métriques de déploiement chiffrées. L'enjeu central est le "cross-embodiment gap" : un humain et un robot humanoïde partagent une structure morphologique proche mais des cinématiques incompatibles (nombre de degrés de liberté, ratios de membres, actionneurs). Jusqu'ici, combler cet écart nécessitait du retargeting cinématique manuel, de la téléopération coûteuse ou de la simulation synthétique. Si UniT tient ses promesses, il ouvrirait un pipeline d'entraînement hautement scalable à coût marginal faible, puisque les données égocentrées humaines se comptent en millions d'heures. Le claim de zero-shot transfer est le plus fort de l'article, mais il convient de le nuancer : il s'appuie sur des visualisations t-SNE montrant une convergence des représentations humaine et humanoïde dans un espace partagé, ce qui est indicatif mais pas une preuve de généralisation robuste en conditions industrielles réelles. Ce travail s'inscrit dans une vague de recherche sur les modèles fondation pour humanoïdes qui mobilise simultanément Figure AI avec son modèle Helix, Physical Intelligence avec Pi-0 et Pi-0.5, et NVIDIA avec GR00T N2, tous confrontés au même goulot d'étranglement des données. L'approche par ancrage visuel de UniT se distingue des méthodes purement cinématiques comme les retargeters basés sur des squelettes (SMPLify, HumanMimic) en postulant que les conséquences visuelles du mouvement sont universelles indépendamment du corps. Le preprint ne mentionne pas d'affiliation industrielle explicite ni de calendrier de déploiement commercial, et aucun robot cible (Unitree G1, Fourier GR-1, ou autre) n'est nommé dans le résumé disponible. La prochaine étape logique serait une validation sur des benchmarks standardisés comme LIBERO ou RoboMimic, et une comparaison directe avec GR00T N2 sur des tâches dextres en environnement non contrôlé.

IA physiqueOpinion
1 source
Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot
61arXiv cs.RO 

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

Une équipe de chercheurs a publié sur arXiv (ref. 2404.19670) un framework baptisé RAPIDDS, conçu pour améliorer la collaboration entre humains et robots dans des environnements industriels répétitifs, typiquement les lignes de fabrication. Le système opère sur plusieurs cycles de travail successifs : à chaque cycle, il apprend les comportements spatiaux (trajectoires réelles empruntées par l'opérateur) et temporels (temps effectifs de réalisation de chaque tâche) propres à l'individu face à lui. Ces modèles personnalisés alimentent ensuite deux mécanismes couplés : un planificateur de tâches qui réorganise allocations et séquençages, et un modèle de diffusion qui steer les trajectoires du robot en temps réel pour éviter les zones de proximité critique. Les expériences ont été conduites en simulation, puis sur un bras robotique à 7 degrés de liberté (7-DOF) dans un scénario physique, et validées par une étude utilisateur portant sur 32 participants (n=32). Les résultats montrent une amélioration significative sur des indicateurs objectifs (efficacité, distance de proximité) et subjectifs (fluidité perçue, préférence utilisateur) par rapport à un système non adaptatif. L'apport central de RAPIDDS réside dans la jonction de deux niveaux d'adaptation longtemps traités séparément dans la littérature. Les méthodes de planification de tâches optimisaient l'allocation et le séquençage mais ignoraient les interférences spatiales en situation de proximité étroite ; les méthodes de niveau motion se concentraient sur l'évitement de collision sans tenir compte du contexte global de la tâche. Unifier les deux, en les calibrant sur un modèle individuel mis à jour cycle après cycle, représente un changement concret de posture pour les déploiements industriels : le robot ne s'adapte pas à un opérateur générique, mais à la personne précise qui travaille ce jour-là, avec ses rythmes et ses habitudes de déplacement. Ce travail s'inscrit dans un courant plus large d'utilisation des modèles de diffusion pour la génération de trajectoires robotiques, un terrain que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) exploitent côté manipulation généraliste. RAPIDDS se distingue par sa focalisation sur la couche adaptation humain-robot plutôt que sur la polyvalence du modèle de motion. Le papier reste pour l'instant un preprint arXiv non encore soumis à peer-review, et aucun déploiement industriel ni partenariat avec un intégrateur n'est mentionné. La prochaine étape naturelle serait une validation sur des opérateurs en conditions réelles de production, avec une diversité de profils moteurs, pour tester la robustesse de la personnalisation au-delà d'un environnement contrôlé.

RecherchePaper
1 source
ARM : modélisation des récompenses par avantage pour la manipulation à long horizon
62arXiv cs.RO 

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon

Une équipe de chercheurs propose ARM (Advantage Reward Modeling, arXiv:2604.03037), un framework pour améliorer l'apprentissage par renforcement (RL) sur des tâches de manipulation robotique à long horizon. Le problème de fond : les récompenses éparses fournissent trop peu de signal pour guider l'apprentissage quand une tâche implique des dizaines d'étapes. ARM substitue la mesure de progression absolue par une estimation de l'avantage relatif, via un protocole de labeling à trois états : Progressif, Régressif, Stagnant. Ce schéma tri-état réduit la charge cognitive des annotateurs humains tout en assurant une forte cohérence inter-annotateurs. Intégré dans un pipeline de RL offline, il pondère les données de façon adaptative pour filtrer les échantillons sous-optimaux. Résultat annoncé : 99,4 % de réussite sur une tâche de pliage de serviette à long horizon, avec quasi-absence d'intervention humaine pendant l'entraînement. L'atout principal d'ARM est son coût d'annotation réduit face aux méthodes classiques de reward shaping dense, qui exigent une ingénierie fine de la fonction de récompense et peinent à modéliser des comportements non monotones comme le backtracking ou la récupération d'erreur. ARM ramène l'annotation à une classification intuitive, applicable aux démonstrations complètes comme aux données fragmentées issues de DAgger (imitation learning itératif). Les auteurs rapportent un gain sur les baselines VLA (Vision-Language-Action) actuels en stabilité et en efficacité des données, mais le benchmark se limite à un seul scénario de pliage de serviette : un résultat prometteur qui reste à confirmer sur un panel de tâches plus large et diversifié. La manipulation à long horizon demeure l'un des problèmes les plus ouverts de la robotique, au coeur de la compétition entre Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et d'autres architectures VLA. ARM s'inscrit dans le courant qui vise à rendre le RL applicable en conditions réelles sans dépendre massivement de la simulation (sim-to-real) ni de fonctions de récompense codifiées manuellement. Il s'agit d'un résultat de laboratoire : aucun déploiement terrain ni partenaire industriel n'est mentionné dans la publication. Les suites attendues sont une validation sur des tâches plus variées et des plateformes robotiques commerciales, notamment les humanoïdes actuellement en phase de commercialisation.

IA physiqueOpinion
1 source
ST-π : VLA spatio-temporel structuré pour la manipulation robotique
63arXiv cs.RO 

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Une équipe de chercheurs a publié fin avril 2026 ST-π (ST-pi), un modèle vision-langage-action (VLA) conçu pour améliorer la manipulation robotique fine en introduisant une planification spatiotemporelle explicitement structurée. Contrairement aux VLA classiques qui projettent directement les observations visuelles vers des actions step-by-step, ST-π décompose la tâche en deux niveaux distincts : un VLM spatiotemporel qui encode des observations 4D (vidéo + profondeur) et génère une séquence ordonnée de "prompts d'action" au niveau chunk, incluant sous-tâches, ancrage spatial et ancrage temporel ; puis un "action expert" conditionné sur ces prompts, qui utilise un mécanisme de double générateur pour modéliser conjointement les dépendances spatiales et la causalité temporelle, produisant in fine les paramètres d'action step-level. Les auteurs ont également constitué un dataset réel avec annotations spatiotemporelles structurées pour le fine-tuning. Le code source est disponible sur GitHub (chuanhaoma/ST-pi). L'intérêt de cette approche réside dans l'explicitation du raisonnement spatiotemporal, un point aveugle documenté des VLA actuels. Les modèles existants comme Pi-0 (Physical Intelligence), OpenVLA ou RT-2 encodent implicitement ce raisonnement dans les représentations visuelles et d'action, ce qui les rend fragiles face à des séquences comportementales multiples avec des frontières temporelles précises, typiquement les tâches d'assemblage, de tri ou de manipulation en plusieurs étapes que les intégrateurs industriels cherchent à automatiser. ST-π propose une architecture où le VLM planifie globalement et l'action expert raffine localement, ce qui est une séparation de responsabilités plus proche de la façon dont les ingénieurs roboticiens structurent eux-mêmes les programmes de manipulation. Ce travail s'inscrit dans une dynamique de recherche active sur le sim-to-real et la généralisation des VLA, portée notamment par Physical Intelligence, Google DeepMind (avec GR00T N2 côté NVIDIA) et des laboratoires académiques en Chine. ST-π est un preprint arXiv (2604.17880), pas encore évalué en peer review, et les métriques de performance annoncées restent à confronter à des benchmarks indépendants comme LIBERO ou RLBench. Aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade, il s'agit d'une contribution de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés et un test sur des robots réels en dehors du dataset des auteurs.

IA physiqueOpinion
1 source
Préentraînement séparé des dynamiques directe et inverse pour un apprentissage robotique découplé
64arXiv cs.RO 

Préentraînement séparé des dynamiques directe et inverse pour un apprentissage robotique découplé

Des chercheurs ont publié le 23 avril 2026 sur arXiv un article présentant DeFI (Decoupled visual Forward and Inverse dynamics pretraining), un framework d'apprentissage pour robots généralistes qui dissocie explicitement la prédiction visuelle de la prédiction d'actions motrices. L'architecture repose sur deux modules distincts : le General Forward Dynamics Model (GFDM), pré-entraîné sur des vidéos humaines et robotiques pour anticiper l'évolution visuelle d'une scène, et le General Inverse Dynamics Model (GIDM), entraîné par auto-supervision pour inférer des "actions latentes" à partir de transitions vidéo non annotées. Les deux modules sont ensuite fusionnés dans une architecture unifiée et affinés conjointement sur des tâches cibles. Sur le benchmark CALVIN ABC-D, DeFI atteint une longueur de tâche moyenne de 4,51, un score de 51,2 % sur SimplerEnv-Fractal, et un taux de succès de 81,3 % en déploiement réel, surpassant selon les auteurs les méthodes antérieures sur chacun de ces indicateurs. L'enjeu technique central que DeFI prétend résoudre est le "sim-to-real gap" structurel propre aux modèles VLA classiques : ces derniers entraînent conjointement la prédiction d'images 2D et la génération d'actions 3D, deux objectifs dont les gradients entrent en conflit. La dissociation proposée permet surtout d'exploiter des vidéos web à grande échelle sans annotation d'actions, une ressource quasi-illimitée comparée aux datasets robotiques labellisés, rares et coûteux. Pour les intégrateurs et les équipes R&D industrielles, cela signifie potentiellement réduire le coût de collecte de données de démonstration, un goulot d'étranglement bien documenté dans le déploiement de robots manipulateurs polyvalents. DeFI s'inscrit dans une dynamique de recherche très active autour des VLA, portée notamment par Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les travaux OpenVLA. La principale limite à évaluer ici est celle de tout papier arXiv sans validation industrielle externe : les 81,3 % en "déploiement réel" correspondent à un environnement de laboratoire contrôlé, pas à une ligne de production. Les benchmarks CALVIN et SimplerEnv sont désormais saturés par de nombreuses méthodes concurrentes, ce qui en rend l'interprétation délicate sans contexte de variance et de répétabilité. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans l'article.

RechercheActu
1 source
Raffinement de démonstrations accélérées par contrôle itératif incrémental pour l'apprentissage par imitation à contact riche
65arXiv cs.RO 

Raffinement de démonstrations accélérées par contrôle itératif incrémental pour l'apprentissage par imitation à contact riche

Une équipe de chercheurs a publié en avril 2026 sur arXiv (arXiv:2604.16850) une méthode baptisée I2RLC (Incremental Iterative Reference Learning Control) pour générer automatiquement des démonstrations robotiques rapides et précises, sans intervention humaine à haute vitesse. Le constat de départ est simple : en apprentissage par imitation (IL), les humains ne peuvent pas démontrer physiquement une tâche à 5x ou 10x leur vitesse naturelle, et accélérer naïvement un enregistrement dégrade la dynamique de contact et crée des erreurs de suivi qui corrompent les données d'entraînement. L'I2RLC résout ce problème en augmentant progressivement la vitesse d'exécution tout en corrigeant itérativement la trajectoire de référence à partir des erreurs observées. La méthode a été validée sur robot réel, sur deux tâches à contact riche : effacement de tableau blanc et insertion cheville-trou (peg-in-hole), en utilisant un système de téleopération composé d'un bras suiveur à contrôle de compliance et d'un leader haptic imprimé en 3D. Les résultats atteignent des démonstrations 10x plus rapides avec réduction des erreurs de suivi, et I2RLC améliore la similarité spatiale aux trajectoires originales de 22,5 % en moyenne par rapport à la version non-incrémentale (IRLC), sur trois tâches et plusieurs vitesses (3x à 10x). Les politiques entraînées sur ces données atteignent 100 % de taux de réussite sur la tâche peg-in-hole, y compris pour des positions non vues à l'entraînement, avec des forces de contact inférieures. Ce résultat adresse un angle mort fréquent dans le développement des politiques d'imitation : la qualité des démonstrations elle-même. La grande majorité des approches IL (Diffusion Policy, ACT, Pi-0) suppose des démos propres et représentatives, sans se préoccuper du fossé entre la vitesse humaine et la vitesse de déploiement réelle. Ici, la généralisation à des positions non vues avec 100 % de succès constitue un signal concret de robustesse, pas simplement une performance en conditions contrôlées. Pour les intégrateurs industriels, l'enjeu est direct : si l'on peut automatiser la génération de trajectoires rapides à partir de démos lentes, le coût de collecte de données pour des tâches d'assemblage ou de manutention chute significativement. L'apprentissage par imitation pour la manipulation à contact riche est un axe de recherche très actif depuis 2022-2023, porté par des travaux comme ACT (Stanford), Diffusion Policy (MIT/Columbia) et les architectures VLA type Pi-0 (Physical Intelligence). Le problème de la "vitesse des démos" reste cependant peu traité dans la littérature. L'I2RLC s'inscrit dans une lignée de méthodes de contrôle itératif (ILC) adaptées à la robotique apprenante. Aucune entreprise commerciale n'est citée dans cette publication académique, mais les applications industrielles naturelles touchent l'assemblage électronique, le câblage, et toute manipulation nécessitant précision et cadence. Les prochaines étapes probables incluent une extension aux politiques diffusives modernes et une validation sur des tâches multi-étapes en environnement non structuré.

RecherchePaper
1 source
Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée
66arXiv cs.RO 

Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée

Une équipe de chercheurs a publié sur arXiv (2604.16886) COIN, pour Chain Of Interaction Benchmark, un nouveau protocole d'évaluation conçu pour mesurer la capacité des agents robotiques généralistes à raisonner et agir de manière interactive sur des tâches à horizon long. Le benchmark se structure en trois sous-ensembles : COIN-50, qui regroupe 50 tâches en environnement quotidien réaliste ; COIN-Primitive, consacré aux primitives d'action causalement dépendantes ; et COIN-Composition, de complexité intermédiaire, ciblant l'apprentissage et la généralisation de compétences. Pour constituer les données d'entraînement, les auteurs ont développé un système de télé-opération mobile en réalité augmentée à faible coût, permettant de collecter 1 000 démonstrations, 50 par tâche primitive. Trois familles d'approches ont été évaluées : CodeAsPolicy (génération de code exécutable par LLM), VLA (Vision-Language-Action models), et H-VLA (VLA hiérarchiques conditionnés au langage). Les résultats révèlent des lacunes critiques dans l'état de l'art actuel. Tous les modèles testés échouent significativement sur les tâches nécessitant un raisonnement interactif séquentiel, par exemple, ouvrir plusieurs tiroirs successifs avant de localiser et saisir un objet sous observabilité partielle. Le fossé constaté ne se situe pas tant dans la compréhension visuelle que dans le passage à l'exécution motrice : les modèles peinent à mettre à jour leurs plans en temps réel en fonction des nouvelles informations acquises à chaque étape. Ce résultat pèse directement sur les prétentions des VLA à opérer en autonomie dans des environnements non contrôlés, un signal d'alarme pour les intégrateurs qui anticipent des déploiements industriels à court terme. COIN s'inscrit dans une vague de benchmarks d'embodied AI cherchant à combler le manque de protocoles standardisés au-delà des tâches statiques de pick-and-place. Des travaux comme LIBERO, RLBench ou BEHAVIOR-1K ont posé des bases, mais aucun n'adressait explicitement la chaîne causale d'interactions sous observabilité partielle à cette granularité. La publication intervient alors que les laboratoires industriels, Physical Intelligence (pi) avec Pi-0, Google DeepMind avec RT-2 ou GR00T N2 de NVIDIA, multiplient les annonces sur la généralisation des VLA. COIN fournit un outil de comparaison indépendant, encore académique, dont l'adoption comme standard de facto dépendra de sa capacité à attirer des soumissions extérieures et à être intégré dans les pipelines d'évaluation des acteurs commerciaux.

IA physiqueActu
1 source
OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne
67arXiv cs.RO 

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

OmniVLA-RL, une nouvelle architecture Vision-Language-Action (VLA), est présentée dans un préprint arXiv (référence 2604.17706) dont les affiliations institutionnelles ne sont pas précisées dans la version disponible. Le modèle repose sur un design Mix-of-Transformers (MoT) qui orchestre trois experts spécialisés : raisonnement général, compréhension spatiale, et génération d'action motrice. Les auteurs introduisent également Flow-GSPO, une méthode qui reformule le flow matching comme un processus d'équations différentielles stochastiques (SDE), couplé à un algorithme d'optimisation de politique segmentée par groupes (GSPO). Les évaluations sont conduites sur les benchmarks LIBERO et LIBERO-Plus, deux suites de référence pour la manipulation robotique en simulation, sur lesquelles OmniVLA-RL affiche des performances annoncées supérieures aux méthodes actuellement considérées comme état de l'art. La contribution adresse trois failles structurelles bien documentées dans la littérature VLA : la perception spatiale imprécise, la fusion multimodale sous-optimale, et l'instabilité de l'entraînement par renforcement en ligne sur des espaces d'action continus. En séparant explicitement raisonnement, spatialisation et planification motrice dans des sous-réseaux distincts, OmniVLA-RL évite la dilution de ces capacités dans un unique transformer généraliste, une critique récurrente faite aux VLA de première génération. Flow-GSPO propose un cadre mathématique plus rigoureux pour stabiliser le RL, un enjeu central dans la course au sim-to-real. Pour les intégrateurs et décideurs industriels, ce type d'avancée a un intérêt indirect mais réel : si la robustesse à l'entraînement en ligne s'améliore, le coût de généralisation des bras manipulateurs à de nouvelles tâches sans retraining complet pourrait baisser significativement. Les VLA sont aujourd'hui au centre d'une compétition intense entre groupes académiques et industriels. Physical Intelligence pousse Pi-0 et Pi-0.5 vers la manipulation dextre ; Google DeepMind fait progresser RT-2 et ses dérivés ; du côté des systèmes embarqués dans des humanoïdes, Figure (Figure 03), Tesla (Optimus Gen 3) et 1X intègrent des architectures comparables. OmniVLA-RL se positionne sur le segment recherche fondamentale, avec des résultats limités à la simulation et aucune démonstration sur robot physique annoncée à ce stade. L'évaluation exclusive sur LIBERO ne permet pas de conclure sur les performances en conditions réelles, et le gap sim-to-real reste entier. La prochaine étape naturelle serait une validation sur plateformes physiques, dans des environnements de manipulation non structurés, pour confirmer si les gains observés en simulation tiennent effectivement sur le terrain.

IA physiqueActu
1 source
COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café
68arXiv cs.RO 

COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café

L'équipe derrière COFFAIL a publié sur arXiv (référence 2604.18236) un jeu de données consacré à l'apprentissage de compétences robotiques de manipulation, collecté dans un environnement cuisine avec un robot physique. Le dataset couvre plusieurs types de tâches liées à la préparation de café et se distingue par une caractéristique rare dans la littérature : il regroupe à la fois des épisodes d'exécution réussis et des épisodes anomaux, c'est-à-dire des séquences où quelque chose s'est mal passé. Certains épisodes mobilisent une manipulation bimanuell, impliquant la coordination des deux bras du robot. Les auteurs démontrent l'usage concret du dataset en entraînant une politique robotique par imitation learning (apprentissage par démonstration). Ce qui distingue COFFAIL des datasets de manipulation habituellement disponibles, c'est l'inclusion explicite des échecs et des anomalies. La grande majorité des benchmarks publics ne documentent que les trajectoires réussies, ce qui crée un biais structurel dans l'entraînement des modèles : les robots apprennent à réussir, mais pas à détecter ni à récupérer d'une défaillance. Pour les intégrateurs industriels et les équipes de recherche travaillant sur la robustesse et la détection d'anomalies en manipulation, disposer d'exemples négatifs annotés est une ressource directement exploitable, notamment pour entraîner des modules de supervision ou de re-planification. L'application à l'imitation learning suggère aussi une compatibilité avec les architectures VLA (vision-language-action) actuelles. La préparation de café comme domaine applicatif est un choix délibéré dans la robotique de service : c'est une tâche suffisamment structurée pour être reproductible, mais qui implique des objets déformables, des liquides, et des contraintes temporelles, ce qui en fait un banc de test représentatif pour la manipulation fine. Plusieurs labos et startups ont utilisé des scénarios similaires pour tester leurs pipelines, dont Physical Intelligence (pi0), Everyday Robots (avant sa dissolution chez Google) ou des équipes académiques européennes. COFFAIL reste pour l'instant une contribution de dataset sans benchmarking comparatif avec d'autres méthodes, ce qui limite la portée des conclusions : le papier est court et déclaré comme tel par les auteurs. Les prochaines étapes naturelles seraient une évaluation comparative sur des tâches de détection d'anomalies et une extension du protocole à d'autres domaines de manipulation.

UELes équipes de recherche européennes en manipulation robotique peuvent exploiter ce dataset pour entraîner des modules de détection d'anomalies, mais aucun acteur FR/EU n'est directement impliqué dans sa production.

RecherchePaper
1 source
StableIDM : stabilisation du modèle de dynamique inverse face à la troncature du manipulateur par raffinement spatio-temporel
69arXiv cs.RO 

StableIDM : stabilisation du modèle de dynamique inverse face à la troncature du manipulateur par raffinement spatio-temporel

Des chercheurs ont publié le 24 avril 2026 StableIDM, un framework spatio-temporel conçu pour stabiliser les modèles de dynamique inverse (IDM) en robotique manipulatrice. Les IDM sont des composants clés de l'IA incarnée : ils traduisent des observations visuelles brutes en commandes d'action bas-niveau, et servent à la fois pour l'annotation automatique de données d'entraînement et pour l'exécution de politiques. Le problème ciblé est la troncature du manipulateur, c'est-à-dire les situations où le bras robotique sort partiellement ou totalement du champ de la caméra, rendant la reconstruction d'état mathématiquement sous-déterminée. StableIDM intègre trois modules complémentaires : un masquage centré sur le robot pour éliminer le bruit de fond, une agrégation directionnelle de features (DFA) qui extrait des caractéristiques anisotropes le long des directions inférées depuis la partie visible du bras, et un raffinement temporel de la dynamique (TDR) qui lisse les prédictions via la continuité du mouvement. Sur le benchmark AgiBot, le système améliore la précision d'action stricte de 12,1 % sous troncature sévère, augmente le taux de succès moyen en rejeu réel de 9,7 %, améliore le succès de saisie de 11,5 % lors du décodage de plans issus de vidéos générées, et booste de 17,6 % les performances en conditions réelles quand StableIDM joue le rôle d'annotateur automatique pour un modèle VLA aval. Ces résultats sont significatifs pour quiconque déploie des bras manipulateurs en environnement non contrôlé. La troncature visuelle est une failure mode banale en production : un carton qui passe, un opérateur qui traverse, une caméra mal positionnée. Jusqu'ici, les IDM existants s'effondraient dans ces conditions, forçant les intégrateurs à multiplier les caméras ou à contraindre fortement la scène. StableIDM suggère qu'un traitement spatio-temporel ciblé peut absorber cette incertitude sans revoir l'infrastructure capteur. Par ailleurs, le gain de 17,6 % sur les VLA aval confirme une hypothèse montante dans le secteur : la qualité des annotations automatiques est un levier critique pour l'apprentissage à grande échelle, au moins autant que l'architecture du modèle de politique lui-même. Les IDM ont émergé comme alternative légère aux modèles de politique bout-en-bout dans le sillage des travaux sur l'imitation learning visuel (Gato, RT-2, OpenVLA). Le benchmark AgiBot, développé par la startup chinoise AgiBot, est devenu une référence de facto pour évaluer la manipulation dextre en conditions réelles. Sur le terrain concurrentiel, Physical Intelligence (pi) avec Pi-0, Figure AI avec son pipeline de données, et 1X Technologies travaillent tous sur des variantes d'IDM ou de VLA pour réduire la dépendance aux capteurs proprioceptifs. StableIDM se positionne comme un backbone généraliste compatible avec ces architectures, potentiellement intégrable comme préprocesseur dans des pipelines existants. Les auteurs n'annoncent pas de code public ni de partenariat industriel à ce stade : c'est une contribution de recherche, pas un produit shipped.

IA physiqueActu
1 source
2D ou 3D : qui gouverne la saillance dans les modèles VLA ? Un cadre d'élagage de tokens en trois étapes avec conscience de la saillance modale
70arXiv cs.RO 

2D ou 3D : qui gouverne la saillance dans les modèles VLA ? Un cadre d'élagage de tokens en trois étapes avec conscience de la saillance modale

Des chercheurs ont publié sur arXiv (référence 2604.09244, version 2, avril 2026) un article proposant un cadre d'élagage de tokens en trois étapes pour accélérer les modèles VLA (Vision-Language-Action) multi-modaux. Le constat de départ : les VLA de dernière génération ne se contentent plus d'entrées 2D classiques (images RGB) mais intègrent également des données 3D (nuages de points, profondeur), formant ce que les auteurs appellent des modèles MVLA (Multi-Visual-Modal VLA). Cette expansion modale améliore la perception spatiale des robots, mais elle multiplie le nombre de tokens traités à l'inférence, créant un goulot d'étranglement computationnel significatif. Le framework proposé introduit une analyse en trois phases qui capture les différences de saillance entre tokens 2D et 3D à chaque étape du traitement, puis applique un élagage ciblé selon ces différences. Les expériences rapportent un gain d'accélération allant jusqu'à 2,55x à l'inférence, avec une perte de précision minimale et un surcoût de traitement limité à 5,8%. Ce résultat est pertinent pour les équipes qui cherchent à déployer des VLA sur du matériel embarqué ou des robots opérant en temps réel. L'un des freins majeurs à la commercialisation des robots manipulateurs pilotés par VLA est précisément le coût computationnel de l'inférence : un gain de 2,55x sans dégradation significative des performances ouvre la voie à des cycles de décision plus courts sans nécessiter de GPU de datacenter. Il met aussi en lumière un angle mort des approches d'optimisation existantes : les méthodes d'élagage de tokens conçues pour des VLA 2D ne tiennent pas compte du fait que les tokens 3D et 2D n'ont pas la même importance selon le contexte et l'étape de traitement. Ignorer cette hétérogénéité conduit à des élagages sous-optimaux. Les modèles VLA sont devenus le paradigme dominant en robotique incarnée depuis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui ont tous deux popularisé l'architecture action-transformer multi-modal. La tendance à intégrer la modalité 3D s'est accélérée avec l'essor des capteurs LiDAR et RGB-D dans les environnements industriels. Ce travail s'inscrit dans une série d'efforts d'optimisation de l'inférence VLA, aux côtés de travaux comme FastV ou des approches de distillation, mais avec la spécificité de traiter explicitement la multi-modalité visuelle. Le code source n'est pas encore publié, ce qui limite pour l'instant la reproductibilité et l'adoption pratique ; les prochaines étapes annoncées concernent sa mise à disposition publique.

RechercheOpinion
1 source
OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste
71arXiv cs.RO 

OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste

Des chercheurs ont publié le 24 avril 2026 OFlow, un framework destiné à améliorer la robustesse des modèles Vision-Language-Action (VLA) dans les tâches de manipulation robotique. L'approche, présentée dans un preprint arXiv (2604.17876), repose sur deux mécanismes combinés : un module de prédiction temporelle par flow matching, qui anticipe l'évolution de la scène avant d'agir, et une représentation centrée sur les objets pertinents pour la tâche, qui filtre les variations visuelles sans intérêt. Ces deux composants partagent un même espace latent sémantique, à partir duquel la génération des actions continues est conditionnée. Les évaluations couvrent quatre environnements de référence, LIBERO, LIBERO-Plus, MetaWorld et SimplerEnv, ainsi que des expériences en conditions réelles, et montrent des gains de robustesse et de taux de succès par rapport aux baselines VLA standards. Le verrou que tente de lever OFlow est bien identifié dans la communauté : les VLAs actuels raisonnent image par image, sans modèle explicite de ce qui va se passer ni de quels objets comptent vraiment. En séparant les cues visuels liés à la tâche des variations de fond (éclairage, texture, pose de la caméra), OFlow produit des représentations plus stables sous distribution shift, c'est-à-dire lorsque les conditions réelles diffèrent du training data. Pour les intégrateurs et les équipes de déploiement industriel, c'est un point critique : la fragilité des VLAs face aux écarts de conditions est l'un des principaux obstacles à leur passage en production. Les résultats sur SimplerEnv et les tâches réelles sont particulièrement scrutés, car ce benchmark est conçu pour tester explicitement ce gap sim-to-real. OFlow s'inscrit dans une vague de travaux cherchant à doter les VLAs d'une forme de planification implicite, après des modèles comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) qui misent sur des architectures diffusion ou flux pour la génération d'actions. L'originalité revendiquée ici est l'unification dans un espace latent commun, plutôt que d'ajouter des modules séparés. Il s'agit pour l'instant d'un preprint non relu par des pairs, et les benchmarks utilisés, LIBERO notamment, sont bien maîtrisés par la communauté mais n'impliquent pas de robots déployés en production. Les prochaines étapes naturelles seront la validation sur des plateformes hardware variées et une comparaison directe avec les approches concurrentes sur des scénarios industriels réels.

IA physiqueOpinion
1 source
AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA
72arXiv cs.RO 

AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17787) AnchorRefine, un framework hiérarchique conçu pour améliorer les modèles vision-langage-action (VLA) dans les tâches de manipulation robotique de précision. Le principe central repose sur une décomposition en deux niveaux : un planificateur d'ancres de trajectoire (anchor planner) qui génère un squelette de mouvement grossier, et un module de raffinement résiduel qui corrige les déviations en phase d'exécution pour améliorer la précision géométrique et de contact. Le système intègre également un mécanisme de raffinement de pince sensible aux transitions discrètes (decision-aware gripper refinement), conçu pour mieux capturer le caractère binaire et critique aux frontières du contrôle de préhension. Évalué sur les benchmarks LIBERO et CALVIN, ainsi que sur des tâches en robot réel, AnchorRefine affiche des gains allant jusqu'à 7,8 points de pourcentage en taux de succès en simulation et 18 points en conditions réelles, sur des backbones VLA à base de régression comme de diffusion. Le problème que cette architecture cherche à résoudre est structurel dans la conception actuelle des politiques VLA : lorsqu'une politique génère toutes les actions dans un espace unifié, les grands mouvements de transport dominent l'optimisation et noient les signaux correctifs de faible amplitude, pourtant critiques pour les tâches de précision comme l'assemblage, l'insertion ou la manipulation d'objets fragiles. En séparant explicitement la planification macroscopique de l'ajustement microscopique, AnchorRefine reproduit une structure proche de la motricité humaine, où la trajectoire globale et la correction locale sont des processus distincts. Le gain de 18 % en conditions réelles est significatif car il suggère une réduction effective du sim-to-real gap sur les tâches de contact, un verrou majeur pour la commercialisation des manipulateurs polyvalents. Ce travail s'inscrit dans une tendance de fond en robotique académique : l'hybridation entre planification à haut niveau (souvent guidée par le langage ou la vision) et contrôle fin en boucle fermée. Des approches comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) intègrent déjà des mécanismes proches, tandis que des labos comme celui de Chelsea Finn (Stanford) ou Sergey Levine (Berkeley) explorent la hiérarchie action depuis plusieurs années. AnchorRefine se distingue en proposant une solution modulaire compatible avec des backbones existants sans réentraîner l'ensemble du modèle, ce qui facilite potentiellement son intégration dans des pipelines VLA déjà déployés. Les auteurs ne mentionnent pas de partenariat industriel ni de timeline de déploiement, et les évaluations restent cantonnées à des benchmarks académiques, ce qui tempère les conclusions sur la robustesse en environnement non contrôlé.

RechercheOpinion
1 source
XEmbodied : un modèle fondation aux indices géométriques et physiques renforcés pour les environnements incarnés à grande échelle
73arXiv cs.RO 

XEmbodied : un modèle fondation aux indices géométriques et physiques renforcés pour les environnements incarnés à grande échelle

Une équipe de chercheurs a publié fin avril 2026 sur arXiv (référence 2604.18484) les travaux sur XEmbodied, un modèle fondateur côté cloud conçu pour améliorer l'annotation et l'entraînement des modèles Vision-Langage-Action (VLA) dans des environnements complexes à grande échelle. L'approche repose sur deux composants techniques distincts : un adaptateur 3D structuré qui intègre une représentation géométrique native (grilles d'occupation, boîtes englobantes 3D) dans un modèle de langage visuel (VLM) existant, et un adaptateur image-embodied efficace qui distille des signaux physiques en tokens contextuels. L'entraînement combine un curriculum progressif par domaine et un post-entraînement par apprentissage par renforcement. Les résultats sont évalués sur 18 benchmarks publics couvrant le raisonnement spatial, la sémantique trafic, l'affordance embodied et la généralisation hors distribution. Ce travail cible un goulot d'étranglement concret dans la chaîne de développement des systèmes autonomes incarnés : les pipelines d'annotation actuels s'appuient sur des VLM génériques pré-entraînés uniquement sur des paires image-texte 2D, sans compréhension intrinsèque de la géométrie 3D ni des contraintes physiques. Pour un intégrateur ou un décideur industriel qui cherche à construire des datasets de qualité pour robots mobiles ou bras manipulateurs, XEmbodied positionne la compréhension géométrique non comme une entrée auxiliaire optionnelle, mais comme une capacité fondamentale du modèle. Cela représente un changement d'approche notable dans la manière de produire des annotations scalables pour l'embodied AI, un segment où la qualité des données d'entraînement reste le principal facteur limitant avant même l'architecture du VLA lui-même. XEmbodied s'inscrit dans une vague de travaux visant à combler le fossé entre les VLM généralistes (GPT-4V, LLaVA, Qwen-VL) et les exigences de l'embodied AI, où les modèles comme π0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA nécessitent des données d'entraînement spatialement cohérentes et physiquement plausibles. La contribution ici n'est pas un VLA en soi, mais une couche d'infrastructure cloud pour en produire de meilleurs. Aucun déploiement industriel ni partenariat commercial n'est mentionné dans l'article : il s'agit d'un travail académique, dont la valeur pratique dépendra de l'adoption par les équipes qui construisent ces pipelines d'annotation à l'échelle.

RechercheOpinion
1 source
Rewind-IL : détection des échecs en temps réel et réinitialisation d'état pour l'apprentissage par imitation
74arXiv cs.RO 

Rewind-IL : détection des échecs en temps réel et réinitialisation d'état pour l'apprentissage par imitation

Une équipe de chercheurs a publié Rewind-IL, un framework de surveillance en ligne conçu pour détecter les échecs d'exécution dans les politiques d'imitation learning à découpage d'actions (action-chunked policies) et y remédier sans nécessiter de données d'échec préalables. Le système repose sur deux mécanismes complémentaires : un détecteur d'anomalies baptisé TIDE (Temporal Inter-chunk Discrepancy Estimate), qui mesure l'incohérence temporelle entre segments d'actions successifs, et un mécanisme de "respawning" qui ramène le robot à un état intermédiaire sûr vérifié sémantiquement. En amont du déploiement, un modèle vision-langage (VLM) identifie des points de reprise dans les démonstrations d'entraînement, et l'encodeur de la politique gelée génère une base de données compacte d'empreintes de ces checkpoints. En ligne, Rewind-IL surveille la cohérence interne des chunks d'actions superposés et, dès détection d'une dérive, revient au dernier état validé avant de relancer l'inférence depuis un état propre. Les expériences couvrent des tâches de manipulation longue portée en environnement réel et simulé, avec transfert vers des politiques basées sur le flow matching. L'intérêt principal de Rewind-IL est qu'il est training-free : aucune donnée d'échec n'est nécessaire pour entraîner le détecteur, ce qui le distingue des moniteurs existants qui requièrent soit des exemples négatifs étiquetés, soit tolèrent mal les dérives bénignes de features. Le problème qu'il adresse est structurel dans les politiques action-chunked : une fois que l'exécution sort du manifold de démonstration, la politique continue de générer des actions localement plausibles mais globalement incohérentes, sans jamais récupérer. Rewind-IL casse ce cycle en combinant détection statistique (calibration par split conformal prediction pour contrôler le taux de fausses alarmes) et récupération sémantiquement ancrée plutôt que géométrique. C'est une approche pragmatique pour améliorer la fiabilité des robots en déploiement industriel, sans retraining ni ingénierie de données d'échec. L'imitation learning a connu un regain d'intérêt majeur avec l'émergence des politiques visuomotrices génératives, notamment ACT et Diffusion Policy, largement adoptées dans les labos académiques et par des acteurs comme Physical Intelligence (pi0) ou Figure AI. Ces politiques se heurtent toutefois à un "deployment gap" : les performances en démo ne se transposent pas toujours en conditions réelles sur des tâches longues. Rewind-IL s'inscrit dans une tendance croissante de travaux sur la robustesse runtime (aux côtés de méthodes comme DART ou les moniteurs basés sur l'incertitude), mais se distingue par son absence totale de supervision sur les échecs. Les auteurs indiquent que le code et les matériaux supplémentaires sont disponibles en ligne, mais aucun partenariat industriel ni déploiement terrain n'est annoncé à ce stade : il s'agit d'une contribution de recherche académique, pas d'un produit shipé.

RechercheOpinion
1 source
Visual-RRT : planification de chemins vers des objectifs visuels par rendu différentiable
75arXiv cs.RO 

Visual-RRT : planification de chemins vers des objectifs visuels par rendu différentiable

Des chercheurs du laboratoire SGVR de l'université KAIST (Corée du Sud) ont publié en avril 2026 Visual-RRT (vRRT), un planificateur de mouvement pour bras manipulateurs capables de naviguer vers un objectif défini par une image ou une vidéo, sans configuration articulaire numérique explicite. La méthode combine les arbres à exploration rapide aléatoire (RRT), algorithme classique de planification de trajectoire, avec le rendu différentiable du robot pour guider la recherche par gradient visuel. Deux mécanismes complémentaires ont été introduits : une stratégie d'exploration-exploitation à frontières adaptatives, qui priorise les régions de l'espace de configuration visuellement prometteuses, et une expansion inertielle par gradient, qui propage les états d'optimisation entre les branches de l'arbre pour garantir une cohérence dynamique du gradient. Les expériences couvrent trois manipulateurs standard de l'industrie et de la recherche : Franka Emika Panda, Universal Robots UR5e, et Fetch Robotics, en simulation et en environnement réel. L'apport technique fondamental réside dans la suppression d'un prérequis contraignant des planificateurs RRT classiques : la nécessité de spécifier la configuration-but sous forme d'angles articulaires précis. Dans les applications réelles d'automatisation ou d'apprentissage par démonstration, l'opérateur dispose le plus souvent d'une vidéo ou d'une photo de l'état-cible, pas d'un vecteur de joints. vRRT comble ce fossé en projetant l'espace visuel dans l'espace de configuration via rendu différentiable, ce qui permet d'utiliser un signal d'erreur visuel directement comme fonction de coût pour l'exploration. C'est un pas vers des systèmes robotiques plus faciles à programmer par l'exemple, sans calibration manuelle de la configuration finale. Les RRT sont un acquis algorithmique des années 1990-2000 (Steven LaValle, 1998), massivement utilisés dans la robotique industrielle et les véhicules autonomes. L'intégration du rendu différentiable, popularisée par des frameworks comme PyTorch3D ou Mitsuba 3, dans la planification de trajectoire est une tendance émergente depuis 2022-2023. Sur ce créneau, des travaux concurrents explorent les Visual Language Action models (VLA) comme pi-0 de Physical Intelligence ou les approches basées sur la diffusion pour la planification. vRRT se distingue par sa modularité sur des RRT existants et sa compatibilité avec des architectures standard. Le code source est disponible publiquement. Aucune collaboration industrielle ni calendrier de déploiement n'est mentionné dans la publication ; il s'agit à ce stade d'un résultat de recherche académique, pas d'un produit commercialisé.

RecherchePaper
1 source
ReFineVLA : des politiques robotiques généralistes renforcées par raisonnement multimodal via fine-tuning guidé
76arXiv cs.RO 

ReFineVLA : des politiques robotiques généralistes renforcées par raisonnement multimodal via fine-tuning guidé

Des chercheurs ont publié le 22 avril 2026 sur arXiv un article présentant ReFineVLA, un cadre d'apprentissage conçu pour améliorer les capacités de raisonnement des modèles Vision-Language-Action (VLA) en robotique. L'approche repose sur deux étapes : un modèle enseignant expert génère d'abord des rationales de raisonnement pour enrichir les jeux de données robotiques existants, puis ces données augmentées servent à affiner des VLA pré-entraînés. Les auteurs évaluent leur méthode sur SimplerEnv, un environnement de simulation de manipulation, en testant deux plateformes robotiques distinctes : le bras WidowX et le Google Robot. ReFineVLA affiche un taux de succès supérieur à la deuxième meilleure méthode sur les deux benchmarks, selon les résultats rapportés. Aucun chiffre précis de marge de progression n'est fourni dans l'abstract. L'enjeu soulevé par ce travail est le fossé entre performance brute et raisonnement explicite dans les VLA actuels. Les modèles existants apprennent des mappings entrée-action fonctionnels mais omettent les étapes logiques intermédiaires, ce qui fragilise leur interprétabilité et leur généralisation sur des tâches longues et complexes. Pour les intégrateurs industriels, cette lacune est critique : un robot qui réussit une tâche sans pouvoir expliquer sa décision est difficile à valider, à certifier, ou à déboguer. ReFineVLA propose d'injecter du raisonnement structuré au moment du fine-tuning plutôt qu'en repensant l'architecture, ce qui est une approche pragmatique pour améliorer des modèles existants comme OpenVLA ou pi0 sans réentraînement complet. Ce travail s'inscrit dans une tendance récente visant à combler le gap entre LLMs raisonnants et politiques robotiques. Des approches comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA ont montré que les VLA pré-entraînés sur de larges corpus peuvent être adaptés à des domaines spécifiques. ReFineVLA pousse cette logique en ciblant explicitement le raisonnement comme vecteur de généralisation. Les évaluations restent cantonnées à la simulation, et la question du transfert sim-to-real n'est pas traitée dans cette version. Les prochaines étapes naturelles seraient une validation sur robot réel et une mesure de l'impact sur des tâches de manipulation longue séquence hors distribution.

IA physiqueOpinion
1 source
Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants
77arXiv cs.RO 

Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants

Une équipe de chercheurs a publié sur arXiv (ref. 2504.16670) un cadre d'optimisation par diffusion pour résoudre le problème du temps minimum de déplacement sur un robot à double bras redondant. L'objectif est de minimiser le temps nécessaire pour qu'une configuration dual-arm suive un chemin cartésien relatif défini, tout en respectant les contraintes articulaires et l'erreur cartésienne. Les résultats annoncés sont significatifs : réduction de 35x du temps de calcul et diminution de 34 % de l'erreur cartésienne par rapport à la méthode précédente des mêmes auteurs, qui reposait sur une approche bi-niveaux avec résolution primal-dual. Ce gain de performance est important pour la robotique industrielle collaborative, où les bras doubles, typiquement utilisés en assemblage, en manipulation d'objets encombrants ou en chirurgie assistée, doivent exécuter des trajectoires précises dans des temps de cycle serrés. La méthode antérieure, basée sur le gradient, souffrait de deux limitations structurelles : une charge de calcul élevée rendant la planification en quasi-temps-réel difficile, et une incapacité à imposer directement une contrainte d'erreur cartésienne en norme infinie (L∞) le long de la trajectoire, en raison de la sparsité du gradient. Le passage à un échantillonnage probabiliste via un algorithme de diffusion permet de contourner ces deux problèmes simultanément, ce qui constitue une avancée méthodologique réelle, même si les benchmarks restent pour l'instant sur simulation. Le contexte est celui de l'essor des planificateurs de mouvement basés sur l'apprentissage et les méthodes probabilistes pour les robots à haute redondance cinématique. Les approches par diffusion, popularisées dans la génération d'images puis étendues à la robotique via des travaux comme pi0 (Physical Intelligence) ou des planificateurs de trajectoire neuronaux, gagnent du terrain face aux solveurs classiques (CHOMP, TrajOpt) sur des critères de vitesse et de généralisation. Ce travail s'inscrit dans cette tendance en restant ancré dans un cadre d'optimisation formelle (contrôle optimal), ce qui lui confère une interprétabilité que les approches purement end-to-end n'offrent pas encore. La prochaine étape naturelle serait une validation sur hardware physique avec contraintes temps-réel.

RecherchePaper
1 source
La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée
78arXiv cs.RO 

La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée

Des chercheurs ont publié sur arXiv (arXiv:2604.16903) un framework de collecte de données pour robots embodied basé sur Unity, qui exploite la réalité virtuelle et les mécaniques de jeu vidéo pour contourner le goulet d'étranglement majeur du domaine : obtenir des démonstrations humaines en quantité suffisante. Le système combine génération procédurale de scènes, téléopération d'un robot humanoïde en VR, évaluation automatique des tâches et journalisation de trajectoires. Un prototype concret a été développé et validé : une tâche de pick-and-place de déchets, dans laquelle l'opérateur incarne le robot via un casque VR pour saisir et trier des objets dans des environnements générés aléatoirement. Les résultats expérimentaux montrent que les démonstrations collectées couvrent largement l'espace état-action, et que l'augmentation de la difficulté de la tâche entraîne une intensité de mouvement plus élevée ainsi qu'une exploration plus étendue de l'espace de travail du bras. Ce travail s'attaque à un problème structurel de l'intelligence embodied : les interfaces de téléopération classiques (manettes, bras maître-esclave, exosquelettes) sont coûteuses, peu accessibles et difficiles à déployer à grande échelle. En gamifiant la collecte, le framework ouvre la possibilité de recruter des opérateurs non spécialisés via des interfaces VR grand public, réduisant potentiellement le coût marginal par démonstration. La couverture large de l'espace état-action est un signal positif pour l'entraînement de politiques robustes, notamment les VLA (Vision-Language-Action models) qui dépendent de la diversité des trajectoires. Il faut toutefois nuancer : le prototype reste une tâche simple (ramassage d'objet), et les auteurs ne fournissent pas de métriques de transfert vers un robot physique réel, la question du sim-to-real gap reste entière. Ce type d'approche s'inscrit dans une tendance plus large de recours aux environnements synthétiques pour l'entraînement robotique, portée notamment par Physical Intelligence (pi0), Google DeepMind (RoboVQA, RT-2) et NVIDIA (GROOT). La génération procédurale de scènes est également au coeur des pipelines de simulation massive comme IsaacLab. L'originalité ici est l'angle "jeu vidéo" assumé, qui rapproche la collecte de données des méthodes de crowdsourcing humain utilisées en NLP. Les prochaines étapes naturelles seraient un benchmark sur robot physique, une extension à des tâches bimanuelle, et une évaluation de la qualité des politiques entraînées sur ces données face à des baselines téléopérées classiques.

IA physiqueActu
1 source
GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale
79arXiv cs.RO 

GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17241) un nouveau framework vision-langage baptisé GaLa, conçu pour améliorer la planification procédurale dans les systèmes d'IA incarnée. Le système repose sur une représentation par hypergraphe : chaque objet détecté dans une scène devient un nœud, tandis que des hyper-arêtes agrègent ces objets selon leurs attributs fonctionnels et leur sémantique pour former des régions cohérentes. GaLa intègre également un encodeur baptisé TriView HyperGraph Encoder, qui impose une cohérence sémantique entre trois niveaux de représentation (vue nœud, vue zone, vue association nœud-zone) via apprentissage contrastif. Les expériences menées sur les benchmarks ActPlan1K et ALFRED montrent des gains significatifs sur le taux de succès d'exécution, le score LCS (Longest Common Subsequence) et la correction des plans générés, sans que les auteurs ne publient de chiffres absolus précis dans le résumé disponible. Ce travail cible un problème bien documenté dans la robotique d'interaction : les VLMs (Vision-Language Models) actuels raisonnent correctement sur du langage et de l'image de façon isolée, mais peinent à saisir les relations spatiales implicites et la hiérarchie fonctionnelle d'une scène réelle. Pour un robot devant exécuter une séquence de tâches domestiques (préparer un repas, ranger des objets), comprendre que le plan de travail et le réfrigérateur appartiennent à la même région fonctionnelle change radicalement la qualité du plan généré. GaLa propose une couche de structuration explicite en amont du raisonnement VLM, ce qui réduit la dépendance aux capacités d'inférence implicite des modèles de fondation et ouvre la voie à une meilleure généralisation sur des scènes non vues. Le benchmark ALFRED, développé par Allen AI, est devenu la référence standard pour évaluer la planification procédurale en environnement simulé domestique, et ActPlan1K cible des scénarios procéduraux plus complexes. La tendance actuelle dans ce sous-domaine consiste à enrichir les VLMs généralistes (GPT-4o, LLaVA, InternVL) avec des modules de représentation structurée, une approche que GaLa pousse plus loin que les travaux précédents via l'hypergraphe. Les concurrents directs incluent des travaux comme SQA3D, EmbodiedScan ou les pipelines VLA (Vision-Language-Action) de Physical Intelligence (pi0) et de Google DeepMind, qui cherchent eux aussi à réduire le gap simulation-réel. GaLa reste pour l'instant un résultat de recherche académique sans déploiement physique annoncé.

RechercheActu
1 source
RBR50 Gala fait son retour au Robotics Summit & Expo 2026
80Robotics Business Review 

RBR50 Gala fait son retour au Robotics Summit & Expo 2026

Le Robotics Summit & Expo 2026 accueillera le 27 mai prochain, de 18h à 20h, la cérémonie des RBR50 Robotics Innovation Awards au Thomas M. Menino Boston Convention and Exhibition Center. L'événement, organisé par The Robot Report et WTWH Media, clôture le premier jour du salon en réunissant les principaux acteurs de l'industrie robotique autour d'un dîner de remise de prix. Parmi les lauréats déjà annoncés figurent Amazon Vulcan, distingué Robot de l'Année pour son système de préhension tactile appliqué au picking et au rangement en entrepôt, et Physical Intelligence, désignée Startup de l'Année pour ses modèles PI qui modifient l'approche de l'apprentissage robotique. Le prix Application de l'Année revient à Harvard University pour son exosquelette souple porté au bras, destiné aux patients victimes d'AVC ou atteints de SLA. Tatum Robotics remporte la catégorie Robots for Good avec Tatum1, une main robotique conçue pour la communication tactile en langue des signes. En marge des prix, Aaron Parness, directeur des sciences appliquées chez Amazon Robotics, s'entretiendra avec Steve Crowe, rédacteur en chef de The Robot Report, dans une conversation centrée sur le robot Vulcan. La sélection de ces lauréats illustre les axes de développement qui structurent aujourd'hui le marché : la manipulation tactile en environnement industriel non structuré avec Vulcan, l'apprentissage par démonstration à grande échelle avec Physical Intelligence, et des applications médicales portables qui sortent le robot du sol d'usine. Pour un intégrateur ou un décideur industriel, ces distinctions signalent moins des ruptures technologiques que des vecteurs de maturité commerciale. Vulcan notamment incarne la convergence entre robotique de service, perception haptique et déploiement à l'échelle opérationnelle chez un acteur e-commerce majeur, ce qui constitue une référence de validation terrain difficile à ignorer. La présence de Physical Intelligence dans les lauréats confirme aussi l'intérêt croissant du secteur pour les approches génératives de contrôle moteur, un positionnement que se disputent également Figure AI, 1X Technologies et Agility Robotics. Le Robotics Summit & Expo est devenu en quelques éditions l'un des rendez-vous techniques de référence pour les développeurs de robotique commerciale, avec plus de 50 sessions programmées cette année sur l'IA, le design, les technologies habilitantes, la santé et la logistique. Plus de 70 intervenants confirmés représentent AWS, Brain Corp, Tesla, Toyota Research Institute, PickNik Robotics ou encore le Robotics and AI Institute. Le salon est co-localisé avec DeviceTalks Boston, dédié aux dispositifs médicaux, ce qui renforce la dimension santé de l'édition 2026. La liste complète des lauréats RBR50 n'est pas encore publiée; The Robot Report annonce une mise en ligne prochaine, accompagnée du détail de l'exposition RBR50 Showcase sur le floor du salon. Les inscriptions sont ouvertes.

AutreActu
1 source
La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China
81Pandaily 

La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China

X Square Robot, startup chinoise spécialisée dans l'IA incarnée fondée en décembre 2023, a bouclé un tour de série B de près de 2 milliards de yuans (environ 276 millions de dollars) entre fin mars et début avril 2026, co-mené par le bras d'investissement stratégique de Xiaomi et Sequoia China. Cette levée intervient à peine trois mois après un tour A++ d'un milliard de yuans (138 millions de dollars) annoncé le 12 janvier, dans lequel ByteDance, Sequoia China, le Beijing Information Industry Development Fund et le Shenzhen Capital Group figuraient déjà comme investisseurs principaux. Meituan et Alibaba ont également rejoint le cap table, ce qui fait de X Square Robot la seule entreprise d'IA incarnée en Chine à avoir attiré les trois géants de l'internet chinois simultanément. La société a déjà commercialisé deux plateformes robotiques propriétaires : Quantum-1 et Quantum-2, ce dernier étant un humanoïde à roues à usage général. En moins de six mois d'existence publique, X Square Robot cumule plus de 400 millions de dollars levés, un rythme qui place la startup dans la même trajectoire de capitalisation accélérée que Figure AI ou Physical Intelligence aux États-Unis. La présence conjointe de Xiaomi, acteur hardware avec une chaîne d'approvisionnement robuste, et de ByteDance, maître de la donnée comportementale à grande échelle, suggère une stratégie d'intégration verticale : modèles de fondation incarnés alimentés par des volumes de données massifs, déployés sur du matériel maîtrisé. Le fait que le fonds IA dédié de Shenzhen Capital ait effectué ici son premier investissement signale également un intérêt institutionnel croissant pour la robotique généraliste en Chine. X Square Robot émerge dans un contexte de compétition intense entre Beijing et la Silicon Valley sur les modèles de fondation robotiques : Unitree, Agibot et Galbot d'un côté, Figure, 1X Technologies et Physical Intelligence de l'autre. La différenciation affichée de X Square repose sur des "modèles de fondation d'intelligence incarnée générale" développés en interne, une approche similaire à celle de Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les détails techniques des modèles, leurs benchmarks réels et les déploiements clients concrets restent à ce stade non divulgués, les annonces demeurant au stade du positionnement stratégique plutôt que du produit validé en conditions industrielles.

UELa capitalisation accélérée de X Square Robot par Xiaomi, ByteDance et Alibaba simultanément accentue la pression concurrentielle mondiale sur les projets européens de robots humanoïdes et de modèles de fondation incarnés, sans impact direct immédiat sur la France ou l'UE.

Chine/AsieOpinion
1 source
Mémoire à long terme pour agents VLA dans l'exécution de tâches en environnement ouvert
82arXiv cs.RO 

Mémoire à long terme pour agents VLA dans l'exécution de tâches en environnement ouvert

Une équipe de chercheurs a publié le 22 avril 2026 sur arXiv (ref. 2504.15671) les résultats de ChemBot, un système robotique conçu pour automatiser des protocoles d'expérimentation chimique complexes en laboratoire. ChemBot repose sur une architecture à deux couches couplant un agent IA planificateur à un modèle Vision-Language-Action (VLA) baptisé Skill-VLA, capable de décomposer hiérarchiquement des tâches longues, typiquement des protocoles multi-étapes, puis de les exécuter sur des robots collaboratifs. Le système intègre une mémoire persistante à double niveau qui archive les trajectoires réussies sous forme d'assets réutilisables, et s'appuie sur un serveur Model Context Protocol (MCP) pour orchestrer les sous-agents et les outils. Un mécanisme d'inférence asynchrone basé sur la prédiction d'états futurs est également implémenté pour réduire les discontinuités de trajectoire, un défaut récurrent des VLA standards. Les expériences rapportées montrent des taux de succès et une précision opérationnelle supérieurs aux baselines VLA existantes sur des scénarios longs et multi-étapes. Ce travail adresse une limite structurelle bien documentée des modèles VLA : leur incapacité à capitaliser sur les expériences passées, ce qui force le système à recommencer par tâtonnements à chaque nouvelle session. En intégrant une mémoire persistante récupérable, ChemBot réduit concrètement le "trial-and-error gap" dans des environnements à longue horizon de planification, un problème critique pour l'automatisation de laboratoire où une erreur en milieu de protocole peut invalider toute une expérience. C'est également une démonstration applicative du sim-to-real dans un domaine non industriel, le laboratoire chimique, traditionnellement peu couvert par les benchmarks robotiques. Pour les intégrateurs B2B dans le pharma ou la recherche chimique, cela constitue un signal concret vers des robots de laboratoire autonomes capables de gérer des workflows non déterministes. Les modèles VLA ont connu une montée en puissance rapide depuis 2023 avec des travaux comme RT-2 (Google DeepMind), OpenVLA et Pi-0 (Physical Intelligence), mais la majorité des déploiements restent limités à des tâches courtes et répétitives. ChemBot se positionne dans le segment émergent des "long-horizon VLA", aux côtés de travaux comme SayCan ou des architectures hiérarchiques de Carnegie Mellon. Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'une publication académique avec validation sur robots collaboratifs en environnement contrôlé. Les prochaines étapes logiques incluent des tests sur des plateformes comme les robots Universal Robots ou Franka, et une intégration potentielle avec des systèmes LIMS existants dans les laboratoires pharmaceutiques.

RechercheOpinion
1 source
Transfert de compétences entre géométries différentes en une seule démonstration par décomposition en parties
83arXiv cs.RO 

Transfert de compétences entre géométries différentes en une seule démonstration par décomposition en parties

Des chercheurs ont publié le 20 avril 2026 (arXiv:2604.15455) une méthode permettant à un robot d'apprendre un geste à partir d'une seule démonstration, puis de le transférer à des objets de formes radicalement différentes, sans nouvel entraînement. L'approche repose sur une décomposition sémantique : plutôt que de comparer un objet entier à un autre, le système identifie les parties fonctionnelles pertinentes (poignée, bord, surface de contact) et transfère les points d'interaction entre les pièces homologues de l'objet de démonstration et de l'objet cible. Des modèles génératifs de formes à faible coût de données construisent automatiquement une fonction objectif qui optimise l'alignement de ces points sur les parties critiques pour l'exécution du skill. Les validations couvrent plusieurs skills et familles d'objets, en simulation et en environnement réel. Ce résultat est notable car il s'attaque directement au "demo-to-reality gap" géométrique : la majorité des systèmes actuels de transfert de skills, y compris ceux basés sur des Visual Language Action models (VLA), peinent dès que la forme de l'objet cible s'écarte significativement de celle vue lors de l'apprentissage. La décomposition en parties découple la variabilité de forme globale de la logique d'interaction locale, ce qui augmente mécaniquement le domaine de généralisation sans multiplier les données d'entraînement. Pour un intégrateur industriel ou un équipementier travaillant sur des lignes multi-références, c'est une piste concrète pour réduire le coût de re-programmation à chaque changement de référence produit. Le problème du transfert de skills en robotique est étudié depuis des années sous différents angles : apprentissage par démonstration (LfD), correspondances fonctionnelles entre objets, ou plus récemment les VLA pré-entraînés sur larges corpus vidéo (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA). Cette approche se positionne dans la lignée des travaux sur le raisonnement compositionnel, qui cherchent à représenter les objets non comme des blobs de points mais comme des assemblages de parties sémantiques, une direction explorée également par des groupes comme le MIT CSAIL et Stanford. Aucun partenariat industriel ni déploiement terrain n'est annoncé à ce stade : il s'agit d'une contribution académique, prometteuse mais encore à valider sur des skills complexes et des environnements fortement non structurés.

RechercheActu
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
84arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source
Maniformer lance une plateforme de données d'IA physique tout-en-un pour préparer l'ère de l'AGI
85Pandaily 

Maniformer lance une plateforme de données d'IA physique tout-en-un pour préparer l'ère de l'AGI

Maniformer, startup chinoise spécialisée dans l'infrastructure de données pour l'IA physique, a officiellement lancé sa plateforme de services de données en un seul guichet, accompagnée de la gamme matérielle MEgo et du système de gouvernance MEgo Engine. La gamme MEgo comprend trois composants : le MEgo Gripper pour la capture de données de manipulation robotique, le MEgo View, un dispositif de collecte portable à tête montée, et le MEgo Engine pour le traitement et la gouvernance des données. Ces outils affichent une précision millimétrique, une synchronisation sub-milliseconde et une perception panoramique supérieure à 300 degrés. Le système est nativement compatible avec le robot G2 Air, garantissant la cohérence entre environnements simulés et réels. Selon Yao Maoqing, président-directeur général, l'entreprise vise une capacité de production de dizaines de millions d'heures de données d'ici 2026, puis des dizaines de milliards d'heures d'ici 2030. Le problème que Maniformer cherche à résoudre est structurel : les données d'interaction physique réelle disponibles pour l'IA incarnée représentent moins de 1/20 000 de ce qui existe pour les grands modèles de langage. Ce déficit, combiné à l'absence de standards, à des problèmes de qualité hétérogène et à des inadéquations entre offre et demande, freine concrètement la commercialisation des robots autonomes. En proposant une infrastructure full-stack couvrant la télé-opération réelle, la collecte sans robot dédié et la génération synthétique par simulation, Maniformer cherche à décorréler la production de données de la disponibilité des plateformes robotiques elles-mêmes, une approche qui, si elle tient ses promesses, pourrait accélérer significativement le cycle sim-to-real pour les intégrateurs et les équipes R&D. L'analogie revendiquée avec l'électricité ou l'eau comme utilities est ambitieuse ; elle reste à valider à l'échelle industrielle. L'entreprise s'inscrit dans un contexte de course mondiale aux données d'entraînement pour robots humanoïdes et manipulateurs, où des acteurs comme Physical Intelligence (Pi-0), Boston Dynamics, Figure AI ou Unitree investissent massivement dans leurs propres pipelines de données propriétaires. La stratégie de Maniformer est différente : se positionner en fournisseur tiers d'infrastructure, à la manière d'un AWS pour la donnée physique. L'initiative "Hive" annoncée vise à fédérer des partenaires mondiaux pour co-construire des standards sectoriels, une démarche de standardisation qui, si elle aboutit, pourrait bénéficier à l'ensemble de l'écosystème, y compris aux acteurs européens comme Enchanted Tools ou Wandercraft qui peinent à constituer des datasets suffisants. La prochaine étape annoncée est le déploiement d'un réseau global de collecte de données, sans calendrier précis communiqué au-delà de l'horizon 2026.

UESi l'initiative 'Hive' de standardisation aboutit, les acteurs européens comme Enchanted Tools ou Wandercraft pourraient bénéficier d'une infrastructure de données partagée pour accélérer leurs pipelines sim-to-real.

Chine/AsieActu
1 source
Amazon rachète Fauna Robotics pour lancer son premier robot humanoïde domestique
86Frandroid 

Amazon rachète Fauna Robotics pour lancer son premier robot humanoïde domestique

Amazon a annoncé le rachat de Fauna Robotics, une startup spécialisée dans la robotique humanoïde, marquant une nouvelle étape dans la stratégie de l'entreprise pour conquérir le marché domestique. Cette acquisition permet à Amazon de disposer pour la première fois d'un robot capable d'effectuer des tâches physiques à domicile, comme ramasser des objets au sol — des jouets, par exemple. Les détails financiers de la transaction n'ont pas été divulgués, mais l'opération témoigne d'un investissement stratégique majeur dans la robotique grand public. Ce pivot représente une rupture nette avec Astro, le précédent robot d'Amazon lancé en 2021 : un simple écran monté sur roues, utile pour la surveillance ou les appels vidéo, mais incapable d'interagir physiquement avec son environnement. Un robot humanoïde domestique fonctionnel ouvrirait un marché considérable — des millions de foyers en quête d'assistance pour des tâches quotidiennes répétitives. Pour Amazon, c'est aussi une extension naturelle de l'écosystème Alexa vers la couche physique du foyer, transformant une enceinte connectée en assistant incarné. La course au robot domestique s'intensifie depuis plusieurs années. Figure AI, Physical Intelligence, Boston Dynamics ou encore Tesla avec Optimus investissent massivement ce segment. Amazon, fort de son expérience en robotique d'entrepôt avec ses milliers d'unités déployées dans ses centres logistiques, dispose d'une base technologique solide pour accélérer. L'acquisition de Fauna Robotics lui offre vraisemblablement une équipe spécialisée et des brevets ciblant spécifiquement les usages résidentiels, là où la manipulation d'objets dans des espaces non structurés reste le défi technique central.

HumanoïdesActu
1 source