Aller au contenu principal

Dossier Figure — page 6

673 articles · page 6 sur 14

Figure, le constructeur de robots humanoïdes le plus capitalisé : Figure 02 et 03, modèle Helix VLA, déploiements BMW, partenariats avec OpenAI puis indépendance.

Pilotage du comportement robotique à l'inférence par reconfiguration physiquement informée de la structure de tâche
251arXiv cs.RO RechercheOpinion

Pilotage du comportement robotique à l'inférence par reconfiguration physiquement informée de la structure de tâche

Une équipe de recherche a publié sur arXiv (ref. 2606.26588) un système baptisé ReStruct, conçu pour modifier le comportement d'un robot en cours de déploiement sans nécessiter de réentraînement. Le problème visé est ce que les chercheurs appellent le "steering à l'inférence" : forcer une politique robotique apprise à respecter une préférence utilisateur imprévue lors de l'entraînement, au moment du test uniquement. ReStruct repose sur une architecture en deux niveaux : un squelette de haut niveau modélisé comme une machine à états finis (automate neural), qui encode la structure de la tâche, et un contrôleur bas niveau sous forme de politique résiduelle, qui reste entièrement gelé. Lors de la modification d'une préférence, c'est uniquement l'automate qui est reconfiguré via un produit synchrone, mettant à jour les prior d'action transmis au contrôleur. Sur banc de test en simulation et en environnement réel, ReStruct dépasse les modèles VLA (Vision-Language-Action) existants de jusqu'à 25 % en taux de réussite de tâche et en respect des préférences, pour des spécifications allant de contraintes sur des objets spécifiques jusqu'à des contraintes de logique temporelle. L'enjeu industriel est significatif : le réentraînement d'une politique robotique pour chaque nouvelle variante de tâche ou préférence opérateur représente aujourd'hui un verrou majeur à la scalabilité des déploiements. Les approches bout-en-bout (fine-tuning, guidance experte) sont trop coûteuses en pratique, tandis que les méthodes neuro-symboliques classiques génèrent des plans logiquement cohérents mais physiquement irréalisables, ce que ReStruct corrige en intégrant la faisabilité physique directement dans la reconfiguration de la structure de tâche. Le fait que la méthode surpasse les modèles VLA sur ces métriques est notable : les VLA représentent actuellement le paradigme dominant en robotique manipulatrice apprise, et cette architecture hybride formelle-neuronale suggère une voie complémentaire plutôt que concurrente. Ce travail s'inscrit dans un débat de fond entre approches purement end-to-end et méthodes symboliques pour la robotique généraliste. Les modèles VLA comme pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) misent sur des fondations neuronales massives adaptées par fine-tuning, ce qui les rend rigides face aux variations de préférences non anticipées. ReStruct propose une alternative légère, fondée sur la théorie des automates, qui n'impose pas de réentraîner le contrôleur. Il s'agit d'un preprint académique sans affiliation industrielle annoncée ni déploiement terrain mentionné, mais la démonstration en conditions réelles renforce la crédibilité de l'approche. Les prochaines étapes naturelles seraient l'intégration dans des pipelines de déploiement existants et l'évaluation sur des manipulateurs commerciaux multi-tâches.

1 source
ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action
252arXiv cs.RO 

ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action

Une équipe de chercheurs publie fin juin 2026 ROAD-VLA (arXiv:2606.25800), un cadre d'adaptation en ligne des modèles VLA (Vision-Language-Action) par auto-distillation guidée par avantage. Les VLA, à l'image de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou RT-2 (Google DeepMind), traduisent directement une entrée visuelle et une instruction en langage naturel en séquences d'actions robotiques. Le problème : affiner un tel modèle pré-entraîné sur de nouvelles tâches via apprentissage par renforcement (RL) génère des récompenses trop éparses pour superviser des politiques autoregressives de haute dimension. ROAD-VLA y répond en construisant un "enseignant proximal" dans l'espace des actions, perturbant les logits des tokens d'action avec des estimations d'avantage calibrées pour convertir des récompenses rares en supervision dense token par token. Évalué sur sept environnements de manipulation robotique, en distribution et hors distribution, le framework surpasse PPO (Proximal Policy Optimization, référence RL standard) dans la quasi-totalité des configurations. La découverte la plus saillante est l'existence d'un "modality gap" : les enseignants textuels conditionnés sur des démonstrations, des expériences récupérées ou des plans de haut niveau s'avèrent systématiquement inefficaces pour adapter les politiques d'action VLA. C'est une contradiction directe avec une hypothèse répandue selon laquelle le guidage symbolique ou langagier peut servir de supervision fiable lors du fine-tuning RL. ROAD-VLA démontre que la supervision doit opérer dans l'espace des actions, pas dans l'espace du langage. Pour un intégrateur déployant des bras manipulateurs basés sur VLA, cela ouvre une voie d'adaptation au domaine sans collecter de nouvelles démonstrations massives : le modèle se corrige via son propre comportement et les signaux de récompense de l'environnement réel. Le paradigme VLA a pris son essor avec RT-2 (Google DeepMind, 2023), puis s'est accéléré via Pi-0 (Physical Intelligence, 2024), GR00T N2 (NVIDIA, 2025) et Helix (Figure AI), accompagnés d'une vague de publications académiques. L'adaptation post-déploiement, soit ajuster un modèle généraliste à une géométrie de préhension spécifique ou à un flux industriel précis sans tout ré-entraîner, est désormais identifiée comme le verrou opérationnel suivant par les équipes terrain. Ce travail reste une annonce académique (arXiv, juin 2026), pas un produit livré ni un déploiement industriel réel, et la validation sur robots physiques en conditions industrielles reste à conduire. Aucun acteur français ou européen n'est impliqué dans cette recherche.

RechercheOpinion
1 source
InSight : acquisition autonome de compétences via des VLA pilotables
253arXiv cs.RO 

InSight : acquisition autonome de compétences via des VLA pilotables

Une équipe de chercheurs présente InSight (arXiv:2606.24884, juin 2026), un cadre d'acquisition autonome de compétences pour les modèles vision-language-action (VLA). L'architecture comporte deux étapes : d'abord un pipeline de segmentation automatique qui décompose des démonstrations existantes en primitives étiquetées ("déplacer la pince vers le bol", "soulever vers le haut", "verser la bouteille") via un VLM de décomposition de plans couplé aux poses de l'effecteur terminal ; ensuite un flywheel de données guidé par VLM qui identifie les primitives manquantes pour accomplir une nouvelle tâche, tente des démonstrations autonomes via un contrôle bas niveau proposé par le VLM, et intègre automatiquement les succès dans l'ensemble d'entraînement. Le système a été validé sur cinq tâches de manipulation : retournement de blocs, fermeture de tiroir, balayage, vissage et versement, en simulation et en conditions réelles, sans aucune démonstration humaine des compétences cibles. L'enjeu central : les VLA actuels sont structurellement limités par leur corpus d'entraînement initial, et toute extension vers de nouvelles tâches impose aujourd'hui un coût élevé en téléopération humaine. InSight propose une boucle d'auto-amélioration fermée où les primitives apprises peuvent être composées pour exécuter des tâches à horizon long sans intervention humaine supplémentaire. Pour un intégrateur ou un COO industriel, cela représente une réduction potentielle du coût d'onboarding robotique. Les démonstrations publiées restent cependant relativement simples, et les auteurs ne fournissent pas de métriques de cycle time ni de taux de succès pour des scénarios de production complexes, ce qui invite à la prudence avant toute extrapolation opérationnelle. Les modèles VLA sont un terrain de compétition intense entre Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Google DeepMind (RT-2) et Figure AI (Helix pour la manipulation humanoïde). Tous partagent le même verrou : un plafond de capacités figé à l'entraînement. InSight s'inscrit dans une tendance émergente de systèmes capables de s'auto-étendre, proche des travaux sur les agents génératifs de données. Cette publication demeure un preprint académique sans déploiement annoncé ; les auteurs prévoient de rendre le code public via insight-vla.github.io. Les prochaines étapes concernent la robustesse du flywheel sur des primitives moins déterministes et la validation en environnement industriel réel sur des bras à plus de six degrés de liberté.

IA physiqueOpinion
1 source
Kunlun Xing, startup d'IA incarnée, lève plusieurs milliards de yuans et devient licorne en 90 jours
25436Kr 

Kunlun Xing, startup d'IA incarnée, lève plusieurs milliards de yuans et devient licorne en 90 jours

Moins de quatre-vingt-dix jours après son enregistrement officiel, la startup de robotique humanoïde chinoise Kunlun Xing (昆仑行) a bouclé trois tours de financement successifs pour un total de plusieurs milliards de yuans, franchissant le seuil du milliard de dollars de valorisation avant même d'avoir sorti un produit. C'est le 36Kr qui révèle ces informations en exclusivité. La société est fondée par Ren Geng, ancien vice-président du groupe Alibaba et ex-président d'Alibaba Cloud Chine, accompagné de Lang Xianpeng, premier ingénieur ADAS de Li Auto, l'équivalent chinois de Mobileye au sein du constructeur. Les investisseurs présents dès le premier tour, dont Hillhouse Capital, Gaorong Ventures, CASSTAR et Huaye Capital, ont participé aux trois rounds consécutifs, un signal fort de conviction. Le tour de table réunit également Zhongding Capital, Innovation Works (le fonds de Kai-Fu Lee), Xin Capital, et le bras industriel du conglomérat Jianfa Group. La stratégie affichée par Kunlun Xing est le développement en intégration totale (full-stack) d'un robot humanoïde généraliste, explicitement positionné comme concurrent de l'Optimus de Tesla, avec une architecture duale baptisée Kunlun World Model (KWM) censée améliorer la généralisation et réduire l'opacité décisionnelle des modèles de type VLA. Ce financement record illustre la tension qui structure le marché chinois de la robotique humanoïde en 2026 : les capitaux sont abondants, mais les cibles crédibles rares. Plusieurs fonds de premier rang interrogés par 36Kr reconnaissent se retrouver en position de "demandeurs" face aux meilleurs dossiers, non l'inverse. Ce qui différencie Kunlun Xing aux yeux des investisseurs, c'est la combinaison inhabituelle de compétences de go-to-market à grande échelle (Ren Geng a piloté Alibaba Cloud à 42,1 % de part de marché public cloud en 2020) et de capacités de livraison hardware à volume (Lang Xianpeng a délivré l'ADAS Li Auto sur 1,5 million de véhicules avec un budget annuel de recherche de 10 millions de yuans). Dans un secteur où la plupart des acteurs sont soit purement techniques, soit purement commerciaux, cette dualité est jugée décisive. La stratégie "corps + cerveau" en développement propriétaire vise à éviter le découplage logiciel-matériel qui pénalise nombre de concurrents. Le contexte sectoriel qui nourrit cette levée tient à plusieurs catalyseurs simultanés : l'annonce par Tesla d'une production en petite série de l'Optimus Gen3 à l'usine de Fremont entre juillet et août 2026, l'introduction en bourse accélérée de Unitree Robotics, et les prévisions de Morgan Stanley évaluant le marché mondial des robots humanoïdes à 5 000 milliards de dollars d'ici 2050. Kunlun Xing n'est toutefois pas seul sur ce segment : Figure AI, 1X, Agility Robotics et Fourier Intelligence occupent le terrain international, tandis que Unitree, Agibot (智元) et Zhiyuan Robot (智元) disputent le marché domestique. Les défis techniques restent concrets : la durée de vie des mains dextres dépasse rarement deux mois, et la supply chain composants n'est pas encore industrialisée. Kunlun Xing n'a pour l'heure annoncé ni prototype public, ni calendrier de livraison client, ni déploiement pilote, sa valorisation repose intégralement sur la crédibilité de l'équipe fondatrice, pas sur des métriques produit vérifiables.

Chine/AsieActu
1 source
Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique
255arXiv cs.RO 

Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique

Des chercheurs du RPM Lab de l'Université du Minnesota présentent dans un preprint arXiv (2512.11173v3) un framework d'imitation learning pour la navigation au "dernier mètre" d'un robot manipulateur mobile quadrupède. L'enjeu : positionner la base du robot à quelques centimètres de l'objet cible avant toute action de manipulation, une phase où les systèmes RGB existants échouent, ne garantissant qu'une précision métrique insuffisante. Le système n'utilise que des caméras RGB embarquées et fonctionne avec trois entrées : des images objectif, des observations RGB multi-vues, et un prompt texte nommant l'objet cible. Un module de segmentation guidé par le langage et un décodeur de matrice de score spatial gèrent l'ancrage de l'objet et le raisonnement en pose relative. Entraîné sur une seule instance physique par catégorie, le système atteint 74,58 % de succès en edge-alignment (évaluation sur l'orientation réelle) et 89,42 % en object-alignment sur des instances et environnements inédits, y compris avec des conditions d'éclairage et de fond difficiles. Ce résultat comble un angle mort structurel de la manipulation mobile : les politiques de manipulation sont entraînées sur des configurations précises, et un positionnement approximatif suffit à les faire sortir de leur distribution d'entraînement, causant des échecs en chaîne à l'exécution. Supprimer LiDAR, capteurs de profondeur et cartes préalables tout en conservant une précision centimétrique rend le pipeline nettement plus déployable sur des plateformes sans capteurs premium. La généralisation catégorielle (une seule démonstration réelle, des dizaines d'instances inconnues) réduit massivement le coût de collecte de données, un verrou majeur pour la manipulation hors environnement contrôlé. Ce travail s'inscrit dans la dynamique des VLA (Vision-Language-Action) qui cherchent à unifier perception, langage et action dans des politiques généralisables. Les acteurs dominants sur la manipulation mobile incluent Physical Intelligence (Pi-0), Figure AI et les équipes académiques de Stanford et CMU, qui investissent massivement dans la collecte de données téléopérées à grande échelle. L'approche ici contraste délibérément : une seule démonstration par catégorie plutôt que des milliers d'épisodes. Ce résultat reste un démonstrateur académique sans déploiement industriel annoncé ni partenaire B2B identifié, mais une page projet avec des démonstrations visuelles est disponible en ligne.

IA physiqueActu
1 source
Autonomique déploie des robots semi-humanoïdes et de l'IA chez un équipementier automobile canadien de rang 1
256Robotics Business Review 

Autonomique déploie des robots semi-humanoïdes et de l'IA chez un équipementier automobile canadien de rang 1

Autonomique Inc., startup californienne fondée en 2024 et issue des laboratoires de SRI International (Menlo Park), annonce le passage en déploiement industriel de sa plateforme d'IA physique chez F&P Manufacturing, équipementier automobile Tier 1 canadien basé à Tottenham, Ontario, spécialisé dans les systèmes de chassis et de suspension. La société ne commercialise pas de robot propre mais une couche logicielle hardware-agnostique conçue pour ajouter dextérité et raisonnement à des bras industriels existants, issus notamment de Denso, Staubli et RealMan Robotics. Son PDG, Vikrant Tomar, docteur en IA et ancien fondateur de Fluent.ai, insiste sur la distinction entre démonstration et production : les métriques annoncées (temps de cycle, précision, réduction de rebuts) restent à ce stade déclaratifs, sans données publiques indépendantes pour les valider. Le déploiement chez F&P est présenté comme un pilote progressant vers une industrialisation, non comme un rollout à l'échelle déjà opérationnel. L'intérêt technique réside dans l'architecture dite "généraliste-spécialiste" : plutôt qu'un unique modèle vision-langage-action (VLA) monolithique, la plateforme orchestre dynamiquement des compétences déterministes (apprentissage par renforcement en ligne pour les insertions de précision, par exemple) et des modèles VLA plus flexibles pour gérer les anomalies ou les tâches non prévues. Cette approche répond à une critique structurelle du secteur : les VLA génériques peinent à tenir les cadences et la répétabilité exigées en production réelle. Si Autonomique tient ses promesses chez F&P, ce serait un signal concret que le sim-to-real gap peut être comblé sur des workflows multi-étapes en environnement industriel contraint, sans recours à des end-effectors coûteux comme les mains robotiques polyarticulées. Autonomique s'appuie sur des licences de technologies SRI, dont le système de télé-opération déjà utilisé par l'armée américaine pour le déminage et par des laboratoires pharmaceutiques en salles blanches, ce qui donne à sa base de données d'entraînement une provenance inhabituelle pour une startup robotique. Ses concurrents directs dans le segment "software layer for industrial arms" incluent Covariant (racheté par Amazon), Machina Labs ou Physical Intelligence (Pi-0), tandis que des acteurs comme 1X Technologies ou Figure AI ciblent l'humanoïde complet, segment qu'Autonomique juge prématuré pour la production. Les prochaines étapes annoncées : extensions de partenariats avec Holiday Robotics et Rainbow Robotics, discussions en cours avec des développeurs d'humanoïdes, et réplication du blueprint F&P sur d'autres lignes et sites. Aucun acteur européen ou français n'est impliqué à ce stade.

💬 La couche logicielle sur bras existants, c'est le seul modèle qui colle vraiment avec la réalité des usines : pas besoin de remplacer le hardware. L'architecture généraliste-spécialiste d'Autonomique (déterminisme pour les tâches de précision, VLA pour gérer les exceptions) s'attaque enfin au problème que personne n'avait résolu proprement en prod réelle. Reste à valider les chiffres sur la durée, parce que pour l'instant c'est Autonomique qui parle d'Autonomique.

IA physiqueOpinion
1 source
LaST₀ : raisonnement spatio-temporel latent en chaîne pour les modèles VLA robotiques
257arXiv cs.RO 

LaST₀ : raisonnement spatio-temporel latent en chaîne pour les modèles VLA robotiques

Des chercheurs ont proposé LaST₀ (Latent Spatio-Temporal Chain-of-Thought), un framework pour modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique, publié en janvier 2026 sur arXiv (2601.05248, v4). Évalué sur 10 tâches réelles couvrant la manipulation sur table, la manipulation sur base mobile et la manipulation dextre, le système améliore le taux de succès moyen de respectivement 13 %, 14 % et 14 % par rapport aux meilleures méthodes VLA actuelles. L'architecture repose sur un design Mixture-of-Transformers dual : un "expert raisonnement" opérant à basse fréquence pour l'inférence latente, et un "expert action" générant des commandes motrices à haute fréquence, les deux modules fonctionnant à des cadences hétérogènes pour permettre un basculement adaptatif. Le raisonnement intermédiaire s'effectue dans un espace latent compact encodant la dynamique visuelle future, la structure 3D de la scène et les états proprioceptifs du robot, sans passer par du texte en langage naturel. L'enjeu central est le compromis latence/raisonnement qui freine le déploiement industriel des VLA. Les approches qui génèrent des traces de raisonnement en langage naturel avant d'agir, comme certaines variantes de Pi-0 (Physical Intelligence) ou OpenVLA, introduisent une latence d'inférence incompatible avec les cycles rapides de la manipulation robotique. LaST₀ court-circuite ce goulot en déplaçant le raisonnement dans un espace latent plus dense informationnellement, plus rapide à générer, et capable de capturer des attributs physiques difficiles à verbaliser comme la friction ou la compliance des objets. Les gains mesurés sur des environnements réels, et non en simulation, constituent un signal notable : le sim-to-real gap n'est pas le seul obstacle, et la représentation interne du raisonnement importe autant que la qualité des données d'entraînement. Les VLA ont émergé comme architecture dominante pour la généralisation en robotique depuis les travaux de Google sur RT-2 (2023), puis se sont accélérés avec Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI en 2025. Le débat structurant du secteur oppose raisonnement explicite de type LLM et politiques réactives de type diffusion. LaST₀ propose une troisième voie, un système dual à fréquences hétérogènes combinant les deux sans les latences du premier ni les limites de généralisation du second. La publication reste pour l'instant purement académique, sans pilote industriel annoncé, mais l'architecture est directement transposable aux manipulateurs commerciaux et aux plateformes humanoïdes existantes.

IA physiqueOpinion
1 source
Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles
258arXiv cs.RO 

Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles

Des chercheurs ont publié en juin 2026 (arXiv:2606.13746) un système de peau tactile dynamique basé sur des guides d'ondes acoustiques passifs et flexibles. L'architecture repose sur des résonateurs de Helmholtz à membranes élastiques interconnectés par des microtubes renforcés par ressorts, formant un réseau fermé dont la transmission acoustique reste stable sous flexion macroscopique, sans électronique distribuée dans la structure. Quatre microphones suffisent à couvrir 64 noeuds de détection avec une résolution spatiale de 4 mm et une précision de localisation supérieure à 99 %. L'inférence, fondée sur une transformée en ondelettes continue rapide (Fast CWT) couplée à un réseau de neurones léger, s'exécute en 5,5 ms. Les prototypes démontrés (réseau d'extrémité de doigt, gant tactile, peaux de grande surface) détectent des stimuli allant du contact d'un seul cheveu à un impact de particule de 5 mg, ainsi que des ondes de pouls artériel et des effleurements de plume, sur des signaux inférieurs à 100 Hz. La contribution clé n'est pas la sensibilité brute mais le découplage entre performance et flexibilité structurelle : contrairement aux capteurs piézorésistifs ou capacitifs qui se dégradent sur des substrats courbés, la transmission acoustique passive reste invariante. Ramener à quatre microphones la couverture de 64 points de mesure réduit câblage, coût et modes de défaillance, trois leviers critiques pour une mise en série industrielle. La précision annoncée de 99 % reste à confirmer hors conditions de laboratoire contrôlé et sur des cycles de manipulation réels. Ces travaux s'inscrivent dans une compétition dense autour de la peau tactile robotique, face aux capteurs optiques (famille GelSight du MIT), aux matrices piézorésistives (BeBop Sensors, SynTouch) et aux peaux capacitives développées en Europe et en Asie. Aucune approche n'a encore atteint la trifecta scalabilité-robustesse-coût sur un corps humanoïde complet. Ce paradigme passif pourrait intéresser des plateformes comme Agility Robotics, Figure AI ou Apptronik, qui cherchent à intégrer du retour tactile sans multiplier la complexité d'assemblage. La validation mécanique sur cycles répétés et la soumission à une revue à comité de lecture constituent les prochaines étapes critiques.

RecherchePaper
1 source
X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques
259arXiv cs.RO 

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

Publié sur arXiv (2603.03733) en 2025, X-Loco est un framework d'entraînement d'une politique de locomotion généraliste basée sur la vision pour robots humanoïdes. L'approche repose sur une distillation synergétique : plusieurs politiques expertes sont entraînées séparément pour des compétences distinctes - locomotion bipède stable, récupération après chute, coordination corps entier, franchissement de terrains variés - puis une politique unique guidée par entrée visuelle est distillée à partir de ces experts via un mécanisme de sélection adaptative au cas par cas. X-Loco opère uniquement sur des commandes de vitesse, sans recours à des mouvements de référence issus de captures de mouvement. Les auteurs revendiquent une première dans l'intégration simultanée de toutes ces compétences dans une seule politique vision - affirmation à prendre avec les précautions d'usage pour un preprint non encore évalué par les pairs. Ce travail s'attaque à un verrou technique central : entraîner une politique unique qui maîtrise des comportements aux dynamiques radicalement différentes et aux objectifs de contrôle parfois contradictoires. Une telle politique simplifie le déploiement opérationnel en éliminant les modules de commutation entre comportements. L'absence de dépendance aux données de mocap rend également le pipeline d'entraînement plus scalable, puisqu'il ne requiert pas de bibliothèques de mouvements spécifiques à chaque compétence cible. Les études d'ablation incluses renforcent la crédibilité des choix architecturaux, mais les résultats restent cantonnés à la simulation et au laboratoire, sans validation sur hardware réel à grande échelle. X-Loco s'inscrit dans une dynamique de recherche intense sur la locomotion humanoïde, portée par des équipes comme Berkeley Humanoid, CMU et les labos gravitant autour d'Unitree. La distillation enseignant-étudiant est un paradigme établi en apprentissage par renforcement, mais son application à un spectre aussi large de compétences reste un défi ouvert. Côté commercialisation, Tesla (Optimus Gen 2), Figure AI, Boston Dynamics (Atlas) et 1X Technologies travaillent sur des problèmes similaires avec des ressources bien supérieures. La suite logique pour X-Loco serait une validation sim-to-real convaincante sur hardware physique, étape non encore franchie selon le papier.

RecherchePaper
1 source
GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique
260arXiv cs.RO 

GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique

Une équipe de chercheurs propose GenHOI (arXiv:2606.12995, juin 2026), un cadre logiciel permettant à des robots humanoïdes d'interagir avec des objets variés en mode zéro-shot, sans entraînement spécifique à la tâche ni données de démonstration physique. Le système prend en entrée une commande en langage naturel et une image du premier plan de la scène robot-objet reconstruite en simulation, à partir desquels un modèle génératif produit une vidéo d'interaction synthétique orientée tâche. Cette vidéo est analysée pour identifier les événements de contact pertinents et estimer les régions de contact main-objet, encodés sous forme de contraintes géométriques centrées sur l'objet. Ces contraintes servent de priors d'optimisation pour raffiner la trajectoire de référence extraite de la vidéo 2D, résolvant l'ambiguïté d'échelle inhérente à la génération vidéo, et adaptent une trajectoire unique à des poses relatives robot-objet non vues à l'entraînement. Un contrôleur de suivi en boucle fermée assure l'exécution finale. Les tâches validées en simulation et en réel incluent la saisie de boîtes, le transport bimanuel asymétrique d'une chaise, le soulèvement d'une table par en-dessous et l'enveloppement d'objets cylindriques. Il s'agit d'un preprint académique, pas d'un produit déployé. L'enjeu central est la rupture avec le paradigme d'entraînement par tâche, principal goulot d'étranglement du déploiement industriel des humanoïdes. Les approches existantes exigent soit des centaines d'heures de collecte de démonstrations physiques par tâche, soit rejouent des trajectoires rigides incapables de s'adapter à des variations de pose ou d'objet. GenHOI contourne ces deux limites en substituant la génération vidéo à la démonstration réelle, tout en maintenant une conscience physique du contact via des contraintes géométriques explicites. La capacité d'adaptation à des configurations inédites robot-objet sans réentraînement est particulièrement significative pour les intégrateurs industriels devant déployer rapidement un humanoïde sur de nouvelles références produit. La problématique de l'interaction humanoïde-objet est activement travaillée par plusieurs acteurs concurrents : Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et les équipes de Figure AI ou Boston Dynamics opèrent dans un espace voisin, mais s'appuient majoritairement sur du fine-tuning tâche par tâche ou du reinforcement learning avec simulateurs massivement parallèles. GenHOI se positionne comme une approche complémentaire, plus légère en données, exploitant la capacité des générateurs vidéo récents à produire des séquences physiquement plausibles. La principale limite non adressée est la robustesse à l'échelle sur des centaines de tâches distinctes et la gestion des objets déformables. Les prochaines étapes naturelles seraient une évaluation sur des plateformes commerciales comme l'Unitree G1 ou l'Agility Digit, et une intégration avec des policies de bas niveau plus génériques.

IA physiqueOpinion
1 source
Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique
261arXiv cs.RO 

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique

Des chercheurs ont publié EmboCoach-Bench, un benchmark évaluant la capacité d'agents LLM à automatiser l'ingénierie de politiques pour systèmes robotiques incarnés. Présenté sur arXiv (arXiv:2501.21570), le cadre couvre 32 tâches conçues par des experts en apprentissage par renforcement (RL) et apprentissage par imitation (IL), avec le code exécutable comme interface universelle entre l'agent et l'environnement de simulation. Plutôt que de générer des solutions statiques, les agents opèrent en boucle fermée: ils proposent du code, l'exécutent dans le simulateur, analysent le retour d'environnement, puis itèrent pour corriger et optimiser. Les tâches couvrent des aspects allant de la conception de fonctions de récompense informées par la physique aux architectures de politiques avancées, notamment les diffusion policies. Les résultats quantitatifs méritent attention: les agents autonomes ont surpassé les baselines conçues manuellement par des humains de 26,5% en taux de succès moyen, contestant l'hypothèse selon laquelle l'expertise humaine en reward shaping serait difficilement substituable pour les politiques incarnées. Deuxième enseignement: le workflow agentique avec retour d'environnement réduit substantiellement l'écart de performance entre modèles open-source et propriétaires, ce qui suggère que la boucle de feedback itératif est plus déterminante que le modèle sous-jacent. Enfin, les agents démontrent une capacité de self-correction sur des cas pathologiques d'ingénierie, récupérant des tâches en quasi-échec total via un débogage itératif en simulation. Pour les équipes robotiques, cela représente une voie potentielle pour réduire le temps ingénieur consacré au tuning manuel des hyperparamètres et à la conception artisanale de fonctions de récompense. Ce travail s'inscrit dans une tendance plus large: l'application des workflows agentiques LLM, prouvés dans l'automatisation logicielle et la découverte scientifique, au domaine de l'IA incarnée. Le goulot d'étranglement identifié, à savoir la supervision manuelle intensive pour le réglage des simulations, est un problème structurel bien connu des équipes travaillant sur Optimus (Tesla), GR00T N2 (NVIDIA) ou les systèmes de Figure AI. La contribution différenciante d'EmboCoach-Bench est de proposer un cadre d'évaluation standardisé pour mesurer ce que les agents LLM peuvent réellement automatiser, plutôt que des démos ciblées. Les extensions naturelles incluent l'intégration à des backends hétérogènes (Isaac Lab, MuJoCo, Genesis) et la validation sim-to-real pour confirmer si ces gains en simulation se transfèrent aux systèmes physiques, ce qui reste le test décisif pour une adoption industrielle.

RecherchePaper
1 source
IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui
262arXiv cs.RO 

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

Des chercheurs ont publié en juin 2026 un préprint sur arXiv (2606.13222) décrivant un système permettant à un robot humanoïde d'apprendre à se distinguer des autres agents présents dans son environnement, sans recourir à des étiquettes d'identité ni à des modèles cinématiques prédéfinis. Le mécanisme repose sur la correspondance proprioceptive-visuelle : le robot corrèle ses propres états articulaires avec ce qu'il perçoit visuellement, ce qui lui permet d'identifier ses propres membres parmi d'autres corps en mouvement. À partir de cette capacité, le système construit automatiquement un modèle prédictif de soi qui associe les configurations articulaires à une représentation d'occupation corporelle en trois dimensions. Le système a été validé dans des scènes multi-agents impliquant soit des humains, soit des robots morphologiquement identiques, et supporte des tâches aval concrètes : atteinte de cibles, planification de mouvement avec évitement de collision, et retargeting de mouvement humain-robot. L'enjeu pratique est significatif pour les intégrateurs déployant des humanoïdes en environnements partagés. Jusqu'ici, la distinction soi/autrui dans les robots était traitée soit par des marqueurs extérieurs, soit par des modèles cinématiques codés en dur, deux approches qui échouent dès que le robot opère aux côtés d'agents inconnus ou de copies identiques de lui-même. Que cette capacité puisse émerger d'un signal d'apprentissage auto-supervisé, sans annotation, contredit l'hypothèse selon laquelle la conscience corporelle nécessite une ingénierie explicite. La robustesse face à des robots morphologiquement identiques est particulièrement notable : c'est précisément le scénario qui se généralise dans les lignes d'assemblage où plusieurs unités du même modèle cohabitent. Le problème de la représentation de soi chez les robots est un sujet actif depuis les travaux fondateurs sur le « miroir robotique », mais les approches précédentes restaient limitées à des configurations contrôlées. Côté concurrent, des équipes chez Figure AI, Boston Dynamics et Sanctuary AI travaillent sur des architectures d'apprentissage incarné, mais peu publient sur la distinction soi/autrui en contexte multi-agent. Ce travail reste à ce stade un preprint non évalué par les pairs ; aucun déploiement industriel ni partenariat n'est annoncé. Les auteurs publient une page projet avec démonstrations vidéo, ce qui permettra d'évaluer la robustesse hors conditions de laboratoire.

IA physiquePaper
1 source
SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA
263arXiv cs.RO 

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

Une équipe de chercheurs propose SCALE (Self-uncertainty Conditioned Adaptive Looking and Execution), une méthode d'inférence adaptative pour les modèles Vision-Language-Action (VLA) publiée sur arXiv (2602.04208v2). Contrairement aux approches de test-time scaling (TTS) existantes, SCALE ne nécessite ni entraînement supplémentaire, ni vérificateur externe, ni passes multiples : un seul passage forward suffit. Le système repose sur un mécanisme de self-uncertainty (auto-incertitude) qui module simultanément deux dimensions : la représentation visuelle, c'est-à-dire comment le modèle perçoit la scène, et l'action produite. Inspiré de la théorie de l'inférence active (Active Inference), SCALE élargit son exploration perceptuelle et motrice en situation d'incertitude élevée, et se concentre sur l'exploitation lorsque la confiance est forte. Les auteurs valident l'approche sur des benchmarks simulés et réels, avec des gains mesurés sur plusieurs VLA de l'état de l'art. L'intérêt industriel est direct. Les méthodes TTS existantes pour robots empruntent leur logique aux succès des LLM comme o1, mais exigent des ressources difficilement compatibles avec la production : vérificateurs externes, passes multiples, parfois fine-tuning ciblé. SCALE lève ce verrou en maintenant l'efficacité d'un passage unique, compatible avec des contraintes de temps réel sur systèmes embarqués. Plus structurellement, la méthode adresse un angle souvent ignoré par les approches concurrentes : l'ambiguïté perceptuelle. En conditions réelles, un robot confronté à une scène mal éclairée ou partiellement occultée a autant besoin de reconsidérer sa perception que son action. SCALE couple ces deux dimensions, là où les TTS classiques n'interviennent qu'au niveau du décodage d'action -- une distinction qui compte dès que l'on sort des environnements contrôlés de laboratoire. Le test-time scaling appliqué à la robotique reste un champ en construction. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA visent à généraliser le contrôle robotique via des architectures VLA, mais leur robustesse hors distribution est un problème ouvert. La plupart des améliorations passent encore par du fine-tuning ; SCALE propose une voie alternative en améliorant le comportement à l'inférence sans toucher aux poids du modèle. L'article ne documente pas encore de déploiements industriels à grande échelle, et les benchmarks utilisés restent des environnements relativement balisés. Si la robustesse se confirme dans des configurations non contrôlées, la méthode pourrait s'intégrer comme composant standard dans les pipelines VLA déployés par des acteurs comme Figure AI, Agility Robotics ou 1X Technologies.

IA physiqueOpinion
1 source
Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts
264arXiv cs.RO 

Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.11826) un framework de conception pour mains robotiques anthropomorphiques dextres, fondé sur une approche modulaire de sélection des doigts. Le principe : évaluer quantitativement des prototypes de doigts de manière indépendante, via une batterie de benchmarks, avant leur intégration dans une main complète téléopérée. Les variations testées portent sur le type d'articulation, la structure osseuse, les matériaux de peau et le placement des capteurs. Le framework a été validé sur deux tâches concrètes : la saisie simultanée de plusieurs objets et le vissage d'une ampoule, deux exercices représentatifs de la manipulation dextre à contraintes mécaniques variables. Ce travail s'attaque à un verrou structurel du domaine : la conception de mains dextres souffre d'un espace de design trop vaste, où morphologie, actuation et capteurs interagissent de façon non-linéaire. Les méthodes d'optimisation existantes traitent rarement plus d'un critère à la fois, ce qui rend les comparaisons inter-prototypes difficiles et les itérations coûteuses. En découplant l'optimisation des doigts de la validation au niveau de la main entière, le framework proposé réduit potentiellement le temps de screening et établit un lien quantitatif entre les métriques composant et la performance globale en tâche. Pour les équipes d'ingénierie et les intégrateurs, c'est une promesse de pipeline de développement plus prédictif, moins dépendant de l'empirisme. À noter : l'article est un preprint arXiv, sans peer review encore validé, et les gains de performance sur les deux tâches choisies restent difficiles à extrapoler à des scénarios industriels réels. La conception de mains dextres est un enjeu central pour les robots humanoïdes actuels : Figure AI, 1X, Apptronik, et Agility Robotics dépendent toutes de mains capables d'alimenter des pipelines de téléopération et d'apprentissage par imitation pour entraîner des modèles VLA. Côté académique, des groupes à Stanford, CMU et au MIT travaillent sur des architectures similaires, tandis que Shadow Robotics (UK) reste la référence commerciale en matière de main dextre à actuation tendon. En Europe, Pollen Robotics (Bordeaux) intègre des mains articulées dans sa plateforme Reachy, et Enchanted Tools (Paris) développe des mains expressives pour ses robots Miroka. Ce preprint ne s'accompagne pas d'annonce commerciale ni de calendrier de déploiement, mais la méthodologie de benchmarking modulaire pourrait être adoptée comme standard de facto dans les équipes hardware des startups d'humanoïdes, où la vitesse d'itération sur les effecteurs est aujourd'hui un facteur différenciant clé.

UEPollen Robotics (Bordeaux) et Enchanted Tools (Paris) sont directement mentionnés comme bénéficiaires potentiels de cette méthodologie de benchmarking modulaire, qui pourrait accélérer leurs cycles d'itération sur les effecteurs.

RecherchePaper
1 source
LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines
265arXiv cs.RO 

LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines

Des chercheurs ont publié LUCID (arXiv:2606.11628, juin 2026), un framework en deux étapes qui apprend des compétences de manipulation dextère à partir de vidéos humaines non étiquetées issues d'internet, sans démonstrations robotiques coûteuses. LUCID découple l'apprentissage en un modèle d'intention, qui prédit à court horizon ce qui doit se passer ensuite dans la scène en boucle fermée, et une politique sensorimorale spécifique à chaque effecteur, chargée de convertir cette intention en actions concrètes. Ce découplage permet au même modèle d'intention d'opérer sur des effecteurs différents, de la main dextère multi-doigts au préhenseur parallèle à deux mâchoires, sans réentraînement. Le système a été validé sur cinq tâches réelles : mélange, essuyage et tri en bac, supervisés par des vidéos internet uniquement avec transfert zéro-shot vers de nouveaux objets et scènes, et push-T et routage de câbles, supervisés chacun par une heure de vidéo smartphone collectée par les auteurs. Ce résultat s'attaque au principal goulot d'étranglement du robot learning industriel : la dépendance à des démonstrations coûteuses et liées à un embodiment précis. Les pipelines actuels, qu'ils reposent sur la télé-opération (Figure AI, 1X), l'imitation structurée (ACT, Diffusion Policy) ou les VLA end-to-end, exigent tous des données robotiques spécifiques à l'effecteur. LUCID substitue à cela des vidéos humaines à l'échelle web pour la compréhension de tâche, et de la simulation massivement parallèle pour le contrôle moteur. Si le paradigme passe à l'échelle, il réduit significativement les coûts d'intégration pour chaque nouvel effecteur, argument directement adressé aux intégrateurs industriels qui gèrent des parcs de bras multi-marques. LUCID se positionne face à pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui privilégient des architectures end-to-end. La principale différenciation est l'interface d'intention agnostique à l'embodiment, apprise depuis des données internet non étiquetées, ce qui constitue une direction distincte de la course à la collecte massive de démonstrations robotiques. Le preprint ne mentionne ni partenaire industriel ni feuille de route commerciale ; les résultats restent en environnement laboratoire sur des tâches de complexité modérée, et le passage à des contextes industriels non contraints reste à démontrer.

IA physiqueOpinion
1 source
SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante
266arXiv cs.RO 

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

Des chercheurs publient sur arXiv (2606.10305) SARM2, un modèle de récompense dense multi-tâches pour l'affinement de politiques vision-langage-action (VLA) en manipulation robotique, accompagné du framework SPIRAL (Self-Policy Improvement via Reward-Aligned Learning). L'approche combine un estimateur de stade fondé sur des primitives d'action et une tête de valeur Mixture-of-Experts multi-portes (MMoE) pour produire des récompenses denses à chaque étape sur dix tâches de manipulation distinctes. Sur ce benchmark, SARM2 réduit l'erreur quadratique moyenne d'estimation de valeur de 80 % par rapport aux meilleures méthodes existantes. Via SPIRAL, qui génère des rollouts autonomes et les recycle sans démonstrations humaines supplémentaires, le taux de succès progresse de 58 % à 100 % sur "Folding Shorts" et de 50 % à 90 % sur "Cleaning Whiteboard". Ces résultats pointent un levier concret pour réduire la dépendance au clonage comportemental (behavior cloning), approche encore dominante mais coûteuse : elle exige des démonstrations de haute qualité et bloque les politiques près de la distribution d'entraînement. Un reward model suffisamment dense et précis permet d'alimenter un data flywheel autonome, de réduire les cycles de supervision humaine, et d'adapter les politiques à de nouvelles tâches sans re-collecte de données. Le papier adresse aussi un écueil bien connu du secteur : les reward models VLM généralistes sont trop grossiers pour les tâches longue-horizon, tandis que les modèles spécialisés nécessitent des annotations par tâche. L'architecture MMoE multi-tâches vise précisément cet entre-deux, ce qui intéresse directement les intégrateurs devant déployer un même robot sur des variantes de tâches. Ce travail s'inscrit dans la course intense autour des politiques VLA -- Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), OpenVLA (UC Berkeley) -- où la phase de fine-tuning et d'amélioration continue reste un goulot d'étranglement non résolu. SARM2 et SPIRAL se positionnent en briques complémentaires au pré-entraînement, ciblant l'adaptation terrain. À ce stade, il s'agit d'un préprint académique sans déploiement industriel annoncé ni code public disponible, et les benchmarks sélectionnés (pliage de vêtements, nettoyage de tableau blanc) restent des tâches de laboratoire contrôlées. La combinaison reward model dense et self-improvement loop sans démonstrations humaines est néanmoins exactement le type de composant que les acteurs commerciaux comme Agility Robotics, Figure AI ou 1X Technologies cherchent à consolider pour abaisser les coûts d'adaptation en production.

IA physiqueOpinion
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
267arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes
268arXiv cs.RO 

Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes

Des chercheurs ont déposé le 9 juin 2026 sur arXiv (réf. 2606.08253) un framework léger pour entraîner des politiques de locomotion humanoïde capables de suivre précisément des appuis en 3D. Les approches dominantes basées sur l'apprentissage par renforcement avec commande de vitesse produisent des humanoïdes robustes, mais sans contrôle explicite du placement des pas : le robot peut marcher sur un pied humain ou rater un appui précis, compromettant les tâches de manipulation en aval. La méthode proposée introduit un "goal sampler" dynamique qui génère des séquences d'appuis variées pendant l'entraînement, rendant la politique agnostique au terrain. Une nouvelle représentation des cibles de pas compense les imprécisions du monde réel (estimation de pose bruitée, détection de contact peu fiable). La politique fonctionne comme un contrôleur bas niveau autonome, couplable à n'importe quel planificateur haut niveau, qu'il soit basé sur des cartes 2.5D, la vision ou un agent VLA. L'intérêt pour les intégrateurs industriels est concret : la précision du placement des appuis conditionne l'ensemble des tâches loco-manipulation, soit la prochaine étape critique avant le déploiement d'humanoïdes dans les entrepôts et lignes de montage. En découplant le contrôleur bas niveau du planificateur, cette architecture permet de substituer l'algorithme de planification sans réentraîner la locomotion, un argument de modularité fort pour des déploiements multi-environnements. Les expériences en simulation et en transfert sim-to-real sur terrains complexes sont présentées comme concluantes, mais ce preprint non encore évalué par les pairs ne fournit pas de benchmark comparatif public ni de métriques de précision standardisées. Ce framework s'inscrit dans la continuité des travaux sur la locomotion bipède précise issus d'ETH Zurich, du MIT et de CMU, que les équipes commerciales (Boston Dynamics Atlas, Agility Robotics Digit, Unitree H1, Figure AI) cherchent à industrialiser. L'abstract ne précise pas la plateforme matérielle utilisée lors des tests réels, ce qui limite la reproductibilité des résultats. La prochaine étape logique serait une évaluation ouverte sur des robots nommément identifiés, assortie de métriques comparables aux approches concurrentes en planification de pas développées à l'EPFL ou à Carnegie Mellon.

UEL'EPFL est citée comme référence concurrente pour la planification de pas, ce qui signale la compétitivité des labos européens dans ce domaine, mais sans impact direct sur des acteurs ou institutions français.

HumanoïdesPaper
1 source
Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée
269arXiv cs.RO 

Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée

Un article soumis en juin 2026 sur arXiv (2606.08520) propose une méthode graduée pour convertir des modèles de vision-langage généralistes (VLMs) en politiques de contrôle robotique (VLAs). Les auteurs identifient un double fossé qui explique les échecs du fine-tuning direct : un fossé visuel (les VLMs sont entraînés sur des images internet, pas sur des scènes de manipulation robot) et un fossé d'objectif (passer de la compréhension de texte à la prédiction de commandes motrices). Pour combler ces deux ruptures progressivement, ils introduisent les "embodied trajectory-coupled data" (ETC), des paires vision-langage extraites des mêmes trajectoires et environnements visuels que ceux utilisés pour l'entraînement à l'action, mais conservant un objectif de supervision en langage naturel. La recette d'entraînement se déroule en trois étapes séquentielles : Distribution Bridging (adaptation sémantique au domaine incarné), Objective Bridging (transition progressive vers la prédiction d'action), puis Retentive Adaptation (spécialisation au domaine de déploiement cible). Les expériences sont validées en simulation et sur robot réel, sans que l'abstract ne précise le matériel ni les benchmarks utilisés. La contribution centrale n'est pas un nouveau modèle mais une stratégie de curriculum d'entraînement qui conteste une hypothèse répandue dans la communauté : que le fine-tuning direct sur données d'action suffit, comme cela fonctionne pour d'autres domaines (vision médicale, OCR). Le papier montre expérimentalement que ce raccourci provoque une dégradation des généralisations acquises en préentraînement, phénomène particulièrement prononcé dans les architectures multimodales. Pour les intégrateurs, l'enjeu est concret : les ETC data peuvent être générées depuis des trajectoires déjà enregistrées sans coût de collecte supplémentaire, et les mélanger avec une faible quantité de données d'action permettrait de généraliser à de nouvelles conditions visuelles et linguistiques sans démonstrations supplémentaires, ce qui adresse directement le problème du long-tail en déploiement industriel. Ce travail s'inscrit dans la dynamique ouverte par RT-2 (Google DeepMind, 2023) qui a lancé la course aux VLAs, avec des modèles comme pi-zéro (Physical Intelligence), OpenVLA, ou RoboFlamingo comme repères concurrents. Le coût des données d'action robotique reste le noeud central pour des acteurs comme Figure AI, 1X Technologies ou Agility Robotics, qui financent massivement la collecte en déploiement réel. L'approche ETC propose une voie complémentaire en valorisant les trajectoires déjà existantes, sans nécessairement passer par de nouvelles sessions de télé-opération. Au stade de la soumission, les auteurs n'ont annoncé ni code public ni implémentation open-source.

IA physiqueOpinion
1 source
Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement
270arXiv cs.RO 

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

Une équipe de chercheurs a publié RE-GoT (Reward Evolution with Graph-of-Thoughts), un cadre de conception automatique de fonctions de récompense pour l'apprentissage par renforcement (RL). La méthode, présentée dans l'article arXiv:2509.16136 (version 5), associe des grands modèles de langage (LLM) à des modèles visuels (VLM) via un raisonnement structuré en graphe. RE-GoT décompose d'abord la tâche cible en un graphe d'attributs textuels, génère une fonction de récompense correspondante, puis la raffine itérativement en exploitant les retours visuels fournis par un VLM, sans intervention humaine. Évalué sur 10 tâches RoboGen et 4 tâches ManiSkill2, le système améliore le taux de succès moyen de 32,25 % sur RoboGen par rapport aux baselines LLM existantes, et atteint 93,73 % de taux de succès sur les quatre tâches de manipulation de ManiSkill2, dépassant même les récompenses conçues manuellement par des experts. L'enjeu est significatif : la conception des fonctions de récompense représente l'un des principaux goulots d'étranglement du RL appliqué à la robotique, et elle exige aujourd'hui une expertise humaine considérable ainsi que de nombreuses itérations manuelles. RE-GoT adresse deux faiblesses chroniques des approches LLM existantes : les hallucinations, que la structure en graphe réduit en contraignant le raisonnement, et l'incapacité à traiter des tâches multi-étapes complexes. Le fait que RE-GoT surpasse les récompenses expertes sur ManiSkill2 est notable, bien qu'il convienne de nuancer : les expériences restent dans des environnements simulés, et la question du sim-to-real gap, cruciale pour les industriels souhaitant déployer ces méthodes sur des robots physiques, n'est pas traitée dans ce travail. Ce travail s'inscrit dans une dynamique de recherche active depuis 2023, notamment portée par Eureka (NVIDIA, octobre 2023), qui utilisait GPT-4 pour générer des fonctions de récompense sur IsaacGym, ou par FunsSearch (DeepMind). RE-GoT se distingue en introduisant le paradigme Graph-of-Thoughts, une extension du Chain-of-Thought qui organise le raisonnement en graphe plutôt qu'en chaîne linéaire, permettant une analyse plus exhaustive des dépendances entre sous-tâches. Les prochaines étapes naturelles concernent la validation sur robots physiques et l'intégration à des pipelines sim-to-real comme ceux utilisés par Figure AI, Agility Robotics ou Boston Dynamics dans leurs boucles d'entraînement.

RecherchePaper
1 source
EgoHumanoid : la manipulation locomotrice en environnement réel grâce aux démonstrations égocentriques sans robot
271arXiv cs.RO 

EgoHumanoid : la manipulation locomotrice en environnement réel grâce aux démonstrations égocentriques sans robot

EgoHumanoid, publié sur arXiv (identifiant 2602.10106), propose un framework pour entraîner des robots humanoïdes à la loco-manipulation, c'est-à-dire la coordination simultanée de la locomotion et de la manipulation d'objets, en exploitant des démonstrations humaines égocentrées plutôt que de la télé-opération robotique classique. L'architecture co-entraîne une politique VLA (vision-language-action) sur un corpus mixte composé de larges volumes de vidéos humaines en vue à la première personne, complétés par un volume limité de données robot. Pour réduire le fossé morphologique entre humains et robots, les auteurs ont développé un système portable de collecte de données et deux modules d'alignement : un alignement de vue corrigeant les différences de hauteur et de perspective entre caméra humaine et capteur robot, et un alignement d'action transposant les mouvements humains vers un espace cinématiquement réalisable par le robot. Les expériences en environnements réels montrent que l'ajout des données égocentrées humaines dépasse les baselines entraînées sur données robot seules de 51 %, avec un gain particulièrement marqué sur des environnements non vus lors de l'entraînement. La loco-manipulation humanoïde est l'un des problèmes les plus gourmands en données de la robotique moderne : le robot doit simultanément planifier ses déplacements et interagir avec des objets dans des espaces non structurés. EgoHumanoid valide l'hypothèse que la diversité des démonstrations humaines compense la différence morphologique, à condition de résoudre correctement les alignements de vue et d'action. Pour les intégrateurs et décideurs industriels, cela signale une voie de scaling de la donnée nettement moins chère que la télé-opération spécialisée, sans dépendre de simulateurs dont le transfert sim-to-real reste incertain. La démonstration humaine pour les robots manipulateurs d'établis est une pratique établie, mais son extension aux humanoïdes en loco-manipulation restait peu explorée. EgoHumanoid se positionne directement face aux pipelines de collecte adoptés par les grands acteurs, notamment Figure AI avec Helix, Physical Intelligence avec Pi-0 et NVIDIA avec GR00T N2, qui s'appuient tous sur des approches intensives en télé-opération ou en simulation. Il s'agit d'une publication académique, sans annonce de produit ni déploiement commercial associé. Les suites logiques seraient une validation à plus grande échelle du protocole de collecte humaine et une intégration dans des frameworks VLA existants pour tester la montée en charge sur des tâches industrielles réelles.

RechercheOpinion
1 source
ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active
272arXiv cs.RO 

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

Des chercheurs ont publié ActiveMimic (arXiv:2606.06194, juin 2026), un framework de pré-entraînement robotique qui exploite des vidéos égocentrées humaines captées par une simple caméra RGB portée sur le corps. La contribution technique centrale : plutôt que de traiter les mouvements de caméra comme du bruit, comme le font les pipelines standards, ActiveMimic récupère des trajectoires synchronisées de la caméra et du poignet depuis ce seul flux vidéo, puis modélise le déplacement de la caméra comme une "action de point de vue" à part entière. Le framework apprend ainsi simultanément la perception active et la manipulation à partir de vidéos humaines capturées en conditions réelles, avant d'être adapté à un robot cible via fine-tuning. Sur plusieurs tâches de manipulation impliquant des degrés variés de perception active, les expériences en conditions réelles montrent qu'ActiveMimic surpasse les baselines pré-entraînées sur vidéo humaine classique et atteint les performances des modèles pré-entraînés sur données robotiques. Ce résultat est notable car la vidéo égocentrée humaine est disponible à grande échelle sans nécessiter de robot, mais les modèles qui en étaient issus sous-performaient systématiquement face à ceux entraînés sur données robotiques. ActiveMimic identifie le signal manquant : la perception active, soit le comportement naturel par lequel un humain repositionne continuellement son point de vue pendant une manipulation. Ce mécanisme, invisible pour les pipelines qui traitent la motion de caméra comme artefact, s'avère être le facteur clé pour extraire la valeur de ces vidéos. Les expériences indiquent en outre que la capacité de perception active émerge du pré-entraînement sur vidéo humaine et non du fine-tuning robot-spécifique, ce qui suggère une transférabilité potentielle à d'autres architectures et morphologies. Ce travail s'inscrit dans une compétition dense autour des modèles vision-action (VLA) pour la manipulation robotique généraliste. Physical Intelligence avec Pi-0, Google DeepMind avec RT-2, et les équipes de Figure AI exploitent des architectures VLA pré-entraînées, mais s'appuient majoritairement sur des données de téléopération robotique, coûteuses et lentes à collecter. Si l'approche d'ActiveMimic se confirme sur des benchmarks indépendants et des environnements non contrôlés, elle pourrait réduire significativement ce goulot d'étranglement en substituant une partie des données robotiques par de la vidéo humaine abondante. Les prochaines étapes naturelles incluent la validation industrielle, l'extension à des morphologies variées, et l'évaluation de la scalabilité avec des volumes de vidéo égocentrée plus importants.

RechercheOpinion
1 source
HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde
273arXiv cs.RO 

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

Des chercheurs ont publié sur arXiv (référence 2602.16705, version 3) un système de manipulation locomotrice pour humanoïdes baptisé HERO (Humanoid End-Effector Residual cOntrol), conçu pour saisir des objets du quotidien sans liste prédéfinie de cibles. Le système fonctionne en open-vocabulary : il identifie visuellement les objets via des images RGB-D et des grands modèles de vision, puis planifie et exécute la saisie en temps réel. L'innovation centrale est une politique de suivi de l'effecteur terminal (EE) dite "résidual-aware", qui combine trois composants : une cinématique inverse pour convertir les cibles résiduelles de l'EE en trajectoires de référence, un modèle neuronal de cinématique directe entraîné en simulation, et un mécanisme de ré-planification dynamique. Ce pipeline réduit l'erreur de suivi de l'effecteur à 2,44 cm, soit une amélioration annoncée de 5,5x par rapport à la meilleure méthode antérieure. Les tests en environnements réels, bureaux, cafés, démontrent la saisie de mugs, pommes et jouets sur des surfaces allant de 43 à 92 cm de hauteur. L'approche modulaire de HERO rompt avec la tendance dominante des méthodes end-to-end monolithiques (apprentissage par imitation, sim-to-real intégral) qui peinent à généraliser sans retraining massif. En séparant la compréhension de scène, déléguée aux fondations vision, du contrôle moteur précis, entraîné entièrement en simulation, les auteurs obtiennent une généralisation out-of-distribution plus robuste sur de nouveaux environnements. Pour un intégrateur, cela signifie potentiellement moins de données de démonstration à collecter par site de déploiement. Les 2,44 cm d'erreur restent trop élevés pour des tâches d'assemblage de précision, mais suffisants pour le pick-and-place d'objets courants. La métrique "5,5x meilleure" mérite réserve : les conditions exactes du benchmark ne sont pas détaillées dans l'abstract. Ce travail s'inscrit dans une course dense sur le contrôle loco-manipulation des humanoïdes. Physical Intelligence avec Pi-0, Figure AI avec Figure 03, Agility Robotics avec Digit, et Unitree explorent tous des pipelines combinant grands modèles de vision-langage-action (VLA) et contrôle fin de l'effecteur. La question du sim-to-real gap reste le principal verrou non résolu dans le secteur pour les tâches de manipulation dextre, et HERO propose une réponse architecturale partielle en hybridant cinématique classique et apprentissage neuronal, une direction explorée également par des équipes européennes comme Wandercraft sur leurs plateformes bipèdes. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit pour l'instant d'un résultat de recherche, pas d'un produit commercialisé.

UEDes équipes européennes comme Wandercraft explorent des architectures similaires sur le contrôle bipède ; l'approche hybride de HERO (cinématique classique + apprentissage neuronal) peut informer leurs pipelines de R&D, mais l'impact reste indirect, sans déploiement ni partenariat industriel européen associé.

IA physiquePaper
1 source
IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena
274Pandaily 

IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena

La société chinoise Kuawei Intelligence a décroché la première place du classement mondial WorldArena Track 2 (Data Engine) pour le mois de mai 2026, devançant les concurrents internationaux WoW et BLM. Ce benchmark évalue non pas la qualité visuelle des sorties générées, mais les taux de succès réels de robots sur des tâches physiques, ce qui le rend plus pertinent pour les déploiements industriels que les métriques classiques de génération d'images. Le modèle lauréat, DSCFuncWorld, repose sur l'architecture DexWorldModel et est conçu pour produire des données d'entraînement robotique de haute qualité. Contrairement aux world models génératifs conventionnels qui opèrent au niveau du pixel, Kuawei utilise l'espace de features sémantiques DINO pour la prédiction d'état, une approche qui réduit la charge de calcul tout en améliorant la robustesse. La société a par ailleurs open-sourcé son infrastructure de données EmbodiChain. Ces résultats benchmark s'accompagnent de chiffres de déploiement concrets : Kuawei revendique plus de 1 000 projets dans plus de 50 secteurs industriels, un taux de succès de 99,99 % sur une ligne de production Hisense, une efficacité de tri trois fois supérieure à l'humain chez Midea, un chiffre d'affaires dépassant 100 millions de RMB en 2024 et plus de 100 unités de son robot humanoïde W1 Pro livrées à des clients comme BYD, GAC, Zoomlion, SANY et Panasonic. Ces chiffres sont issus de communications officielles de l'entreprise et n'ont pas fait l'objet de vérification indépendante. La performance de Kuawei sur WorldArena Track 2 est significative précisément parce que ce classement mesure le sim-to-real transfer, soit la capacité d'un modèle entraîné en simulation à fonctionner sur du matériel réel, longtemps considéré comme le principal obstacle à la robotisation à l'échelle. Si les chiffres revendiqués se confirment, ils suggèrent qu'une entreprise chinoise de taille intermédiaire a résolu, au moins partiellement, le problem de la data engine, c'est-à-dire la génération automatisée de données d'entraînement suffisamment réalistes pour produire des politiques motrices robustes. Pour les intégrateurs industriels et les décideurs B2B, l'argument le plus fort n'est pas le benchmark lui-même mais la combinaison revenus/déploiements réels, qui tranche avec le schéma habituel du secteur humanoïde, souvent long en annonces et court en traction commerciale. Kuawei Intelligence s'inscrit dans une vague d'acteurs chinois de l'IA incarnée qui ont émergé depuis 2023, parmi lesquels Unitree Robotics, Fourier Intelligence et AgileX Robotics, tous positionnés sur le segment des robots à bas coût et des plateformes open-source. Sur la scène internationale, elle affronte Physical Intelligence (Pi-0), Apptronik, Figure AI (Figure 03) et Boston Dynamics, dont les approches misent davantage sur la puissance des VLA (Vision-Language-Action models) que sur la data synthesis. La victoire de Kuawei à l'ICRA 2025 avec un robot bi-bras en manipulation fine sans intervention humaine avait déjà signalé ses ambitions. La prochaine étape pour l'entreprise sera de démontrer que ses déploiements tiennent dans des environnements non structurés, au-delà des lignes de production contrôlées où les benchmarks ont jusqu'ici été réalisés.

Chine/AsieActu
1 source
GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos
275arXiv cs.RO 

GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos

Une équipe de chercheurs publie GRAIL (Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors, arXiv:2606.05160), un pipeline entièrement virtuel qui génère des données d'entraînement en loco-manipulation humanoïde sans télé-opération ni capture de mouvement physique. La méthode compose des actifs 3D paramétrés, des scènes simulées et des modèles fondamentaux vidéo (VFM) pour reconstruire des trajectoires d'interaction humain-objet (HOI) en 4D à l'échelle métrique, en conditionnant la génération vidéo sur des configurations entièrement spécifiées : géométrie, paramètres caméra, profondeur de scène et personnage aux proportions humanoïdes, ce qui réduit l'ambiguïté de profondeur et le mismatch morphologique habituels. Le pipeline produit plus de 20 000 séquences couvrant ramassage d'objets, manipulation, assise et traversée de terrains variés. Entraîné uniquement sur ces données synthétiques via un pipeline sim-to-real, le système atteint 84 % de succès en préhension d'objets divers et 90 % en montée d'escaliers sur un Unitree G1 en conditions réelles ; l'article, soumis sur arXiv en juin 2026, est une prépublication non encore évaluée par les pairs. Ce travail s'attaque au principal goulot d'étranglement de la robotique humanoïde : générer des données de démonstration diversifiées à grande échelle sans mobiliser de temps-robot ni d'opérateurs spécialisés. La télé-opération et la mocap exigent des configurations physiques dédiées et un robot disponible à chaque session, ce qui plafonne le débit de production de données ; GRAIL déplace intégralement ce coût vers la simulation, rendant possible la composition de données pour des objets, scènes et mouvements corporels inédits. Les résultats de 84 % et 90 % en conditions réelles constituent un signal positif sur la réduction du gap sim-to-real, du moins pour ces classes de tâches. Une réserve s'impose cependant : le résumé ne détaille ni les objets testés ni le protocole de sélection des séquences d'évaluation, ce qui rend toute comparaison indépendante prématurée avant la publication complète. GRAIL s'inscrit dans une course à la donnée synthétique que se livrent les principaux laboratoires de robotique humanoïde, aux côtés des pipelines World Model de Figure AI et 1X Technologies, de RoboVerse (Microsoft Research) et des environnements Genesis pour la simulation physique générative. La distinction de GRAIL réside dans le conditionnement fort sur des actifs 3D préalables, un choix qui améliore la précision de la reconstruction 4D mais suppose la disponibilité d'assets de qualité pour chaque objet cible. Le robot retenu, l'Unitree G1, est commercialisé autour de 16 000 dollars, rendant la reproduction des résultats accessible à de nombreuses équipes académiques, contrairement aux plateformes propriétaires des acteurs industriels. Les affiliations des auteurs ne figurant pas dans le résumé arXiv disponible, les suites naturelles annoncées comprennent les tâches bimanuelles, les environnements dynamiques et l'intégration dans des pipelines VLA (Vision-Language-Action) pour la généralisation à des objets et contextes non vus lors de l'entraînement.

UELes laboratoires académiques européens spécialisés en robotique humanoïde (INRIA, CEA-List) pourraient adopter ce pipeline de génération de données synthétiques pour réduire leur dépendance à la télé-opération et à la mocap, mais aucun acteur FR/UE n'est directement impliqué dans ces travaux.

RecherchePaper
1 source
Laissez les dynamiques s'écouler : systèmes dynamiques par flux stable correspondant
276arXiv cs.RO 

Laissez les dynamiques s'écouler : systèmes dynamiques par flux stable correspondant

Des chercheurs ont publié en juin 2026 un article de recherche (arXiv:2606.03834) introduisant les Stable Flow Matching Dynamical Systems (SFMDS), un cadre formel qui combine le flow matching -- technique générative désormais centrale dans l'apprentissage par imitation robotique -- avec des garanties de stabilité de type Lyapunov. Le flow matching permet d'apprendre des politiques de mouvement scalables, expressives et multimodales à partir de démonstrations, mais il ne fournit aucune garantie que le robot ne diverge pas en dehors de la distribution d'entraînement. SFMDS comble ce vide en paramétrant les systèmes dynamiques via le flow matching tout en contraignant le modèle à une famille de solutions stables. Deux variantes sont proposées : une contrainte douce basée sur un terme de pénalité ajouté à la loss, et une contrainte dure structurelle directement intégrée à l'architecture du réseau. Les deux formulations sont étendues aux groupes de Lie, ce qui permet de traiter naturellement les rotations en SO(3) et les transformations rigides -- omniprésentes en robotique. Les expériences couvrent des benchmarks de référence, des environnements de simulation, et un robot humanoïde physique, sur des espaces d'états de faible et de haute dimension. L'enjeu est direct pour les équipes qui déploient des politiques d'apprentissage en milieu industriel : les modèles génératifs actuels, aussi expressifs soient-ils, ne garantissent pas la convergence vers un état cible lorsque le robot rencontre une configuration non vue à l'entraînement. Sans stabilité formelle, un intégrateur doit compenser par des garde-fous logiciels ou matériels coûteux, ou limiter le domaine de déploiement. SFMDS apporte une garantie mathématique de stabilité asymptotique globale via la théorie de Lyapunov -- autrement dit, le système converge vers l'attracteur cible quelle que soit la perturbation initiale, dans les limites du domaine appris. Le fait que cette garantie soit compatible avec des distributions multimodales (plusieurs manières valides d'accomplir une tâche) est non trivial : les frameworks de systèmes dynamiques stables classiques comme SEDS ou CLF-DMP sacrifiaient typiquement l'expressivité pour la stabilité. Si les résultats sur humanoïde physique sont confirmés au-delà de l'article, cela représente un pas concret vers des politiques certifiables en environnement opérationnel. Le flow matching s'est imposé comme alternative aux politiques de diffusion (Diffusion Policy, Chi et al. 2023) grâce à une inférence plus rapide et une meilleure modélisation des distributions multimodales. Physical Intelligence (Pi-0), Unitree et Figure AI l'utilisent ou l'explorent dans leurs pipelines VLA. La stabilité des systèmes dynamiques pour l'apprentissage robot a une longue histoire académique (SEDS, DMP, CLF-DMP), mais ces méthodes n'ont jamais capturé la richesse des distributions requises par les tâches manipulation complexes. SFMDS tente de réconcilier les deux lignes. L'article est un preprint non encore soumis à revue par les pairs -- les performances sur robot humanoïde restent à reproduire de manière indépendante. Les suites naturelles incluent l'intégration dans des pipelines VLA complets (perception visuelle vers action) et l'évaluation sur des benchmarks industriels standardisés comme RoboSuite ou BiGym.

RechercheOpinion
1 source
Apprentissage par renforcement multi-tâches sur GPU avec optimisation de politique guidée par démonstration
277arXiv cs.RO 

Apprentissage par renforcement multi-tâches sur GPU avec optimisation de politique guidée par démonstration

Une équipe de chercheurs a publié le 3 juin 2026 sur arXiv (2606.03335) une méthodologie pour construire des benchmarks d'apprentissage par renforcement multi-tâches sur GPU, et l'a instanciée sous le nom MT-Libero, en s'appuyant sur les assets et prédicats de tâches de LIBERO dans l'environnement de simulation Isaac Lab de NVIDIA. Le benchmark permet d'entraîner simultanément des politiques sur des suites de tâches hétérogènes de manipulation, avec rendu parallèle, randomisation physique, et support des entrées par état ou par caméra. En parallèle, les auteurs proposent DGPO (Demonstration Guided Policy Optimization), une méthode on-policy qui combine PPO pondéré par importance avec un clonage comportemental adaptatif sur des actions de démonstration appariées, permettant de doser l'influence des données de démo sur la politique apprise. L'intérêt de cette contribution est double. D'abord, elle s'attaque à un goulot d'étranglement structurel du domaine : la plupart des pipelines RL actuels en robotique entraînent une politique spécialisée par tâche, ce qui explose les coûts de calcul et limite la généralisation. Passer à un entraînement multi-tâches sur GPU en parallèle change fondamentalement l'économie de la simulation. Ensuite, DGPO résout un problème pratique récurrent : avec des signaux de récompense parcimonieux et peu de données de démonstration, les méthodes RL pures peinent à converger. Les auteurs montrent que leur approche surpasse à la fois le RL sans démonstration et les méthodes existantes à base de démonstration, tout en conservant la stabilité caractéristique de PPO on-policy et sa capacité d'amélioration continue en ligne. Le benchmark LIBERO, développé par des équipes académiques, est devenu une référence pour évaluer le transfert et la généralisation en manipulation robotique. Isaac Lab, le simulateur physique de NVIDIA, est de plus en plus utilisé pour le sim-to-real à grande échelle, notamment par Physical Intelligence (pi0), Figure AI et 1X Technologies. La problématique multi-tâches est au coeur des travaux actuels sur les VLA (Vision-Language-Action models) et les foundation models pour la robotique, où des acteurs comme DeepMind (RT-2, RT-X), Stanford et Berkeley (RoboAgent) cherchent à mutualiser l'apprentissage entre tâches. MT-Libero et DGPO sont publiés en preprint et n'ont pas encore été validés par un processus de peer-review ; les résultats restent à confirmer sur hardware réel.

RechercheOpinion
1 source
SpeedAug : accélération de politique par enrichissement temporel et apprentissage par renforcement
278arXiv cs.RO 

SpeedAug : accélération de politique par enrichissement temporel et apprentissage par renforcement

Une équipe de chercheurs présente SpeedAug, un cadre d'apprentissage conçu pour accélérer l'exécution des politiques robotiques sans sacrifier le taux de réussite. Le problème adressé est structurel : les robots entraînés par imitation de démonstrations humaines opèrent systématiquement bien en dessous de leurs capacités physiques, parce que les opérateurs humains privilégient naturellement la prudence et la réussite de la tâche plutôt que la vitesse. SpeedAug attaque ce goulet en deux temps. D'abord, une politique préalable enrichie en tempo ("tempo-enriched prior policy") est apprise depuis des démonstrations augmentées en vitesse, capturant ainsi un spectre de cadences d'exécution. Ensuite, un affinement par apprentissage par renforcement (RL fine-tuning) guide l'exploration pour optimiser la trajectoire d'action et la cadence d'exécution vers l'optimum de la tâche. Appliqué à une tâche de manipulation réelle, SpeedAug atteint un gain de débit de 1,8x en seulement 16 minutes d'interactions en ligne, sans dégradation du taux de réussite. Ce résultat est pertinent pour les intégrateurs industriels et les équipes de déploiement robotique pour une raison précise : la vitesse d'exécution est directement liée au rendement de la cellule. Un facteur 1,8x de throughput sans retraining massif représente un levier économique concret. L'approche se distingue des méthodes existantes qui fixent le tempo par prétraitement des données ou règles heuristiques, en apprenant un tempo optimal propre à la tâche. La frugalité en données d'interaction en ligne -- 16 minutes seulement -- est un argument sérieux pour une adoption pratique, même si les résultats restent à valider sur des tâches plus longues et plus complexes que les benchmarks de manipulation standards. SpeedAug s'inscrit dans la vague de travaux combinant imitation learning et RL fine-tuning, une tendance consolidée par des approches comme RLHF ou les VLA affinés par renforcement dans la manipulation. Aucun partenaire industriel n'est mentionné dans la publication, qui reste à ce stade un papier de recherche (arXiv 2512.00062, seconde version soumise). Les acteurs du secteur déjà engagés sur l'optimisation du cycle robotique -- Physical Intelligence avec pi0, Figure AI, ou des intégrateurs européens comme Exotec côté logistique -- trouveront dans cette direction une piste complémentaire aux approches VLA pour réduire l'écart entre démonstration et exécution optimale en production.

RecherchePaper
1 source
X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel
279Pandaily 

X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel

La startup chinoise X-Square Robot, connue pour sa série GreatWall de modèles de fondation robotiques, publie WALL-WM, présenté comme le premier world model à prédiction par événements sémantiques pour la robotique incarnée. Le papier associé, "WALL-WM: Carving World Action Modeling at the Event Joints", décrit une architecture en trois couches : une couche d'entrée d'instructions d'événements, une couche de prédiction centrale utilisant l'optimiseur Muon distribué (DMuon) pour une meilleure stabilité de convergence, et une stratégie de packing multi-événements réduisant les pertes de calcul lors de l'entraînement. Sur les benchmarks de génération vidéo incarnée, WALL-WM surpasse Wan2.1-14B et Open-Sora 2.0 sur qualité de mouvement, cohérence sémantique et plausibilité physique. Sur le benchmark Core15 L1, il dépasse Pi0.5 de Physical Intelligence et DreamZero sur les tâches de base, raisonnement, manipulation dextre et généralisation sous instruction abstraite. L'intérêt technique réside dans un changement de paradigme pour les modèles d'action. Les architectures VLA dominantes prédisent des chunks d'actions à intervalles fixes, où sera la main du robot dans 0.1, 0.2, 0.3 secondes, ce qui force le modèle à mémoriser des déplacements millimétriques par frame plutôt qu'à comprendre l'objectif sémantique ("saisir la tasse"). Cette fragilité structurelle signifie qu'un changement d'objet ou de surface suffit à faire échouer le modèle. WALL-WM prédit directement l'état cible, c'est-à-dire le moment de la saisie, puis génère synchroniquement la séquence d'actions pour y parvenir. Le papier identifie par ailleurs un problème architectural fondamental : texte, vision et action opèrent sur des géométries de manifold distinctes, et leur projection directe dans un espace latent partagé dégrade les représentations préentraînées, un défaut que l'architecture cherche à corriger via ses trois couches spécialisées. X-Square Robot s'inscrit dans la course des laboratoires chinois aux fondations VLA et world models, aux côtés d'Unitree, Fourier Intelligence et Agibot. Les benchmarks publiés visent directement Physical Intelligence (Pi0.5) et ses homologues américains comme Figure AI. Il faut toutefois souligner que WALL-WM reste, à ce stade, une publication de recherche sans déploiement commercial ni pilote industriel annoncé. Les performances sur benchmark L1 ne préjugent pas des résultats en conditions réelles, où l'éclairage variable, la déformation des objets et les perturbations de contact constituent le vrai test de la généralisation sim-to-real. Aucune timeline de productisation n'est mentionnée dans l'annonce.

IA physiqueOpinion
1 source
PhyPush : une seule poussée suffit pour estimer les propriétés physiques sans capteurs grâce aux transformeurs guidés par la physique
280arXiv cs.RO 

PhyPush : une seule poussée suffit pour estimer les propriétés physiques sans capteurs grâce aux transformeurs guidés par la physique

PhyPush, présenté dans un article arXiv (2605.18284) publié en mai 2026, est un framework basé sur un Transformer guidé par la physique, capable d'estimer la masse et le coefficient de friction d'un objet à partir d'une seule poussée. La particularité centrale : le système n'utilise que la vélocité cinématique de l'effecteur final, une donnée disponible nativement sur tout bras robotique standard, sans capteur de force/couple, sans réseau de capteurs tactiles, et sans système de capture de mouvement multi-caméras. Le modèle intègre directement les contraintes issues de la deuxième loi de Newton et du modèle de friction de Coulomb dans sa fonction de perte, ce qui renforce la cohérence physique des estimations. En simulation, PhyPush réduit l'erreur d'estimation de plus de 10 % par rapport à une baseline disposant pourtant d'un accès privilégié aux données de force complètes ; en conditions réelles, il surpasse une approche purement data-driven sur des objets et surfaces hors domaine d'entraînement. L'impact pour l'intégration industrielle est direct. L'estimation précise de la masse et de la friction est un prérequis pour la manipulation adaptative fiable, notamment dans les lignes de tri, d'assemblage ou de logistique où les objets varient constamment. Les approches existantes exigeaient soit un instrumentation coûteuse (capteurs F/T à 2 000-10 000 €/unité), soit des environnements contrôlés incompatibles avec un déploiement à l'échelle. PhyPush déplace ce prérequis vers une inférence logicielle sur hardware standard, ce qui ouvre la voie à une perception physique embarquée sur des flottes de robots sans sur-coût matériel. La preuve que l'apprentissage guidé par la physique peut surpasser une baseline disposant de plus d'information sensorielle est également un signal fort : la structure inductive correcte compense le manque de capteurs, ce qui contredit l'hypothèse selon laquelle plus de données brutes implique nécessairement de meilleures estimations. L'estimation interactive des propriétés physiques par poussée (push-based estimation) est un problème étudié depuis une décennie, mais les solutions robustes restaient dépendantes de setups lourds issus des labos de manipulation tactile (MIT, Stanford, CMU). L'émergence des Transformers appliqués à la dynamique robotique et l'intégration de prior physique dans les fonctions de perte sont des tendances récentes qui convergent ici. Côté concurrence, les travaux de perception tactile comme celles de GelSight ou des approches sim-to-real de Meta (DIGIT) adressent un problème similaire mais via du hardware dédié ; des équipes comme Physical Intelligence (Pi-0) ou Figure AI intègrent eux aussi des modules d'estimation d'état dans leurs pipelines VLA, mais sans publier les détails. PhyPush se positionne comme une brique bas coût et open science pour tout intégrateur souhaitant ajouter de l'adaptation physique à un bras existant. Les prochaines étapes logiques incluent la généralisation à des poussées multi-axes, l'intégration dans des boucles de contrôle en temps réel, et le test sur des plateformes humanoïdes où la variabilité des objets manipulés est maximale.

RecherchePaper
1 source
CollaBot : manipulation collaborative simultanée guidée par modèle vision-langage
281arXiv cs.RO 

CollaBot : manipulation collaborative simultanée guidée par modèle vision-langage

Une équipe de chercheurs a publié sur arXiv (arXiv:2508.03526v2) CollaBot, un framework généraliste de manipulation collaborative simultanée par plusieurs robots. L'approche articule trois composants : un module de segmentation de scène basé sur SEEM (Segment Everything Everywhere all at once Model) pour isoler l'objet cible dans l'environnement, un framework de saisie collaborative qui décompose la tâche en génération locale de poses de préhension par chaque robot et coordination globale entre agents, et un module de planification en deux étapes pour produire des trajectoires sans collision. Testé sur des configurations variées, nombre de robots, types d'objets (dont des objets volumineux comme des tables), types de tâches, CollaBot atteint un taux de réussite de 72 %, surpassant les méthodes basées sur le behavior cloning. Des expériences en conditions réelles confirment la faisabilité de l'approche hors simulation. Ce résultat pointe un angle mort structurel de la robotique de manipulation : la quasi-totalité des frameworks existants ciblent des robots seuls opérant sur des objets de petite taille, alors que les environnements industriels et domestiques exigent fréquemment la manipulation coordonnée d'objets volumineux, tables, panneaux, charges lourdes. La décomposition explicite du problème (saisie locale + coordination globale) se révèle plus robuste que l'apprentissage bout-en-bout pur pour la généralisation multi-robot, ce qui constitue une piste d'architecture à retenir pour les intégrateurs industriels cherchant à déployer des cellules multi-bras flexibles. Le taux de 72 % mérite toutefois d'être nuancé : le papier ne détaille pas précisément la diversité des objets testés en conditions réelles ni les critères de succès retenus, ce qui limite la comparaison directe avec d'autres systèmes. La manipulation multi-robot collaborative reste un champ en structuration, sans cadre généraliste interopérable établi à ce jour. CollaBot s'inscrit dans une tendance plus large d'intégration de modèles vision-langage dans la planification robotique, dans l'esprit des architectures VLA portées par Physical Intelligence avec Pi-0, Figure AI avec Figure 03, ou Google DeepMind avec GR00T N2, mais appliqué spécifiquement à la coordination multi-agents sur objets larges, un scénario que les VLA classiques traitent mal. Les suites logiques seraient de tester le framework avec un nombre de robots plus élevé, dans des environnements encombrés, et de publier des benchmarks complets pour permettre une reproductibilité indépendante et une comparaison sérieuse avec les approches concurrentes.

RecherchePaper
1 source
Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique
282arXiv cs.RO 

Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique

Des chercheurs du Collaborative Robotics Lab de Virginia Tech ont publié Language Movement Primitives (LMP), un framework qui relie les modèles de vision-langage (VLM) aux Dynamic Movement Primitives (DMP), une famille de contrôleurs de trajectoire établie en robotique depuis les années 2000. Le principe: les DMP définissent des trajectoires continues et stables via un faible nombre de paramètres interprétables, et les VLM configurent ces paramètres directement à partir d'instructions en langage naturel. Testé sur 31 tâches de manipulation de bureau en conditions réelles, LMP atteint un taux de succès de 65%, contre 35% pour le meilleur système de référence évalué. Le pipeline fonctionne en mode zéro-shot, sans fine-tuning spécifique aux tâches cibles. L'article est disponible sur arXiv (2602.02839, troisième révision) et accompagné de vidéos de démonstration. Le vrai problème que LMP cible est le "grounding" moteur: transformer un raisonnement abstrait en commandes physiquement cohérentes. Les VLM comme GPT-4V excellent à décomposer une tâche en étapes logiques, mais produire des trajectoires exécutables reste hors de leur portée native. À l'inverse, les modèles de fondation robotique tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 de Google génèrent des actions directement, mais nécessitent généralement un fine-tuning coûteux en données in-domain pour s'adapter à de nouvelles tâches. LMP propose une troisième voie: les DMP servent d'interface structurée entre le raisonnement LLM et le contrôle bas niveau, préservant la stabilité dynamique sans apprentissage supplémentaire. Le gain de 30 points de pourcentage en zéro-shot sur des tâches réelles est notable, même si le choix des baselines et les conditions de test précises mériteront une vérification indépendante par la communauté. Les DMP ont été formalisés par Schaal et al. dans les années 2000 et restent un outil de référence pour la manipulation grâce à leur stabilité et leur capacité de généralisation. L'approche de LMP s'inscrit dans la lignée de SayCan (Google) et Code-as-Policies (Liang et al.), mais descend plus bas dans la pile de contrôle sans passer par un réseau de politique intermédiaire. Les concurrents directs sont les VLA bout-en-bout comme OpenVLA ou le récent Helix d'Figure AI, qui offrent plus de flexibilité mais restent tributaires de larges jeux de données de démonstration. Les prochaines étapes probables incluent l'extension à des environnements non-tabulaires et à des robots à plus haute dimensionnalité, notamment la manipulation dextre sur bras 7-DOF.

RechercheOpinion
1 source
TactileReflex : contrôle réflexe vision-tactile piloté par les statistiques du bruit pour la manipulation sensible à la force
283arXiv cs.RO 

TactileReflex : contrôle réflexe vision-tactile piloté par les statistiques du bruit pour la manipulation sensible à la force

TactileReflex est un contrôleur en boucle fermée à trois canaux pour la manipulation de contenants déformables fragiles, comme des gobelets plastiques remplis de liquide. Publié sur arXiv (2605.23568), il utilise deux capteurs visuo-tactiles pour extraire, à environ 12 Hz, trois métriques image : l'intensité de cisaillement (Sy), l'intensité de contact (Fn) et le centre de pression (C), pilotant en parallèle la suppression du glissement, le relâchement adaptatif au poids et la protection contre les surcharges de force. La calibration est entièrement automatique : les seuils de contrôle sont dérivés du bruit intrinsèque des capteurs via un court protocole de maintien statique et déchargement, sans modèles physiques spécifiques aux matériaux ni réglage manuel par essais-erreurs. Les résultats sont nets : en tests d'ablation sur déformation de contenant, le système complet atteint 5/5 succès contre au maximum 1/5 pour les configurations partielles ; sur une tâche de versement dynamique, les approches à effort fixe échouent 10 fois sur 10, contre 9/10 pour TactileReflex sur deux volumes d'eau distincts. La difficulté de saisir un gobelet plastique tient à une marge de force extrêmement étroite : trop peu de pression entraîne le glissement, trop la déforme irrémédiablement. C'est un angle mort récurrent des politiques VLA (vision-language-action) et de la téléopération sans retour haptique, qui opèrent à l'aveugle face aux variations de rigidité et de poids des objets manipulés. TactileReflex est présenté comme une couche de sécurité "plug-and-play" pouvant s'intercaler sous tout pipeline de manipulation haut niveau. L'absence de calibration externe et l'interprétabilité du contrôleur réduisent le coût d'intégration, un argument concret pour les intégrateurs déployant des bras robotiques polyvalents sur des lignes incluant des produits fragiles ou déformables. Les capteurs visuo-tactiles de type GelSight ou DIGIT permettent depuis plusieurs années d'imager le contact à l'échelle millimétrique, mais leur intégration dans des boucles de contrôle temps réel avec des seuils fiables reste un défi ouvert. Dans la course actuelle à la manipulation généraliste, Figure AI, Physical Intelligence (Pi-0) et Google DeepMind (RT-2) travaillent principalement avec des objets rigides aux marges de force confortables, laissant la manipulation déformable en marge des grandes démonstrations. L'article reste un preprint non évalué par les pairs, sans affiliation institutionnelle clairement identifiée ni partenaire industriel ni timeline de déploiement annoncés. Sa compatibilité revendiquée avec les pipelines VLA et la téléopération VR ouvre néanmoins une voie vers les frameworks de collecte de données robotiques, un terrain où des acteurs européens comme Enchanted Tools (France) sont actifs.

RecherchePaper
1 source
Any2Any : transfert efficace entre plateformes pour le suivi corporel complet de robots humanoïdes
284arXiv cs.RO 

Any2Any : transfert efficace entre plateformes pour le suivi corporel complet de robots humanoïdes

Une équipe de chercheurs publie sur arXiv (réf. 2605.23733) une méthode baptisée Any2Any pour transférer des modèles de whole-body tracking (WBT) entre différentes plateformes humanoïdes sans réentraînement complet. Le WBT désigne la capacité d'un robot humanoïde à reproduire fidèlement des mouvements complexes sur l'ensemble du corps, et constitue aujourd'hui un composant clé des pipelines de contrôle humanoïde. Any2Any procède en deux étapes: un alignement cinématique entre robot source et robot cible, puis une adaptation dynamique par fine-tuning paramétrique léger (PEFT) appliqué aux seuls modules sensibles à la dynamique du mouvement. Résultat annoncé: le transfert de modèles Sonic préentraînés sur le Unitree G1 vers deux robots de LimX Robotics, le LimX Oli et le LimX Luna, en mobilisant seulement 1% des données et du calcul nécessaires à un entraînement complet from scratch, avec des performances de suivi comparables ou supérieures. Si ces chiffres se confirment en conditions réelles, Any2Any s'attaque à l'un des principaux verrous économiques du marché humanoïde: le coût de redéveloppement du contrôle moteur bas-niveau pour chaque nouvelle plateforme. Entraîner un modèle WBT from scratch mobilise aujourd'hui d'importants volumes de données simulées et de GPU-heures, ce qui pénalise les robots à faible volume ou en phase de prototype. Un ratio de 1% de ressources représente, si validé, un changement structurel dans l'économie du développement robotique. Cette approche conforte également l'hypothèse d'un "foundation model" pour le contrôle moteur humanoïde: un modèle préentraîné sur une plateforme bien documentée pourrait devenir un socle réutilisable par des intégrateurs tiers, réduisant la barrière à l'entrée pour les acteurs disposant de ressources computationnelles limitées. Le WBT humanoïde concentre une concurrence intense, avec les travaux de Physical Intelligence autour de Pi-0, les modèles GR00T N2 de NVIDIA, et les pipelines internes de Figure AI et Agility Robotics. Unitree, acteur chinois prolixe en publications open-source, fournit son G1 comme base de préentraînement dans un nombre croissant de travaux académiques. LimX Robotics, moins médiatisé, développe humanoïdes et quadrupèdes et joue ici le rôle de cible de validation. Any2Any reste cependant un preprint arXiv sans validation industrielle publiée, et les démonstrations vidéo sélectionnées dans ce type de soumission ne reflètent pas nécessairement les performances moyennes en environnement non contrôlé. Les prochaines étapes logiques seraient une validation sur des tâches de manipulation en milieu réel et une intégration dans des pipelines open-source existants.

💬 1% des données et du calcul pour transférer un modèle de contrôle moteur entre deux humanoïdes différents, si ça se confirme hors conditions contrôlées, c'est l'un des vrais verrous du secteur qui tombe. Le coût de réentraînement par plateforme pénalise tous les acteurs qui n'ont pas le budget de Unitree ou NVIDIA depuis des années. C'est un preprint, donc on verra, mais l'argument économique est bien posé.

IA physiquePaper
1 source
Action par primitives visuelles
285arXiv cs.RO 

Action par primitives visuelles

Une équipe de chercheurs a publié en mai 2026 sur arXiv (réf. 2605.22183) AVP, Action with Visual Primitives, une nouvelle architecture end-to-end pour la manipulation robotique généraliste. Le système repose sur une séparation explicite des responsabilités : le modèle de vision-langage (VLM) infère l'état cible de la prochaine étape et génère des tokens dits "visuels primitifs", qui conditionnent ensuite un module d'action basé sur le flow matching, supervisé par la cinématique de l'effecteur final. Sur des tâches réelles de pick-and-place, AVP améliore le taux de succès de 27,61 % par rapport à pi0.5, le modèle de référence de Physical Intelligence, avec des gains mesurés en efficacité de données, en généralisation spatiale et compositionnelle, ainsi qu'en transfert à de nouveaux objets. L'enjeu central que pointe ce travail est celui de l'enchevêtrement des objectifs d'apprentissage dans les VLA actuels : dans les architectures dominantes, compréhension du langage, analyse spatiale de la scène et contrôle moteur sont fondus dans un seul passage forward, forçant le module d'action à réapprendre des capacités perceptives déjà présentes dans le VLM préentraîné. AVP découple ce pipeline via une interface à base de tokens visuels primitifs, ce qui réduit la redondance d'apprentissage et améliore l'efficacité des données d'entraînement, un facteur critique dans un domaine où la collecte de démonstrations robotiques reste coûteuse. L'amélioration de 27,61 % sur pi0.5, si elle se confirme sur des benchmarks plus larges, représente un écart significatif pour des intégrateurs industriels qui évaluent des solutions de manipulation flexible. Les modèles VLA ont connu une accélération notable depuis 2024 avec l'émergence de pi0 et pi0.5 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI), tous positionnés sur la manipulation généraliste. La tendance dominante jusqu'ici consistait à empiler VLM et head d'action en bout de chaîne, héritant des représentations visuelles sans structuration intermédiaire. AVP propose une voie alternative en introduisant une représentation symbolique intermédiaire, les visual primitives, comme pont entre perception et action. Le papier reste un preprint sans validation externe à ce stade ; les expériences sont conduites sur des tâches de pick-and-place, ce qui limite la portée des conclusions à des scénarios de manipulation relativement contraints. Les prochaines étapes naturelles seront une extension à des tâches à longue horizon temporel et une comparaison sur des benchmarks standardisés comme LIBERO ou Open X-Embodiment.

IA physiqueOpinion
1 source
SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines
286arXiv cs.RO 

SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines

Des chercheurs présentent SUGAR (Scalable hUman-video-driven GenerAlizable humanoid loco-manipulation leaRning), un framework publié en préprint sur arXiv (arXiv:2605.20373, mai 2026), conçu pour entraîner des robots humanoïdes à des tâches de loco-manipulation à partir de vidéos humaines non structurées, sans ingénierie de récompenses propre à chaque tâche. Le pipeline se décompose en trois étapes : extraction automatisée de priors cinématiques (trajectoires humain-objet et labels de contact) depuis des vidéos brutes ; raffinement physique via un mimic reward unifié et un progressive state pool qui transforment ces priors imparfaits en mouvements physiquement cohérents ; puis distillation dans une politique hiérarchique composée d'un générateur et d'un suiveur de commandes. Le système a été évalué sur six tâches de loco-manipulation, en simulation et sur matériel humanoïde réel, avec transfert zero-shot vers le monde physique, récupération autonome après échec, et robustesse aux perturbations externes. L'enjeu central est la scalabilité : là où la téléopération humaine, méthode utilisée par Figure AI, Apptronik ou 1X, reste coûteuse et difficile à industrialiser, SUGAR exploite le corpus massif de vidéos humaines disponibles. Le verrou technique était que les priors cinématiques extraits de ces vidéos sont intrinsèquement bruités (occlusions, artefacts de contact, erreurs de retargeting) et inutilisables en l'état pour l'apprentissage. L'étape de raffinement physique est ici la contribution principale. Le fait que la performance scale clairement avec le volume de données vidéo est un résultat significatif : il oriente la recherche vers l'augmentation de données plutôt que l'ingénierie manuelle de récompenses, un changement de paradigme pour les équipes travaillant sur des humanoïdes généralistes. SUGAR s'inscrit dans la vague de contrôle humanoïde piloté par les données, en concurrence directe avec les approches VLA de Physical Intelligence (Pi-0), Google DeepMind, et Nvidia (GR00T N2). Le sim-to-real zero-shot revendiqué reste le défi emblématique du secteur ; les auteurs affirment l'atteindre de manière fiable avec récupération autonome des échecs, mais la sélection de seulement six tâches de démonstration mérite d'être notée. À ce stade, il s'agit d'un résultat académique sans timeline de déploiement commercial : les limites immédiates concernent la diversité des tâches et des environnements testés, qui conditionneront la généralisation à des déploiements industriels réels.

IA physiquePaper
1 source
Une nouvelle main robotique chinoise combine un actionnement hybride pour améliorer la préhension
287Interesting Engineering 

Une nouvelle main robotique chinoise combine un actionnement hybride pour améliorer la préhension

La startup chinoise Xynova a dévoilé la Flex 2, sa main robotique de deuxième génération, conçue pour équiper les robots humanoïdes de capacités de manipulation proches de celles de la main humaine. Le système embarque 23 degrés de liberté pour un poids de 400 grammes, et atteint une cadence de deux extensions de poing par seconde. Sa répétabilité est annoncée à ±0,1 mm, avec une précision de contrôle de force descendant à 0,05 newtons, ce qui lui permet de saisir des objets fragiles ou de forme irrégulière sans les endommager. La charge utile en préhension atteint 12 kg en pic et 4 kg en continu. Xynova revendique un score parfait au test de Kapandji, référence clinique pour évaluer l'opposition du pouce, ainsi qu'une résistance à la poussière, aux chutes et aux impacts compatible avec des millions de cycles opérationnels. La main intègre un système de perception multi-modal comprenant capteurs tactiles, proprioception et un module de détection de glissement, que l'entreprise qualifie de "cervelet artificiel" adaptatif. La Flex 2 illustre une tendance de fond dans la conception des mains robotiques : l'hybridation des modes d'actionnement. Le système combine des tendons à câbles, qui apportent compliance et légèreté, avec une actuation directe qui fournit le couple nécessaire aux tâches de contact précis. Ce compromis cherche à surmonter l'un des obstacles persistants du secteur : la manipulation dite "au dernier centimètre", soit la capacité à exécuter des gestes contact-riches hors d'environnements contrôlés. Xynova a également repositionné la caméra du système de vision depuis la paume vers le poignet, ce qui réduit les problèmes d'occlusion lors de la saisie et améliore la qualité des données collectées pour entraîner des pipelines VLA (vision-language-action) utilisés dans les systèmes d'IA incarnée. C'est une décision architecturale modeste en apparence, mais potentiellement significative pour quiconque développe des politiques d'imitation learning sur données visuelles. Xynova s'inscrit dans une vague de startups chinoises spécialisées dans la manipulation dextre, un segment en croissance rapide depuis que les grands intégrateurs humanoïdes comme Figure AI (Figure 03), Tesla (Optimus Gen 3) ou Physical Intelligence (Pi-0) ont montré les limites des préhenseurs rigides industriels sur des tâches non structurées. Le précédent modèle de Xynova, la Flex 1, affichait 25 DOF, 380 grammes et une force d'extrémité de doigt de 20 N pour une charge de 30 kg, positionnant déjà la marque sur le segment haute performance. Avec la Flex 2, l'entreprise pivote explicitement vers la fidélité de contrôle lors des interactions physiques plutôt que vers les seules métriques hardware. Aucun prix public ni calendrier de livraison commerciale n'ont été communiqués à ce stade : la Flex 2 reste pour l'instant une annonce produit sans déploiement confirmé.

Chine/AsieActu
1 source
Modélisation monde-ego pour l'évolution à long horizon dans les tâches hybrides incarnées
288arXiv cs.RO 

Modélisation monde-ego pour l'évolution à long horizon dans les tâches hybrides incarnées

Des chercheurs ont publié sur arXiv en mai 2026 (arXiv:2605.19957) un nouveau paradigme appelé World-Ego Modeling, accompagné d'une implémentation concrète, le World-Ego Model (WEM). Le problème ciblé : les world models actuels prédisent l'évolution de la scène et du robot dans un flux unique, confondant deux dynamiques de nature différente, les régularités persistantes de l'environnement d'un côté et la dynamique propre à l'agent conditionnée par ses instructions de l'autre. Ce couplage dégrade les performances sur les tâches hybrides longue horizon, où navigation autonome et manipulation d'objets s'entrelacent. WEM sépare explicitement ces deux composantes via un planificateur implicite dual, couplé à un générateur de diffusion CP-MoE (cascade-parallel mixture-of-experts). Les auteurs publient également HTEWorld, présenté comme le premier benchmark dédié à ce type de tâches, avec 125 000 clips vidéo totalisant plus de 4,5 millions de frames et 300 trajectoires multi-tours représentant plus de 2 000 instructions. WEM atteint l'état de l'art sur HTEWorld et reste compétitif sur les benchmarks de manipulation seule. L'enjeu touche directement les systèmes de manipulation mobile : robots logistiques à bras, humanoïdes polyvalents, AMR avec capacités de saisie. La majorité des world models sont entraînés soit sur de la navigation pure, soit sur de la manipulation fixe, rarement sur des séquences hybrides longues où l'agent doit enchaîner déplacement, identification et manipulation sans intervention humaine. WEM formalise la désambiguation monde-ego et propose trois stratégies de désenchevêtrement (post-, pré- et complet), ouvrant un cadre de comparaison structuré pour les futures architectures VLA ; la création d'HTEWorld comble simultanément un manque concret, l'absence de référence commune pour les tâches hybrides rendant jusqu'ici les comparaisons entre approches difficiles à établir. Ce travail s'inscrit dans l'effervescence autour des world models incarnés, aux côtés de projets comme UniSim (Google DeepMind) ou Genie, et en parallèle des efforts des constructeurs d'humanoïdes comme Figure AI, Agility Robotics et NVIDIA (GR00T N2) sur la planification longue horizon. WEM reste un résultat académique : la validation sur robot réel n'est pas documentée dans l'article, et le code ainsi que les données HTEWorld n'étaient pas encore disponibles à la date de dépôt. Les suites naturelles sont l'évaluation sim-to-real et l'intégration avec des VLA à grande échelle comme pi-0 (Physical Intelligence) ou GR00T N2.

RechercheOpinion
1 source
HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme
289arXiv cs.RO 

HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme

Des chercheurs ont publié HEX (Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation), un cadre de contrôle robotique déposé sur arXiv (arXiv:2604.07993v2) en avril 2026. HEX cible un problème structurel dans le déploiement des humanoïdes bipèdes de grande taille : la majorité des modèles Vision-Language-Action (VLA) existants traitent les membres du robot de façon indépendante, ce qui rend le contrôle à haute dimension (de nombreux degrés de liberté, ou DoF) instable et peu généralisable. Pour y répondre, HEX introduit une représentation d'état universelle alignée sur l'anatomie humanoïde, conçue pour l'apprentissage à grande échelle sur des plateformes hétérogènes. Son prédicteur proprioceptif unifié basé sur un Mixture-of-Experts (MoE) modélise la coordination corps entier et la dynamique temporelle de mouvement à partir de trajectoires issues de multiples morphologies robotiques. Pour l'encodage visuel temporel, HEX utilise des tokens d'historique légers résumant les observations passées sans réencodage redondant des images, puis fusionne indices visuels et langagiers avec la dynamique proprioceptive via un mécanisme de fusion résiduelle à portes et une tête d'action par flow-matching. Ce cadre adresse un goulet d'étranglement réel dans les VLA appliqués aux humanoïdes : le cloisonnement bras/jambes/torse empêche une coordination fluide et pénalise les tâches à réaction rapide ou à horizon long (planification multi-étapes). Les expériences sur tâches de manipulation réelles montrent que HEX atteint des taux de succès et une capacité de généralisation de l'état de l'art, précisément dans ces deux régimes critiques pour un déploiement industriel. La capacité à transférer des politiques entre morphologies hétérogènes (cross-embodiment) réduit également le coût de collecte de données par plateforme, un argument concret pour les intégrateurs. HEX s'inscrit dans une course dense au contrôle humanoïde haute fidélité. Pi0 de Physical Intelligence a popularisé le flow-matching pour la génération d'actions continues ; GR00T N2 de NVIDIA et Helix de Figure AI misent sur l'apprentissage en simulation massive. OpenVLA reste la référence open-source. HEX se distingue par son MoE dédié à la proprioception multi-corps, absent des architectures concurrentes. L'article étant un preprint arXiv révisé (v2), les résultats restent à confirmer par évaluation indépendante ; aucune affiliation institutionnelle ni timeline de déploiement n'est précisée dans le résumé public.

IA physiqueOpinion
1 source
DyGRO-VLA : mise à l'échelle inter-tâches des modèles vision-langage-action par optimisation résiduelle groupée dynamique
290arXiv cs.RO 

DyGRO-VLA : mise à l'échelle inter-tâches des modèles vision-langage-action par optimisation résiduelle groupée dynamique

Des chercheurs ont soumis sur arXiv (réf. 2605.17486) un nouveau framework d'optimisation pour les modèles VLA (Vision-Language-Action), baptisé DyGRO-VLA (Dynamic Grouped Residual Optimization for VLA). L'approche fonctionne en deux étapes : une phase de capture de représentations latentes inter-tâches fondée sur des principes de théorie de l'information, suivie d'un raffinement dynamique de la politique via un mécanisme de "mixture-of-RL-residuals". Les résultats sont évalués sur les benchmarks LIBERO et RoboTwin2, deux références standard en manipulation robotique multi-tâches, et validés sur robot réel. Les gains de performance sont présentés comme consistants face à des baselines solides, y compris sous distribution shift, c'est-à-dire face à des tâches absentes de l'ensemble d'entraînement. Le problème visé est structurel : lorsqu'on affine un modèle VLA généraliste avec du Reinforcement Learning, il finit généralement par ne bien performer que sur un sous-ensemble étroit de tâches, perdant la polyvalence qui le rendait intéressant. La plupart des optimiseurs RL actuels sont conçus pour une tâche unique, ce qui réduit ces modèles, pourtant pensés comme des contrôleurs généralistes, à des politiques spécialisées peu transférables. Pour un intégrateur ou un industriel déployant des robots sur des lignes à forte variabilité de tâches, ce phénomène est un frein opérationnel direct. DyGRO-VLA répond à ce problème en exploitant les représentations latentes partagées entre tâches tout en limitant les interférences lors de l'optimisation. Si ces résultats se confirment dans des conditions plus diversifiées, cela aurait des implications concrètes sur la viabilité du fine-tuning RL pour des modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). L'essor des modèles VLA, qui combinent vision, langage et action dans un seul réseau de neurones, est l'une des tendances majeures de la robotique depuis 2023. Des acteurs comme Physical Intelligence (Pi-0, Pi-0.5), NVIDIA (GR00T N2), Google DeepMind (RT-2) ou des startups comme Figure AI et 1X Technologies s'appuient sur cette architecture. Le recours au RL pour dépasser les limites de l'imitation pure est une évolution naturelle, mais le maintien des performances sur plusieurs tâches reste un problème ouvert. DyGRO-VLA s'inscrit dans un courant de recherche actif qui inclut des approches comme ReinFT. L'absence de détails sur les conditions expérimentales exactes (nombre de tâches, hardware robot utilisé, comparaisons directes avec les VLA commerciaux) et l'absence de code public au moment de la soumission rendent difficile une évaluation indépendante, une limite fréquente des prépublications arXiv.

RechercheOpinion
1 source
Vers des robots durables : affiner les modèles VLA par apprentissage par renforcement continu
291arXiv cs.RO 

Vers des robots durables : affiner les modèles VLA par apprentissage par renforcement continu

Une équipe de chercheurs publie sur arXiv (2602.10503, février 2026) une méthode de fine-tuning appelée LifeLong-RFT, conçue pour permettre aux modèles VLA (Vision-Language-Action) de s'adapter en continu à de nouvelles tâches sans effacer les précédentes. Les VLA, tels que pi-0 de Physical Intelligence ou OpenVLA, sont pré-entraînés sur des datasets massifs et variés, ce qui leur confère une bonne généralisation. Leur adaptation à des domaines spécifiques repose cependant majoritairement sur le Supervised Fine-Tuning (SFT), une approche qui exige de larges volumes de données tâche-spécifiques et souffre du catastrophic forgetting : le modèle oublie ses acquis antérieurs en assimilant de nouvelles compétences. LifeLong-RFT substitue au SFT un mécanisme de Reinforcement Fine-Tuning (RFT) indépendant de tout feedback environnemental en ligne et de tout reward model pré-entraîné. La méthode repose sur trois signaux de récompense combinés : le QACR (Quantized Action Consistency Reward), qui vérifie la cohérence de la prédiction d'actions dans l'espace discret ; le CTAR (Continuous Trajectory Alignment Reward), qui aligne les chunks d'actions continues sur des trajectoires de référence ; et le FCR (Format Compliance Reward), qui garantit la validité structurelle des sorties. Sur le benchmark LIBERO dédié à l'apprentissage continu, LifeLong-RFT affiche un gain de 22 points de taux de succès moyen par rapport au SFT, en n'utilisant que 20 % des données d'entraînement pour s'adapter à de nouvelles tâches. Les expériences couvrent SimplerEnv, LIBERO et des scénarios réels. Ce résultat s'attaque directement au principal frein à l'apprentissage continu en déploiement : la nécessité de réentraîner un modèle depuis un checkpoint dès qu'on veut lui enseigner une nouvelle opération. Le fait que LifeLong-RFT ne nécessite ni feedback en ligne (interactions réelles avec l'environnement, coûteuses et parfois dangereuses en production) ni reward model séparé réduit considérablement la barrière à l'adaptation terrain. Pour un intégrateur ou un COO industriel, cela signifie qu'un bras manipulateur ou un robot mobile basé VLA pourrait théoriquement apprendre de nouvelles tâches avec un cinquième des données actuellement nécessaires, sans régresser sur ses acquis. La validation partielle sur des tâches réelles renforce la crédibilité des résultats, même si le papier reste un preprint arXiv et que les conditions expérimentales real-world ne sont pas détaillées dans le résumé public. La course aux VLA comme politique unifiée pour la robotique généraliste s'est intensifiée depuis 2024 avec pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) et Helix (Figure AI), tous cherchant à résoudre l'adaptation domaine-spécifique avec un minimum de données supplémentaires. LifeLong-RFT s'inspire directement des techniques GRPO et RLHF qui ont transformé le post-training des LLMs, les transposant ici au niveau des chunks d'actions robotiques. Il se positionne comme un paradigme post-training alternatif au SFT, sans contrainte d'infrastructure lourde. Aucun déploiement ni partenariat industriel n'est annoncé : il s'agit d'une contribution académique avec page projet dédiée. Les suites naturelles incluent l'extension à des architectures VLA plus récentes et des benchmarks multi-tâches à plus longue durée, critères encore absents de cette évaluation.

IA physiqueOpinion
1 source
Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle
292Interesting Engineering 

Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle

Genesis AI a présenté GENE-26.5, un modèle de fondation robotique conçu pour doter les robots de capacités de manipulation au niveau humain. La vidéo de démonstration publiée par l'entreprise montre des robots accomplissant une séquence culinaire de 20 étapes (couper des tomates, casser un oeuf d'une seule main, coordonner les deux bras pendant la cuisson), ainsi que la préparation d'un smoothie avec service en l'air, des tâches de laboratoire (pipettage, transfert de liquides), du câblage pour assemblage électronique, la résolution d'un Rubik's Cube en manipulation aérienne continue, et l'interprétation d'une pièce de piano rapide. Pour alimenter l'entraînement du modèle, l'entreprise a développé un gant haptique équipé d'une peau électronique à capteurs tactiles, établissant une correspondance 1:1:1 entre la main humaine, le gant et la main robotique. Genesis revendique un coût matériel cent fois inférieur aux solutions de télé-opération conventionnelles, et une efficacité de collecte de données cinq fois supérieure. Le moteur de données associé intègre également des vidéos égocentriques issues de caméras portables et des vidéos publiques centrées sur l'activité humaine. Ces résultats, s'ils se confirment en environnement réel non contrôlé, représentent une avancée potentiellement significative sur l'un des verrous les plus tenaces de la robotique : l'écart d'incarnation (embodiment gap) entre les mains humaines et robotiques, qui limite depuis des années la transférabilité des données d'entraînement. La cartographie 1:1 glove-to-robot est une approche déjà explorée par des acteurs comme Physical Intelligence (pi-0) et plusieurs laboratoires académiques, mais Genesis revendique une démonstration à une échelle et une polyvalence inédites. Pour les intégrateurs industriels et les décideurs cherchant à automatiser des tâches non structurées (assemblage fin, préparation culinaire en volume, logistique d'entrepôt), la promesse d'un système généraliste capable d'apprendre directement des gestes humains quotidiens, sans retraining extensif, représenterait un changement de paradigme. Il faut toutefois noter que les démonstrations sont des vidéos éditées, sans données indépendantes sur le taux d'échec, les conditions d'éclairage, ou la reproductibilité en cycle de production continu. Genesis AI s'inscrit dans un segment en forte concurrence avec Physical Intelligence (pi-0, Berkeley), Figure AI (Figure 03, déployé avec BMW), Tesla (Optimus Gen 3), NVIDIA (GR00T N2) et Apptronik (Apollo). L'approche par gant haptique à bas coût rappelle les travaux d'Enchanted Tools, acteur français du service robotique, qui mise également sur la capture de mouvement humain pour réduire le coût d'entraînement. Genesis n'a pas encore annoncé de déploiements industriels confirmés ni de partenariats nominatifs : GENE-26.5 reste à ce stade une annonce de produit accompagnée d'une démonstration vidéo, pas un système disponible commercialement. L'entreprise indique prévoir le déploiement de ses gants en milieu de travail réel via des partenariats industriels, avec pour objectif de constituer une bibliothèque de compétences humaines à grande échelle pour l'entraînement robotique.

IA physiqueActu
1 source
D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action
293arXiv cs.RO 

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action

Des chercheurs ont publié sur arXiv (référence 2605.13276) un framework distribué baptisé D-VLA, conçu pour entraîner par renforcement les modèles Vision-Language-Action (VLA) à très grande échelle. Le problème central qu'ils adressent est un goulot d'étranglement systémique : lorsqu'on applique du reinforcement learning (RL) à des VLA de plusieurs milliards de paramètres dans un environnement distribué, la simulation physique haute-fidélité et les calculs d'inférence se disputent les mêmes ressources GPU (VRAM, bande passante), ce qui dégrade le débit global. D-VLA répond par trois mécanismes : un "Plane Decoupling" qui isole physiquement les données d'entraînement haute fréquence du contrôle des poids basse fréquence, un pipeline asynchrone à quatre fils d'exécution ("Swimlane") permettant le chevauchement complet des phases de sampling, d'inférence, de calcul de gradient et de distribution des paramètres, et un système dual-pool de gestion VRAM couplé à une réplication "topology-aware". Sur le benchmark LIBERO, le framework surpasse significativement les solutions RL dominantes en débit et en efficacité d'échantillonnage pour des modèles à l'échelle du milliard de paramètres. Des tests de passage à l'échelle trillion de paramètres indiquent une stabilité maintenue et un speedup linéaire. L'enjeu industriel est concret : les modèles VLA sont désormais au coeur des architectures robotiques génériques (manipulation, navigation, planification multimodale), mais leur entraînement par RL reste prohibitif en ressources. Un framework qui résout le conflit simulation/optimisation et atteint un speedup linéaire à l'échelle du trillion de paramètres lève l'un des principaux verrous pour entraîner des agents polyvalents sans multiplier les clusters GPU de façon exponentielle. C'est une brique infrastructure, pas un robot, mais elle conditionne directement la vitesse à laquelle des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les VLA internes de Figure AI peuvent être affinés par RL dans des environnements simulés réalistes. Ce travail s'inscrit dans une course à la scalabilité du RL pour l'embodied AI, où les frameworks existants (IsaacLab, RLlib, sample-factory) n'ont pas été conçus pour les contraintes spécifiques des VLA massifs. Les auteurs ne mentionnent pas d'affiliation institutionnelle clairement identifiable dans l'abstract, et le papier est un preprint non encore évalué par les pairs. Aucun déploiement réel ni partenariat industriel n'est annoncé à ce stade. Les prochaines étapes naturelles seraient une validation sur des tâches robotiques plus complexes que LIBERO et une intégration avec des simulateurs comme Isaac Sim ou MuJoCo à grande échelle.

UELes chercheurs européens en embodied AI pourraient exploiter ce framework pour réduire le coût GPU de l'entraînement RL sur VLA, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

IA physiqueOpinion
1 source
Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)
294arXiv cs.RO 

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

Des chercheurs ont déposé sur arXiv (arXiv:2605.13632, mai 2026) GTA-VLA (Guide, Think, Act), un framework Vision-Language-Action interactif qui permet d'injecter des indices visuels explicites dans le raisonnement d'un robot avant l'exécution. Contrairement aux VLA classiques qui appliquent un mapping direct perception-action appris sur données d'entraînement, GTA-VLA introduit une étape de raisonnement spatial conditionné : l'opérateur peut fournir des points d'affordance, des boîtes englobantes ou des trajectoires dessinées sur l'image, que le modèle intègre dans une chaîne de pensée (Chain-of-Thought, CoT) avant de générer les commandes motrices. Une tête d'action légère ("reactive action head") assure ensuite l'exécution. Sur le benchmark SimplerEnv WidowX en conditions in-domain, le système atteint un taux de succès de 81,2 %, présenté comme état de l'art sur cette tâche. Les auteurs rapportent qu'une seule interaction visuelle suffit à améliorer substantiellement les performances sous perturbations visuelles ou ambiguïtés spatiales hors distribution (OOD). Ce résultat pointe une limite structurelle des VLA actuels : leur fragilité face aux shifts de distribution, c'est-à-dire dès que l'environnement de déploiement diffère des données d'entraînement. Les approches CoT existantes exposent le raisonnement intermédiaire mais restent aveugles à la guidance humaine, rendant la reprise sur erreur difficile sans réentraînement. GTA-VLA propose une troisième voie : maintenir l'autonomie du modèle tout en ouvrant un canal de correction humain minimal, ciblé sur l'espace visuel. Pour un intégrateur industriel, c'est un argument concret contre le demo-to-reality gap : si le robot échoue, l'opérateur désigne visuellement l'objet cible plutôt que de réécrire une instruction texte. La métrique de 81,2 % sur SimplerEnv mérite toutefois d'être contextualisée : ce benchmark reste un environnement simulé contrôlé, et aucun résultat sur hardware réel n'est communiqué dans le papier. GTA-VLA s'inscrit dans l'effervescence des architectures VLA depuis Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui ont tous cherché à coupler raisonnement de haut niveau et exécution robotique fluide. L'apport spécifique est de rendre ce raisonnement "steerable" via des priors spatiaux explicites, là où Pi-0 ou GR00T N2 restent essentiellement autonomes une fois déployés. Publié en preprint non encore évalué par des pairs, le papier ne mentionne ni déploiement sur plateforme physique ni partenariats industriels annoncés. Les prochaines étapes naturelles seraient une validation sur manipulateurs réels (WidowX physique, Franka) et une évaluation de la robustesse de l'interface de guidance en conditions industrielles réelles.

IA physiqueOpinion
1 source
TeleGate : téléopération corps entier d'un humanoïde par sélection d'experts avec prior de mouvement
295arXiv cs.RO 

TeleGate : téléopération corps entier d'un humanoïde par sélection d'experts avec prior de mouvement

Des chercheurs ont publié TeleGate (arXiv:2602.09628, preprint non encore revu par les pairs), un cadre de télé-opération corps entier pour robots humanoïdes, déployé sur le Unitree G1. Le système permet le contrôle à distance en temps réel de l'ensemble du corps du robot - membres supérieurs, inférieurs et tronc - sur un spectre de mouvements dynamiques complexes: course, récupération après chute et saut. L'entraînement n'a nécessité que 2,5 heures de données de capture de mouvement (mocap), un volume faible comparé aux approches concurrentes. L'architecture repose sur deux composants: un réseau de sélection (gating network) léger qui active dynamiquement des politiques expertes spécialisées en fonction des états proprioceptifs du robot et des trajectoires de référence, et un module de prior de mouvement basé sur un VAE (variational autoencoder) qui infère l'intention de mouvement future à partir des observations historiques, assurant un contrôle anticipatif pour les gestes nécessitant de la prédiction. L'enjeu que TeleGate cherche à résoudre est central dans la robotique humanoïde actuelle: les approches classiques fusionnent plusieurs politiques expertes en une politique générale par distillation de connaissances, ce qui entraîne une dégradation des performances sur les mouvements très dynamiques. TeleGate contourne ce compromis en préservant les politiques expertes spécialisées intactes, le réseau de sélection se contentant d'arbitrer entre elles en temps réel. Les résultats rapportés, en simulation et sur robot réel, indiquent une précision de suivi et un taux de succès supérieurs aux méthodes de référence, sans que les auteurs ne fournissent de métriques chiffrées détaillées dans l'abstract. Pour les intégrateurs, cela suggère qu'une architecture de sélection d'experts est préférable à la distillation lorsque le portefeuille de comportements est hétérogène et inclut des gestes physiquement contrastés. Unitree Robotics, fabricant chinois dont le G1 est commercialisé aux alentours de 16 000 USD, s'est imposé comme la plateforme de référence des publications académiques en télé-opération humanoïde grâce à son accessibilité tarifaire. TeleGate s'inscrit dans une effervescence de travaux publiés en 2024-2025 autour de ce thème, en parallèle d'approches comme ACT, UMI, ou les systèmes développés par Figure AI et 1X Technologies. La prochaine étape naturelle pour ce type de framework est la collecte de démonstrations de haute qualité pour l'apprentissage par imitation, goulot d'étranglement majeur sur le chemin vers l'autonomie humanoïde.

HumanoïdesPaper
1 source
SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai
296Pandaily 

SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai

SenseTime, l'un des principaux groupes d'intelligence artificielle en Chine, a inauguré en mai 2026 à Shanghai un point de vente de détail entièrement opéré par des robots humanoïdes. La boutique, baptisée "Shaomai Gou" (烧卖购), est installée dans le site touristique Baoshan Riverside Scenic Area. Le protocole client est simple : scanner un QR code pour passer commande depuis son téléphone, puis recevoir le produit directement des mains du robot. Au-delà de la préparation des commandes, les robots seraient capables d'assurer la sélection des références, la tarification et l'analyse des données de réapprovisionnement des stocks. Le magasin a attiré des files d'attente spontanées lors du week-end du 1er mai. Aucun modèle de robot n'est identifié dans l'annonce officielle, et SenseTime ne publie pas de métriques opérationnelles (temps de cycle, taux de succès des saisies, volume de transactions). Ce déploiement est significatif parce qu'il sort les robots humanoïdes du contexte industriel contrôlé pour les placer face à des consommateurs non formés, dans un environnement ouvert et non structuré. La manipulation de produits variés, la gestion des interactions client et le réassort en rayon constituent des tâches difficiles pour un système robotique généraliste. Cela dit, l'absence de données techniques publiées invite à la prudence : l'initiative ressemble davantage à un déploiement pilote à forte valeur marketing qu'à une preuve de passage à l'échelle industrielle. Ce que cela valide en revanche, c'est l'existence d'une voie commerciale pour l'embodied AI dans les services de proximité à forte fréquentation, un segment jusqu'ici dominé par des kiosques automatisés passifs. SenseTime a bâti sa réputation initiale sur la vision par ordinateur et la reconnaissance faciale avant de pivoter vers l'IA incarnée, combinant vision robotique, compréhension du langage naturel et manipulation physique. En Chine, la société fait face à la concurrence de Unitree Robotics, Fourier Intelligence et UBTECH sur le segment humanoïde ; à l'international, les références du secteur restent Figure AI avec le robot 03, Physical Intelligence avec Pi-0 et Boston Dynamics. La prochaine étape logique pour SenseTime sera d'étendre "Shaomai Gou" à d'autres sites et de publier des données de performance qui permettraient de distinguer la démonstration du déploiement opérationnel réel.

Chine/AsieActu
1 source
Le robot humanoïde Digit démontre sa force et son équilibre avec un soulevé de terre de 30 kg
297Interesting Engineering 

Le robot humanoïde Digit démontre sa force et son équilibre avec un soulevé de terre de 30 kg

Le robot humanoïde Digit, développé par Agility Robotics (Oregon, États-Unis), vient de réaliser un soulevé de terre de 29 kilogrammes (65 livres) dans un environnement de laboratoire contrôlé. La démonstration met en évidence une coordination corpo-entière, bras, jambes et torse s'ajustent dynamiquement en temps réel pour maintenir l'équilibre sous charge. Selon l'entreprise, l'exercice a été conçu pour tester les limites des actionneurs, la durabilité des articulations et les systèmes de contrôle en temps réel. La politique de contrôle a été entraînée en simulation : un objet virtuel est introduit dans un environnement numérique, permettant au modèle d'apprendre la distribution de charge, les forces de préhension et les déplacements du centre de masse. Des milliers d'essais simulés affinent ensuite la stabilité de prise et le contrôle postural avant transfert sur le robot physique. La version actuelle de Digit embarque également une autonomie batterie de quatre heures, un système d'auto-recharge par docking autonome, des membres renforcés, des effecteurs terminaux avancés, et des protocoles de sécurité industrielle incluant un arrêt de catégorie 1, des PLCs de sécurité et le protocole FailSafe over EtherCAT. Ce que révèle cette démonstration va au-delà du simple exercice de force : elle illustre le passage des trajectoires articulaires programmées manuellement vers des politiques adaptatives apprises, un changement de paradigme significatif pour les intégrateurs industriels. Le sim-to-real, longtemps considéré comme un verrou majeur de la robotique humanoïde, semble ici suffisamment mature pour gérer des tâches de manipulation lourde avec consistance et sans réinitialisation. Pour un COO industriel, la promesse concrète est un robot capable d'empiler des bacs, charger des chariots et manutentionner des matériaux variés de façon autonome et répétable, en complément de robots mobiles autonomes (AMR) qui assurent le transport. La durabilité sous charge soutenue reste toutefois à valider en conditions réelles de production : la vidéo présentée est un test laboratoire, pas un déploiement opérationnel. Agility Robotics a été fondée en 2015 à partir des travaux de l'Oregon State University sur la locomotion bipède. L'entreprise a signé un partenariat stratégique avec Amazon, qui a piloté Digit dans ses entrepôts en 2023-2024. Elle se positionne directement face à Figure AI (Figure 02, partenariat BMW), Boston Dynamics (Atlas), Tesla (Optimus) et 1X Technologies sur le segment de l'humanoïde industriel. Contrairement à Figure ou Tesla qui communiquent davantage sur des capacités de manipulation généraliste, Agility mise sur une intégration logistique ciblée, en couplant Digit aux flottes AMR existantes. Les prochaines étapes annoncées incluent une accélération de la cadence de production et un déploiement élargi dans des environnements entrepôt multi-unités, sans date précise communiquée à ce stade.

HumanoïdesActu
1 source
La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China
298Pandaily 

La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China

X Square Robot, startup chinoise spécialisée dans l'IA incarnée fondée en décembre 2023, a bouclé un tour de série B de près de 2 milliards de yuans (environ 276 millions de dollars) entre fin mars et début avril 2026, co-mené par le bras d'investissement stratégique de Xiaomi et Sequoia China. Cette levée intervient à peine trois mois après un tour A++ d'un milliard de yuans (138 millions de dollars) annoncé le 12 janvier, dans lequel ByteDance, Sequoia China, le Beijing Information Industry Development Fund et le Shenzhen Capital Group figuraient déjà comme investisseurs principaux. Meituan et Alibaba ont également rejoint le cap table, ce qui fait de X Square Robot la seule entreprise d'IA incarnée en Chine à avoir attiré les trois géants de l'internet chinois simultanément. La société a déjà commercialisé deux plateformes robotiques propriétaires : Quantum-1 et Quantum-2, ce dernier étant un humanoïde à roues à usage général. En moins de six mois d'existence publique, X Square Robot cumule plus de 400 millions de dollars levés, un rythme qui place la startup dans la même trajectoire de capitalisation accélérée que Figure AI ou Physical Intelligence aux États-Unis. La présence conjointe de Xiaomi, acteur hardware avec une chaîne d'approvisionnement robuste, et de ByteDance, maître de la donnée comportementale à grande échelle, suggère une stratégie d'intégration verticale : modèles de fondation incarnés alimentés par des volumes de données massifs, déployés sur du matériel maîtrisé. Le fait que le fonds IA dédié de Shenzhen Capital ait effectué ici son premier investissement signale également un intérêt institutionnel croissant pour la robotique généraliste en Chine. X Square Robot émerge dans un contexte de compétition intense entre Beijing et la Silicon Valley sur les modèles de fondation robotiques : Unitree, Agibot et Galbot d'un côté, Figure, 1X Technologies et Physical Intelligence de l'autre. La différenciation affichée de X Square repose sur des "modèles de fondation d'intelligence incarnée générale" développés en interne, une approche similaire à celle de Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les détails techniques des modèles, leurs benchmarks réels et les déploiements clients concrets restent à ce stade non divulgués, les annonces demeurant au stade du positionnement stratégique plutôt que du produit validé en conditions industrielles.

UELa capitalisation accélérée de X Square Robot par Xiaomi, ByteDance et Alibaba simultanément accentue la pression concurrentielle mondiale sur les projets européens de robots humanoïdes et de modèles de fondation incarnés, sans impact direct immédiat sur la France ou l'UE.

Chine/AsieOpinion
1 source
Les atouts de la chaîne d'approvisionnement asiatique pourraient donner à l'Asie un avantage sur les États-Unis dans la course à l'IA, selon Foo de Granite Asia
299SCMP Tech 

Les atouts de la chaîne d'approvisionnement asiatique pourraient donner à l'Asie un avantage sur les États-Unis dans la course à l'IA, selon Foo de Granite Asia

Jixun Foo, associé gérant de Granite Asia et vétéran du capital-risque technologique asiatique, estime qu'Asia dispose d'un avantage structurel sur les États-Unis dans la prochaine phase de la course à l'IA. Selon lui, le développement de l'IA a franchi un cap décisif : après deux ans de percées sur les modèles de fondation (LLMs, VLMs), le secteur entre dans une phase d'applications physiques, robotique, automatisation industrielle, systèmes embarqués, où la capacité à produire du matériel à grande échelle devient aussi déterminante que la recherche algorithmique. Ce changement de paradigme est stratégiquement important pour les intégrateurs et décideurs industriels : il déplace le centre de gravité compétitif des data centers vers les chaînes d'approvisionnement. La Chine, le Japon, la Corée du Sud et Taiwan concentrent une part dominante de la fabrication mondiale de composants électroniques, de moteurs, d'actionneurs et de capteurs, précisément les éléments critiques pour déployer des robots physiques à l'échelle industrielle. Un avantage logistique et manufacturier peut compenser, au moins partiellement, un retard sur les modèles de base. Granite Asia, fonds hongkongais actif dans les technologies deeptech et la mobilité, s'inscrit dans un mouvement plus large de repositionnement des investisseurs asiatiques sur l'IA physique. Les concurrents américains, Figure AI, Agility Robotics, Boston Dynamics, misent sur l'excellence des modèles (VLA, GR00T N2, pi0), mais dépendent largement de composants fabriqués en Asie. La thèse de Foo rejoint celle de plusieurs analystes : la prochaine bataille ne se gagnera pas uniquement dans les laboratoires, mais sur les lignes de production.

UEL'avantage manufacturier asiatique sur les composants robotiques (actionneurs, capteurs, moteurs) renforce la dépendance structurelle des intégrateurs européens vis-à-vis des chaînes d'approvisionnement asiatiques, un enjeu de souveraineté industrielle pour la filière robotique EU.

Chine/AsieOpinion
1 source
Gemini Robotics-ER 1.6 : le jour où les robots ont enfin commencé à penser
300Le Big Data 

Gemini Robotics-ER 1.6 : le jour où les robots ont enfin commencé à penser

Google DeepMind a lancé le 14 avril 2026 Gemini Robotics-ER 1.6, une mise à jour majeure de son modèle de raisonnement incarné destiné à la robotique. Cette nouvelle version améliore significativement la compréhension visuelle et spatiale des robots, leur permettant de planifier et d'exécuter des tâches plus complexes avec une autonomie accrue. Concrètement, le modèle est capable d'identifier des points de préhension optimaux sur des objets variés, de traiter des informations provenant de plusieurs angles simultanément grâce à la compréhension multi-vues, et de détecter si une tâche a été accomplie avec succès. Il surpasse ses prédécesseurs directs, Gemini Robotics-ER 1.5 et Gemini 3.0 Flash, notamment sur la lecture des espaces tridimensionnels et l'interprétation des mouvements. Le modèle est disponible dès maintenant via l'API Gemini et Google AI Studio pour les développeurs souhaitant l'intégrer dans leurs projets. Cette avancée marque un tournant dans la manière dont les robots interagissent avec le monde physique. Jusqu'ici, les systèmes automatisés suivaient des instructions rigides, incapables de s'adapter à des environnements imprévus. Avec ER 1.6, les machines peuvent interpréter des jauges et des indicateurs industriels, cartographier des trajectoires en tenant compte des contraintes environnementales, et valider elles-mêmes les résultats de leurs actions. Ce niveau de raisonnement ouvre la voie à des déploiements dans des contextes industriels réels, où les situations ambiguës ou complexes sont la norme. Google insiste également sur les améliorations en matière de sécurité : les tests montrent une meilleure conformité dans des scénarios de raisonnement spatial sensibles, un critère essentiel pour tout déploiement hors laboratoire. Le projet s'inscrit dans une course mondiale à la robotique intelligente où Google DeepMind s'impose comme acteur central. La collaboration avec Boston Dynamics, notamment sur la lecture d'instruments, illustre la convergence entre intelligence artificielle de pointe et plateformes robotiques éprouvées. En ouvrant l'accès via son API, Google mise sur un écosystème de développeurs pour accélérer l'expérimentation et multiplier les cas d'usage, de la logistique à la chirurgie assistée. Cette stratégie d'ouverture contraste avec des approches plus fermées, et positionne Gemini Robotics comme une infrastructure sur laquelle d'autres peuvent construire. Les prochains mois diront si ce pari sur le raisonnement incarné suffit à distancer des concurrents comme Figure AI, 1X ou Tesla, qui misent eux aussi sur des robots capables de comprendre leur environnement plutôt que de simplement l'exécuter.

HumanoïdesActu
1 source