IA incarnée : la correspondance proprioceptive-vis…

Vidéo : un nouveau modèle d'IA permet aux robots humanoïdes de réussir 90 % des missions complexes

41

1Interesting Engineering

Vidéo : un nouveau modèle d'IA permet aux robots humanoïdes de réussir 90 % des missions complexes

Flexion Robotics a dévoilé Reflect v1.0, une plateforme d'intelligence robotique destinée aux humanoïdes, capable d'exécuter des missions longues et multi-étapes sans intervention humaine pendant l'exécution. Pour illustrer les capacités du système, la société a présenté une démonstration en environnement de bureau : un robot humanoïde reçoit une instruction en langage naturel, récupère un colis de snacks livré au bâtiment, emprunte escaliers et ascenseur, déballe le carton à l'aide d'outils, puis range les articles dans un tiroir désigné. Selon Flexion, l'intégration du reinforcement learning sur plusieurs couches du système a fait passer le taux de complétion end-to-end d'une mission interne à 16 étapes de 38 % à 90 %, contre un modèle supervisé seul. La plateforme gère des charges comprises entre 100 grammes et 3,5 kilogrammes, et le robot est capable de repositionner un colis via des mouvements coordonnés du corps entier, d'opérer un ascenseur, de traverser des escaliers répétés et de contourner des obstacles dynamiques tout en portant des objets. Ce résultat est significatif parce qu'il s'attaque directement au problème de l'autonomie longue durée, considéré comme l'un des verrous majeurs de la robotique humanoïde commerciale. Dans une séquence de tâches, l'accumulation d'erreurs de navigation, de manipulation ou de perception finit statistiquement par faire échouer le système : c'est le "long-horizon failure mode" que les industriels connaissent bien. Reflect v1.0 le traite via un modèle vision-langage (VLM) personnalisé qui fait office de contrôleur de mission, surveille en continu l'avancement, raisonne sur l'environnement et re-planifie à la demande. La couche de mouvement combine des vision-language-action models (VLA) entraînés sur données réelles et des primitives issues du reinforcement learning, tandis qu'un contrôleur corps-entier temps réel assure équilibre et précision des gestes. Pour un COO industriel ou un intégrateur, le signal concret est le suivant : on passe de 38 % à 90 % de succès sur une mission à 16 étapes grâce au RL seul, ce qui suggère que le sim-to-real gap et la fiabilité multi-tâche sont partiellement solubles sans refonte matérielle. Flexion Robotics est une startup relativement récente dans l'écosystème humanoïde, qui se positionne comme fournisseur de couche logicielle agnostique au hardware, à l'image de ce que Apptronik ou 1X cherchent à faire sur leurs propres plateformes. L'article mentionne également ShengShu Technology et son modèle Motubrain, un "cerveau général" combinant perception, raisonnement et action, qui vise le même marché. La concurrence directe inclut Figure (Helix), Physical Intelligence (pi0), Boston Dynamics (Atlas Gen 2) et Tesla (Optimus Gen 3), tous engagés dans une course à l'autonomie longue horizon. Flexion reconnaît que Reflect v1.0 reste limité à des environnements définis, ce qui tempère le chiffre de 90 % : il s'agit d'une évaluation interne sur mission contrôlée, pas d'un déploiement industriel validé en conditions réelles. Les prochaines étapes annoncées concernent l'extension à des environnements moins structurés et la capacité à recevoir des instructions modifiées en cours de mission, deux marqueurs qui, s'ils sont confirmés en production, rapprocheraient Reflect d'une utilisabilité opérationnelle sérieuse.

IA physiqueOpinion

1 source

Vidéo : le nouveau modèle omni d'Unitree permet aux robots humanoïdes de penser, se déplacer et assister les humains

39

2Interesting Engineering

Vidéo : le nouveau modèle omni d'Unitree permet aux robots humanoïdes de penser, se déplacer et assister les humains

Unitree, le fabricant chinois de robotique connu pour ses robots quadrupèdes et humanoïdes low-cost, a dévoilé UnifoLM-OminiA-0.3, un modèle d'IA unifié destiné à ses robots humanoïdes. Ce système combine dans une seule architecture la perception omni-modale, le raisonnement, le dialogue et la manipulation mobile du corps entier, sans passer par des modules séparés pour la reconnaissance vocale, la détection d'objets, la navigation et la manipulation. Dans les vidéos de démonstration diffusées par Unitree, un robot humanoïde saisit un coussin et le pose sur un canapé, identifie des couleurs, compte des boîtes de médicaments, va chercher un médicament précis sur une étagère, trie du linge dans un panier, charge une assiette dans un lave-vaisselle et ajuste un lit médicalisé de type hospitalier. Une séquence montre le robot interrompre immédiatement l'ajustement du lit lorsqu'un utilisateur lui demande d'arrêter en pleine tâche, illustrant une réactivité dynamique aux instructions. L'annonce intervient peu après qu'Unitree a présenté un robot humanoïde à buste haut vendu à partir de 26 900 yuans, soit environ 4 290 dollars, positionné comme une alternative bon marché sur le marché. Sur le fond, l'intérêt revendiqué par Unitree n'est pas la nouveauté de chaque tâche individuelle, déjà démontrées séparément par d'autres constructeurs humanoïdes, mais la coordination de l'ensemble du flux (compréhension du langage, perception visuelle, décision, navigation, contrôle moteur) par un seul modèle plutôt qu'une chaîne de sous-systèmes. C'est la promesse centrale des architectures vision-langage-action (VLA) que le secteur cherche à valider à grande échelle: remplacer des routines programmées tâche par tâche par une généralisation across environnements, un enjeu jugé crucial pour les usages domestiques, hospitaliers et de soin où les objets bougent et les consignes changent en temps réel. Reste que ces démonstrations proviennent de vidéos sélectionnées par le fabricant, sans données chiffrées sur le taux de réussite, le temps de cycle, la charge utile ou le nombre de degrés de liberté, ni validation indépendante en conditions réelles de déploiement, ce qui invite à distinguer nettement la démonstration marketing du produit réellement livré ou déployé chez un client. UnifoLM-OminiA-0.3 s'inscrit dans le programme d'IA incarnée UnifoLM d'Unitree, qui a débuté en 2025 avec UnifoLM-WMA-0, un cadre open-source de modélisation du monde et de l'action destiné à prédire les effets physiques des interactions robot-environnement. Ce socle a été suivi début 2026 par UnifoLM-VLA-0, un modèle vision-langage-action, avant cette version omni-modale axée sur l'assistance à domicile et les soins. Unitree ne précise pas de calendrier de déploiement pilote ni de partenaires hospitaliers ou domestiques identifiés, la trajectoire du programme suggérant toutefois une progression méthodique vers des systèmes de plus en plus généralistes plutôt qu'un produit fini prêt à l'emploi.

IA physiqueActu

1 source

Regardez : le premier modèle d'IA nativement incarnée promet des robots plus intelligents et plus performants

42

3Interesting Engineering

Regardez : le premier modèle d'IA nativement incarnée promet des robots plus intelligents et plus performants

Robbyant, filiale d'intelligence artificielle incarnée du groupe chinois Ant Group (maison mère d'Alipay), a présenté LingBot-VA 2.0, un modèle de monde vidéo-action que l'entreprise qualifie de premier du secteur conçu nativement pour la robotique plutôt qu'adapté de systèmes de génération vidéo destinés au contenu numérique. Le modèle repose sur une architecture autorégressive entraînée depuis zéro : il prédit comment les actions d'un robot modifient son environnement, puis choisit l'action suivante à partir de ces relations causales. Robbyant met en avant quatre innovations : un tokenizer visuel-action sémantique compressant conjointement image et action, un pré-entraînement causal strict garantissant l'ordre temporel des prédictions, une architecture Mixture of Experts augmentant la capacité sans alourdir l'inférence, et un mécanisme d'inférence asynchrone qui recale en continu les prédictions sur les observations réelles pendant l'exécution. Selon l'entreprise, cette combinaison permet un contrôle en boucle fermée à 150 Hz sur un seul GPU, et le modèle s'adapte à une nouvelle tâche de manipulation avec seulement 20 démonstrations, par apprentissage en contexte, sans réentraînement. Robbyant a montré le système sur des tâches longues et précises : préparer un petit-déjeuner, déballer des colis, insérer des tubes, ramasser des vis, plier du linge, ouvrir des tiroirs. L'entreprise revendique aussi de meilleurs résultats que les méthodes existantes sur les benchmarks de simulation RoboTwin 2.0 et LIBERO. Ce lancement illustre un changement de philosophie dans les modèles fondation pour la robotique. La plupart des systèmes d'IA incarnée actuels réutilisent des modèles vidéo pensés pour générer du contenu grand public, qui privilégient qualité d'image et créativité au détriment de la précision physique et de la vitesse d'exécution. Adapter ces modèles à la robotique, selon Robbyant, dégrade la généralisation, un constat qui rejoint le débat récurrent dans le secteur des modèles vision-langage-action (VLA) sur l'écart entre démonstrations impressionnantes et fiabilité réelle. Si les chiffres avancés se confirment au-delà des vidéos sélectionnées par l'entreprise, ils positionneraient LingBot-VA 2.0 comme alternative face à des VLA généralistes comme Pi-0 ou GR00T N2, avec un argument clé pour les intégrateurs : moins de données pour déployer un nouveau geste, et un temps de cycle compatible avec du matériel limité à un seul GPU. La mémoire à long terme mise en avant, permettant de distinguer des situations visuellement identiques mais contextuellement différentes et d'exécuter des tâches multi-étapes avec comptage et répétition, répond à une limite connue des politiques robotiques actuelles sur les séquences longues. Robbyant a accéléré ses investissements en robotique humanoïde et modèles fondation physiques, dans un contexte où les groupes technologiques chinois, Ant Group mais aussi Unitree, AgiBot ou Xiaomi, intensifient la compétition face à des acteurs américains comme Figure AI ou Physical Intelligence. LingBot-VA 2.0 succède à une première version et s'inscrit dans une stratégie où l'entreprise dit vouloir accélérer le développement d'un écosystème ouvert, sans préciser de calendrier de commercialisation, de partenariats industriels ni de premiers déploiements pilotes. Pour l'instant, la démonstration reste cantonnée aux benchmarks de simulation et aux vidéos publiées par l'entreprise, sans validation indépendante en environnement de production, une réserve qui s'applique à la plupart des annonces de modèles fondation robotiques cette année.

IA physiqueOpinion

1 source

IA incarnée : de la perception à la prise de décision

43

4arXiv cs.RO

IA incarnée : de la perception à la prise de décision

Une équipe de recherche a déposé sur arXiv (référence 2605.25813, mai 2026) EQA-Decision, un benchmark et dataset à grande échelle pour évaluer les capacités de raisonnement incarné des modèles vision-langage (VLM). Le corpus contient plus de quatre millions de paires question-réponse annotées hiérarchiquement, structurées autour de quatre dimensions : construction de scène statique, compréhension spatiale, raisonnement sur la dynamique des tâches, et décision instantanée. Les chercheurs publient également RoboDecision, un modèle baseline entraîné sur ce benchmark, conçu pour évaluer conjointement la perception, le raisonnement et la prise de décision au niveau de l'action dans des environnements incarnés simulés. Le problème adressé est structurel : les datasets existants pour l'EQA (Embodied Question Answering) sont fragmentés, chacun couvrant un sous-ensemble limité de compétences, compréhension spatiale d'un côté, raisonnement procédural de l'autre, sans cadre unifié permettant une évaluation complète. Pour les équipes qui développent des architectures VLA (vision-language-action) destinées à la manipulation ou à la navigation autonome, l'absence d'un tel benchmark rend la comparaison objective des approches difficile. EQA-Decision propose un cadre capable de tester la chaîne complète perception-raisonnement-action, plus proche des conditions réelles que les benchmarks purement perceptifs ou purement langagiers. L'EQA est un champ actif depuis les travaux fondateurs de Das et al. (Georgia Tech, 2018), où un agent naviguait dans un environnement 3D pour répondre à des questions visuelles. Depuis, plusieurs benchmarks ont émergé, OpenEQA de Meta, SQA3D, EmbodiedScan, chacun avec un périmètre étroit. EQA-Decision se positionne comme une synthèse unificatrice, avec une ambition d'échelle (4 millions de paires) comparable aux grands datasets de VQA généralistes. Il convient de noter qu'il s'agit d'un preprint arXiv, non encore soumis à peer review. RoboDecision sert de baseline de référence, mais les résultats ne correspondent pas à un déploiement sur robot physique : le gap sim-to-real reste entièrement ouvert.

💬 Quatre millions de paires question-réponse, c'est une belle masse. Ce qui me plaît, c'est qu'ils s'attaquent enfin à la chaîne complète perception-raisonnement-action dans un seul dataset, pendant que tout le champ EQA travaillait encore en silos séparés depuis 2018. Reste à voir si le gap sim-to-real ne va pas tout bouffer quand tu sors des environnements simulés.

IA physiquePaper

1 source

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

À lire aussi

Vidéo : un nouveau modèle d'IA permet aux robots humanoïdes de réussir 90 % des missions complexes

Vidéo : le nouveau modèle omni d'Unitree permet aux robots humanoïdes de penser, se déplacer et assister les humains

Regardez : le premier modèle d'IA nativement incarnée promet des robots plus intelligents et plus performants

IA incarnée : de la perception à la prise de décision