Dossier Figure — page 6

673 articles · page 6 sur 14

Figure, le constructeur de robots humanoïdes le plus capitalisé : Figure 02 et 03, modèle Helix VLA, déploiements BMW, partenariats avec OpenAI puis indépendance.

251arXiv cs.RO RechercheOpinion

Pilotage du comportement robotique à l'inférence par reconfiguration physiquement informée de la structure de tâche

Une équipe de recherche a publié sur arXiv (ref. 2606.26588) un système baptisé ReStruct, conçu pour modifier le comportement d'un robot en cours de déploiement sans nécessiter de réentraînement. Le problème visé est ce que les chercheurs appellent le "steering à l'inférence" : forcer une politique robotique apprise à respecter une préférence utilisateur imprévue lors de l'entraînement, au moment du test uniquement. ReStruct repose sur une architecture en deux niveaux : un squelette de haut niveau modélisé comme une machine à états finis (automate neural), qui encode la structure de la tâche, et un contrôleur bas niveau sous forme de politique résiduelle, qui reste entièrement gelé. Lors de la modification d'une préférence, c'est uniquement l'automate qui est reconfiguré via un produit synchrone, mettant à jour les prior d'action transmis au contrôleur. Sur banc de test en simulation et en environnement réel, ReStruct dépasse les modèles VLA (Vision-Language-Action) existants de jusqu'à 25 % en taux de réussite de tâche et en respect des préférences, pour des spécifications allant de contraintes sur des objets spécifiques jusqu'à des contraintes de logique temporelle. L'enjeu industriel est significatif : le réentraînement d'une politique robotique pour chaque nouvelle variante de tâche ou préférence opérateur représente aujourd'hui un verrou majeur à la scalabilité des déploiements. Les approches bout-en-bout (fine-tuning, guidance experte) sont trop coûteuses en pratique, tandis que les méthodes neuro-symboliques classiques génèrent des plans logiquement cohérents mais physiquement irréalisables, ce que ReStruct corrige en intégrant la faisabilité physique directement dans la reconfiguration de la structure de tâche. Le fait que la méthode surpasse les modèles VLA sur ces métriques est notable : les VLA représentent actuellement le paradigme dominant en robotique manipulatrice apprise, et cette architecture hybride formelle-neuronale suggère une voie complémentaire plutôt que concurrente. Ce travail s'inscrit dans un débat de fond entre approches purement end-to-end et méthodes symboliques pour la robotique généraliste. Les modèles VLA comme pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) misent sur des fondations neuronales massives adaptées par fine-tuning, ce qui les rend rigides face aux variations de préférences non anticipées. ReStruct propose une alternative légère, fondée sur la théorie des automates, qui n'impose pas de réentraîner le contrôleur. Il s'agit d'un preprint académique sans affiliation industrielle annoncée ni déploiement terrain mentionné, mais la démonstration en conditions réelles renforce la crédibilité de l'approche. Les prochaines étapes naturelles seraient l'intégration dans des pipelines de déploiement existants et l'évaluation sur des manipulateurs commerciaux multi-tâches.

Dossier Figure — page 6

Pilotage du comportement robotique à l'inférence par reconfiguration physiquement informée de la structure de tâche

ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action

InSight : acquisition autonome de compétences via des VLA pilotables

Kunlun Xing, startup d'IA incarnée, lève plusieurs milliards de yuans et devient licorne en 90 jours

Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique

Autonomique déploie des robots semi-humanoïdes et de l'IA chez un équipementier automobile canadien de rang 1

LaST₀ : raisonnement spatio-temporel latent en chaîne pour les modèles VLA robotiques

Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts

LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes

Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

EgoHumanoid : la manipulation locomotrice en environnement réel grâce aux démonstrations égocentriques sans robot

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena

GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos

Laissez les dynamiques s'écouler : systèmes dynamiques par flux stable correspondant

Apprentissage par renforcement multi-tâches sur GPU avec optimisation de politique guidée par démonstration

SpeedAug : accélération de politique par enrichissement temporel et apprentissage par renforcement

X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel

PhyPush : une seule poussée suffit pour estimer les propriétés physiques sans capteurs grâce aux transformeurs guidés par la physique

CollaBot : manipulation collaborative simultanée guidée par modèle vision-langage

Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique

TactileReflex : contrôle réflexe vision-tactile piloté par les statistiques du bruit pour la manipulation sensible à la force

Any2Any : transfert efficace entre plateformes pour le suivi corporel complet de robots humanoïdes

Action par primitives visuelles

SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines

Une nouvelle main robotique chinoise combine un actionnement hybride pour améliorer la préhension

Modélisation monde-ego pour l'évolution à long horizon dans les tâches hybrides incarnées

HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme

DyGRO-VLA : mise à l'échelle inter-tâches des modèles vision-langage-action par optimisation résiduelle groupée dynamique

Vers des robots durables : affiner les modèles VLA par apprentissage par renforcement continu

Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

TeleGate : téléopération corps entier d'un humanoïde par sélection d'experts avec prior de mouvement

SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai

Le robot humanoïde Digit démontre sa force et son équilibre avec un soulevé de terre de 30 kg

La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China

Les atouts de la chaîne d'approvisionnement asiatique pourraient donner à l'Asie un avantage sur les États-Unis dans la course à l'IA, selon Foo de Granite Asia

Gemini Robotics-ER 1.6 : le jour où les robots ont enfin commencé à penser