Aller au contenu principal
IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui
IA physiquearXiv cs.RO1j

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en juin 2026 un préprint sur arXiv (2606.13222) décrivant un système permettant à un robot humanoïde d'apprendre à se distinguer des autres agents présents dans son environnement, sans recourir à des étiquettes d'identité ni à des modèles cinématiques prédéfinis. Le mécanisme repose sur la correspondance proprioceptive-visuelle : le robot corrèle ses propres états articulaires avec ce qu'il perçoit visuellement, ce qui lui permet d'identifier ses propres membres parmi d'autres corps en mouvement. À partir de cette capacité, le système construit automatiquement un modèle prédictif de soi qui associe les configurations articulaires à une représentation d'occupation corporelle en trois dimensions. Le système a été validé dans des scènes multi-agents impliquant soit des humains, soit des robots morphologiquement identiques, et supporte des tâches aval concrètes : atteinte de cibles, planification de mouvement avec évitement de collision, et retargeting de mouvement humain-robot.

L'enjeu pratique est significatif pour les intégrateurs déployant des humanoïdes en environnements partagés. Jusqu'ici, la distinction soi/autrui dans les robots était traitée soit par des marqueurs extérieurs, soit par des modèles cinématiques codés en dur, deux approches qui échouent dès que le robot opère aux côtés d'agents inconnus ou de copies identiques de lui-même. Que cette capacité puisse émerger d'un signal d'apprentissage auto-supervisé, sans annotation, contredit l'hypothèse selon laquelle la conscience corporelle nécessite une ingénierie explicite. La robustesse face à des robots morphologiquement identiques est particulièrement notable : c'est précisément le scénario qui se généralise dans les lignes d'assemblage où plusieurs unités du même modèle cohabitent.

Le problème de la représentation de soi chez les robots est un sujet actif depuis les travaux fondateurs sur le « miroir robotique », mais les approches précédentes restaient limitées à des configurations contrôlées. Côté concurrent, des équipes chez Figure AI, Boston Dynamics et Sanctuary AI travaillent sur des architectures d'apprentissage incarné, mais peu publient sur la distinction soi/autrui en contexte multi-agent. Ce travail reste à ce stade un preprint non évalué par les pairs ; aucun déploiement industriel ni partenariat n'est annoncé. Les auteurs publient une page projet avec démonstrations vidéo, ce qui permettra d'évaluer la robustesse hors conditions de laboratoire.

À lire aussi

IA incarnée : de la perception à la prise de décision
1arXiv cs.RO 

IA incarnée : de la perception à la prise de décision

Une équipe de recherche a déposé sur arXiv (référence 2605.25813, mai 2026) EQA-Decision, un benchmark et dataset à grande échelle pour évaluer les capacités de raisonnement incarné des modèles vision-langage (VLM). Le corpus contient plus de quatre millions de paires question-réponse annotées hiérarchiquement, structurées autour de quatre dimensions : construction de scène statique, compréhension spatiale, raisonnement sur la dynamique des tâches, et décision instantanée. Les chercheurs publient également RoboDecision, un modèle baseline entraîné sur ce benchmark, conçu pour évaluer conjointement la perception, le raisonnement et la prise de décision au niveau de l'action dans des environnements incarnés simulés. Le problème adressé est structurel : les datasets existants pour l'EQA (Embodied Question Answering) sont fragmentés, chacun couvrant un sous-ensemble limité de compétences, compréhension spatiale d'un côté, raisonnement procédural de l'autre, sans cadre unifié permettant une évaluation complète. Pour les équipes qui développent des architectures VLA (vision-language-action) destinées à la manipulation ou à la navigation autonome, l'absence d'un tel benchmark rend la comparaison objective des approches difficile. EQA-Decision propose un cadre capable de tester la chaîne complète perception-raisonnement-action, plus proche des conditions réelles que les benchmarks purement perceptifs ou purement langagiers. L'EQA est un champ actif depuis les travaux fondateurs de Das et al. (Georgia Tech, 2018), où un agent naviguait dans un environnement 3D pour répondre à des questions visuelles. Depuis, plusieurs benchmarks ont émergé, OpenEQA de Meta, SQA3D, EmbodiedScan, chacun avec un périmètre étroit. EQA-Decision se positionne comme une synthèse unificatrice, avec une ambition d'échelle (4 millions de paires) comparable aux grands datasets de VQA généralistes. Il convient de noter qu'il s'agit d'un preprint arXiv, non encore soumis à peer review. RoboDecision sert de baseline de référence, mais les résultats ne correspondent pas à un déploiement sur robot physique : le gap sim-to-real reste entièrement ouvert.

💬 Quatre millions de paires question-réponse, c'est une belle masse. Ce qui me plaît, c'est qu'ils s'attaquent enfin à la chaîne complète perception-raisonnement-action dans un seul dataset, pendant que tout le champ EQA travaillait encore en silos séparés depuis 2018. Reste à voir si le gap sim-to-real ne va pas tout bouffer quand tu sors des environnements simulés.

IA physiquePaper
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
2arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
NoTVLA : adapter les robots humanoïdes via des interfaces d'action narratives sans modifier le modèle VLA
3arXiv cs.RO 

NoTVLA : adapter les robots humanoïdes via des interfaces d'action narratives sans modifier le modèle VLA

Des chercheurs ont publié sur arXiv (référence 2510.03895v2) NoTVLA, un framework pour modèles robotiques de type Vision-Language-Action (VLA) qui s'attaque au problème du catastrophic forgetting, soit la tendance d'un modèle à oublier les tâches apprises lors du fine-tuning sur de nouvelles. L'approche, baptisée Narrowing of Trajectory VLA, abandonne les séquences d'action denses (action chunks) au profit de trajectoires creuses (sparse trajectories), en concentrant l'apprentissage sur la trajectoire de l'effecteur terminal plutôt que sur celle de l'objet cible. Le système applique une compression temporelle et un élagage du raisonnement spatial pour réduire le volume d'information d'entraînement. Dans des scénarios multi-tâches, NoTVLA surpasse pi0, le modèle de foundation robotique de Physical Intelligence, en zero-shot, tout en utilisant plus d'un ordre de grandeur moins de puissance de calcul, et sans nécessiter de caméra montée sur le poignet. Ce gain opérationnel est concret : le catastrophic forgetting constitue l'un des obstacles majeurs au déploiement industriel des VLA généralistes. Chaque fine-tuning sur un nouvel environnement tend à effacer les capacités précédemment acquises, forçant les intégrateurs à maintenir des modèles séparés par application, une contrainte coûteuse en infrastructure et en données étiquetées. NoTVLA contourne ce problème en évitant l'entraînement sur des trajectoires denses, lesquelles créent des silos de données isolés qui perturbent la rétention de connaissance entre tâches. L'absence de caméra poignet simplifie également l'intégration matérielle sur des bras industriels standard. Fait notable : le framework préserve les capacités linguistiques du modèle de base, ce qui permet une généralisation zero-shot depuis des perspectives de caméra inédites et un déploiement unifié sur plusieurs plateformes robotiques, avec des performances proches de modèles experts mono-tâche. NoTVLA s'inscrit dans la compétition intense autour des VLA, apparus comme paradigme dominant depuis fin 2023. Physical Intelligence (pi0), NVIDIA (GR00T N2), Google DeepMind (RT-2) et des acteurs académiques comme le Berkeley RAIL Lab (OpenVLA) se disputent la définition du standard de foundation robotique. Ce papier reste une publication académique arXiv, pas encore un produit commercialisé ni un déploiement terrain annoncé : aucun code public ni dataset n'est mentionné dans l'abstract, et les résultats reposent sur des évaluations en simulation ou banc de test contrôlé. La prochaine étape logique sera la validation sur robots physiques en conditions réelles, avec des benchmarks sur plateformes comme Franka ou UR5. La promesse d'efficacité, dix fois moins de puissance de calcul que pi0, pourrait intéresser des intégrateurs européens cherchant à s'affranchir des infrastructures GPU massives des grands clouds américains.

UELa réduction de 10x des besoins de calcul par rapport à pi0 pourrait permettre à des intégrateurs européens de déployer des VLA généralistes sans dépendre des infrastructures GPU massives des grands clouds américains.

IA physiqueOpinion
1 source
LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné
4arXiv cs.RO 

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Des chercheurs présentent LEGS (Loco-manipulation via Embodied Gaussian Splatting), un simulateur hybride qui combine un avant-plan en maillage 3D avec un arrière-plan photoréaliste en Gaussian Splatting 3D (3DGS) pour entraîner des politiques vision-langage-action (VLA) sur humanoïdes sans téleopération humaine. Un générateur procédural de primitives de mouvement produit automatiquement des démonstrations annotées à grande échelle, tandis qu'une calibration colorimétrique à deux étapes aligne le rendu simulé avec la caméra réelle du robot. Sur un Unitree G1, sur trois tâches de saisie-dépose de difficulté croissante et avec trois architectures VLA (ψ₀, π₀.5 et GR00T N1.6), une politique entraînée exclusivement sur données LEGS égale ou dépasse, selon les auteurs, une politique entraînée sur démonstrations téleopérées. La couverture d'une nouvelle scène coûterait plus de quinze fois moins qu'une collecte par téleopération, une affirmation à vérifier hors du cadre expérimental : les résultats restent au stade de préprint arXiv (2606.01458) non soumis à revue par les pairs. Le résultat le plus structurant est la réduction effective du fossé simulation-réalité pour la loco-manipulation humanoïde corps entier, un problème que les simulateurs à maillage seul n'avaient pas résolu jusqu'ici. L'ablation le confirme : supprimer le fond 3DGS au profit d'un environnement mesh-only dégrade significativement les transferts, établissant le rendu photoréaliste comme facteur déterminant et non accessoire. Sous variations combinées d'apparence d'objet et de scène (scénario LEGS-AUG), la politique LEGS maintient son taux de succès tandis que la politique téleopérée échoue entièrement, ce qui valide empiriquement que les VLA nécessitent une diversité visuelle synthétique pour généraliser. Pour les intégrateurs et équipes robotiques, cela ouvre une voie scalable vers de nouveaux environnements industriels sans mobiliser d'opérateurs dédiés. LEGS s'appuie sur la technique 3DGS, popularisée en 2023 pour la reconstruction photoréaliste de scènes à partir d'images, et l'adapte en fond simulé pour l'entraînement de politiques. Les architectures testées incluent π₀.5 de Physical Intelligence et GR00T N1.6 de NVIDIA, deux acteurs centraux de l'espace VLA humanoïde, aux côtés desquels Boston Dynamics, Figure AI, Agility Robotics et Tesla Optimus avancent sur leurs propres pipelines de données synthétiques. Le Unitree G1, l'un des humanoïdes commerciaux les plus accessibles du marché, ancre les expériences dans un contexte potentiellement déployable. Les suites logiques incluent l'extension au-delà du pick-and-place, la publication du code et des données, et des tests en environnements industriels réels pour valider la robustesse hors laboratoire.

UELes équipes européennes en robotique humanoïde (CEA-List, INRIA, startups FR) pourraient adopter cette approche pour réduire drastiquement les coûts de collecte de données VLA sans téleopération, mais aucun acteur européen n'est impliqué dans l'étude.

IA physiqueOpinion
1 source