Aller au contenu principal

Dossier arXiv cs.RO — page 14

2263 articles · page 14 sur 46

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Vidéo : un humanoïde chinois à 13 000 dollars pour démocratiser la robotique avancée
651Interesting Engineering HumanoïdesOpinion

Vidéo : un humanoïde chinois à 13 000 dollars pour démocratiser la robotique avancée

Astribot, startup robotique de Shenzhen également connue sous le nom Stardust Intelligence, a ouvert les commandes de son humanoïde T1 à partir de 13 000 dollars, soit environ sept fois moins cher que son propre modèle phare S1 vendu près de 100 000 dollars. Le T1 est un humanoïde à base roulante de 155 cm pour 66 kg, doté de 23 degrés de liberté hors effecteurs, avec une capacité de charge de 5 kg par bras. Son architecture motrice repose sur des câbles tendus, la même approche que le S1, conçue pour produire des mouvements plus fluides qu'un entraînement par engrenages traditionnels. Il accepte des pinces robotiques standard et des mains à cinq doigts pour la manipulation fine, et cible des applications comme la cuisine, les opérations en laboratoire, le pliage du linge, le tri de pièces automobiles et la recharge de véhicules électriques. L'IA embarquée est entraînée principalement par démonstration humaine plutôt que par téléopération, une méthode d'imitation learning qui permet au robot d'apprendre des workflows en observant un opérateur humain. Le seuil des 13 000 dollars modifie le calcul économique pour les intégrateurs et les équipes qui souhaitent piloter l'humanoïde en environnement industriel. À titre de comparaison, le Unitree G1 reste l'une des rares références sous 20 000 dollars sur le marché mondial; les offres Figure 03, Agility Digit ou Boston Dynamics Electric Atlas se négocient bien au-delà. Si le T1 tient ses performances hors laboratoire, il pourrait abaisser la barrière d'entrée pour des secteurs à marges serrées comme la logistique légère ou l'assemblage à faible volume. Il convient cependant d'être prudent: Astribot liste des tâches réussies sans publier de métriques de cadence ni de données de robustesse en conditions industrielles réelles, et les vidéos de démonstration restent sélectionnées par l'entreprise. C'est une ouverture de commandes, pas un déploiement en volume documenté. Fondée en 2022 et basée à Shenzhen, Astribot s'est fait connaître à la World Robot Conference de Pékin en août 2024 avec le S1, humanoïde bimanuel de 170 cm et 90 kg aux 23 DOF (7 par bras, 4 pour le torse, 2 pour la tête, 3 pour la base omnidirectionnelle). Une publication arXiv de juillet 2025 détaillait la suite logicielle Astribot Suite, combinant collecte de données en réalité virtuelle, politiques d'imitation learning et optimisation de trajectoire en temps réel, avec des taux de réussite annoncés entre 80 et 100% sur tâches sélectionnées. La startup a levé environ 100 millions de dollars depuis 2024. Sur le segment prix du T1, les concurrents directs incluent le Unitree G1 et, dans une moindre mesure, les robots de recherche comme le GR00T N2 de NVIDIA. Aucun acteur européen ne se positionne encore clairement sur ce créneau accessible. La démonstration de robustesse en milieu non contrôlé et l'annonce de premiers clients industriels constitueront les prochaines étapes décisives pour valider l'ambition commerciale d'Astribot.

UELa démocratisation des prix sur ce segment pourrait inciter des intégrateurs européens à évaluer un pilote humanoïde, mais aucun déploiement ni partenariat européen n'est mentionné.

1 source
Comment apprendre aux robots : comparaison entre guidage kinesthésique, joystick et gestes
652arXiv cs.RO 

Comment apprendre aux robots : comparaison entre guidage kinesthésique, joystick et gestes

Une étude publiée sur arXiv en mai 2026 (arXiv:2605.28033) compare trois modalités d'apprentissage par démonstration pour robots manipulateurs : le guidage kinesthésique (l'opérateur déplace physiquement le bras du robot), la téléopération par joystick, et l'enseignement par gestes de la main. Conduit avec huit participants sur trois tâches de manipulation, le protocole mesure le taux de succès en rejeu, la charge cognitive via l'échelle NASA-TLX modifiée, et les erreurs courantes commises pendant la phase d'enseignement. Le guidage kinesthésique produit les démonstrations les plus courtes et la charge de travail la plus faible ; c'est aussi la méthode la plus performante sur les tâches à fort contenu en contact et sensibles à l'orientation. La téléopération par joystick prend l'avantage sur la tâche de saisie de cheville simple (peg picking). Les gestes de la main, bien que moins fiables en général, surpassent les attentes et atteignent dans certains cas des performances comparables au guidage kinesthésique. Ces résultats ont une portée directe pour les intégrateurs qui cherchent à déployer du learning-from-demonstration (LfD) en milieu industriel sans expertise robotique avancée. Le fait que le guidage kinesthésique reste supérieur sur les tâches contact-riches valide une hypothèse structurante du secteur : la qualité de la démonstration dépend de la bande passante haptique du canal d'enseignement, et un joystick 6-DOF n'y suffit pas pour les trajets fins. À l'inverse, la performance correcte des gestes sur certaines tâches ouvre une piste pour des scénarios sans accès physique au robot, ce qui intéresse les déploiements en cellule fermée ou à distance. Le panel de huit participants reste cependant limité pour généraliser, et l'article ne détaille pas les conditions de capture des gestes ni les taux d'échec absolus. L'apprentissage par démonstration est un axe de recherche actif depuis les années 2000, avec une accélération marquée depuis l'émergence des politiques visuomotrices (VLA) comme ACT, Diffusion Policy ou pi0 de Physical Intelligence. La comparaison de modalités d'enseignement reste peu explorée expérimentalement, la majorité des travaux se concentrant sur les architectures de politiques plutôt que sur l'interface homme-robot en amont. Des acteurs comme Wandercraft ou Enchanted Tools, qui développent des robots à usage humain en Europe, sont directement concernés par ces compromis d'utilisabilité. La prochaine étape logique serait d'étendre l'étude à des panels plus larges et à des tâches bimanipulation, domaine où l'avantage kinesthésique pourrait être encore plus marqué.

UEWandercraft et Enchanted Tools, qui développent des robots à usage humain en France, sont directement concernés par ces compromis de modalité d'enseignement pour le déploiement de leurs plateformes auprès d'opérateurs non-experts.

IA physiquePaper
1 source
ICAN-Deploy : déploiement canari à identité stable pour agents incarnés en environnements critiques
653arXiv cs.RO 

ICAN-Deploy : déploiement canari à identité stable pour agents incarnés en environnements critiques

Des chercheurs présentent ICAN-Deploy (Identity-stable CANary Deployment), un middleware conçu pour faire évoluer le logiciel de robots certifiés sans invalider leur certification. Le principe du déploiement canary, router une fraction du trafic vers une nouvelle version, surveiller des métriques, puis rollback si régression, est standard en DevOps cloud. Problème : les contrôleurs du marché, Argo Rollouts, Spinnaker et Flagger, modifient l'identité cryptographique du système durant la fenêtre de transition. Ce drift est inoffensif pour des microservices sans état, mais rompt pour les robots l'assurance réglementaire centrale : "l'agent certifié est l'agent déployé". ICAN-Deploy sépare les noms de capacités, figés et hachés dans le manifeste, des versions de capacités, un état runtime mutable, maintenant ainsi le hash d'identité invariant tout au long du cycle. Les auteurs valident l'invariance par preuve formelle, lint AST et model-checking TLA+, puis corroborent sur N=100 cycles canary dans un environnement MuJoCo simulant un bras Franka Panda : zéro drift observé, latence d'entrée 95% BCa CI [1,52 ; 2,01] ms. L'enjeu est structurel pour l'industrie. Dans les secteurs à certification obligatoire (médical, aérospatial, industrie lourde), chaque mise à jour logicielle d'un robot peut déclencher un cycle de revalidation de plusieurs semaines. ICAN-Deploy renverse la logique : certifier une architecture de déploiement plutôt que chaque version individuelle. Un système certifié une fois peut ensuite évoluer librement dans l'enveloppe nom-version définie, sans recertification formelle. C'est un déblocage potentiel pour le continuous delivery sur robots en environnement de production. Le "strawman" alternatif testé, qui incorpore les versions dans le manifeste d'identité, échoue systématiquement sur les mêmes workloads, renforçant la valeur de la comparaison. La gestion du cycle de vie logiciel des agents physiques reste un angle mort du secteur robotique. Ce travail s'inscrit dans la tendance émergente du "runtime governance" pour LLMs et agents incarnés, cherchant à réconcilier l'agilité du software moderne et les contraintes de sûreté des systèmes physiques. Le Franka Panda, standard de fait en recherche sur la manipulation depuis le rachat d'Emika GmbH par Agile Robots, facilite la reproductibilité des résultats. Le papier est un preprint arXiv (arXiv:2605.28097v1), non encore peer-reviewed, et les métriques restent à confirmer sur hardware réel hors simulation. Les étapes naturelles : intégration dans ROS 2 ou OpenRMF, et validation du modèle "certifier l'architecture, pas la version" par des organismes de certification sectoriels.

UEL'approche pourrait alléger les cycles de recertification imposés aux robots opérant dans les secteurs réglementés européens (médical, aérospatial, machinerie) au regard de la Directive Machines et des dispositions à hauts risques du règlement IA.

InfrastructureOpinion
1 source
POINav : évaluation et amélioration de l'arrivée aux derniers mètres en navigation vision-langage réelle
654arXiv cs.RO 

POINav : évaluation et amélioration de l'arrivée aux derniers mètres en navigation vision-langage réelle

Des chercheurs ont publié POINav, un benchmark et un cadre applicatif destinés à résoudre le problème dit des "derniers mètres" dans la navigation guidée par langage naturel vers des points d'intérêt (POI). POINav-Bench, présenté comme le premier benchmark dédié à l'évaluation en boucle fermée de ce type de navigation, s'appuie sur 11 zones commerciales reconstituées en 3D à partir de captures réelles via 3D Gaussian Splatting (3DGS), couvrant au total 126 398 m² et 163 POI distincts. Les auteurs publient également un jeu de données associé, POINav-Dataset, contenant 70 000 paires signalétique/entrée issues du monde réel, ainsi qu'un framework Brain-Action où un module "Brain" effectue un raisonnement ancré sur les POI pour guider un module "Action" chargé de prédire des waypoints continus exécutables sur robot physique. Ce travail s'attaque à un angle mort documenté des benchmarks existants en Vision-Language Navigation (VLN) : la granularité trop grossière des objectifs et l'écart sim-to-real dû aux scènes générées synthétiquement. En reconstruisant des environnements commerciaux réels avec annotations de traversabilité et trajectoires de référence, POINav-Bench offre un protocole d'évaluation plus représentatif des conditions opérationnelles. Pour les intégrateurs et les équipes R&D robotique, c'est pertinent : la navigation vers un POI précis (une caisse, une porte spécifique, un poste de travail) reste un verrou concret dans les déploiements AMR et humanoïdes en environnement non structuré. Le problème des "derniers mètres" est bien identifié dans la communauté VLN depuis plusieurs années, mais les benchmarks de référence comme R2R ou VLN-CE restaient limités par leurs environnements simulés. La reconstruction par 3DGS, popularisée depuis 2023, permet ici de contourner ce biais sans mobiliser des flottes de capteurs industriels. Les concurrents directs sur ce segment incluent NavMesh-based evaluation pipelines et les travaux récents autour de EmbodiedScan ou ScanQA. L'article ne mentionne ni partenaires industriels ni timeline de déploiement, il s'agit d'une contribution académique publiée sur arXiv. Les prochaines étapes naturelles seraient une validation sur plateforme physique, les expériences rapportées restant pour l'instant confinées au cadre de simulation reconstruite.

💬 Le problème des derniers mètres, toute équipe robotique qui a essayé de déployer un AMR dans un vrai entrepôt l'a vécu. Ce que POINav apporte, c'est un benchmark sur des environnements réels reconstruits en 3DGS, pas des salles simulées propres qui ne ressemblent à rien sur le terrain. Ça reste académique pour l'instant, mais les 70 000 exemples de signalétique réelle dans le dataset, c'est le genre de ressource qui manquait.

IA physiquePaper
1 source
Vers une intelligence incarnée partagée pour les robots humanoïdes : développement et tests du robot ergoCub
655arXiv cs.RO 

Vers une intelligence incarnée partagée pour les robots humanoïdes : développement et tests du robot ergoCub

Des chercheurs de l'Istituto Italiano di Tecnologia (IIT) de Gênes ont publié en mai 2026 sur arXiv une architecture formelle pour humanoïdes collaboratifs, dont ils présentent une implémentation concrète dans le robot ergoCub. L'approche repose sur deux piliers conceptuels empruntés aux neurosciences cognitives : la "shared intelligence" (la capacité à modéliser les intentions et actions d'un partenaire humain) et l'"embodied cognition" (l'idée que corps et cognition co-évoluent en réponse à l'environnement). Concrètement, la morphologie d'ergoCub et ses paramètres de contrôle moteur ont été co-optimisés en prenant comme fonction objectif des métriques ergonomiques humaines, notamment en intégrant des modèles biomécaniques du corps humain directement dans la couche de planification du mouvement. L'abstract ne fournit pas de chiffres de charge utile, de DOF ni de temps de cycle, et aucune ligne de production ni site de déploiement industriel n'est mentionné : il s'agit d'un article de recherche, pas d'une annonce de produit. Le principal apport de ce travail est méthodologique : c'est l'un des rares frameworks à co-optimiser simultanément le hardware et l'intelligence physique d'un humanoïde autour de l'ergonomie humaine, plutôt que de traiter ces deux couches séparément. Pour les intégrateurs industriels et les équipes d'ingénierie, cela ouvre une voie de conception où le robot n'est pas simplement "sécurisé" par des capteurs de force ou des limites de vitesse, mais structurellement conçu pour minimiser la charge musculo-squelettique de l'opérateur lors de tâches de co-manipulation. C'est une réponse directe à l'un des angles morts des humanoïdes commerciaux actuels, qui optimisent surtout la dextérité autonome sans modéliser l'impact biomécanique sur le coéquipier humain. ergoCub est une évolution directe du robot iCub, plateforme de recherche humanoïde phare du programme européen RobotCub lancé par l'IIT dans les années 2000, qui compte aujourd'hui plus de 40 laboratoires utilisateurs dans le monde. Cette filiation place ergoCub dans un écosystème académique robuste, mais loin encore d'une commercialisation. Sur le terrain concurrent, les acteurs en avance sur la collaboration humain-robot incluent Physical Intelligence (pi0), Agility Robotics (Digit, déployé chez Amazon), et Figure (02), mais aucun ne publie de métriques ergonomiques formalisées de ce type. En Europe, Enchanted Tools (Mirokaï) et Wandercraft (Atalante X) restent les acteurs les plus avancés sur les humanoïdes à vocation assistive et médicale. Les prochaines étapes pour ergoCub passeront vraisemblablement par des validations expérimentales de l'architecture en conditions de co-manipulation réelle, avant tout envisagement de transfert industriel.

UEL'IIT de Gênes (EU) positionne l'Europe comme précurseur sur la co-optimisation hardware/intelligence autour de l'ergonomie humaine pour les humanoïdes collaboratifs, un angle différenciateur absent des architectures des constructeurs américains.

FR/EU ecosystemePaper
1 source
LAD-VF : la différentiation automatique par LLM permet la planification robotique sans ajustement fin à partir de méthodes formelles
656arXiv cs.RO 

LAD-VF : la différentiation automatique par LLM permet la planification robotique sans ajustement fin à partir de méthodes formelles

Une équipe de chercheurs a publié LAD-VF (LLM-AutoDiff with Verification Feedback), un cadre de planification robotique basé sur les grands modèles de langage (LLM) qui élimine le besoin de fine-tuning. Présenté dans un article arXiv (2509.18384v2), le système combine la vérification formelle des contraintes avec un mécanisme de différenciation automatique appliqué directement au texte, baptisé LLM-AutoDiff. Concrètement, LAD-VF génère des boucles de rétroaction à partir d'un vérificateur formel qui évalue si les plans produits respectent les spécifications de sécurité et réglementaires, puis affine itérativement les prompts plutôt que les paramètres du modèle. Lors d'expériences sur des tâches de navigation et de manipulation robotique, le taux de succès progresse de 60 % à plus de 90 %, sans modification des poids du modèle sous-jacent. Ce résultat adresse un problème central pour le déploiement industriel des LLM en robotique : les modèles actuels violent fréquemment les contraintes de sécurité par hallucination ou par alignement insuffisant, ce qui freine leur adoption dans des environnements réglementés comme l'industrie manufacturière, la mobilité autonome ou la chirurgie assistée. Les approches classiques de réalignement telles que le Direct Preference Optimization (DPO) ou le RLHF exigent des annotations humaines coûteuses et des cycles de fine-tuning intensifs en calcul GPU. En substituant l'optimisation de prompt à celle des poids, LAD-VF ouvre une voie d'adaptation scalable sans infrastructure de réentraînement dédiée, et produit des prompts auditables qui simplifient la traçabilité requise par des normes comme l'ISO 10218 ou le futur règlement européen sur l'IA. LAD-VF s'inscrit dans un courant émergent qui cherche à rendre les LLM exploitables dans des contextes à haute criticité sans passer par des pipelines de fine-tuning lourds. Les approches concurrentes incluent les méthodes de formal-feedback avec fine-tuning, le Constitutional AI d'Anthropic ou les frameworks de planification symbolique hybride comme SayCan (Google DeepMind). La nouveauté de LAD-VF tient à l'intégration de la différenciation automatique au niveau textuel, un concept issu des travaux sur AdalFlow. L'architecture modulaire revendiquée suggère une compatibilité avec des familles de modèles variées (GPT-4, Llama, Qwen), mais les expériences publiées restent limitées à des environnements de simulation ; le passage au réel en conditions industrielles reste entièrement à démontrer.

UELes prompts auditables générés par LAD-VF pourraient faciliter la conformité au règlement européen sur l'IA pour les applications robotiques à haute criticité, mais le système reste limité à des environnements de simulation sans validation industrielle réelle.

RecherchePaper
1 source
Exploiter un potentiel variable : quand le contrôle réactif suffit aux comportements multi-objectifs
657arXiv cs.RO 

Exploiter un potentiel variable : quand le contrôle réactif suffit aux comportements multi-objectifs

Une équipe de chercheurs a publié en mai 2026 (arXiv:2605.27314) une approche qui réhabilite le contrôle réactif pour des tâches multi-objectifs, domaine où cette famille de méthodes est traditionnellement jugée inadaptée. Le principe repose sur un modèle du monde sous forme de graphe, étendu par des projections dans l'espace nul (nullspace projections) : lorsque deux objectifs entrent en conflit, les gradients de plus faible priorité sont projetés dans le nullspace du gradient de plus haute priorité, les priorités étant calculées en continu en fonction de l'état courant du système. Les auteurs valident l'approche sur deux scénarios : navigation autour d'obstacles non-convexes, et poussée planaire (planar pushing) d'objets non-convexes. Sur cent configurations de poussée, la méthode atteint 100 % de réussite, contre 0 % pour la descente de gradient classique (steepest-descent) et environ 55 % pour une diffusion policy entraînée sur démonstrations. La même formulation est transférée directement sur un robot réel, intégrant des contraintes perceptuelles et cinématiques via le même mécanisme. Le résultat le plus saillant pour les praticiens est la comparaison avec la diffusion policy : un modèle génératif entraîné sur données, considéré comme l'état de l'art sur les tâches de manipulation déstructurées, plafonne à 55 % là où cette méthode purement réactive, sans démonstration ni réentraînement, atteint 100 %. Cela contredit directement la thèse selon laquelle les approches data-driven supplantent systématiquement les méthodes classiques en manipulation. Pour un intégrateur industriel, le signal est clair : le coût d'acquisition de données et les pipelines d'entraînement ne sont pas toujours nécessaires pour des tâches de saisie ou de manipulation d'objets à géométrie complexe. La légèreté computationnelle du contrôle réactif le rend également compatible avec des architectures embarquées à ressources limitées. Le contrôle réactif par champs de potentiel remonte aux travaux d'Oussama Khatib (1986), et les projections dans l'espace nul sont un pilier de la robotique à priorité de tâches (travaux de Siciliano, Chaumette). Ce papier ne réinvente pas ces fondamentaux mais résout leur point de défaillance historique : les minima locaux dus à des encodages statiques des objectifs. Face à cet axe purement classique, les approches concurrentes combinent apprentissage par renforcement, imitation learning (ACT, diffusion policy), et plus récemment les VLA (Vision-Language-Action models comme pi0 ou GR00T N2 de NVIDIA). Les auteurs ne précisent pas de roadmap industrielle, mais la capacité de transfert sim-to-real sans retraining est un argument fort pour des pilotes rapides. La prochaine étape naturelle serait l'extension à la manipulation 3D et aux objets articulés.

RecherchePaper
1 source
Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?
658arXiv cs.RO 

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Une équipe de chercheurs a publié sur arXiv (référence 2605.26820) une étude empirique sur la capacité des modèles VLA (Vision-Language-Action) à apprendre de nouvelles tâches sans oublier les compétences acquises précédemment. Pour ce faire, les auteurs ont constitué un jeu de données réel de type apprentissage continu, structuré en quatre tâches de manipulation séquentielles : saisie et dépose d'objets rigides, appui avec contact (contact-rich pressing), pliage d'objets déformables, et une quatrième tâche couvrant des configurations hétérogènes. Contrairement aux travaux antérieurs qui s'appuyaient sur des environnements simulés étroitement contrôlés, ce benchmark est intégralement collecté dans le monde physique, avec des démonstrations réelles. Résultat central : les modèles VLA souffrent massivement du phénomène d'oubli catastrophique (catastrophic forgetting) lorsqu'ils sont entraînés séquentiellement sur ces données hétérogènes. Les chercheurs ont également évalué l'experience replay comme stratégie d'atténuation, en identifiant les facteurs d'implémentation déterminants pour son efficacité. Ce travail pointe un angle mort critique dans la trajectoire de commercialisation des robots polyvalents. Un VLA performant en lab sur une tâche figée ne suffit pas pour un déploiement industriel où les lignes évoluent, les références changent, et les opérateurs ajoutent des compétences sans repartir de zéro. L'oubli catastrophique est une limite connue du deep learning, mais jusqu'ici peu documentée sur données réelles pour les politiques robotiques de type VLA. Cette étude démontre que le problème persiste même avec des architectures modernes, et que l'experience replay, bien configuré, offre une piste praticable. Pour un intégrateur ou un COO industriel, c'est un signal clair : toute feuille de route robotique basée sur des VLA doit intégrer une stratégie d'apprentissage continu avant passage à l'échelle. Les modèles VLA sont au coeur d'une course technologique impliquant Physical Intelligence (Pi-0), Google DeepMind (RT-2, OpenVLA), et plus récemment Figure AI et Apptronik avec leurs propres pipelines de politiques généralisées. Jusqu'à présent, la majorité des benchmarks de continual learning en robotique restaient cantonnés à la simulation (RoboSuite, MetaWorld), ce qui limitait la transposabilité des conclusions. Cette étude est présentée comme le premier bilan empirique sur données réelles pour les VLA, un signal que la communauté commence à confronter ces modèles aux contraintes opérationnelles réelles plutôt qu'aux conditions idéales de laboratoire. Les prochaines étapes probables incluent l'extension du benchmark à davantage de tâches et de morphologies de robots, ainsi que l'intégration de méthodes plus sophistiquées (EWC, LoRA-based replay) pour comparer leur robustesse à l'oubli sur scénarios industriels longs.

UEImpact indirect : les équipes R&D et intégrateurs européens travaillant sur des déploiements VLA industriels doivent anticiper une stratégie d'apprentissage continu dans leur feuille de route avant tout passage à l'échelle.

💬 L'oubli catastrophique, tout le monde le connaît en théorie. Là on a enfin un benchmark sur données réelles, pas de la sim, et le verdict est brutal : les VLA oublient massivement dès qu'on enchaîne des tâches hétérogènes. Bonne nouvelle, l'experience replay tient la route si bien configuré, mais ça signifie aussi que toute feuille de route VLA sans stratégie d'apprentissage continu part sur des bases fragiles.

IA physiqueOpinion
1 source
Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent
659arXiv cs.RO 

Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent

Des chercheurs de TARS Robotics ont publié sur arXiv (2605.24931) une méthode de contrôle robotique haute fréquence baptisée RTR (Reuse-then-Refine), visant à résoudre un problème identifié dans les politiques d'action chunking actuelles. À 60 Hz, les systèmes qui exécutent des séquences pré-calculées de commandes motrices génèrent des mouvements saccadés et spatialement incohérents, ce que les politiques standard ne parviennent pas à corriger. L'approche RTR déplace l'apprentissage depuis l'espace d'action direct vers un espace latent encodé par un auto-encodeur variationnel (VAE), ce qui améliore significativement la consistance temporelle et spatiale. Elle intègre également une stratégie de raffinement par chunk permettant une transition fluide entre séquences adjacentes lors d'une inférence asynchrone. Les auteurs valident la méthode sur trois tâches réelles à contact riche, avec une exécution continue et moins de pauses involontaires. Le code et les données sont publiés en open source sur GitHub (tars-robotics/RTR). Le passage de 10-30 Hz à 60 Hz représente une frontière critique pour la manipulation robotique : à basse fréquence, le robot doit compenser sa lenteur par des pauses de recalcul, limitant son utilité en production industrielle. Les politiques de type VLA (Vision-Language-Action) ou diffusion policy, actuellement dominantes en imitation learning, fonctionnent généralement en dessous de 30 Hz. En montrant qu'un encodage latent peut absorber la variance temporelle sans sacrifier la précision spatiale, RTR apporte une réponse concrète au problème de "jerkiness" qui freine le déploiement des robots manipulateurs en conditions réelles. Pour un intégrateur ou un décideur B2B, c'est une voie vers des systèmes capables d'assurer une cadence de travail continue sans interruption de flux de production. L'action chunking a été popularisé par ACT (Action Chunking with Transformers, Zhao et al., 2023) et les travaux sur Diffusion Policy, tous deux conçus pour des fréquences modérées. TARS Robotics se positionne dans un espace concurrentiel qui inclut Physical Intelligence avec pi0-FAST (ciblant 50-200 Hz via flow-matching) et les efforts de Figure AI, Agility Robotics et Boston Dynamics sur le contrôle haute cadence. RTR se distingue de pi0-FAST en proposant un raffinement incrémental du chunk existant plutôt qu'une régénération complète, ce qui réduit la charge computationnelle par inférence. Il s'agit pour l'instant d'une contribution de recherche validée en laboratoire sur robot réel, sans timeline de déploiement industriel ni partenariat annoncé.

RechercheOpinion
1 source
Contrôle par échantillonnage en temps réel sous contraintes strictes : l'approche MPPI avec contraintes de variété
660arXiv cs.RO 

Contrôle par échantillonnage en temps réel sous contraintes strictes : l'approche MPPI avec contraintes de variété

Une équipe du RCI Lab publie MC-MPPI (Manifold-Constrained Model Predictive Path Integral), un framework de contrôle temps-réel déposé sur arXiv le 26 mai 2026 (arXiv:2605.24813). La méthode répond à une limitation structurelle du MPPI standard : l'impossibilité de garantir des contraintes d'égalité strictes (hard constraints) lors de tâches de manipulation en chaîne fermée. MC-MPPI sépare le problème en deux niveaux : une planification dans un espace latent de faible dimension, apprise par un VAE (Variational Autoencoder) qui encode la variété de contraintes, suivie d'une correction d'exécution par un contrôleur QP (Quadratic Programming) résolvant en un seul appel l'erreur résiduelle. Sur un système bi-bras à 14 degrés de liberté en chaîne fermée, le framework tourne à 100 Hz aussi bien en simulation qu'en conditions réelles, et surpasse significativement les méthodes de référence en précision de suivi de trajectoire. Le verrou adressé est structurel : les pénalités de coût douces du MPPI standard ne garantissent pas la faisabilité des trajectoires candidates, rendant la méthode inapplicable à la manipulation bimanuelle contrainte, aux systèmes à deux points de contact rigide, ou à toute chaîne cinématique fermée. MC-MPPI conserve le parallélisme massif qui rend MPPI attractif : le VAE génère des trajectoires quasi-faisables sans modification par échantillon, permettant une linéarisation précise des contraintes et réduisant la correction d'exécution à un QP résolu en un seul passage au lieu d'une projection itérative coûteuse. Pour un intégrateur ou un responsable technique industriel, cela ouvre MPPI à des tâches d'assemblage et de manipulation précise jusqu'ici réservées aux solveurs par optimisation itérative comme iLQR ou SQP. MPPI est une méthode de contrôle prédictif par échantillonnage stochastique, introduite par Williams et al. à Georgia Tech en 2016 et depuis adoptée en navigation robotique et pour les systèmes sous-actionnés. Les extensions contraintes existantes recourent à des projections itératives coûteuses ou à des reformulations variationnelles qui dégradent la fréquence de contrôle. MC-MPPI se distingue en apprenant la géométrie de contrainte hors-ligne via le VAE, limitant la charge en ligne au seul QP. Les approches concurrentes incluent les méthodes CBF-QP (Control Barrier Function), le MPC différentiable, et les planificateurs neuronaux pour la manipulation bimanuelle. L'équipe met à disposition vidéos et implémentation à rcilab.github.io/mcmppi ; des validations sur des configurations plus complexes ou des manipulateurs mobiles constitueraient des étapes naturelles.

RecherchePaper
1 source
Commande corpo-entière sûreté-critique pour robots humanoïdes via les barrières de contrôle entrée-état
661arXiv cs.RO 

Commande corpo-entière sûreté-critique pour robots humanoïdes via les barrières de contrôle entrée-état

Des chercheurs ont publié sur arXiv (référence 2605.25546) un framework hiérarchique de contrôle sécurisé corps entier pour robots humanoïdes, fondé sur les fonctions barrières robustes aux perturbations (ISSf-CBF, Input-to-State Safe Control Barrier Functions). L'architecture s'articule en trois couches : un contrôleur whole-body cinématique (KinWBC) qui génère des références articulaires à partir de tâches priorisées, un filtre ISSf-CBF qui les ajuste au minimum pour satisfaire les contraintes de sécurité sous perturbations bornées, et un contrôleur whole-body dynamique (DynWBC) qui garantit la faisabilité corps entier et la stabilité des contacts. Les contraintes couvertes incluent les limites articulaires, l'évitement d'auto-collision, l'évitement d'obstacles et les frontières du workspace. Validé en simulation et sur robot réel, le système a été testé dans trois scénarios : locomotion, téleopération et équilibre monopode avec contrôle simultané des mains. L'intérêt de l'approche tient à un problème fondamental en robotique humanoïde : les garanties de sécurité formelles s'effondrent dès qu'apparaît un écart entre le modèle de simulation et le comportement physique réel. Les CBFs classiques supposent un système parfaitement connu et deviennent fragiles face aux incertitudes de modèle, aux erreurs de suivi de trajectoire ou aux perturbations externes, précisément les conditions d'un environnement industriel. Les ISSf-CBFs étendent ce formalisme en admettant des perturbations bornées tout en maintenant des garanties formelles transférables du niveau cinématique vers la dynamique complète. Le filtre intervient de façon minimalement invasive, ne corrigeant les références nominales que lorsque nécessaire, ce qui préserve la performance globale. C'est une réponse directe au "demo-to-reality gap" structurellement reproché aux humanoïdes actuels, et un prérequis pour toute certification de robot collaboratif en environnement humain. Les Control Barrier Functions sont un outil bien établi en automatique, popularisé dans les années 2010 pour les véhicules autonomes et les bras robotiques. Leur extension aux ISSf-CBFs pour la robustesse aux perturbations est plus récente, et leur application à un humanoïde corps entier avec des dizaines de degrés de liberté, des contacts multiples et des dynamiques non linéaires représente un saut de complexité notable. Dans la course actuelle aux humanoïdes, les acteurs comme Figure, Boston Dynamics, Tesla (Optimus), Agility Robotics, Apptronik ou Unitree publient peu sur les garanties de sécurité formelles corps entier, un domaine resté majoritairement académique. Ce travail n'annonce pas de déploiement industriel, mais fournit une brique méthodologique directement applicable aux pipelines de validation et de certification des futurs robots collaboratifs.

UELes garanties de sécurité formelles apportées par ce framework sont directement pertinentes pour la certification des robots collaboratifs humanoïdes dans le cadre du Machinery Regulation et de l'AI Act européens.

RecherchePaper
1 source
IsaacIPC : simulation haute fidélité et rendu réaliste couplés pour la robotique en contact
662arXiv cs.RO 

IsaacIPC : simulation haute fidélité et rendu réaliste couplés pour la robotique en contact

Des chercheurs ont publié le 27 mai 2026 sur arXiv (référence 2605.24339) IsaacIPC, un framework de simulation robotique qui couple le moteur IPC (Incremental Potential Contact) accéléré GPU avec l'environnement IsaacSim/Lab de NVIDIA. Le coeur du système repose sur un mapping de déformation entre maillages de simulation et maillages de rendu, permettant un rendu visuel réaliste en temps réel pour des scénarios à contacts riches (manipulation déformable, préhension complexe). Les auteurs introduisent également le GMCP (Geometric Mortar Contact Potential), une nouvelle formulation de potentiel barrière appliquée aux surfaces tactiles pour résoudre les distributions pression-contact avec une précision supérieure aux approches existantes. Le framework est validé sur un robot quadrupède, une main dextre à doigts multiples et un préhenseur UMI (Universal Manipulation Interface). L'enjeu industriel est direct : la qualité des données de simulation conditionne la robustesse des politiques de manipulation entraînées en sim-to-real. IsaacIPC s'attaque au problème du rendu réaliste couplé à la physique du contact, un point de friction majeur pour l'entraînement de VLA (Vision-Language-Action models) et de politiques de manipulation fine. Une simulation visuellement fidèle réduit le domain gap sans recourir à la randomisation agressive, ce qui accélère le déploiement sur hardware réel. La précision tactile apportée par GMCP est particulièrement pertinente pour les intégrateurs travaillant sur l'assemblage ou la chirurgie assistée par robot. Le contexte scientifique est celui d'une compétition intense autour des simulateurs pour la robotique apprenante. IPC, initialement développé en infographie par Li et al. (2020), est reconnu pour sa robustesse aux contacts mais reste coûteux en calcul -- son intégration dans IsaacSim comble un écart entre fidelité physique et vitesse nécessaire à l'entraînement par reinforcement learning. En face, MuJoCo (DeepMind), Genesis et PhysX restent des références, mais peinent sur les déformables et la tactile. IsaacIPC reste à ce stade un preprint académique sans annonce de disponibilité publique dans Isaac Lab, mais son intégration dans l'écosystème NVIDIA ouvre une voie réaliste vers une adoption industrielle rapide si les benchmarks de contact tiennent à l'échelle.

UELes laboratoires européens travaillant sur la manipulation robotique apprenante (INRIA, DLR, ETH Zurich) pourraient bénéficier de cet outil si NVIDIA le rend public dans Isaac Lab, mais aucun impact direct ou immédiat sur la France/UE n'est identifié à ce stade.

💬 Le gap sim-to-real, c'est le problème de fond de la robotique apprenante depuis des années, et là quelqu'un s'y attaque enfin du bon côté: rendu réaliste et physique du contact au même endroit, dans le même outil. Le GMCP pour la tactile fine couplé à IsaacSim, c'est le genre de truc qui permet d'entraîner des VLA sur de la manipulation délicate sans randomiser dans tous les sens pour compenser. Reste à voir si ça sort vraiment dans Isaac Lab, parce que pour l'instant c'est encore un preprint.

IA physiquePaper
1 source
Modèles vision-langage-action (VLA) efficaces pour les longues séquences via découplage statique-dynamique
663arXiv cs.RO 

Modèles vision-langage-action (VLA) efficaces pour les longues séquences via découplage statique-dynamique

Une équipe de chercheurs a publié sur arXiv (référence 2502.03983) un framework baptisé DySta, conçu pour rendre les modèles Vision-Language-Action (VLA) à la fois plus rapides et plus capables sur des tâches longues. Les VLA sont des architectures qui combinent compréhension visuelle, instructions en langage naturel et génération d'actions motrices pour des robots généralistes. DySta résout deux goulots d'étranglement structurels : la fenêtre de contexte limitée en entrée (qui contraint le nombre de frames exploitables) et la complexité quadratique de l'attention transformeur, aggravée par le grand nombre de paramètres. La solution repose sur une séparation explicite des tokens visuels en deux catégories : les tokens statiques (fond, structure de la scène, éléments invariants) et les tokens dynamiques (objets en mouvement, zones d'intérêt). Une seule copie des tokens statiques est conservée entre les frames, tandis qu'un mécanisme de "recache gate" décide de manière sélective quand rafraîchir le cache clé-valeur (KV cache) associé. Les gains sont mesurables : accélération de l'inférence de 2,0x en simulation (avec +2,3 points de succès) et 2,2x sur des tâches réelles générales (avec +10,6 points de succès), ainsi qu'une amélioration de 23,3 points de taux de réussite absolu sur des tâches réelles nécessitant de la mémoire temporelle. L'enjeu industriel est direct : les VLA déployés en milieu réel doivent aujourd'hui gérer des séquences longues (assemblage multi-étapes, manipulation d'objets variables, navigation conditionnelle) sans exploser le coût computationnel. La réduction du contexte via les tokens statiques répond précisément au compromis mémoire/vitesse qui bloque le passage à l'échelle de modèles comme OpenVLA, Pi-0 ou GR00T N2. Le gain de +10,6 points sur des tâches générales réelles est particulièrement significatif car il valide l'approche hors simulation, où le sim-to-real gap reste un défi non résolu pour la majorité des frameworks VLA actuels. DySta s'inscrit dans une vague de travaux d'efficacité VLA qui incluent des approches comme RoboFlamingo, SpatioTemporal Token Compression, ou les techniques de KV cache adaptatif venues du domaine NLP. Les VLA de première génération (RT-2, OpenVLA) ignoraient largement la redondance temporelle des frames visuelles ; DySta formalise ce problème et propose une solution modulaire intégrable à différentes architectures VLM de base. Le papier introduit également un benchmark dédié à l'évaluation de l'intégration multi-frames, comblant un angle mort méthodologique du domaine. Les prochaines étapes logiques incluent l'intégration à des modèles fondationnels ouverts (Llama-based VLAs) et l'évaluation sur des plateformes matérielles contraintes type Jetson, où le rapport latence/performance est critique pour la commercialisation.

💬 Séparer les tokens statiques des dynamiques, c'est une de ces idées qui paraissent évidentes après coup, et ça me plaît pour ça. Le gain de dix points sur des tâches réelles hors simulation, c'est ce qui compte vraiment, pas les chiffres en sim. Si tu développes des VLA sur du matériel embarqué contraint, ce framework vaut le coup d'être lu maintenant.

IA physiqueOpinion
1 source
Distillation neuronale de Koopman dynamique pour le contrôle robotique en temps réel par modèles de diffusion
664arXiv cs.RO 

Distillation neuronale de Koopman dynamique pour le contrôle robotique en temps réel par modèles de diffusion

Une équipe de chercheurs a publié sur arXiv (2605.24924) un cadre nommé Dynamic Neural Koopman Distillation (DNKD), réduisant la latence d'inférence des politiques de diffusion robotiques à quelques millisecondes, contre des centaines pour les modèles originaux. Le problème central : les modèles de diffusion génèrent des trajectoires multimodales de qualité mais leur débruitage itératif (10 à 100 étapes) est incompatible avec la commande en boucle fermée à 50-100 Hz. La solution repose sur une couche Factorized Dynamic Koopman (FDK), qui distille ce processus en un seul passage avant via une transition latente factorisée à gains modaux dépendants de l'état. Validée sur les benchmarks D4RL MuJoCo et sur un bras Kinova physique, la méthode surpasse significativement les baselines de distillation à une étape sur les tâches de locomotion et maintient un taux de succès comparable en manipulation réelle. L'enjeu industriel est direct : les politiques de diffusion, plébiscitées pour leur gestion des tâches ambiguës à solutions multiples, étaient jusqu'ici confinées aux systèmes tolérant la latence. Ramener l'inférence au régime milliseconde ouvre la voie aux contrôleurs embarqués sans accélérateur dédié. Pour un intégrateur ou un COO industriel, c'est un accès aux politiques génératives puissantes sans compromis sur la réactivité, paramètre critique pour la sécurité machine et la cadence de production. La méthode confirme aussi que la distillation de connaissance, technique éprouvée en NLP, est transférable aux politiques d'action multimodales. Ce travail s'inscrit dans un courant ouvert par Diffusion Policy (Chi et al., 2023, Columbia) et industrialisé par Physical Intelligence avec pi-0. Les approches concurrentes pour l'accélération d'inférence incluent les consistency models, le rectified flow (présent dans GR00T N2 de NVIDIA) et DDIM. Le DNKD se distingue par son ancrage dans la théorie de l'opérateur de Koopman, qui linéarise la dynamique non linéaire dans un espace latent, garantie théorique absente des méthodes purement empiriques. La publication reste un preprint arXiv non évalué par les pairs, sans partenaire industriel annoncé ; les démonstrations sont disponibles sur fdkoopman.github.io.

RechercheActu
1 source
RepSAM : adapter les modèles fondation à la vision robotique par guidage de représentation
665arXiv cs.RO 

RepSAM : adapter les modèles fondation à la vision robotique par guidage de représentation

Des chercheurs ont publié le 26 mai 2026 sur arXiv (2605.25495) RepSAM, un cadre d'adaptation à l'efficacité paramétrique (PEFT) conçu pour transférer les capacités de SAM (Segment Anything Model) vers la perception robotique en environnements non structurés. Le diagnostic de départ est précis : les couches superficielles du transformeur subissent un écart de représentation important entre données génériques et données robotiques (CKA inférieur à 0,7), tandis que les couches profondes restent stables (CKA supérieur à 0,7). RepSAM exploite cette asymétrie via une allocation de rang guidée par la CKA (Centered Kernel Alignment) pour concentrer les paramètres entraînables là où le décalage est effectivement significatif. Le résultat : 89,0 % de mIoU contre 90,9 % pour le fine-tuning complet, soit 97,9 % des performances, avec seulement 4,0 millions de paramètres entraînables sur 632 millions totaux, une réduction de 158 fois. L'entraînement tient en 4 heures sur un seul GPU A100, contre 384 heures-GPU pour le fine-tuning intégral, et surpasse DoRA de 7,9 points de mIoU sur six benchmarks. En manipulation robotique, le gain atteint 12 points absolus de taux de succès par rapport à la baseline LoRA RGB, avec une significativité statistique p inférieur à 0,01. L'enjeu industriel est direct : le gouffre entre les modèles de vision généralistes et les conditions réelles de la robotique (objets transparents, scènes encombrées, éclairage variable) reste l'un des principaux blocages pour les intégrateurs. RepSAM démontre qu'un adapter bien ciblé, informé par la structure interne du réseau plutôt qu'appliqué uniformément, peut quasiment égaler un fine-tuning complet à une fraction du coût de calcul. Pour un responsable technique déployant des bras manipulateurs ou des systèmes de picking, cela signifie qu'il devient réaliste d'adapter un modèle de fondation sur du matériel standard, sans infrastructure de calcul dédiée ni données massives. SAM, développé par Meta AI et publié en 2023, s'est imposé comme référence pour la segmentation zero-shot, mais ses performances se dégradent hors distribution, notamment en robotique industrielle. Les méthodes PEFT comme LoRA et DoRA avaient déjà tenté ce pont, avec des gains limités faute d'adaptation différenciée par couche. RepSAM s'inscrit dans la continuité de travaux sur l'analyse de représentation pour guider le fine-tuning (CKA comme outil de diagnostic, popularisé depuis 2019). La prochaine étape logique est la validation sur des robots réels en conditions industrielles ; l'article se limite pour l'instant à des benchmarks simulés et des tâches de manipulation contrôlées, ce qui laisse ouvert le sim-to-real gap à grande échelle.

UELes intégrateurs européens de bras manipulateurs et systèmes de picking pourraient adapter des modèles de vision fondation sur du matériel GPU standard, réduisant la barrière à l'IA perceptive sans infrastructure de calcul dédiée.

RechercheOpinion
1 source
Accessibilité différentiable parallèle pour l'apprentissage et la planification avec dynamiques neuronales et contrôleurs certifiés
666arXiv cs.RO 

Accessibilité différentiable parallèle pour l'apprentissage et la planification avec dynamiques neuronales et contrôleurs certifiés

Une équipe de recherche a publié en mai 2026 (arXiv:2605.25346) un cadre de vérification formelle parallélisable et différentiable pour systèmes robotiques pilotés par réseaux de neurones (NN). Implémenté en JAX pour exploiter le calcul GPU-batché, le framework combine la construction de "flowpipes" par modèles de Taylor avec la propagation de bornes linéaires de type CROWN, une technique issue de la vérification des NN adversariaux. Le résultat est une représentation unifiée qui préserve les dépendances affines tout en supportant la différentiation automatique. Sur cette base, les auteurs proposent deux applications concrètes : une méthode d'entraînement certifié qui pousse les modèles NN à produire des dynamiques "reachability-friendly", et un schéma de commande prédictive (MPC) combinant échantillonnage et raffinement par gradient. Les expériences couvrent la manipulation non préhensile (objets poussés sans saisie) et des drones quadrotors, avec des évaluations hardware et des systèmes allant jusqu'à 72 dimensions d'état. Le problème central que ce travail adresse est le fossé entre performance des NN et garanties formelles de sécurité : les outils de "reachability" existants (NNV, Veritex, CROWN-reach) produisent des sur-approximations valides des ensembles atteignables, mais sont trop lents pour être intégrés dans une boucle d'apprentissage ou de planification en ligne, et rarement différentiables. Rendre ce calcul GPU-compatible et différentiable ouvre la voie à une co-optimisation contrôleur/garantie, ce qui change la logique de déploiement : au lieu de vérifier après entraînement (post-hoc, coûteux), on certifie pendant l'entraînement. Pour les intégrateurs industriels et les équipes robotique, c'est un pas vers des robots NN-pilotés qui satisfont des contraintes de sécurité hard sans sacrifier la performance apprise. La vérification formelle pour les NN en robotique est un axe de recherche actif depuis 2018, porté notamment par les travaux CROWN (Zhang et al.), qui ciblaient initialement la robustesse adversariale en vision. L'extension à la dynamique continue et aux boucles fermées reste un problème ouvert, avec des groupes concurrents chez MIT, CMU et DeepMind. Ce preprint positionne JAX comme plateforme centrale pour ce type de pipeline hybride apprentissage/vérification, une tendance émergente face à PyTorch. Les prochaines étapes probables incluent des tests sur manipulateurs industriels à plus haute dimensionnalité et l'intégration dans des frameworks MPC embarqués.

UELa certification embarquée dans la boucle d'entraînement s'aligne directement avec les exigences de vérifiabilité formelle de l'AI Act pour les systèmes IA à haut risque (dont les robots industriels et autonomes), réduisant le coût de mise en conformité pour les équipes R&D européennes.

RecherchePaper
1 source
LIBERO-PRO : vers une évaluation robuste et équitable des modèles vision-langage-action (VLA) au-delà de la mémorisation
667arXiv cs.RO 

LIBERO-PRO : vers une évaluation robuste et équitable des modèles vision-langage-action (VLA) au-delà de la mémorisation

Des chercheurs ont publié LIBERO-PRO, une extension critique du benchmark LIBERO largement utilisé pour évaluer les modèles Vision-Language-Action (VLA). Disponible sur GitHub (Zxy-MLlab/LIBERO-PRO), le travail, présenté sous forme d'arXiv preprint (arXiv:2510.03827v2), soumet les VLA à des perturbations systématiques selon quatre axes : substitution des objets manipulés, variation des états initiaux, modification des instructions de tâche, et changement d'environnement. Résultat sans appel : les modèles actuels qui atteignent plus de 90 % de succès sur l'évaluation LIBERO standard s'effondrent à 0,0 % dans le cadre généralisé de LIBERO-PRO. Concrètement, un modèle continue d'exécuter une séquence de saisie même lorsque l'objet cible est remplacé par un objet sans rapport, et ses sorties restent inchangées face à des instructions corrompues ou composées de tokens aléatoires. Ce résultat est un signal d'alarme direct pour les équipes qui fondent leurs décisions de recherche ou de déploiement sur les classements LIBERO. Il démontre que les modèles VLA n'ont pas acquis de compréhension générale des tâches ni de perception réelle de l'environnement : ils mémorisent des séquences d'actions et des configurations spatiales vues à l'entraînement. Autrement dit, le gap sim-to-real et le problème de généralisation restent entiers, quelle que soit la performance affichée sur le benchmark. Pour les intégrateurs industriels ou les équipes robotique qui envisagent de déployer des politiques basées sur des VLA, cela signifie que les scores publiés ne sont pas des indicateurs fiables de robustesse opérationnelle. LIBERO, introduit pour standardiser l'évaluation des politiques manipulatrices en langage naturel, est devenu une référence de facto dans la communauté. Mais comme tout benchmark sur-exploité, il a progressivement favorisé l'overfitting plutôt que la généralisation. LIBERO-PRO s'inscrit dans une tendance plus large de remise en question des protocoles d'évaluation VLA, aux côtés d'initiatives comparables sur les benchmarks de navigation et de saisie. La prochaine étape logique serait l'adoption de LIBERO-PRO comme standard par les principaux groupes travaillant sur des modèles comme OpenVLA, Octo ou pi0 (Physical Intelligence), afin de permettre des comparaisons réellement équitables et de pousser le secteur vers des politiques robustes en conditions réelles.

RechercheOpinion
1 source
Comprendre les défaillances multimodales dans le clonage comportemental par découpage d'actions
668arXiv cs.RO 

Comprendre les défaillances multimodales dans le clonage comportemental par découpage d'actions

Déposée sur arXiv le 22 mai 2026 (arXiv:2605.22493), une étude analyse les mécanismes d'échec du behavioral cloning (apprentissage par imitation) lorsqu'une même observation admet plusieurs actions valides, un cas fréquent en manipulation robotique. Les auteurs se concentrent sur les politiques à action-chunking, qui prédisent des séquences d'actions futures plutôt qu'une action isolée, et distinguent deux familles d'architectures : les politiques à variable latente de type VAE (dont ACT, Action Chunking with Transformers) et les politiques génératives en espace d'action (dont les politiques de diffusion comme Diffusion Policy). Pour les premières, la régularisation posterior-prior (terme KL dans un VAE) crée un compromis difficile : une régularisation forte stabilise l'échantillonnage au déploiement mais efface l'information permettant de distinguer les modes démontrés ; une régularisation faible préserve cette information mais expose à une couverture insuffisante par le prior. Pour les politiques génératives, les auteurs montrent que la multimodalité est bornée par la constante de Lipschitz du transport entre espace de base et espace d'action : une carte lisse ne peut pas distribuer de probabilité substantielle sur plusieurs modes bien séparés sans introduire des transitions brutales dans l'espace de base ou des régions de pont hors support en espace d'action. Ces mécanismes sont validés sur des tâches synthétiques multimodales et des benchmarks de simulation robotique. Ces résultats donnent aux équipes déployant des politiques d'imitation une grille de diagnostic concrète. En manipulation industrielle, où un préhenseur peut légitimement atteindre un objet depuis plusieurs angles, comprendre pourquoi un modèle s'effondre sur certains modes est directement actionnable : le coefficient bêta d'un VAE de type ACT, souvent ajusté empiriquement par tâtonnement, dispose maintenant d'une interprétation formelle. Pour les politiques de diffusion, la contrainte de Lipschitz suggère que la capacité à couvrir plusieurs modes dépend de l'expressivité du réseau de transport, avec un compromis explicite entre lissage et richesse modale. C'est un verrou théorique central pour le déploiement en production, où les observations ambiguës sont la règle plutôt que l'exception. L'apprentissage par imitation connaît un regain d'intérêt majeur depuis 2023, porté par ACT et Diffusion Policy, puis par des architectures plus récentes comme pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), aujourd'hui au coeur des pipelines d'entraînement des robots humanoïdes chez Figure AI, 1X et Agility Robotics. Malgré leurs succès en démonstration, la multimodalité reste l'un des verrous majeurs du sim-to-real et du passage en production à grande échelle. Cette étude, de nature purement théorique, ne propose pas d'architecture clé en main, mais son cadre analytique devrait orienter les prochains choix de conception et les stratégies de collecte de données pour les tâches à haute ambiguïté gestuelle.

RecherchePaper
1 source
Attention par transport optimal spatio-temporel pour l'apprentissage par imitation visuo-tactile de manipulations avec contact
669arXiv cs.RO 

Attention par transport optimal spatio-temporel pour l'apprentissage par imitation visuo-tactile de manipulations avec contact

Des chercheurs ont soumis sur arXiv SO-TA (Spacetime Optimal-Transport Attention, réf. 2605.20433), une architecture d'apprentissage par imitation pour la manipulation robotique à contact serré, validée sur trois tâches : insertion peg-in-hole à faible jeu, emmanchement de connecteurs BCM et effacement de marquages sur surfaces courbes. SO-TA fusionne trois modalités en simultané (vision, force/couple F/T et proprioception) via un mécanisme d'attention fondé sur le transport optimal (OT) à entropie régularisée, remplaçant l'attention softmax classique. Les contraintes marginales OT distribuent les masses d'attention entre patches visuels et sous-requêtes dérivées des données force-pose, agissant comme biais inductif structuré pour les phases de contact. La politique de contrôle est un modèle de diffusion séquentiel mappant des fenêtres d'observation en séquences d'actions de pose. Évaluée sur robot réel avec environ 200 trajectoires par condition, SO-TA atteint 100 % de succès sur le peg-in-hole serré (contre 93 % pour l'attention croisée classique) et maintient 82,5 % de succès sous perturbations réalistes (éclairage variable, distracteurs, occlusion partielle), là où une baseline par concaténation chute à 43,5 %. L'écart 82,5 % contre 43,5 % sous perturbations est le résultat structurant pour les intégrateurs industriels : il signifie qu'une politique de manipulation reste opérationnelle dans un atelier aux conditions fluctuantes, sans recalibration constante. L'usage du transport optimal impose une répartition spatiale contrôlée de l'attention, évitant la dispersion caractéristique des softmax sur des scènes encombrées. Pour la recherche, 200 rollouts suffisent à valider l'approche, soulignant l'efficacité des biais inductifs structurés face à la rareté des données de démonstration. La fusion tri-modale confirme qu'aucune modalité seule ne suffit pour piloter les phases de contact à fortes contraintes cinématiques, argument clé dans le débat sim-to-real des politiques VLA (Vision-Language-Action). La manipulation par contact représente un verrou historique du contrôle robotique, où les incertitudes géométriques et les dynamiques de frottement ont longtemps limité les méthodes analytiques. L'imitation learning bi-modale (vision + force) s'est développée depuis le début des années 2020, sans mécanisme d'attention dédié au contact discontinu. SO-TA s'inscrit dans un espace concurrentiel dense : ACT et Diffusion Policy (UMass/MIT) dominent les benchmarks de manipulation fine depuis 2023, et Physical Intelligence (Pi-0) explore la fusion multimodale à plus grande échelle. En Europe, des équipes comme celles de l'INRIA et du DLR travaillent sur des problématiques voisines. La prochaine étape logique serait de valider SO-TA sur un éventail plus large de tâches industrielles, avec des volumes de données plus importants pour confirmer la tenue à l'échelle.

UELes équipes de l'INRIA et du DLR, actives sur la manipulation à contact, peuvent s'appuyer sur SO-TA comme référence méthodologique pour leurs propres architectures d'imitation learning multimodale.

RechercheOpinion
1 source
TimeRewarder : apprendre des récompenses denses à partir de vidéos passives via la distance temporelle entre images
670arXiv cs.RO 

TimeRewarder : apprendre des récompenses denses à partir de vidéos passives via la distance temporelle entre images

Une équipe de chercheurs a publié sur arXiv (arXiv:2509.26627) une méthode baptisée TimeRewarder, conçue pour automatiser la conception de récompenses denses dans l'apprentissage par renforcement (RL) appliqué à la robotique. L'approche repose sur une idée simple : estimer la progression d'une tâche en mesurant la distance temporelle entre paires de frames extraites de vidéos passives, c'est-à-dire des démonstrations de robots ou des vidéos de comportements humains, sans interaction active avec l'environnement. Ces distances servent de signal de récompense proxy, étape par étape, pour guider l'agent RL. Sur dix tâches du benchmark Meta-World, reconnu pour sa difficulté, TimeRewarder atteint un taux de succès quasi-parfait sur neuf d'entre elles, avec seulement 200 000 interactions par tâche. La méthode surpasse non seulement les approches antérieures de reward learning, mais également les récompenses denses conçues manuellement par des experts, tant en taux de succès final qu'en efficacité d'échantillonnage. Ce résultat a une portée directe pour quiconque déploie du RL en robotique industrielle ou en manipulation : la conception de récompenses denses représente aujourd'hui l'un des goulets d'étranglement les plus coûteux en temps ingénieur. Qu'une méthode vidéo-passive batte le signal dense artisanal sur Meta-World soulève une hypothèse sérieuse : le gap entre démonstration passive et signal d'apprentissage serait moins insurmontable qu'anticipé, à condition de modéliser correctement la progression temporelle. La scalabilité est également notable : TimeRewarder fonctionne avec des vidéos humaines réelles, ce qui ouvre la voie à l'exploitation de corpus vidéo génériques pour pré-entraîner des fonctions de récompense transférables, sans captation robotique spécialisée. Le problème du reward shaping en RL est structurel depuis les travaux fondateurs sur la politique de récompense inverse (IRL) et ses dérivés comme GAIL ou T-REX. TimeRewarder se distingue de ces approches en évitant l'inférence explicite d'une politique de l'expert : il se contente d'ordonner temporellement les états, ce qui est computationnellement plus léger et moins sensible à la qualité des démonstrations. Les concurrents directs incluent VADER, RoboCLIP et les méthodes fondées sur des VLMs comme S3 ou Vid2Rew. La prochaine étape critique sera le passage à des environnements réels (sim-to-real), Meta-World restant un benchmark simulé, et l'extension à des horizons de tâches longues où la distance temporelle devient moins discriminante.

RecherchePaper
1 source
Amélioration du SLAM par graphes en environnement sans GNSS grâce à l'odométrie des jambes
671arXiv cs.RO 

Amélioration du SLAM par graphes en environnement sans GNSS grâce à l'odométrie des jambes

Des chercheurs ont publié sur arXiv (2605.20484) une architecture de graphe de facteurs qui améliore significativement la précision verticale du SLAM LiDAR-inertiel pour robots à pattes en environnement sans GNSS. Le système augmente le framework LIO-SAM avec une voie cinématique parallèle, alimentée par l'odométrie proprioceptive des jambes, couplée à la voie LiDAR-inertielle principale via une contrainte de pose relative avec modèle de bruit sélectif. Testé sur un quadrupède Linxai D50 lors de deux boucles extérieures totalisant plus d'un kilomètre, l'approche réduit la dérive en élévation de plus de 30 mètres à moins de 30 centimètres, soit une réduction de deux ordres de grandeur. Sur un scénario où le pipeline de référence échoue complètement à converger, la méthode proposée maintient la localisation. Ce résultat est significatif parce qu'il exploite une source de données déjà disponible à bord, calculée pour le contrôle de la locomotion, sans capteur supplémentaire. Le problème de la dérive verticale du LiDAR est bien documenté dans les environnements géométriquement pauvres ou répétitifs (couloirs, forêts, parkings), où les points de correspondance sont insuffisants pour contraindre l'axe Z. Utiliser l'odométrie des pattes comme ancre verticale légère est une approche pragmatique : elle s'insère dans les pipelines existants sans reconfiguration hardware, ce qui en facilite le déploiement sur des plateformes commerciales comme Unitree, Boston Dynamics Spot, ou ANYmal. Pour les intégrateurs et les équipes déployant des robots en inspection industrielle ou en environnements souterrains, c'est une piste concrète pour améliorer la robustesse SLAM sans surcoût matériel. LIO-SAM est un framework SLAM LiDAR-inertiel développé par Ji Zhang et Sanjiv Singh (Carnegie Mellon), largement adopté dans la communauté robotique depuis 2020, notamment pour les robots terrestres et aériens. Le couplage proprioception-SLAM n'est pas nouveau en théorie, mais son intégration efficace dans un graphe de facteurs en conditions réelles reste un sujet actif. Côté concurrence, les approches actuelles s'appuient généralement sur la fusion IMU renforcée (LOAM, LEGO-LOAM) ou l'ajout de capteurs barométriques pour corriger la dérive verticale. La prochaine étape naturelle serait de tester l'approche sur des terrains avec dénivelé marqué, et d'évaluer la robustesse face aux glissements de pattes, cas limite non abordé dans cette version préliminaire.

RecherchePaper
1 source
VLANeXt : recettes pour construire des modèles VLA performants
672arXiv cs.RO 

VLANeXt : recettes pour construire des modèles VLA performants

Une équipe de chercheurs a publié VLANeXt, un modèle Vision-Language-Action (VLA) qui surpasse l'état de l'art sur les benchmarks LIBERO et LIBERO-plus, deux références standards pour l'évaluation de politiques robotiques généralisables. Le papier (arXiv 2602.18532v2), loin de se limiter à une nouvelle architecture, repose sur une étude systématique de l'espace de conception des VLA, structurée en trois axes: les composants fondamentaux, les éléments de perception, et la modélisation des actions. Partant d'une baseline inspirée de RT-2, les auteurs identifient 12 résultats clés formant une recette reproductible pour construire des modèles VLA performants. Le code est publié en open source sur GitHub pour permettre à d'autres équipes de reproduire les expériences et d'itérer sur cette base commune. L'apport principal de ce travail n'est pas le modèle lui-même, mais la méthode. Le domaine des VLA souffre d'un problème structurel: chaque groupe publie son propre modèle avec des protocoles d'entraînement et des setups d'évaluation incompatibles, rendant toute comparaison rigoureuse impossible. VLANeXt impose un cadre unifié qui permet enfin d'isoler quelles décisions de conception ont un effet mesurable sur les performances. Pour les équipes R&D travaillant sur des politiques robotiques généralisables, les 12 findings donnent des règles pratiques sur le choix du backbone VLM, le traitement des entrées visuelles et la tête de prédiction d'actions. La validation en conditions réelles renforce la crédibilité des résultats, même si les détails des expériences physiques restent parcellaires dans l'abstract. Les VLA émergent de la convergence entre grands modèles multimodaux et robotique incarnée. RT-2 (Google DeepMind, 2023) a été le précurseur, montrant qu'un VLM pré-entraîné pouvait piloter un robot réel après fine-tuning. Une vague de travaux a suivi: pi-0 (Physical Intelligence), OpenVLA, Octo, RoboFlamingo. Face à cette prolifération, VLANeXt propose un point de stabilisation méthodologique plutôt qu'une course aux performances brutes. Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'un travail académique dont la valeur tient à la rigueur comparative. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus exigeants comme BridgeV2 ou DROID, et une adoption par des équipes travaillant sur des plateformes physiques commerciales.

IA physiqueOpinion
1 source
EllipseLIO : odométrie inertielle LiDAR adaptative par représentation ellipsoïdale
673arXiv cs.RO 

EllipseLIO : odométrie inertielle LiDAR adaptative par représentation ellipsoïdale

Des chercheurs de l'Université de Chypre (laboratoire v4rl-ucy) ont publié sur arXiv (preprint 2605.21150, mai 2026) un système d'odométrie inertielle LiDAR baptisé EllipseLIO, conçu pour fonctionner en temps réel sans calibration manuelle selon les scenarios. L'approche repose sur une représentation par ellipsoïdes pour le filtrage et le recalage des nuages de points LiDAR, lui permettant de s'adapter automatiquement aux capacités du capteur et à la géométrie de l'environnement. Évalué sur cinq jeux de données couvrant des scénarios variés et difficiles (environnements intérieurs/extérieurs, capteurs hétérogènes), EllipseLIO affiche une erreur d'odométrie inférieure de 38 % en moyenne par rapport à la deuxième meilleure approche testée. Il est également le seul système parmi tous les concurrents évalués à ne diverger dans aucune expérience. Le code sera publié en open source à l'adresse github.com/v4rl-ucy/ellipselio. La portée pratique de ce résultat est significative pour les intégrateurs de robots mobiles autonomes opérant en environnements GPS-dégradés ou GPS-absents (entrepôts, mines, bâtiments industriels, espaces souterrains). Le verrou actuel de la LIO est précisément la nécessité de re-tuner les paramètres à chaque changement de plateforme ou de site, ce qui freine le déploiement à grande échelle sur des flottes multi-capteurs. EllipseLIO casse ce paradigme en éliminant l'intervention humaine entre scenarios, ce qui est une promesse forte, même si les résultats restent à confirmer hors des cinq datasets retenus. L'absence de divergence sur l'ensemble des expériences est la métrique la plus solide présentée : c'est la robustesse, et non la précision seule, qui conditionne l'exploitabilité industrielle d'un système de localisation. La LIO est un sous-domaine mature de la SLAM (Simultaneous Localization and Mapping), avec des approches de référence comme FAST-LIO2 (Université de Hong Kong), LIO-SAM (MIT), ou encore LOAM. Ces systèmes offrent d'excellentes performances dans leurs conditions nominales mais nécessitent un tuning expert dès que le LiDAR ou l'environnement change. EllipseLIO s'inscrit dans une tendance récente vers des pipelines auto-adaptatifs, parallèlement aux approches d'apprentissage profond pour la localisation (ex. : travaux de Cartographer ou des équipes DeepMind/Google sur la localisation neuronale). Il convient de noter qu'EllipseLIO est pour l'instant un preprint non encore soumis à peer review, et que les benchmarks retenus conditionnent fortement les conclusions : une validation indépendante sur des datasets publics standards (MulRan, Hilti, KITTI-360) sera nécessaire pour consolider les affirmations. La mise en open source annoncée permettra à la communauté de reproduire et d'étendre ces évaluations.

UEL'Université de Chypre (institution UE) porte cette avancée en localisation autonome adaptative, susceptible de bénéficier aux intégrateurs européens de robots mobiles en environnements GPS-dégradés dès la mise en open source du code.

RecherchePaper
1 source
Du contact balayé à la pose : recalage adapté à la sonde par ancrage de formes complémentaires
674arXiv cs.RO 

Du contact balayé à la pose : recalage adapté à la sonde par ancrage de formes complémentaires

Des chercheurs proposent sur arXiv (2605.21398) une méthode de recalage sans calibration pour la manipulation robotique de précision, baptisée "complementary-shape docking", qui reformule le recalage modèle-scène comme un accouplement géométrique complémentaire entre l'objet cible et le volume balayé par la sonde de contact (probe swept volume), en exploitant à la fois les zones de contact effectif et de non-contact. Le pipeline intègre une recherche globale par corrélation 3D FFT sur des échantillons SO(3) à faible discrépance, suivie d'un raffinement continu en SE(3) via des mises à jour dans l'algèbre de Lie et des sensibilités analytiques au contact. En simulation sur des maillages à géométrie libre, la méthode atteint moins de 0,04 mm en translation et moins de 0,4 degré en rotation, robuste aux bruits de pose et aux pertes de contact partiel. Validée sur un robot de préparation dentaire en conditions réelles, elle rapporte 0,42 mm et 3,75 degrés, surpassant un tracker optique de référence sans aucun capteur externe. Pour les intégrateurs industriels et chirurgicaux, l'enjeu est concret : les méthodes optiques imposent des chaînes de calibration longues, des contraintes de visibilité directe (line-of-sight) et accumulent des erreurs liées aux tolérances de fabrication. Un recalage purement tactile et géométrique supprime ces dépendances sans dégrader la précision métrique, ouvrant la voie à des déploiements en environnements encombrés, stériles ou à faible éclairage. La validation sur robot dentaire physique atténue le sim-to-real gap habituellement invoqué pour nuancer les publications arXiv de ce type. Concrètement, cela se traduit par un setup allégé, moins de matériel propriétaire et une intégration facilitée sur des cellules robotiques existantes. Le recalage modèle-scène est un problème central depuis les premières formulations d'ICP (Iterative Closest Point) dans les années 1990, méthodes historiquement limitées par les minima locaux et la sensibilité à l'initialisation. Cette publication s'inscrit dans une tendance à éliminer les capteurs dédiés, en alternative complémentaire aux approches VLA (Vision-Language-Action) qui misent sur la perception visuelle. Les débouchés naturels touchent la chirurgie robotique (Intuitive Surgical, CMR Surgical en Europe), l'usinage de précision et les bras industriels à haute tolérance (KUKA, Stäubli). Aucune commercialisation ni partenariat industriel n'est annoncé dans la publication, qui reste une contribution académique avec prototype fonctionnel, sans timeline de transfert précisée.

UECMR Surgical (Europe) et des intégrateurs comme KUKA et Stäubli pourraient bénéficier de cette méthode de recalage sans capteurs optiques, simplifiant les déploiements en environnements chirurgicaux et industriels contraints.

RecherchePaper
1 source
Sélectionner ou ne pas sélectionner : distillation de la prédiction de compétences robotiques en petit ensemble
675arXiv cs.RO 

Sélectionner ou ne pas sélectionner : distillation de la prédiction de compétences robotiques en petit ensemble

Une équipe de chercheurs publie en mai 2026 un preprint (arXiv:2605.21242) portant sur la prédiction automatique de compétences robotiques dans les flottes hétérogènes. À partir d'une description de tâche en langage naturel, le système identifie quelles capacités physiques sont requises parmi six catégories: vol, roues, pattes, navigation en surface aquatique, navigation sous-marine et manipulation avec mains. Faute de données labellisées existantes pour ce mapping, les auteurs ont construit un dataset synthétique via génération assistée par LLM et audit ciblé des étiquettes. Un ensemble de deux encodeurs de phrases fine-tunés (mpnet + MiniLM, environ 133 millions de paramètres au total) atteint 83,5 % de précision sur un jeu de test stratifié de 200 tâches, dépassant Kimi K2 (1 000 milliards de paramètres, architecture MoE) à 72,0 %, GPT-OSS-120B à 71,5 %, et Llama-4-Scout-17B à 69,0 %, tous évalués en zero-shot avec le même prompt. Ce résultat expose une asymétrie opérationnelle significative: un modèle de 133 millions de paramètres déployable localement surclasse des LLMs un millier de fois plus volumineux sur une tâche de routage de flotte. Pour les intégrateurs gérant des flottes mixtes (humanoïdes, quadrupèdes, drones, rovers), l'assignation automatique de la bonne plateforme à la bonne tâche reste un problème non résolu en production. Une limite mérite d'être soulignée: le jeu d'évaluation de 200 tâches synthétiques a été produit par les auteurs eux-mêmes, ce qui appelle une validation indépendante sur des scénarios réels avant de tirer des conclusions définitives. La gestion de flottes robotiques hétérogènes s'est intensifiée avec la multiplication des plateformes commerciales (Boston Dynamics Spot, Unitree B2, humanoïdes Figure ou Agility Digit, drones industriels), et les approches actuelles de routage reposent encore sur des règles manuelles peu scalables. Les auteurs s'inscrivent dans la tendance de distillation de capacités LLM vers des modèles compacts (famille SetFit, sentence-transformers), appliquée ici pour la première fois à la sélection de plateforme robotique. Ce preprint ne mentionne ni déploiement terrain ni partenariat industriel, mais l'utilisation de mpnet et MiniLM, disponibles en open-source sur Hugging Face, abaisse la barrière à une validation industrielle rapide.

RecherchePaper
1 source
COBALT : apprentissage robotique collaboratif par téléopération cloud via smartphones
676arXiv cs.RO 

COBALT : apprentissage robotique collaboratif par téléopération cloud via smartphones

Des chercheurs ont publié sur arXiv (2605.19138) COBALT, une plateforme de télé-opération robotique cloud conçue pour collecter massivement des données de démonstration via des appareils grand public, smartphones, casques VR, souris 3D ou clavier. L'infrastructure repose sur des environnements vectorisés et un équilibrage de charge permettant à plusieurs utilisateurs de téléopérer simultanément sur un seul GPU, avec une latence bout-en-bout inférieure à 100 ms et une fréquence de contrôle de 20 Hz pour jusqu'à 8 utilisateurs par GPU. La montée en charge a été validée jusqu'à 256 clients simulés répartis sur 8 GPUs. En cinq jours, et depuis neuf pays, COBALT a permis de constituer un jeu de données pilote de plus de 7 500 démonstrations, soit plus de 50 heures de manipulation enregistrées. Un système de métriques en temps réel filtre automatiquement les démonstrations de mauvaise qualité, et un curriculum de formation des opérateurs améliore significativement la qualité des données collectées. L'intérêt majeur de ce travail réside dans l'attaque frontale du goulot d'étranglement principal du robot learning par imitation : la rareté des données de haute qualité à grande échelle. Les approches comme ACT, Diffusion Policy ou Pi-0 (Physical Intelligence) ont démontré que l'apprentissage par imitation fonctionne, mais leur passage à l'échelle bute sur le coût et la logistique de la collecte. COBALT démontre que la télé-opération par smartphone est comparable, parfois supérieure, au matériel spécialisé type ALOHA ou bras haptiques, ce qui élimine une barrière d'entrée majeure. Pour les intégrateurs et les équipes R&D industrielles, cela ouvre la voie à une collecte distribuée sans infrastructure physique dédiée, potentiellement transformatrice pour le coût de développement de politiques de manipulation. Le projet s'inscrit dans une dynamique plus large de constitution de grands jeux de données robotiques ouverts, comparable à Open-X Embodiment (Google DeepMind, 2023) ou au dataset DROID (Berkeley, Stanford). Les concurrents directs incluent l'initiative AgiBot World en Chine, qui a annoncé 1 million de trajectoires collectées via des bras téléopérés dédiés, et Universal Manipulation Interface (UMI) qui mise sur des dispositifs portables. COBALT se distingue par l'accessibilité des équipements et la scalabilité cloud, mais reste à ce stade un preprint académique sans déploiement industriel annoncé. La prochaine étape crédible est la validation sur des tâches réelles de manipulation, les auteurs ayant pour l'instant publié les résultats de politiques entraînées sur ce dataset sans préciser les benchmarks atteints.

UELes équipes R&D françaises et européennes (INRIA, CEA-List, startups robot learning) pourraient exploiter COBALT pour collecter des données de démonstration à faible coût sans infrastructure physique dédiée, mais aucune institution européenne n'est impliquée dans ce projet.

IA physiqueOpinion
1 source
CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes
677arXiv cs.RO 

CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes

CEER (Compliant End-Effector and Root Control) est une abstraction de contrôle pour robots humanoïdes présentée sur arXiv en mai 2026 (arXiv:2605.19981). L'approche résout un problème d'interfaçage central: connecter des planificateurs hétérogènes (téleopération, modèles de langage, VLA) à un contrôleur corps entier sans réentraînement à chaque nouvelle tâche. La solution repose sur deux types de commandes unifiées: les poses cibles de l'effecteur terminal (end-effector) et les commandes de déplacement de la racine (root, soit le torse de l'humanoïde). Un framework enseignant-étudiant distille un contrôleur générique en une politique bas niveau consommant uniquement ces commandes EE-root. Les résultats expérimentaux, conduits en simulation et sur matériel réel, affichent une précision de suivi à 3,3 cm, une réduction substantielle du jerk mécanique par rapport aux baselines, et un taux de succès jusqu'à 70% sur des tâches de loco-manipulation d'objet unique dans un environnement à l'échelle d'une pièce. La manipulation au contact riche (contact-rich manipulation) reste le principal goulot d'étranglement des humanoïdes: saisir des objets en positions variées, pousser des pièces dans des logements, interagir avec des surfaces non structurées. CEER apporte une réponse architecturale plutôt qu'algorithmique: une couche de contrôle compliant (souple au contact, à l'inverse du contrôle rigide en position) que n'importe quel planificateur peut piloter en plug-and-play. Pour un intégrateur industriel ou un OEM, l'argument est concret: la politique bas niveau ne nécessite pas de réentraînement à chaque nouvelle application. C'est précisément la modularité qui manque aux approches bout-en-bout dominantes. La compliance réduit également les risques de dommages en cas de contact imprévu, prérequis pour tout déploiement en environnement humain. La manipulation reste le défi non résolu des humanoïdes commerciaux. Figure Robotics, Tesla (Optimus), Agility Robotics (Digit) et 1X Technologies avancent avec des pipelines souvent propriétaires, dominés par l'imitation learning et la téleopération. Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) misent sur les VLA pour généraliser la manipulation depuis des données multimodales. CEER se positionne comme une couche orthogonale: non pas un nouveau planificateur, mais un socle de contrôle interopérable avec les approches existantes. La validation sur hardware distingue ce travail des publications purement simulées, même si les 70% de succès sur tâche unique en simulation demeurent une métrique circonscrite. Les prochaines étapes naturelles incluent l'intégration avec des planificateurs LLM ou VLA et la validation sur des tâches bi-manuelles et à horizon long.

IA physiquePaper
1 source
LLMs incarnés : quand une meilleure fidélité d'observation nuit à la résolution de problèmes
678arXiv cs.RO 

LLMs incarnés : quand une meilleure fidélité d'observation nuit à la résolution de problèmes

Une équipe de chercheurs présente sur arXiv (réf. 2605.20072) une étude empirique sur le comportement des LLM incarnés en robotique. Pour sonder l'effet de la fidélité perceptuelle sur les agents cognitifs, ils ont conçu une série d'expériences autour du "Lockbox", un puzzle mécanique séquentiel aux interdépendances cachées, déployé sur un robot physique. Trois modes d'observation ont été testés : RGB brut, RGB-D (avec profondeur), et observations symboliques ground-truth (état parfaitement connu de l'environnement). Le résultat est contre-intuitif : les agents obtiennent leurs meilleures performances avec le RGB brut et leurs pires avec les observations parfaites. En simulation, les chercheurs ont consolidé ce constat en injectant du bruit artificiel, en inversant aléatoirement les résultats des actions perçues par l'agent. La performance culmine à un taux d'inversion de 40%, avec une multiplication du taux de réussite par 2,85 par rapport à la baseline sans bruit. Ce résultat interroge directement un postulat central de la robotique cognitive : l'idée qu'une perception plus précise améliore mécaniquement la prise de décision. L'analyse des trajectoires d'actions révèle que le gain provient d'une réduction des boucles répétitives : un agent qui perçoit l'état du monde avec précision peut se bloquer dans un raisonnement circulaire, faute de signal lui indiquant de changer de stratégie. Un bruit perceptuel modéré brise ces boucles en forçant l'agent à reconsidérer ses hypothèses. Cette observation soulève une question sérieuse pour les pipelines VLA (Vision-Language-Action) actuels, où la précision des capteurs et la richesse des représentations symboliques sont présentées comme des leviers d'amélioration inconditionnels. Les auteurs tirent une conclusion méthodologique forte : les taux de réussite seuls sont insuffisants pour évaluer les LLM dans des tâches incarnées, car une performance mesurée peut refléter une interaction fortuite entre erreurs perceptuelles et défauts de raisonnement, plutôt qu'une résolution robuste. Cette mise en garde arrive à un moment où Figure, 1X, Agility Robotics et Boston Dynamics intègrent des LLM comme planificateurs de haut niveau dans leurs humanoïdes, souvent évalués sur des benchmarks de tâches simples en environnement contrôlé. L'approche "empirical AI" adoptée ici, qui consiste à varier systématiquement les entrées et mesurer les effets comportementaux, offre un cadre d'évaluation plus rigoureux que les métriques agrégées habituelles.

RecherchePaper
1 source
Gouverneur de référence explicite pour manipulateurs robotiques souples et adaptés au contact
679arXiv cs.RO 

Gouverneur de référence explicite pour manipulateurs robotiques souples et adaptés au contact

Des chercheurs présentent dans un preprint arXiv (2504.09188v2) le Compliant Explicit Reference Governor (CERG), un module logiciel intercalé entre le planificateur de haut niveau et le contrôleur bas niveau d'un bras robotique. Son rôle est de filtrer les références de position et de vitesse pour garantir, formellement, que l'énergie disponible lors d'un contact physique reste sous un seuil de sécurité prédéfini. Le système a été validé en simulation et sur hardware réel, sur des manipulateurs de complexité croissante, bien que le preprint ne précise pas les degrés de liberté (DOF) ni les charges utiles (payload) testés. Ce qui distingue le CERG des approches classiques de contrôle en impédance ou en force, c'est son caractère non pénalisant hors contact : le module ne restreint les performances du bras que lorsqu'un contact est imminent ou actif, laissant la dynamique nominale intacte en mouvement libre. Les garanties sont formelles, pas seulement empiriques, ce qui représente un argument fort pour les intégrateurs de cobots soumis aux exigences de certification ISO/TS 15066. Cela répond directement à un angle mort du secteur : la plupart des systèmes actuels sacrifient vitesse ou précision de façon permanente pour rester sous les seuils de force réglementaires. Le gouverneur de référence est une technique établie en automatique, ici adaptée au cas contact en robotique de manipulation. Le positionnement se fait face aux approches d'impédance variable (travaux de De Luca, Albu-Schäffer) et aux méthodes d'apprentissage par renforcement pour la manipulation en contact. Aucun partenaire industriel ni timeline de transfert n'est mentionné dans le preprint, ce qui situe le CERG au stade de la recherche fondamentale, sans déploiement annoncé.

UELes garanties formelles de conformité ISO/TS 15066 intéressent directement les intégrateurs de cobots européens, mais le CERG reste au stade du preprint sans partenaire industriel ni transfert technologique annoncé.

RecherchePaper
1 source
TaskGround : inférence de tâches exécutables structurées pour le raisonnement domestique global
680arXiv cs.RO 

TaskGround : inférence de tâches exécutables structurées pour le raisonnement domestique global

Une équipe de chercheurs publie TaskGround, un cadre de planification de tâches ménagères pour agents robotiques, dans un preprint arXiv daté de mai 2026 (arXiv:2605.18109). Le problème visé : dans un déploiement domestique réel, un agent reçoit une requête contextuelle ("prépare le petit-déjeuner") face à une scène complète comprenant des centaines d'objets non pertinents à la tâche. TaskGround adopte une architecture "Ground-Infer-Execute" en trois étapes, filtrage de la scène vers une tranche compacte d'entités pertinentes, inférence de la structure de tâche exécutable, puis compilation en séquence d'actions au niveau compétence. Le cadre est sans entraînement (training-free) et agnostique au modèle de langage sous-jacent. Pour l'évaluation, les auteurs introduisent FullHome, une suite de 400 tâches ménagères validées humainement, couvrant des environnements domestiques variés et deux types de contraintes : orientées objectif et orientées processus. Les résultats montrent que TaskGround améliore substantiellement les taux de succès sur FullHome, aussi bien pour les modèles propriétaires qu'open-weight. Le point saillant : le modèle Qwen3.5-9B couplé à TaskGround devient compétitif avec GPT-5 en prompting direct complet, tout en réduisant le coût total en tokens d'entrée jusqu'à 18 fois. Pour les intégrateurs et équipes robotiques opérant sous contraintes de calcul local ou de confidentialité des données, c'est un signal concret : la sophistication du raisonnement n'exige pas nécessairement des modèles propriétaires massifs. Les auteurs identifient l'inférence de structure de tâche exécutable comme le goulot d'étranglement central du raisonnement en scène complète, davantage que la qualité intrinsèque du modèle de base. Ce travail s'inscrit dans un axe de recherche actif autour des agents de planification pour la robotique domestique, qui cherche à combler l'écart entre démonstration en laboratoire et déploiement réel. Les approches concurrentes incluent les VLA (Vision-Language-Action models) de Physical Intelligence (pi0), les pipelines de planification hiérarchique utilisés par Figure ou 1X, ainsi que les travaux SayCan de Google DeepMind. TaskGround se distingue en n'exigeant aucun fine-tuning supplémentaire, ce qui facilite l'intégration à des stacks existantes. Le preprint reste pour l'instant confiné à l'évaluation sur benchmarks textuels et simulation ; une validation sur plateformes hardware réelles constituerait la prochaine étape naturelle, non encore annoncée.

RecherchePaper
1 source
DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles
681arXiv cs.RO 

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles

DexWild est un framework de collecte de données et d'apprentissage pour la manipulation robotique dextère, publié en mai 2025 sur arXiv (2505.07813). L'idée centrale consiste à remplacer la téléopération coûteuse par la capture directe de gestes humains dans des environnements du quotidien. Une équipe diverse de collecteurs utilise le DexWild-System, un dispositif portable et peu onéreux, pour enregistrer des heures d'interactions avec des objets variés dans de multiples contextes réels. Le framework co-entraîne ensuite un modèle sur ces démonstrations humaines combinées à un volume minimal de données robot spécifiques. Les résultats mesurés atteignent 68,5 % de taux de succès dans des environnements non vus à l'entraînement, soit près de quatre fois mieux qu'une politique entraînée sur données robot seules, et une généralisation cross-embodiment (transfert vers d'autres morphologies robotiques) améliorée d'un facteur 5,8. Le goulot d'étranglement des données est un problème structurel pour la manipulation dextère. La téléopération reste la méthode dominante pour produire des datasets de haute qualité, notamment chez Physical Intelligence avec pi-0 ou chez Figure pour ses robots humanoïdes, mais son coût freine la diversité de distribution couverte. DexWild propose un paradigme alternatif : laisser des humains collecter nativement des données gestuelles en vie réelle, puis transférer ces politiques vers des robots via co-training. Si ces performances se confirment hors laboratoire, cette approche pourrait réduire significativement le coût d'acquisition de données pour les intégrateurs industriels, en particulier sur des tâches de pick-and-place complexes. Il convient de noter que le papier est un preprint non encore peer-reviewed et que les vidéos de démonstration sont sélectionnées, deux points qui invitent à la prudence sur la reproductibilité réelle. Ce travail s'inscrit dans la tendance du scaling de datasets robotiques, aux côtés d'Open-X Embodiment et DROID. Sur la problématique du transfert human-to-robot, les approches concurrentes directes incluent UMI (Universal Manipulation Interface, Stanford/Columbia), qui utilise une gripper portable pour capturer des démonstrations dans des environnements non structurés, et les travaux de l'équipe de Sergey Levine à UC Berkeley sur l'apprentissage depuis des vidéos humaines. DexWild se distingue par la diversité explicite de ses collecteurs et la structure de co-training formalisée. Le code et les datasets sont accessibles sur dexwild.github.io ; aucun déploiement industriel ni timeline commerciale n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Je ne suis pas en colère, juste concentré : comprendre les émotions humaines dans la collaboration humain-robot
682arXiv cs.RO 

Je ne suis pas en colère, juste concentré : comprendre les émotions humaines dans la collaboration humain-robot

Une équipe de chercheurs a publié fin mai 2026 un préprint arXiv (2605.16816) décrivant un système de reconnaissance des émotions fondé sur un modèle de langage visuel (VLM) pour améliorer la collaboration humain-robot (HRC). Contrairement aux systèmes classiques, qui s'appuient sur des datasets d'émotions jouées et des entrées unimodales comme les expressions faciales, le système proposé exploite la compréhension contextuelle de la scène pour inférer l'état émotionnel de l'opérateur. L'évaluation a suivi deux axes : une comparaison avec des annotations humaines sur un dataset HRC existant, mesurant la similarité sémantique et l'alignement de sentiment, puis une étude utilisateur impliquant un robot de service dans une tâche de livraison collaborative. Le système VLM-ER a surpassé la référence CNN sur ces deux métriques, et les participants ont explicitement préféré le comportement adaptatif du robot piloté par l'inférence émotionnelle. Pour les intégrateurs et les équipes produit déployant des robots de service ou des cobots en environnement humain, le résultat valide une hypothèse clé : un VLM peut dépasser la simple lecture faciale en intégrant la posture, la dynamique de la tâche et le contexte visuel global pour produire une inférence émotionnelle plus proche du jugement humain. Le titre du papier résume le problème concret visé, la confusion systématique entre "en colère" et "concentré", une erreur de classification qui, en robotique industrielle ou de service, génère des interruptions non pertinentes et dégrade la fluidité de la collaboration. La démonstration que ce comportement adaptatif est préféré par les utilisateurs constitue un argument B2B tangible pour les décideurs qui doutent du retour sur investissement de ces fonctionnalités. La reconnaissance des émotions en HRC souffrait jusqu'ici d'un écart important entre laboratoire et terrain, en partie parce que les datasets d'entraînement reposent sur des acteurs et non sur des émotions spontanées. L'intégration de VLMs pré-entraînés à grande échelle représente un saut qualitatif en termes de généralisation par rapport aux architectures CNN ou aux approches multimodales audio-geste traditionnelles. Des travaux similaires émergent autour de modèles comme GPT-4o ou LLaVA appliqués à la robotique sociale, tandis que des startups françaises comme Enchanted Tools, dont le robot Miro cible précisément l'interaction sociale naturelle, s'inscrivent dans cette même dynamique. La prochaine étape critique pour cette équipe sera de valider le système sur des données spontanées hors laboratoire et des populations diversifiées, condition indispensable avant tout déploiement industriel à l'échelle.

UELes startups françaises comme Enchanted Tools, dont le robot Miro cible l'interaction sociale naturelle, pourraient s'appuyer sur ces avancées en inférence émotionnelle contextuelle pour renforcer leur différenciation sur le marché européen des robots de service.

RecherchePaper
1 source
REBAR : un référentiel éthique de référence pour l'évaluation de l'autonomie
683arXiv cs.RO 

REBAR : un référentiel éthique de référence pour l'évaluation de l'autonomie

REBAR (Reference Ethical Benchmark for Autonomy Readiness) est un cadre d'évaluation quantitative publié en préprint arXiv (2605.18423, mai 2026) pour mesurer la conformité éthique et légale des systèmes autonomes. Le framework génère un score appelé Autonomy Readiness Level (ARL), calculé à partir de métriques opérationnelles testées dans un simulateur photoréaliste. Trois innovations techniques distinguent l'approche : une méthode neuro-symbolique combinant LLM et raisonnement formel pour quantifier la difficulté éthique des scénarios de test, une génération automatisée à grande échelle de cas de test pilotée par LLM, et un environnement de simulation versatile et photoréaliste. Le cadre cible les solutions dites "boîte blanche" (white-box), dont l'architecture interne est accessible aux évaluateurs, ce qui en limite d'emblée le périmètre d'application. L'enjeu central est la traçabilité et la responsabilité. Les frameworks éthiques actuels pour l'IA embarquée restent majoritairement qualitatifs : ils imposent des garde-fous qui bloquent les comportements dangereux sans fournir d'explication interprétable ni d'option de dérogation pour l'opérateur. REBAR propose une alternative mesurable via des scores reproductibles, permettant à un intégrateur ou un décideur B2B de déterminer si un système autonome est réellement adapté à une mission donnée. Pour les industriels déployant des véhicules autonomes, des drones ou des robots en environnement non structuré, disposer d'une preuve quantifiée de conformité éthique devient un argument commercial et réglementaire de premier ordre. La demande de tels outils s'est intensifiée avec la montée en puissance des VLA (Vision-Language-Action models) et des agents autonomes déployés en conditions réelles. Les approches actuelles de red teaming ciblé, pratiquées chez Anthropic, OpenAI ou DeepMind, montrent les limites du qualitatif à l'échelle industrielle. REBAR occupe un espace encore peu formalisé : celui des benchmarks standardisés et auditables pour l'autonomie éthique. En Europe, ce type de cadre s'aligne directement avec les exigences de l'AI Act sur les systèmes à haut risque, qui imposent documentation rigoureuse et évaluation continue. Le préprint ne mentionne ni partenariat industriel ni déploiement en cours, mais la méthodologie posée ici pourrait servir de socle à des standards sectoriels pour la certification de robots industriels et de véhicules autonomes en milieu ouvert.

UEREBAR s'aligne directement sur les exigences de l'AI Act pour les systèmes à haut risque, et pourrait servir de socle à des standards de certification pour robots industriels et véhicules autonomes en milieu ouvert en Europe.

RegulationReglementation
1 source
SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation
684arXiv cs.RO 

SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation

Des chercheurs ont publié sur arXiv (référence 2605.16871) SADP, pour Subgoal-Aware Diffusion Policy, un framework d'apprentissage par imitation conçu pour rendre les robots manipulateurs explicables en cours d'exécution. L'approche repose sur deux mécanismes combinés : l'utilisation de modèles de fondation pour générer automatiquement des démonstrations annotées en sous-objectifs intermédiaires, et l'entraînement d'une politique de diffusion conditionnée simultanément sur la description de la tâche globale et sur chaque sous-objectif. Une tête auxiliaire légère prédit en temps réel l'état de complétion de chaque sous-étape, exposant ainsi la progression interne du robot à un opérateur humain. Les expériences couvrent des simulations dans l'environnement de référence RLBench et une validation en conditions réelles sur un bras UR5e d'Universal Robots. Les résultats affichent des taux de succès supérieurs aux baselines de type diffusion conditionnée uniquement par la tâche, sans sacrifier les performances globales. L'apport principal n'est pas l'explicabilité en soi, déjà abordée par des approches post-hoc, mais son intégration native dans la politique d'action. Pour un intégrateur ou un responsable industriel, cela change l'équation opérationnelle : il devient possible de monitorer l'avancement d'une manipulation longue-distance, de localiser précisément le sous-objectif en échec, et de réduire les temps de diagnostic en production. Le recours aux modèles de fondation pour annoter automatiquement les démonstrations contourne par ailleurs la pénurie chronique de supervision au niveau des sous-tâches dans les datasets robotiques standards, un goulot d'étranglement pratique bien identifié. La coexistence d'interprétabilité et de haute performance remet en question l'hypothèse d'un arbitrage inévitable entre les deux. Les diffusion policies sont devenues un paradigme dominant pour la manipulation dextère depuis les travaux de Chi et al. en 2023, mais leur opacité décisionnelle reste une critique persistante dans les contextes déploiement industriel. Les modèles VLA comme pi-0 (Physical Intelligence), OpenVLA ou les RT-séries de Google DeepMind exploitent les connaissances des modèles de fondation sans pour autant structurer explicitement la progression par sous-objectifs. SADP se positionne à l'intersection des politiques de diffusion et de la décomposition hiérarchique de tâches, dans un espace concurrentiel qui inclut également des approches comme SayCan ou Code-as-Policies. L'utilisation d'un UR5e, cobot industriel standard très répandu, renforce la crédibilité des résultats en conditions réelles. Les suites naturelles incluront probablement la mise à l'échelle vers des tâches plus complexes et des tests en environnements industriels réels.

UEL'utilisation du UR5e d'Universal Robots (fabricant danois, UE) comme plateforme de validation réelle renforce la pertinence industrielle pour les intégrateurs européens, et l'explicabilité native des politiques de diffusion répond directement aux exigences de transparence algorithmique de l'AI Act.

💬 L'explicabilité en robotique, c'est souvent du post-hoc rajouté en bout de chaîne, une couche de justification qui n'influence rien sur l'exécution réelle. Là, c'est intégré dans la politique elle-même, avec une tête auxiliaire qui prédit en temps réel où en est le robot dans la séquence, ce qui change vraiment le diagnostic quand une manipulation foire en production. Et valider ça sur un UR5e plutôt que sur un bras de labo maison, au moment où l'AI Act va forcer les industriels à justifier leurs systèmes, c'est pas anodin.

IA physiquePaper
1 source
cuNRTO : optimisation de trajectoires robustes non linéaires accélérée par GPU
685arXiv cs.RO 

cuNRTO : optimisation de trajectoires robustes non linéaires accélérée par GPU

Des chercheurs ont mis en ligne sur arXiv (réf. 2603.02642v2) cuNRTO (CUDA Nonlinear Robust Trajectory Optimization), un framework GPU pour l'optimisation de trajectoire robuste sous incertitude bornée. Ces problèmes mènent typiquement à des contraintes de programmation conique du second ordre (SOCP), dont la résolution est très coûteuse sur CPU. Les auteurs proposent deux architectures : NRTO-DR, basée sur le splitting de Douglas-Rachford pour paralléliser les projections SOCP et les résolutions directes creuses, et NRTO-FullADMM, une variante inédite exploitant l'ADMM (Alternating Direction Method of Multipliers) pour améliorer la scalabilité en tirant parti de la structure du problème. L'implémentation repose sur des kernels CUDA personnalisés pour les projections SOC et des chaînes cuBLAS GEMM pour les mises à jour des gains de retour d'état. Testées en simulation sur un modèle unicycle, un quadrirotor et le bras manipulateur Franka Emika, les deux architectures atteignent des accélérations allant jusqu'à 139,6x par rapport aux solveurs CPU de référence. L'enjeu est concret pour les équipes robotique et les intégrateurs : l'optimisation de trajectoire robuste en temps réel reste aujourd'hui hors de portée des architectures CPU pour la plupart des applications embarquées, les solveurs classiques étant cantonnés à une planification hors ligne ou à très basse fréquence. Un gain de 139,6x ouvre la voie à une réplanification en boucle fermée sur des manipulateurs industriels et des drones opérant sous incertitudes réelles (charges variables, perturbations mécaniques). Nuance importante : l'ensemble des benchmarks est produit en simulation. Le gap sim-to-real sur GPU embarqués, où la latence mémoire et la bande passante sont significativement plus contraintes que sur un serveur de calcul, reste entièrement à valider avant tout déploiement opérationnel. Ce travail s'inscrit dans la continuité des efforts d'accélération GPU pour le contrôle optimal, dont cuRobo (NVIDIA) et les variantes GPU de l'MPPI sont les exemples les plus connus. L'optimisation robuste avec contraintes SOCP reste un angle peu couvert par ces frameworks, les formulations quadratiques classiques étant structurellement plus simples à paralléliser. Le papier est un preprint arXiv en version v2, pas encore évalué par une conférence de référence comme ICRA, IROS ou RSS. Le code sera rendu public via cunrto.github.io, ce qui permettra des comparaisons indépendantes. La prochaine étape logique serait une validation hardware sur GPU embarqués de type NVIDIA Jetson Orin, représentatifs du déploiement cible en robotique autonome.

RecherchePaper
1 source
Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions
686arXiv cs.RO 

Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions

Des chercheurs ont publié sur arXiv (réf. 2602.08167, version 2) la méthode R&B-EnCoRe, conçue pour améliorer le raisonnement des modèles Vision-Language-Action (VLA) en robotique sans annotation humaine ni récompense externe. Sur des tâches de manipulation avec bras Franka Panda en simulation et WidowX sur matériel réel, et de navigation sur quatre types de plateformes (bipèdes, wheeled, vélo et quadrupède), la méthode affiche 28 % de gain sur le taux de succès en manipulation, 101 % d'amélioration sur les scores de navigation, et 21 % de réduction du taux de collision par rapport aux baselines VLA traitant indistinctement tous les primitives de raisonnement disponibles. Les tests couvrent des architectures de 1B à 30B paramètres et incluent un volet conduite autonome ; aucun déploiement industriel ni partenaire commercial n'est mentionné, il s'agit d'une contribution de recherche fondamentale. Le problème ciblé est structurel dans le domaine VLA : les approches actuelles de raisonnement "chain-of-thought" incarné (Embodied CoT) imposent des templates rigides qui listent objets visibles, plans de haut niveau et affordances de scène, quelle que soit leur pertinence pour l'action à exécuter. Ce bruit informationnel nuit à la prédiction d'action et fragilise la politique de contrôle. R&B-EnCoRe modélise le raisonnement comme une variable latente dans un cadre d'inférence variationnelle pondérée par importance, permettant au modèle de générer et distiller automatiquement des raisonnements filtrés par leur capacité à prédire une action réussie. Ce mécanisme améliore le transfert des connaissances internet vers l'exécution physique réelle, problème central du "grounding" en robotique incarnée. Les VLA à raisonnement incarné forment un sous-domaine actif depuis les travaux π0 de Physical Intelligence, OpenVLA d'UC Berkeley et RT-2 de Google DeepMind. R&B-EnCoRe se positionne comme un raffinement post-entraînement applicable à des architectures existantes plutôt que comme un nouveau modèle de fondation. La validation sur cinq catégories d'embodiments distincts est plus large que la majorité des contributions VLA, qui restent limitées à la manipulation. Aucune suite commerciale n'est annoncée, mais l'approche est directement compatible avec des plateformes comme Unitree, Boston Dynamics Spot ou Franka Production 3, ainsi qu'avec les benchmarks standardisés LIBERO et BRS.

IA physiqueOpinion
1 source
Apprentissage de la continuation native pour les politiques de flux par découpage d'actions
687arXiv cs.RO 

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

Des chercheurs ont publié sur arXiv (arXiv:2602.12978v2) une méthode d'entraînement baptisée Legato, conçue pour éliminer un problème structurel des politiques robotiques de type VLA (Vision Language Action) : les discontinuités aux jonctions de blocs d'actions prédits. Les modèles VLA actuels découpent leurs séquences en "chunks" pour s'exécuter en temps réel, mais ce découpage provoque des à-coups mécaniques quand le robot transite d'un bloc au suivant. La solution dominante jusqu'ici, le Real-Time Chunking (RTC), traite ce problème en aval, hors du modèle, en lissant post-hoc les transitions. Legato prend le chemin inverse : il intègre la continuité directement dans la phase d'entraînement, en initialisant le débruitage (denoising) à partir d'un mélange pondéré d'actions déjà connues et de bruit, selon un calendrier (schedule) appris. La méthode restructure également la dynamique de flux pour garantir la cohérence entre entraînement et inférence, et utilise des conditions de schedule aléatoires pour s'adapter à des délais variables. Sur cinq tâches de manipulation en conditions réelles, Legato surpasse RTC avec environ 10 % de gain sur la fluidité de trajectoire et le temps de complétion de tâche. Ce chiffre de 10 % mérite d'être mis en contexte : il est mesuré en conditions réelles, non en simulation, ce qui lui confère un poids pratique que les benchmarks purement virtuels ne peuvent pas revendiquer. Le problème de fond que Legato résout, le "spurious multimodal switching", soit le comportement hésitant du robot coincé entre plusieurs configurations valides à chaque frontière de chunk, est un verrou concret pour les déploiements industriels. Le RTC, en tant que couche externe, introduit précisément ces changements de mode intempestifs parce qu'il ne connaît pas l'intention du modèle. En internalisant la régularité dans l'entraînement, Legato produit des trajectoires dont le comportement à l'inférence est cohérent avec ce qui a été appris, ce qui simplifie la validation en production. Pour les intégrateurs qui cherchent à fiabiliser des cellules de manipulation, la prévisibilité du mouvement est souvent aussi critique que sa vitesse. L'action chunking a été popularisé par ACT (Action Chunked Transformer, Stanford/UC Berkeley, 2023) et repris dans des architectures flow-based comme pi0 de Physical Intelligence. La prolifération des VLA en manipulation, portée par Physical Intelligence, Google DeepMind (RT-2), 1X Technologies, et des laboratoires académiques, a rendu ce problème de frontière de chunk de plus en plus visible hors simulation. Legato s'inscrit dans un courant actif visant à réconcilier la génération par blocs, nécessaire pour la latence temps réel, avec la continuité motrice, nécessaire pour la précision. La méthode (version v2, 2025) n'est pas encore associée à un déploiement industriel annoncé, mais ses résultats sur hardware réel en font un candidat crédible à l'intégration dans les pipelines de fine-tuning VLA existants. Les suites naturelles incluent des tests sur architectures diffusion plus larges et une évaluation sur des plateformes bi-manuelles.

IA physiqueOpinion
1 source
OpenFrontier : navigation générale guidée par des frontières vision-langage
688arXiv cs.RO 

OpenFrontier : navigation générale guidée par des frontières vision-langage

Des chercheurs ont publié sur arXiv (identifiant 2503.05377) OpenFrontier, un cadre de navigation robotique en monde ouvert conçu pour fonctionner sans entraînement ni fine-tuning spécifique à la tâche. Le principe central : reformuler la navigation comme une succession d'identifications et d'atteintes de sous-objectifs éparses, en sélectionnant des "frontières visuelles" comme ancres sémantiques. Ces frontières, zones situées à la limite du champ perceptif du robot, servent de relais entre les instructions en langage naturel et les décisions de déplacement. OpenFrontier s'intègre à des modèles vision-langage (VLN) et vision-langage-action (VLA) existants sans reconstruction 3D dense de l'environnement ni collecte de données à grande échelle. Les auteurs rapportent des performances zero-shot sur plusieurs benchmarks de navigation standardisés et un déploiement expérimental sur un robot mobile réel. Ce résultat est notable parce que les approches end-to-end conditionnées sur le langage naturel exigent habituellement soit un entraînement interactif, soit des milliers de trajectoires annotées, soit une adaptation au robot cible. OpenFrontier contourne ces verrous en exploitant les frontières visuelles comme points d'ancrage pour les priors sémantiques du modèle, réduisant la charge computationnelle (pas de carte 3D sémantique dense) et le besoin en données d'entraînement. Pour un intégrateur de robots mobiles autonomes (AMR) ou un décideur industriel, cela ouvre la perspective de déploiements en environnement non structuré sans cycle de fine-tuning propre à chaque site. La performance zero-shot annoncée reste cependant à confronter à des conditions opérationnelles réelles : les benchmarks utilisés sont des environnements de laboratoire contrôlés, non des entrepôts ou espaces publics. OpenFrontier s'inscrit dans une dynamique de recherche qui cherche à transférer les capacités des grands modèles vision-langage vers la navigation mobile sans les contraintes classiques de l'apprentissage par renforcement. Des approches concurrentes comme SayNav, VLMaps ou les politiques VLA de Physical Intelligence (pi0) requièrent soit des environnements annotés, soit des datasets de démonstrations humaines, soit les deux. La méthode des frontières visuelles comme ancres sémantiques est plus légère, mais reste contrainte aux scénarios où la limite perceptive du robot capture les objectifs sémantiques pertinents. En l'état, OpenFrontier est un preprint académique et non un produit commercialisé : les validations en monde réel décrites correspondent à des tests expérimentaux contrôlés, pas à un déploiement industriel à l'échelle.

💬 L'idée de traiter les bords du champ de vision comme des ancres sémantiques au lieu de construire une carte 3D complète, c'est simple et ça coupe court à des années de galère en intégration terrain. Zéro fine-tuning par site, zéro dataset de trajectoires annotées, pour un déployeur d'AMR c'est exactement ce qu'on attendait. Reste que c'est un preprint testé en labo, et qu'un entrepôt avec des chariots élévateurs c'est une autre planète.

IA physiqueOpinion
1 source
Approximation du MPC global à contact implicite par échantillonnage et complémentarité locale
689arXiv cs.RO 

Approximation du MPC global à contact implicite par échantillonnage et complémentarité locale

Des chercheurs ont publié sur arXiv (réf. 2505.13350, mai 2025) un algorithme de contrôle en temps réel pour la manipulation dextère robotique. Démontré sur un bras Franka Panda, il cible la manipulation non-préhensile d'objets à géométrie non convexe, c'est-à-dire par poussée ou glissement sans saisie ferme. Le coeur de l'approche est une décomposition de chaque cycle de contrôle en deux phases exécutées en parallèle : une phase sans contact qui explore globalement des positions candidates de l'effecteur final par échantillonnage basse dimension, suivie d'une phase riche en contacts qui évalue le coût de chaque position candidate via un MPC (Model Predictive Control) implicite en contact local. La sélection de la meilleure position candidate oriente ensuite la commande du robot, combinant exploration globale et optimisation locale en un seul pipeline temps réel. Ce travail s'attaque à une limite fondamentale des contrôleurs MPC implicites en contact existants : confinés à un voisinage local de l'état courant, ils échouent dès que la manipulation requiert d'atteindre une configuration de contact éloignée, nécessitant souvent une intervention extérieure. L'idée d'une phase de scouting sans contact, légère en calcul et parallélisée, contourne ce problème sans recourir à un planificateur global coûteux hors-ligne. Pour les intégrateurs industriels travaillant sur la manipulation de pièces irrégulières en ligne d'assemblage, c'est une piste sérieuse pour réduire le besoin d'intervention humaine sur des configurations non triviales. L'approche contraste aussi avec les méthodes d'apprentissage (diffusion policies, VLA) qui contournent la modélisation physique : elle reste interprétable et moins dépendante des données, ce qui compte en contexte industriel ou certifiable. Le MPC implicite en contact s'est structuré ces cinq dernières années autour de travaux de MIT, CMU et ETH Zurich sur les formulations par complémentarité (LCP, SOCP), dont ce papier constitue une extension directe. Le Franka Panda reste le bras de référence académique dans ce domaine. Les concurrents directs de l'approche incluent les méthodes tout-échantillonnage comme MPPI ou CEM (efficaces sur la cinématique, fragiles sur les contacts rigides) et les politiques génératives comme pi-zero (Physical Intelligence) ou GR00T N2 (NVIDIA), qui généralisent davantage mais exigent des volumes de données considérables. La page projet associée présente les démonstrations expérimentales en laboratoire, mais aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

RechercheActu
1 source
STABLE : génération d'agencements de table prêts à la simulation via un système dual sémantique-physique
690arXiv cs.RO 

STABLE : génération d'agencements de table prêts à la simulation via un système dual sémantique-physique

Une équipe de chercheurs a publié STABLE (arXiv:2605.16137), un système de génération automatique de scènes de table prêtes à la simulation à partir d'instructions textuelles. Le système repose sur une architecture duale composée de deux modules complémentaires : un Semantic Reasoner, un LLM fine-tuné sur un dataset structuré de scènes de table qui produit des dispositions d'objets grossières depuis les consignes de tâche, et un Physics Corrector, un modèle de débruitage basé sur les flux physiques qui calcule des mises à jour de pose pour corriger les arrangements invalides. Les deux modules s'alternent selon un paradigme de génération progressive, en étendant la scène des objets critiques pour la tâche vers les objets d'arrière-plan. Les expériences montrent que STABLE génère des scènes conformes aux instructions tout en améliorant significativement la validité physique par rapport aux méthodes existantes. Le problème ciblé est concret et documenté : lorsqu'on confie la génération de layouts 3D à des LLMs seuls, les objets se retrouvent fréquemment en collision ou en suspension, rendant les scènes inutilisables pour l'entraînement robotique. Pour les équipes travaillant sur des pipelines sim-to-real en manipulation de table, cette limite impose un post-traitement manuel coûteux. L'apport de STABLE est de séparer le raisonnement sémantique (ce qui doit être présent et où, logiquement) du raisonnement physique (comment corriger les positions pour que la scène soit simulable), plutôt que de charger un seul modèle des deux. C'est une réponse directe au sim-to-real gap dans la phase de génération de données, un verrou bien identifié dans la communauté Embodied AI. Cette publication s'inscrit dans une tendance plus large autour de la génération automatique d'environnements de simulation pour l'apprentissage robot, où des approches comme LayoutGPT avaient déjà montré que les LLMs raisonnent mal en coordonnées spatiales. STABLE ne revendique pas de déploiement industriel : c'est une contribution de recherche, avec des résultats expérimentaux sur benchmarks mais sans pipeline productionisé ni timeline commerciale annoncée. Les prochaines étapes naturelles seraient l'extension au-delà des surfaces planes et l'intégration dans des frameworks de génération de données pour la manipulation, comme ceux utilisés par les équipes travaillant sur des modèles VLA (Vision-Language-Action).

RecherchePaper
1 source
Détection des événements d'attaque du talon et de décollage des orteils par méthodes cinématiques et modèles LSTM
691arXiv cs.RO 

Détection des événements d'attaque du talon et de décollage des orteils par méthodes cinématiques et modèles LSTM

Une étude publiée en prépublication sur arXiv (réf. 2503.00794) a évalué sept méthodes cinématiques et un modèle LSTM (Long Short-Term Memory) pour la détection automatique des événements de marche, à savoir le contact du talon (heel strike) et le décollage de l'orteil (toe-off), sur un corpus de 4 363 cycles de marche issus de 588 sujets valides. Parmi les approches cinématiques testées, la méthode de Zeni et al. obtient les meilleures performances en précision, tandis que plusieurs autres présentent des biais systématiques ou requièrent un ajustement paramétrique spécifique au jeu de données. Le modèle LSTM, entraîné de manière supervisée sur ces mêmes données, atteint un niveau de performance comparable à Zeni et al. sans ces biais, s'imposant comme une alternative data-driven sans recalibrage manuel. Ces résultats ont des implications directes pour le contrôle d'exosquelettes, où la détection précise des phases de stance (appui) et de swing (oscillation) conditionne la qualité de l'assistance motrice. Un algorithme de détection biaisé ou mal calibré peut introduire des erreurs de synchronisation dans la commande de l'actionneur, dégradant le confort et la sécurité du porteur. Le fait que le LSTM rivalise avec la meilleure méthode cinématique sans nécessiter d'ajustement selon la morphologie du sujet ou le type de capteur suggère que les approches deep learning offrent une robustesse supérieure pour des déploiements ambulatoires hors laboratoire. La détection des événements de marche est un problème central en biomécanique clinique depuis plusieurs décennies, traditionnellement résolu par des semelles de force (force plates) ou des capteurs de pression plantaire, matériel coûteux et peu portable. Les méthodes cinématiques basées sur des unités inertielles (IMU) ont émergé comme alternative ambulatoire, mais restent sensibles aux artefacts de mouvement et aux profils atypiques. Des acteurs comme Wandercraft (exosquelette Atalante, Paris) ou ReWalk intègrent ce type de détection dans leurs boucles de contrôle en temps réel. Les auteurs annoncent comme prochaine étape la validation sur des populations pathologiques, notamment les sujets post-AVC et les patients souffrant d'arthrose du genou, populations dont les profils cinématiques s'écartent significativement des normes d'entraînement du modèle actuel, et où la généralisation des méthodes reste à démontrer.

UELes méthodes LSTM sans recalibrage présentées pourraient renforcer la robustesse du contrôle en temps réel de l'exosquelette Atalante de Wandercraft (Paris), acteur français explicitement cité comme intégrateur de ce type de détection dans ses boucles de commande.

ExosquelettesPaper
1 source
Permettre aux robots de ressentir le toucher : alignement cortical visuo-tactile pour la résonance miroir incarnée
692arXiv cs.RO 

Permettre aux robots de ressentir le toucher : alignement cortical visuo-tactile pour la résonance miroir incarnée

Une équipe de chercheurs a publié en mai 2025 sur arXiv (preprint 2605.14571) un travail présentant Mirror Touch Net, une architecture neuronale permettant à une main robotique de prédire des signaux tactiles à partir d'images RGB seules. Le système couvre 1 140 taxels répartis sur la main du robot, avec une résolution de l'ordre du millimètre. L'approche impose un alignement sémantique, distributionnel et géométrique entre représentations visuelles et tactiles via des contraintes multi-niveaux, de façon à rendre la géométrie de l'espace visuel cohérente avec celle du manifold tactile. L'extension du cadre à des observations de mains humaines permet également de déclencher des réponses réflexes lorsque le robot "voit" une main humaine touchée. Le code source est disponible sur GitHub. La valeur technique de ce travail réside dans la transposition d'un principe neuroscientifique, le "mirror touch", cette sensation tactile que l'on éprouve en observant quelqu'un d'autre être touché, en un mécanisme calculable. Pour les intégrateurs et les équipes travaillant sur la manipulation dextre, cela ouvre la voie à une perception tactile anticipatoire : le robot n'attendrait plus le contact physique pour ajuster sa prise, mais prédirait la sensation à partir du flux visuel. L'analyse par manifolds, qui démontre que les contraintes d'alignement simplifient effectivement le mapping cross-modal, constitue un résultat explicable, ce qui est notable dans un domaine où les architectures restent souvent des boîtes noires. Il convient cependant de noter qu'il s'agit d'un preprint non encore évalué par les pairs, et que les performances annoncées restent à reproduire hors des conditions de laboratoire. Ce travail s'inscrit dans un courant actif autour de la perception tactile pour la robotique dextre, où plusieurs groupes tentent de réduire la dépendance aux capteurs de force coûteux et fragiles. Des approches concurrentes incluent les travaux de Meta FAIR sur les capteurs à base de gel (DIGIT), les recherches de MIT CSAIL sur la reconstruction 3D par vision tactile, ou encore les travaux d'Uppsala et ETH Zurich sur la sim-to-real tactile. Mirror Touch Net se distingue par son ancrage neuroscientifique explicite et son extension aux mains humaines, potentiellement utile pour les environnements collaboratifs. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation réelles et une intégration dans des architectures Vision-Language-Action (VLA) de type diffusion policy ou pi-0.

RecherchePaper
1 source
AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique
693arXiv cs.RO 

AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique

Une équipe de chercheurs propose AttenA+, un framework d'entraînement pour modèles de fondation robotiques publié sur arXiv (2605.13548) en mai 2026. Le constat de départ est simple : les modèles Vision-Language-Action (VLA) et World-Action Models (WAM) actuels héritent du paradigme d'entraînement des LLMs, qui traite chaque token -- ici chaque action -- avec le même poids dans la fonction de perte. Or une trajectoire de manipulation robotique n'est pas homogène : les segments à faible vitesse (préhension précise, insertion, contact fin) conditionnent le succès de la tâche, tandis que les phases à haute vitesse (transitions entre positions) tolèrent l'erreur. AttenA+ corrige ce déséquilibre en repondérant dynamiquement la loss d'entraînement via un champ de vitesse inverse, sans modifier l'architecture ni ajouter de paramètres. Sur le benchmark Libero, le modèle OpenVLA-OFT passe de 97,1 % à 98,6 % (+1,5 points) ; FastWAM atteint 92,4 % sur RoboTwin 2.0 (+0,6 points). Des validations sur bras Franka en conditions réelles confirment la généralisation inter-tâches. L'enjeu dépasse les chiffres de benchmark. Le domaine robotique investit massivement dans le scaling -- plus de données, plus de paramètres, plus de compute -- comme levier principal de performance. AttenA+ suggère qu'une partie du plafond actuel des VLA n'est pas liée à la taille du modèle mais à un biais structurel d'optimisation, ignorant la physique de la manipulation. Pour un intégrateur ou un équipementier qui déploie des bras dans des lignes d'assemblage, cela signifie potentiellement de meilleures performances sur des gestes précis (vissage, pick-and-place serré) sans coût de réentraînement supplémentaire -- le framework se greffe sur les backbones existants en plug-and-play. Les VLA ont connu une accélération notable depuis pi0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), mais la majorité des gains publiés reposaient sur l'augmentation de données ou de paramètres. AttenA+ s'inscrit dans une tendance émergente : exploiter les priors structurels des séquences d'action plutôt que brute-forcer le scaling. Les benchmarks utilisés -- Libero et RoboTwin 2.0 -- restent des environnements simulés, et l'expérimentation Franka décrite dans le papier est limitée. La robustesse à des environnements industriels moins contrôlés reste à démontrer. Aucun partenaire industriel ni timeline de déploiement n'est mentionné dans ce preprint académique.

IA physiqueOpinion
1 source
FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA
694arXiv cs.RO 

FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA

Une équipe de chercheurs a publié le 19 mai 2025 sur arXiv (2605.13757) une méthode baptisée FrameSkip, conçue pour améliorer l'entraînement des politiques de type Vision-Language-Action (VLA) en sélectionnant les images les plus informatives dans les trajectoires de démonstration robotique. Plutôt que d'échantillonner uniformément chaque frame enregistrée lors de sessions de télé-opération, FrameSkip attribue un score à chaque image selon quatre critères : la variation d'action, la cohérence visuo-motrice, des priors de progression de tâche, et la préservation des transitions de préhenseur (ouverture/fermeture du gripper). Le système réoriente ensuite l'échantillonnage d'entraînement vers les frames à haute valeur informative, selon un ratio de rétention cible fixé à 20 % dans la configuration principale. Sur trois benchmarks standards, RoboCasa-GR1, SimplerEnv et LIBERO, FrameSkip atteint un taux de succès moyen de 76,15 %, contre 66,50 % pour l'entraînement sur trajectoires complètes, soit un gain absolu de 9,65 points de pourcentage en n'utilisant qu'un cinquième des frames uniques. Ce résultat est significatif parce qu'il pointe un problème structurel longtemps ignoré dans la construction des datasets VLA : le déséquilibre temporel de supervision. Les longues phases statiques ou de déplacement libre dominent statistiquement les trajectoires téléopérées, noyant les instants critiques comme l'alignement d'approche, l'établissement du contact et le relâchement. FrameSkip n'exige aucune modification d'architecture, de tête d'action ni d'objectif d'entraînement, ce qui en fait une couche data-curation plug-and-play compatible avec OpenVLA, pi-0 (Physical Intelligence) ou tout autre VLA existant. Pour les équipes qui constituent des datasets coûteux via télé-opération, réduire à 20 % le volume de frames tout en gagnant en performance change directement le calcul coût/performance de collecte de données. Les VLA ont connu une accélération marquée depuis 2023 avec des modèles comme RT-2 (Google DeepMind), Octo (Berkeley), OpenVLA et pi-0 de Physical Intelligence, chacun misent sur des volumes croissants de démonstrations téléopérées. La question de la qualité versus la quantité des données de démonstration est un sujet de recherche actif, avec des approches concurrentes axées sur le filtrage par récompense, le data augmentation ou les trajectoires synthétiques en simulation. FrameSkip prend le parti du filtrage temporel pur, sans génération de données supplémentaires. Les auteurs ne mentionnent pas de déploiement physique hors simulation dans ce preprint, ce qui limite pour l'instant les conclusions au domaine sim-to-sim ; des validations sur hardware réel resteraient à produire pour confirmer le transfert des gains observés.

IA physiqueOpinion
1 source
Quand l'état absolu échoue : évaluation des encodages proprioceptifs pour une manipulation robuste
695arXiv cs.RO 

Quand l'état absolu échoue : évaluation des encodages proprioceptifs pour une manipulation robuste

Une équipe de chercheurs publie sur arXiv (référence 2605.13067) une étude systématique sur l'encodage de l'état proprioceptif des robots pour améliorer la robustesse des politiques de manipulation de bout en bout. Le constat de départ est précis : les politiques entraînées avec des données en conditions contrôlées échouent fréquemment lors du déploiement réel, notamment lorsque le référentiel du robot change entre l'entraînement et l'inférence. Les auteurs évaluent plusieurs stratégies d'encodage des positions et angles articulaires, depuis les représentations absolues classiques jusqu'à des formulations relatives, et identifient qu'un référentiel relatif défini à l'épisode, c'est-à-dire ancré sur l'état initial des articulations au début de chaque séquence de tâche, offre le meilleur compromis entre performance nominale et généralisation hors distribution. Ces résultats sont validés sur un banc d'essai physique en conditions réalistes, avec des expériences multi-configurations sur robot réel. L'enjeu industriel est concret : les robots à cadre de référence mobile (bras montés sur AMR, robots repositionnables sur ligne, cobots déplacés entre postes) représentent une part croissante des déploiements, mais les politiques end-to-end existantes, y compris les VLA (Vision-Language-Action models) récents comme pi-0 ou GR00T N2, sont généralement entraînées avec des hypothèses de cadre fixe. Cette étude fournit une piste d'implémentation directement exploitable sans modifier l'architecture du modèle ni relancer de collecte de données massive : changer simplement la convention d'encodage proprioceptif suffit à améliorer la robustesse out-of-distribution. C'est un résultat rare dans la littérature VLA, qui tend à préconiser le scaling de données comme seule réponse à la distribution shift. Ce travail s'inscrit dans une tendance de fond : après l'emballement autour des politiques diffusion et des modèles fondation pour la robotique en 2023-2024, la communauté revient sur des questions d'ingénierie bas-niveau souvent négligées. La proprioception, longtemps traitée comme un signal trivial, redevient un sujet de recherche actif face aux exigences du déploiement réel. Aucun partenaire industriel n'est mentionné dans l'abstract, ce qui en fait une contribution académique ouverte, sans timeline de productisation annoncée. Les prochaines étapes logiques seraient des tests avec des architectures VLA complètes et des configurations de bases mobiles plus variées.

RechercheOpinion
1 source
Unifier les actions du robot dans le référentiel caméra
696arXiv cs.RO 

Unifier les actions du robot dans le référentiel caméra

Des chercheurs ont publié sur arXiv (référence 2511.17001v2) une méthode baptisée CalibAll, conçue pour unifier la représentation des actions robotiques en recadrant celles-ci dans le repère de la caméra plutôt que dans celui propre à chaque plateforme. L'approche repose sur l'estimation automatique des paramètres extrinsèques de la caméra (position et orientation dans l'espace) pour des jeux de données existants, puis sur la conversion de chaque action en coordonnées TCP (Tool Center Point) standardisées dans ce repère caméra commun. Le pipeline a été appliqué à 16 jeux de données couvrant 4 plateformes robotiques différentes, bras simple et bras bimanuel inclus, pour produire environ 97 000 épisodes étalonnés. CalibAll fonctionne en deux étapes : une initialisation grossière via un algorithme PnP temporel (Perspective-n-Point), suivie d'un raffinement à haute précision par rendu différentiable. Aucun entraînement préalable ni données spécifiques à un robot n'est requis, ce qui distingue la méthode des approches d'étalonnage classiques. L'enjeu est direct pour les équipes qui travaillent sur des politiques robotiques généralisées de type VLA (Vision-Language-Action). Le problème de fond du cross-embodiment learning, soit le fait d'entraîner un seul modèle sur des robots morphologiquement différents, est que les actions n'ont pas la même sémantique géométrique d'une plateforme à l'autre : un déplacement de 10 cm en coordonnées articulaires n'a pas le même sens sur un UR5 et sur un Franka. Les solutions actuelles, têtes d'action spécifiques à chaque morphologie ou espaces d'action latents appris, contournent le problème sans le résoudre. En ancrant toutes les actions dans le repère caméra, CalibAll impose une sémantique géométrique cohérente indépendante du robot. Les expériences en simulation et sur robot réel montrent que le pré-entraînement cross-embodiment avec ces actions unifiées atteint des performances état de l'art, bien que les benchmarks précis et les taux de succès par tâche ne soient pas détaillés dans l'abstract. Le contexte est celui de la course aux politiques robotiques généralisables, portée par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA. Ces architectures ont besoin de données massives et diversifiées, et la fragmentation des jeux de données existants selon les plateformes constitue un frein majeur à la mise à l'échelle. CalibAll s'attaque précisément à ce goulot d'étranglement en rendant rétrocompatibles des datasets existants sans re-annotation manuelle, ce qui est non négligeable quand on considère le coût de collecte téléopérée. La question ouverte reste la robustesse de l'étalonnage sur des datasets dont les conditions d'acquisition sont hétérogènes, notamment lorsque l'environnement visuel est peu structuré ou que les caméras sont embarquées sur le robot en mouvement. Les suites logiques incluent une intégration dans des pipelines de pré-entraînement ouverts comme Open X-Embodiment, et potentiellement une extension aux robots mobiles manipulateurs où le référentiel caméra change dynamiquement.

RechercheOpinion
1 source
TinySDP : optimisation semi-définie en temps réel pour une robotique embarquée certifiable et agile
697arXiv cs.RO 

TinySDP : optimisation semi-définie en temps réel pour une robotique embarquée certifiable et agile

Des chercheurs ont publié sur arXiv (preprint 2605.13748, mai 2025) TinySDP, qu'ils présentent comme le premier solveur de programmation semi-définie (SDP) conçu explicitement pour les systèmes embarqués à ressources contraintes. L'objectif : permettre un contrôle prédictif en temps réel (MPC) sur microcontrôleurs, en intégrant des contraintes d'obstacles non convexes jusqu'ici réservées à des machines de calcul bien plus puissantes. Le solveur associe des projections de cônes semi-définis positifs à un algorithme ADMM (Alternating Direction Method of Multipliers) avec factorisation de Riccati mise en cache. Un certificat de rang 1 a posteriori convertit à chaque pas de temps les solutions relaxées en garanties géométriques explicites. Les expériences portent sur des scénarios d'évitement d'obstacles dynamiques et de cul-de-sac, où les méthodes locales classiques échouent ; TinySDP y produit des trajectoires sans collision et jusqu'à 73 % plus courtes que les baselines de référence. La validation matérielle est conduite sur un quadrirotor Crazyflie, nano-drone de recherche développé par Bitcraze. L'enjeu industriel est réel : les relaxations SDP offrent depuis des années des garanties de certification pour la planification de mouvement, mais leur coût computationnel les confinait aux stations de calcul hors-ligne ou aux serveurs de cloud. Les embarquer sur un microcontrôleur ouvre la voie à des robots autonomes certifiés opérant sans infrastructure réseau : drones d'inspection, AMR en environnement dynamique, bras cobots sans liaison cloud. Le gain de 73 % sur la longueur de chemin dans des scénarios difficiles dépasse ce que la littérature locale obtient habituellement, bien qu'il faille noter que ces benchmarks sont choisis par les auteurs, et que les conditions réelles d'industrialisation restent à établir. La programmation semi-définie est un outil établi en robotique depuis les travaux sur les relaxations de Lasserre et les problèmes de manipulation certifiée, mais aucun solveur embarqué n'en avait rendu le déploiement praticable avant ce travail. Côté concurrents, les solveurs embarqués dominants comme OSQP ou ECOS ciblent les problèmes quadratiques ou coniques de second ordre, sans support natif des contraintes SDP. Le papier reste un preprint non relu par les pairs ; les prochaines étapes naturelles seraient une validation sur des plateformes plus contraintes encore (STM32, Cortex-M) et des scénarios multi-obstacles en environnement non structuré.

UEBitcraze, entreprise suédoise (EU) dont le nano-drone Crazyflie sert de plateforme de validation, bénéficie d'une visibilité accrue ; les équipes R&D européennes travaillant sur des AMR ou cobots embarqués sans connexion cloud pourraient intégrer TinySDP dans leurs pipelines de planification de mouvement certifiable.

RecherchePaper
1 source
Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques
698arXiv cs.RO 

Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques

Une équipe de chercheurs a publié sur arXiv (2507.00990) un système baptisé RIGVid (Robots Imitating Generated Videos) permettant à un robot de réaliser des tâches de manipulation complexe, comme verser un liquide, essuyer une surface ou mélanger des ingrédients, en imitant uniquement des vidéos générées par IA, sans aucune démonstration physique ni données d'entraînement spécifiques au robot. Le pipeline fonctionne en trois étapes : à partir d'une commande en langage naturel et d'une image de la scène initiale, un modèle de diffusion vidéo génère des vidéos de démonstration candidates, un VLM (vision-language model) filtre automatiquement celles qui ne correspondent pas à la commande, puis un tracker de pose 6D extrait les trajectoires d'objets. Ces trajectoires sont ensuite retargetées vers le robot de manière agnostique à l'embodiment, c'est-à-dire sans nécessiter de recalibration spécifique à la morphologie du bras utilisé. L'impact est notable pour les intégrateurs et les équipes de recherche en manipulation robotique : supprimer la collecte de démonstrations physiques, étape longue et coûteuse dans les pipelines d'imitation learning, est un verrou industriel majeur. Les évaluations en conditions réelles montrent que les vidéos générées et filtrées atteignent une efficacité équivalente aux démonstrations humaines réelles, et que la performance progresse avec la qualité du modèle génératif utilisé. Le système surpasse également des alternatives plus compactes comme la prédiction de keypoints via VLM, et le tracking 6D de pose s'avère supérieur au tracking dense de points de features. Ces résultats valident expérimentalement l'hypothèse que les générateurs vidéo state-of-the-art constituent une source de supervision viable pour la manipulation robotique, au moins sur des tâches de difficulté modérée. Ce travail s'inscrit dans un champ de recherche en effervescence autour du "learning from video" sans interaction physique, en concurrence directe avec des approches comme les VLA (vision-language-action) de Physical Intelligence (pi-0), les politiques de diffusion type Diffusion Policy, ou encore l'usage de données synthétiques issues de simulateurs. L'approche RIGVid se distingue par son absence totale de données robot et son pipeline entièrement basé sur des modèles généralistes off-the-shelf. À noter que ce papier est une prépublication arXiv (v3, donc ayant déjà subi plusieurs révisions), sans validation par peer-review complet à ce stade, et que les tâches évaluées restent relativement contraintes en termes de variabilité de scène et de généralisation out-of-distribution.

RechercheOpinion
1 source
Self-CriTeach : auto-enseignement et auto-critique d'un LLM pour améliorer la planification robotique
699arXiv cs.RO 

Self-CriTeach : auto-enseignement et auto-critique d'un LLM pour améliorer la planification robotique

Des chercheurs ont publié en 2025 via arXiv (2509.21543) un cadre baptisé Self-CriTeach, conçu pour améliorer la planification robotique par grands modèles de langage (LLM) sans supervision humaine coûteuse. Le principe central : un LLM génère automatiquement des domaines de planification symbolique au format PDDL, qui servent ensuite à deux fins distinctes. Dans la phase d'auto-enseignement, ces domaines produisent des milliers de paires problème-plan, converties en trajectoires chain-of-thought (CoT) enrichies exploitées en fine-tuning supervisé. Dans la phase d'auto-critique, ces mêmes domaines sont réutilisés comme fonctions de récompense structurées pour l'apprentissage par renforcement (RL), sans ingénierie manuelle des récompenses. Les résultats publiés font état de taux de succès en planification plus élevés, d'une meilleure généralisation inter-tâches, d'une réduction des coûts d'inférence et d'une robustesse accrue aux états logiques imparfaits ou bruités par la perception. L'intérêt de cette approche tient à son autonomie : elle brise deux goulots d'étranglement majeurs de l'outillage LLM pour la robotique. D'une part, la collecte de données CoT pour les LLMs raisonneurs est notorieusement coûteuse en annotation humaine, surtout pour des séquences de manipulation complexes. D'autre part, la conception de fonctions de récompense en RL robotique reste un travail d'ingénierie long et fragile, souvent spécifique à chaque tâche. Self-CriTeach unifie ces deux pipelines autour d'une seule source synthétique générée automatiquement, ouvrant la voie à une spécialisation scalable d'un LLM sur des workflows robotiques sans intervention humaine à chaque étape. Pour un responsable R&D ou un intégrateur, cela représente une réduction potentielle substantielle du coût de personnalisation. Ce travail s'inscrit dans un courant actif cherchant à remplacer la programmation explicite des robots par des LLMs capables de raisonner sur des représentations symboliques. Des approches antérieures comme SayCan (Google) ou CodeAsPolicies (Google DeepMind) ont utilisé des LLMs pour la planification de haut niveau, mais sans exploiter les domaines générés comme source d'entraînement en retour. La contribution de Self-CriTeach est précisément cette boucle fermée entre génération de domaines, supervision CoT et signal de récompense RL. Il s'agit d'une contribution de recherche académique publiée sur arXiv, sans déploiement industriel annoncé à ce stade. Le code et les résultats sont accessibles via la page GitHub du projet.

RecherchePaper
1 source
Distillation de simulation : pré-entraîner des modèles du monde en simulation pour une adaptation rapide au réel
700arXiv cs.RO 

Distillation de simulation : pré-entraîner des modèles du monde en simulation pour une adaptation rapide au réel

Une équipe de recherche a publié sur arXiv (arXiv:2603.15759) un cadre appelé Simulation Distillation (SimDist), conçu pour entraîner des world models robotiques en simulation physique avant de les adapter rapidement au monde réel avec peu de données. L'approche se décompose en deux phases distinctes : un préentraînement dans un simulateur physique qui distille des priors structurels dans un world model capable de planifier à partir d'observations brutes, suivi d'une adaptation réelle dans laquelle seul le modèle de dynamiques latentes est mis à jour via des pertes de prédiction issues de données terrain. L'encodeur, le modèle de récompense et la fonction de valeur appris en simulation sont directement transférés sans modification. Les auteurs valident SimDist sur deux catégories de tâches : manipulation en contact riche (préhension, assemblage) et locomotion quadrupède. L'enjeu central que SimDist adresse est le coût prohibitif de la collecte de données d'interaction diverse et de qualité mixte pour entraîner des world models directement dans le monde réel. En réduisant l'adaptation à une forme d'identification de système supervisée, le cadre conserve les signaux de planification denses sur horizon long nécessaires à l'amélioration en ligne, là où les méthodes de fine-tuning de politiques end-to-end restent inefficaces et fragiles sur les tâches longue durée. Les expériences montrent que SimDist progresse régulièrement avec l'expérience accumulée, alors que les approches d'adaptation concurrentes stagnent ou se dégradent durant le fine-tuning en ligne. C'est un résultat notable : la question de savoir si les world models tiennent leurs promesses à l'échelle sur des tâches en contact réel restait ouverte. Les world models robotiques -- dont Dreamer (DeepMind) est le représentant le plus connu -- ont démontré leur potentiel en simulation et dans des domaines à faible dimensionnalité, mais leur passage aux tâches manipulation réelles était resté laborieux, nécessitant des volumes de données difficiles à obtenir en dehors de laboratoires très équipés. SimDist s'inscrit dans un courant récent qui tente de résoudre le sim-to-real gap non pas par le transfert direct de politique, mais par le transfert de représentations et de modèles de planification. Le projet est accompagné d'une page dédiée et d'un dépôt de code (sim-dist.github.io), ce qui facilitera la reproductibilité et les comparaisons tierces. Les prochaines étapes probables incluent l'extension à des manipulateurs à dextérité plus élevée et à des environnements moins structurés, deux domaines où la rareté des données réelles est encore plus critique.

RecherchePaper
1 source