Aller au contenu principal
PhyPush : une seule poussée suffit pour estimer les propriétés physiques sans capteurs grâce aux transformeurs guidés par la physique
RecherchearXiv cs.RO53min

PhyPush : une seule poussée suffit pour estimer les propriétés physiques sans capteurs grâce aux transformeurs guidés par la physique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

PhyPush, présenté dans un article arXiv (2605.18284) publié en mai 2026, est un framework basé sur un Transformer guidé par la physique, capable d'estimer la masse et le coefficient de friction d'un objet à partir d'une seule poussée. La particularité centrale : le système n'utilise que la vélocité cinématique de l'effecteur final, une donnée disponible nativement sur tout bras robotique standard, sans capteur de force/couple, sans réseau de capteurs tactiles, et sans système de capture de mouvement multi-caméras. Le modèle intègre directement les contraintes issues de la deuxième loi de Newton et du modèle de friction de Coulomb dans sa fonction de perte, ce qui renforce la cohérence physique des estimations. En simulation, PhyPush réduit l'erreur d'estimation de plus de 10 % par rapport à une baseline disposant pourtant d'un accès privilégié aux données de force complètes ; en conditions réelles, il surpasse une approche purement data-driven sur des objets et surfaces hors domaine d'entraînement.

L'impact pour l'intégration industrielle est direct. L'estimation précise de la masse et de la friction est un prérequis pour la manipulation adaptative fiable, notamment dans les lignes de tri, d'assemblage ou de logistique où les objets varient constamment. Les approches existantes exigeaient soit un instrumentation coûteuse (capteurs F/T à 2 000-10 000 €/unité), soit des environnements contrôlés incompatibles avec un déploiement à l'échelle. PhyPush déplace ce prérequis vers une inférence logicielle sur hardware standard, ce qui ouvre la voie à une perception physique embarquée sur des flottes de robots sans sur-coût matériel. La preuve que l'apprentissage guidé par la physique peut surpasser une baseline disposant de plus d'information sensorielle est également un signal fort : la structure inductive correcte compense le manque de capteurs, ce qui contredit l'hypothèse selon laquelle plus de données brutes implique nécessairement de meilleures estimations.

L'estimation interactive des propriétés physiques par poussée (push-based estimation) est un problème étudié depuis une décennie, mais les solutions robustes restaient dépendantes de setups lourds issus des labos de manipulation tactile (MIT, Stanford, CMU). L'émergence des Transformers appliqués à la dynamique robotique et l'intégration de prior physique dans les fonctions de perte sont des tendances récentes qui convergent ici. Côté concurrence, les travaux de perception tactile comme celles de GelSight ou des approches sim-to-real de Meta (DIGIT) adressent un problème similaire mais via du hardware dédié ; des équipes comme Physical Intelligence (Pi-0) ou Figure AI intègrent eux aussi des modules d'estimation d'état dans leurs pipelines VLA, mais sans publier les détails. PhyPush se positionne comme une brique bas coût et open science pour tout intégrateur souhaitant ajouter de l'adaptation physique à un bras existant. Les prochaines étapes logiques incluent la généralisation à des poussées multi-axes, l'intégration dans des boucles de contrôle en temps réel, et le test sur des plateformes humanoïdes où la variabilité des objets manipulés est maximale.

À lire aussi

Apprentissage d'une manipulation dextérique robuste en main à partir de capteurs articulaires avec un transformeur proprioceptif
1arXiv cs.RO 

Apprentissage d'une manipulation dextérique robuste en main à partir de capteurs articulaires avec un transformeur proprioceptif

Des chercheurs publient sur arXiv (2605.21330, mai 2026) le Proprioceptive Transformer (PT), une architecture de contrôle pour la manipulation dextre en main fondée exclusivement sur les capteurs articulaires, sans vision ni retour tactile. Testée sur la main ténosynoviale ORCA, l'approche réalise une rotation continue de cube à une vitesse 3,1 fois supérieure aux méthodes de référence, et estime la position de l'objet avec une erreur quadratique moyenne (RMSE) inférieure de 23,4 % à celle d'un perceptron multicouche (MLP). La politique de contrôle est obtenue par distillation enseignant-élève : une politique enseignante est d'abord entraînée par apprentissage par renforcement avec accès privilégié à l'état de l'objet, puis ses connaissances sont distillées vers le PT, qui opère uniquement sur l'historique de positions et de vitesses articulaires. Ce résultat questionne une hypothèse largement répandue dans le domaine : la nécessité d'une perception externe pour fermer la boucle d'estimation d'état lors de manipulations en main. Les encodeurs articulaires sont présents sur toutes les mains robotiques, y compris les architectures ténosynoviales où la transmission élastique complique l'estimation de la posture réelle des doigts. Que le Transformer extraie implicitement des informations extrinsèques à partir de patterns temporels proprioceptifs constitue une validation partielle du sim-to-real appliqué à la manipulation dextre, un problème longtemps considéré non résolu à l'échelle réelle. La robustesse sur des objets de géométrie variable ou sous charge perturbée reste à démontrer : le preprint ne rapporte de résultats que sur le cube, et les métriques de vitesse de rotation manquent de contexte sur les conditions expérimentales exactes. La manipulation dextre en main est un problème ouvert depuis les années 1990, relancé par OpenAI Dactyl (2019) qui combinait vision externe et simulation massivement distribuée. Les approches concurrentes recourent aujourd'hui à des capteurs tactiles haute résolution (Shadow Hand avec BioTac, Leap Hand, GelSight sur Allegro) ou à des pipelines vision-langage-action de type Pi-0 ou GR00T N2. L'ORCA hand, plateforme académique à actionnement par tendons, reste moins présente dans les benchmarks publiés que l'Allegro ou la Shadow Hand, ce qui limite la comparaison directe avec l'état de l'art. Le preprint ne mentionne ni partenaires industriels ni calendrier de transfert : il s'agit d'une contribution de recherche fondamentale, sans déploiement annoncé.

RecherchePaper
1 source
MemCompiler : une mémoire conditionnée par l'état pour les agents IA physiques, sans injection
2arXiv cs.RO 

MemCompiler : une mémoire conditionnée par l'état pour les agents IA physiques, sans injection

Des chercheurs ont déposé le 10 mai 2026 sur arXiv (2605.07594) MemCompiler, une nouvelle architecture de mémoire pour agents incarnés, ces systèmes d'IA qui exécutent des séquences longues de tâches dans des environnements physiques ou simulés. Le problème ciblé est précis : les approches dominantes injectent l'ensemble du contexte mémoriel en bloc au démarrage de chaque épisode, une stratégie que les auteurs nomment AMMI (Ahead-of-time Monolithic Memory Injection). Ce contexte figé se désaligne avec l'état évolutif de l'agent au fil de l'exécution, et sur des modèles légers, peut même dégrader les performances sous la baseline sans mémoire. MemCompiler substitue à cette injection statique une compilation dynamique conditionnée à l'état courant : un Memory Compiler lit un résumé structuré de la situation (Brief State), sélectionne la mémoire pertinente et génère une guidance exécutable transmise sur deux canaux, un canal texte et un canal latent Soft-Mem préservant les informations perceptuelles non encodables en langage naturel. Évalué sur AlfWorld, EmbodiedBench et ScienceWorld, MemCompiler progresse jusqu'à +129 % sur les backbones open-source testés, réduit la latence par pas d'exécution de 60 % et approche les niveaux des systèmes propriétaires de référence. L'enjeu dépasse le benchmarking académique. Un agent dont l'état change à chaque action n'a plus besoin, au milieu d'une tâche, de la même mémoire qu'à son lancement : lui fournir un contexte statique revient à imprimer pour un technicien la liste exhaustive de tous ses outils plutôt que de lui tendre le bon au bon moment. La réduction de latence de 60 %, couplée aux gains de performance, contredit directement l'hypothèse que davantage de contexte mémoriel vaut toujours mieux. Le canal Soft-Mem est l'élément le plus original : il ouvre la voie à une mémoire multimodale compacte qui ne force pas la réduction au texte, un verrou structurel pour les agents traitant des observations visuelles ou proprioceptives complexes. La mémoire longue pour agents est un chantier actif depuis l'essor des LLM comme moteurs de raisonnement. Des travaux antérieurs comme MemGPT ou les systèmes RAG appliqués à la robotique ont établi que l'accès sélectif à un historique améliore les performances sur des tâches à horizon étendu. MemCompiler déplace le curseur de l'accès sélectif vers la compilation active : la mémoire n'est pas seulement récupérée, elle est transformée en fonction de l'état présent. Point de vigilance toutefois : les benchmarks utilisés (AlfWorld, ScienceWorld) sont des environnements textuels simulés. Des validations sur du hardware physique ou des benchmarks visuellement riches comme RLBench restent à produire pour mesurer la robustesse en conditions réelles. L'intégration dans des pipelines VLA (vision-language-action) embarqués sur des plateformes robotiques constitue la prochaine étape logique.

RecherchePaper
1 source
SixthSense : estimation générique du torseur corps entier par proprioception seule pour humanoïdes
3arXiv cs.RO 

SixthSense : estimation générique du torseur corps entier par proprioception seule pour humanoïdes

Des chercheurs ont publié début mai 2026 sur arXiv (réf. 2605.01427) SixthSense, un système d'estimation des forces et couples de contact (wrenches) pour robots humanoïdes fonctionnant exclusivement à partir de la proprioception et d'une centrale inertielle (IMU), sans capteur de force-couple dédié. Le système infère en temps réel le moment, la localisation et l'amplitude des wrenches appliqués sur l'ensemble du corps, même lorsque les points de contact sont indéterminés. Techniquement, SixthSense emploie le conditional flow matching pour tokeniser des historiques proprioceptifs et estimer un flux d'événements de contact spatialement et temporellement parcimonieux. Les validations expérimentales couvrent trois régimes distincts - posture statique, marche et suivi de trajectoire corps entier - avec des performances décrites comme "sans précédent" par les auteurs, bien que l'article ne publie pas de métriques comparatives chiffrées pour étayer cette affirmation. L'enjeu est concret pour l'intégration industrielle : les humanoïdes actuellement déployés (Figure 02, Optimus Gen 2, Unitree G1) manquent de perception fiable des efforts de contact pour des tâches exigeant une interaction physique précise - assemblage, manipulation d'objets fragiles, collaboration en cellule mixte. Les méthodes analytiques existantes supposent des contacts connus et des mesures souvent indisponibles en production, notamment en raison de la dynamique en base flottante propre aux bipèdes. SixthSense se présente comme un module plug-and-play intégrable sans modification matérielle, ciblant trois cas d'usage : détection de collision, interaction physique humain-robot (pHRI) et téléopération avec retour d'effort. Ce travail s'inscrit dans l'effort plus large visant à combler le fossé entre démonstrations en laboratoire et déploiements réels pour la perception haptique des humanoïdes. Les principaux acteurs commerciaux - Figure, Agility Robotics, Apptronik, 1X Technologies - comme les plateformes académiques partagent ce même déficit. En France, Wandercraft, spécialiste de l'exosquelette humanoïde pour la rééducation, fait face à des contraintes similaires pour la perception d'effort en interaction avec le patient. La publication demeure une contribution académique : aucun déploiement industriel ni partenariat commercial n'est annoncé, et la robustesse hors conditions contrôlées reste à démontrer.

UEWandercraft (France) développe des exosquelettes humanoïdes à interaction physique patient-robot ; ce module d'estimation d'effort sans capteur dédié pourrait, s'il est validé hors laboratoire, réduire les coûts matériels et améliorer la sécurité de contact en rééducation.

RecherchePaper
1 source
CapVector : des vecteurs de capacité transférables dans l'espace paramétrique pour les modèles VLA
4arXiv cs.RO 

CapVector : des vecteurs de capacité transférables dans l'espace paramétrique pour les modèles VLA

Des chercheurs ont publié le 15 mai 2026 sur arXiv un article présentant CapVector, une méthode d'adaptation des modèles Vision-Language-Action (VLA) qui réduit les coûts de fine-tuning sans sacrifier les performances. Le principe : entraîner le modèle deux fois sur un petit ensemble de tâches avec deux stratégies distinctes, puis calculer la différence entre les paramètres des deux modèles obtenus. Cette différence constitue un "vecteur de capacité" qui est ensuite fusionné avec les paramètres du modèle préentraîné pour former un méta-modèle enrichi. Une perte de régularisation orthogonale légère, ajoutée lors du fine-tuning standard, suffit à atteindre des performances comparables aux méthodes d'entraînement auxiliaire classiques, avec une empreinte computationnelle significativement réduite. L'enjeu est concret pour les équipes qui déploient des robots manipulateurs ou mobiles basés sur des VLA comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA : le fine-tuning sur de nouvelles tâches ou de nouveaux embodiments reste aujourd'hui coûteux en GPU-heures et en données. Les méthodes à objectifs auxiliaires améliorent la convergence mais multiplient les passes de gradient. CapVector propose une voie médiane : extraire les gains des méthodes avancées sous forme de vecteurs transférables, réutilisables sur d'autres modèles et d'autres environnements sans réentraînement. Les expériences internes et externes rapportées montrent une généralisation à des environnements et des morphologies non vus lors de la construction des vecteurs, ce qui est l'affirmation la plus forte de l'article et qui méritera une vérification indépendante. Les VLA sont devenus le paradigme dominant pour la robotique généraliste depuis la publication de RT-2 par Google DeepMind en 2023 et les releases successives d'OpenVLA, Octo, puis Pi-0 fin 2024. Le goulot d'étranglement s'est déplacé de la capacité du modèle vers l'efficacité de l'adaptation : comment spécialiser un grand modèle généraliste pour une cellule industrielle précise, avec peu de données et peu de calcul ? CapVector s'inscrit dans cette tendance aux "parameter-efficient adaptation" methods, aux côtés de LoRA, DoRA et des approches par model merging. Il s'agit d'un preprint arXiv (v1, pas encore évalué par les pairs) ; aucun déploiement industriel ni partenariat n'est mentionné à ce stade.

RechercheOpinion
1 source