Aller au contenu principal
RecherchearXiv cs.RO1h

HOIST : optimisation d'humanoïde par imitation et ajustement efficace pour la manipulation de charges suspendues

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs publient ce mois-ci sur arXiv (2606.00252) une approche hybride baptisée HOIST pour apprendre à un robot humanoïde à manipuler des charges suspendues, c'est-à-dire des objets oscillants accrochés à des câbles ou des crochets, sans contact direct permanent. Le système fonctionne en deux temps : une politique de type VLA (vision-language-action) est d'abord fine-tunée à partir de démonstrations humaines capturées en téléopération sous casque de réalité virtuelle, puis ses commandes sont exécutées par un contrôleur de corps entier (whole-body controller). Dans un second temps, des rollouts de cette politique VLA servent de données d'amorçage pour un apprentissage par renforcement itératif par lots, ce qui améliore la précision de placement final sans exposer le robot réel à des trajectoires aléatoires dangereuses. Par rapport à la politique VLA seule, HOIST réduit l'erreur de placement translationnel de 19,9 cm et l'erreur angulaire brute de 3,56 degrés, mesurées en simulation et sur un humanoïde physique.

Ce résultat est significatif pour un problème longtemps jugé difficile : une charge suspendue est un système sous-actionné, c'est-à-dire que le robot ne peut l'influencer qu'indirectement via sa propre cinématique et des contacts intermittents. L'imitation seule ne suffit pas à garantir la précision de dépose, et le RL from scratch sur robot réel est à la fois dangereux et prohibitivement coûteux en échantillons. HOIST démontre qu'un pipeline VLA + RL itératif peut combler ce gap sim-to-real sur une tâche de manutention industrielle concrète, ce qui intéresse directement les intégrateurs travaillant sur la logistique d'entrepôt ou l'assemblage assisté.

La manipulation de charges suspendues est un cas d'usage récurrent en industrie (accrochage de pièces, convoyage aérien, montage) que peu d'équipes humanoïdes ont adressé frontalement. Les travaux antérieurs sur les VLA humanoïdes, notamment ceux de Physical Intelligence avec pi0 ou les pipelines whole-body de Figure et 1X, se concentrent surtout sur la manipulation d'objets rigides posés sur des surfaces. HOIST, dont les auteurs n'indiquent pas encore d'affiliation institutionnelle claire dans cette version préprint, ouvre une piste de spécialisation sectorielle. Les prochaines étapes annoncées incluent des tests sur des scénarios de manutention plus complexes ; aucun déploiement industriel ni partenariat n'est mentionné à ce stade.

À lire aussi

Sélection et planification simultanées des contacts pour la manipulation riche en contacts par optimisation en cascade
1arXiv cs.RO 

Sélection et planification simultanées des contacts pour la manipulation riche en contacts par optimisation en cascade

Des chercheurs ont publié sur arXiv (référence 2605.27972) un cadre d'optimisation en cascade baptisé SCSP, pour Simultaneous Contact Selection and Planning, dédié à la manipulation robotique en contact riche. Ce type de manipulation regroupe les tâches où le bras doit gérer plusieurs points de contact dynamiques : pivotement d'objet, manipulation en main, assemblage serré. Le système repose sur deux modules séquentiels : CSO (Contact Selection Optimization), qui détermine automatiquement les localisations de contact optimales sur l'objet cible, et CPO (Contact Planning Optimization), qui génère ensuite les trajectoires de manipulation correspondantes en temps réel pour des bras redondants à sept degrés de liberté ou plus. Les auteurs valident l'approche en simulation et sur robot physique, sur des tâches décrites comme complexes, sans que l'abstract ne fournisse de métriques de temps de cycle ou de taux de succès chiffrés. Le verrou que SCSP prétend lever est structurant pour la manipulation autonome : la quasi-totalité des méthodes contact-implicit existantes suppose que la séquence de points de contact est définie à l'avance par l'opérateur. Le robot optimise la trajectoire, pas l'endroit où il entre en contact. CSO contourne les deux obstacles qui rendaient la sélection active difficile, à savoir la complémentarité dans la dynamique de contact et les gradients parcimonieux, en substituant un modèle de contact approché et différentiable au modèle physique discontinu, couplé à une optimisation discrète-continue. CPO exploite ensuite ces localisations comme prior pour planifier en temps réel. Si le comportement se généralise hors simulation, le framework permettrait d'aborder des tâches de manipulation substantiellement plus complexes sans paramétrage manuel des modes de contact, ce qui est aujourd'hui l'un des goulots d'étranglement principaux en intégration industrielle. Le champ de la manipulation en contact riche est partagé entre deux grandes familles : l'optimisation classique (contact-implicit trajectory optimization, MPC) et l'apprentissage (VLA, diffusion policies), portées notamment par Physical Intelligence avec Pi-0, Covariant et Figure AI. SCSP s'inscrit dans la ligne optimisation, plus interprétable et potentiellement plus robuste hors distribution que les approches end-to-end. L'identité institutionnelle des auteurs n'apparaît pas dans l'abstract arXiv, ce qui complique l'évaluation de la maturité et du soutien financier derrière le travail. Les démonstrations vidéo disponibles sur le site projet constitueront le vrai test de crédibilité avant tout positionnement industriel.

RecherchePaper
1 source
HumanoidMimicGen : génération de données pour la loco-manipulation par planification corps entier
2arXiv cs.RO 

HumanoidMimicGen : génération de données pour la loco-manipulation par planification corps entier

Des chercheurs ont présenté HumanoidMimicGen (arXiv:2605.27724), une méthode de génération automatique de données d'apprentissage par imitation pour robots humanoïdes devant à la fois marcher et manipuler des objets. Le problème central: la téléopération pour collecter ces démonstrations est lente et coûteuse, particulièrement difficile pour des humanoïdes dont l'espace d'action composite intègre bras, jambes et torse simultanément. Le système adapte des compétences corps entier riches en contacts à partir d'un petit nombre de démonstrations sources vers de nouveaux états et configurations d'objets, en combinant planification de la locomotion et de la manipulation à un ou deux bras. Un benchmark de simulation en 9 tâches de loco-manipulation valide l'approche: les politiques visuomotrices co-entraînées avec les données générées surpassent de 20% celles entraînées uniquement sur des données réelles. La rareté des données d'entraînement reste le principal verrou au déploiement des humanoïdes en contexte industriel. Les méthodes existantes de génération de données, conçues pour bras fixes, échouent sur les humanoïdes en raison de la coordination complexe entre locomotion et manipulation dans un espace d'état de haute dimension. HumanoidMimicGen apporte un argument concret: multiplier automatiquement les démonstrations à partir de quelques exemples et gagner 20% sur les politiques apprises conteste directement l'hypothèse que les humanoïdes nécessitent obligatoirement des milliers d'heures de téléopération. Pour les décideurs industriels et les intégrateurs, c'est un signal que le goulot des données pourrait être levé par simulation, compressant potentiellement les cycles de développement. HumanoidMimicGen prolonge directement MimicGen, publié en 2023 pour des bras manipulateurs à base fixe. L'extension aux humanoïdes répond à la pression commerciale entre Figure (modèles 01, 02), Agility Robotics (Digit), 1X, Unitree (G1, H1) et Boston Dynamics (Atlas), tous en quête de méthodes d'apprentissage scalables sans exploser les budgets de téléopération. Du côté recherche, Physical Intelligence (pi0) et NVIDIA (GR00T N2) travaillent également sur des politiques visuomotrices corps entier généralisables. Ce travail demeure un résultat académique pré-publication sur arXiv, sans déploiement industriel annoncé et avec des expériences exclusivement en simulation. La robustesse du transfert sim-to-real, non abordée dans ce papier, constituera l'étape critique avant tout passage en conditions réelles.

RecherchePaper
1 source
Contrôle d'admittance sensible aux torseurs pour la manipulation de charges utiles inconnues
3arXiv cs.RO 

Contrôle d'admittance sensible aux torseurs pour la manipulation de charges utiles inconnues

En avril 2026, des chercheurs ont présenté sur arXiv (réf. 2604.19469) un framework de contrôle en admittance pour la manipulation robotique d'objets à masse inconnue, validé expérimentalement sur un bras UR5e de Universal Robots. Lorsque le centre de masse d'un objet saisi ne coïncide pas avec le point central outil (TCP), la charge génère un couple parasite au poignet, amplifié par l'inertie de l'objet pendant le déplacement. Sans compensation, ce couple est interprété par le contrôleur comme une force d'interaction extérieure, déclenchant des déviations de trajectoire, des erreurs de suivi et une précision de dépose dégradée. La solution exploite le capteur force-couple du poignet selon deux modes séquentiels : une excitation translationnelle sur trois axes atténue l'effet de la charge en transit sans raidir le robot, puis, après la saisie, le contrôleur estime successivement la masse de l'objet et l'offset de son centre de masse par rapport au TCP en analysant les mesures collectées lors du mouvement. Pour les intégrateurs industriels, ce travail cible un problème récurrent : adapter un cobot à des lignes à références multiples sans recalibration manuelle à chaque changement de produit. Les contrôleurs en admittance sont le standard de fait pour les applications collaboratives (ISO/TS 15066), mais leur sensibilité aux perturbations non modélisées au niveau du capteur de couple les rend fragiles sur des tâches d'empilage ou de palettisation à charges variables. La méthode démontre qu'il est possible de préserver la compliance mécanique, garante de la cohabitation humain-robot, tout en corrigeant activement les biais de charge, sans recours à l'apprentissage par renforcement. Les résultats expérimentaux indiquent des gains en transport et en précision de dépose par rapport à la commande non corrigée, bien que l'abstract ne fournisse pas de métriques quantitatives détaillées permettant d'évaluer l'ampleur réelle des améliorations. Le contrôle en admittance, formalisé par Neville Hogan au MIT dans les années 1980, est aujourd'hui intégré nativement dans les plateformes Universal Robots et Franka Robotics. Ce travail s'inscrit dans un courant concurrent des approches VLA (vision-language-action) portées par Physical Intelligence (pi-0) ou Google DeepMind, qui misent sur l'apprentissage massif plutôt que sur la modélisation analytique de la physique. L'avantage différenciant de cette approche est sa traçabilité pour la certification industrielle et l'absence totale de données d'entraînement. Les extensions naturelles incluent la prise en compte des couples en rotation et la validation sur des architectures multi-bras pour la manipulation coordonnée d'objets asymétriques.

UECette méthode de contrôle en admittance robuste aux charges inconnues est directement applicable aux cobots UR5e (Universal Robots, Danemark) et Franka (Allemagne) largement déployés dans l'industrie européenne, facilitant la conformité ISO/TS 15066 sur les lignes à références multiples sans recalibration manuelle.

RecherchePaper
1 source
Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique
4arXiv cs.RO 

Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique

Des chercheurs ont publié sur arXiv (arXiv:2409.20473v3) un cadre méthodologique permettant, pour la première fois, de quantifier la contribution individuelle de chaque capteur tactile à la performance d'une politique d'apprentissage par renforcement profond (DRL) appliquée à la manipulation dextère. L'étude cible la Shadow Hand, une main robotique à 24 degrés de liberté équipée de 92 capteurs tactiles. En deux étapes, les auteurs réduisent ce réseau dense à 14 capteurs tout en conservant plus de 90 % de la performance initiale sur trois tâches de manipulation standardisées (bloc, oeuf, stylo). La première phase, empirique, écrête le nombre de capteurs de 92 à 21 en maintenant 93 % des performances. La seconde phase, plus fine, combine une régression par processus gaussiens (GPR) et une régression Lasso pour classer l'importance fonctionnelle de chaque capteur restant. Le résultat le plus saillant contredit l'intuition habituelle en robotique : les capteurs du doigt médius contribuent négativement à l'apprentissage, dégradant activement la politique DRL plutôt que de l'améliorer. À l'inverse, le pouce, l'annulaire et l'auriculaire concentrent l'essentiel de l'information utile au contrôle de contact. Pour les intégrateurs et les équipes de R&D en manipulation robotique, cela signifie qu'une réduction drastique du nombre de capteurs n'est pas seulement possible sans sacrifier les performances, elle peut même les améliorer en éliminant des signaux redondants ou antagonistes. Des expériences de transfert zéro-shot sur deux nouveaux objets et une validation croisée sur l'Allegro Hand et la Leap Hand confirment que ces classements d'importance se généralisent au-delà de la plateforme d'entraînement. La problématique de placement de capteurs tactiles reste largement non résolue dans la littérature, en l'absence de méthodes systématiques comparables à celles développées pour la vision. Ce travail s'inscrit dans un contexte où plusieurs laboratoires et entreprises, dont Sanctuary AI, Agility Robotics ou encore OpenAI avec Dexterous Manipulation, investissent massivement dans la manipulation fine comme prochain verrou de la robotique humanoïde. Les concurrents directs sur la Shadow Hand incluent des frameworks basés sur le sim-to-real (IsaacGym, MuJoCo), qui peinent encore à modéliser fidèlement le retour tactile dense. Les auteurs proposent leurs critères de déploiement comme des guidelines quantitatifs applicables à d'autres morphologies robotiques, ouvrant la voie à des configurations capteurs optimisées dès la phase de conception mécanique plutôt qu'a posteriori.

RecherchePaper
1 source