Aller au contenu principal
Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie
RechercheInteresting Engineering6sem

Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE
Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie
▶ Voir sur YouTube

Des chercheurs de Carnegie Mellon University (CMU) et du Bosch Center for AI ont publié un nouveau système d'IA baptisé HTD (Humanoid Transformer with Touch Dreaming), conçu pour améliorer la manipulation d'objets par des robots humanoïdes dans des environnements à contact complexe. Le framework combine l'apprentissage par imitation avec un module de prédiction tactile, permettant au robot d'anticiper l'évolution des forces de contact et du retour haptique avant et pendant la saisie. Testé sur cinq tâches réelles, insertion d'objet en T, rangement de livres, pliage de serviette, ramassage de litière et service du thé, HTD affiche une amélioration relative de 90,9 % du taux de réussite moyen par rapport à la baseline ACT, un modèle d'imitation de référence dans le domaine. Le système repose sur une architecture dissociée : un contrôleur bas-corps entraîné par renforcement en simulation via une méthode teacher-student stabilise l'orientation du torse, la vitesse et l'équilibre, tandis que la cinématique inverse et le retargeting de main gèrent les mouvements du haut du corps et la dextérité digitale. Les représentations tactiles ne sont pas reconstruites brutes mais encodées dans un espace latent compact via un réseau cible mis à jour lentement, ce qui filtre le bruit sensoriel et améliore la stabilité de la manipulation.

Ce résultat est notable parce qu'il adresse directement l'un des verrous persistants de la robotique humanoïde : la cohabitation entre locomotion et manipulation fine sans dégradation mutuelle. La séparation architecturale bas/haut corps n'est pas nouvelle en soi, mais son intégration avec un modèle prédictif tactile dans une politique unifiée évite le recours à un pré-entraînement tactile séparé ou à un world model externe, ce qui simplifie le pipeline de déploiement. Les études d'ablation sont particulièrement instructives : incorporer le toucher comme entrée brute supplémentaire ne suffit pas, la prédiction dans l'espace latent apporte 30 % de gain relatif supplémentaire sur le raw tactile. Pour les intégrateurs qui envisagent des humanoïdes dans des cellules de manutention délicate, c'est un signal clair que la qualité de la représentation sensorielle prime sur la quantité de capteurs.

HTD s'inscrit dans une vague de travaux cherchant à combler le sim-to-real gap pour la manipulation contact-riche. Le controller bas-corps a été entraîné sur le dataset AMASS, qui fournit des mouvements humains réalistes pour perturber le torse pendant l'apprentissage, une approche de robustification déjà utilisée dans des projets comme Isaac Lab de NVIDIA ou les travaux de Stanford sur whole-body control. Dans le paysage concurrentiel, Figure (Figure 03), Physical Intelligence (Pi-0), Boston Dynamics et 1X Technologies travaillent tous sur des architectures VLA (Vision-Language-Action) pour la manipulation généraliste, mais peu publient des résultats quantitatifs sur des tâches aussi précises que l'insertion de connecteurs ou la manipulation de textiles. CMU n'a pas encore annoncé de partenariat industriel ni de calendrier de transfert vers un produit commercial, mais le Bosch Center for AI comme co-auteur suggère un intérêt applicatif concret dans l'automatisation industrielle à manipulation variable.

Impact France/UE

Le Bosch Center for AI (Allemagne) co-auteur du papier signale un intérêt applicatif concret pour l'automatisation industrielle européenne à manipulation variable, sans calendrier de transfert industriel annoncé.

À lire aussi

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées
1arXiv cs.RO 

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées

Des chercheurs ont publié en juin 2026 sur arXiv (référence 2606.09286) VAIC, un cadre de contrôle unifié pour robots humanoïdes capable d'interagir avec des objets en milieu non structuré. La contribution principale est l'élimination de deux hypothèses restrictives qui limitent la transposition terrain des contrôleurs existants : les trajectoires de référence denses et l'observabilité complète de l'état. VAIC opère exclusivement à partir d'un flux de profondeur embarqué et de la proprioception historique, via une interface de commandes découplées composée de cibles de vitesse multi-axes et d'un indicateur d'interaction par segment corporel. L'apprentissage suit un paradigme de distillation en deux étapes : une politique "enseignant" privilégiée, entraînée avec accès complet à la cinématique des objets et à l'état environnemental exact, transfère ses compétences à une politique "étudiant" déployable qui reconstruit implicitement la dynamique des objets depuis le flux de profondeur brut via un module d'adaptation récurrent. Sur robot humanoïde (non nommé dans le preprint), cette politique unique exécute en conditions réelles trois familles de tâches dynamiques : transport de carton, interaction avec un chariot, et skateboard, surpassant selon les auteurs les approches baseline comparées. Ce résultat, s'il se confirme à plus grande échelle, adresse directement le "deployment gap" qui freine la commercialisation des humanoïdes : la quasi-totalité des démos publiques repose encore sur des systèmes de capture de mouvement externe ou sur des objets instrumentés avec tracking précis. Proposer une politique unique généraliste, sans trajectoires de référence et fonctionnant sur capteurs embarqués bas coût, réduirait significativement la friction d'intégration pour les opérateurs industriels et les intégrateurs robotiques. La distillation enseignant-étudiant avec module d'adaptation récurrent n'est pas une architecture inédite, mais son application à des tâches aussi hétérogènes sur un humanoïde réel constitue un pas mesurable vers la généralisation. À noter que le preprint ne fournit ni métriques de cycle time par tâche, ni taux de succès quantifiés, ni spécification du robot utilisé, ce qui limite l'évaluation indépendante des performances annoncées. Ce travail s'inscrit dans une course aux contrôleurs généralisés qui oppose des équipes académiques (Berkeley, CMU, ETH Zurich) aux acteurs commerciaux : Figure Robotics avec son pipeline VLA sur Figure 02/03, Physical Intelligence et sa politique Pi-0, 1X Technologies et Unitree, tous actifs simultanément sur le sim-to-real et les architectures polyvalentes. L'approche de VAIC, centrée sur la profondeur et la proprioception plutôt que sur les vision-language models à grande échelle, constitue un positionnement différenciant en termes de coût de calcul embarqué et de simplicité sensorielle. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé dans ce preprint : il s'agit à ce stade d'une démonstration de recherche, dont la validation sur plusieurs plateformes robotiques et environnements variés reste entièrement à mener.

RecherchePaper
1 source
Glissement d'objets par manipulation des pieds sur un robot bipède à roues avec contrôle hiérarchique
2arXiv cs.RO 

Glissement d'objets par manipulation des pieds sur un robot bipède à roues avec contrôle hiérarchique

Des chercheurs ont publié sur arXiv (arXiv:2606.19233, juin 2026) un framework de contrôle hiérarchique permettant à des robots bipèdes à roues d'effectuer des tâches de manipulation d'objets au sol à l'aide de leurs membres inférieurs motorisés, une capacité baptisée "pédimanipulation mobile". Le système repose sur un contrôleur prédictif non linéaire (NMPC) construit sur un modèle dynamique simplifié à trois corps rigides (TRB), intégrant explicitement le degré de liberté en roulis de hanche et plusieurs modes de contact roue-sol. En expérimentation réelle, le robot a récupéré un objet de 1 kg coincé sous un bureau et déplacé latéralement un objet de 4 kg sur une distance de 0,228 m via une motion de type "scooting". Deux primitives de mouvement ont été validées sur hardware : scooting (poussée frontale par rotation des roues) et lateral sliding (déplacement latéral par pas de côté). L'intérêt industriel de cette approche réside dans sa réutilisation du train roulant comme effecteur de manipulation, sans bras supplémentaire ni outil dédié. Le NMPC régule simultanément la locomotion et les forces d'interaction, ce qui signifie que le robot maintient son équilibre tout en exerçant un effort contrôlé sur l'objet, un problème de couplage non trivial. Le planificateur de trajectoire intègre les transitions adhérence-glissement (stick-slip) dans le contact sol-objet, un phénomène souvent ignoré dans les démos en simulation mais critique en conditions réelles. C'est un résultat concret qui réduit le demo-to-reality gap sur la manipulation au sol, habituellement dominée par les manipulateurs à bras. Les robots bipèdes à roues constituent une architecture émergente entre AMR classiques et humanoïdes complets : Agility Robotics (Digit), Boston Dynamics (Spot avec extension roues dans certaines configs), et des plateformes académiques comme le Cassie de l'Oregon State University ont popularisé cette morphologie. Ce travail s'inscrit dans un courant de recherche sur la pédimanipulation, utiliser les jambes comme manipulateurs, que l'on retrouve aussi sur quadrupèdes (ANYmal, Go2). La prochaine étape probable est l'extension à des objets non rigides ou à des surfaces non planes, ainsi que l'intégration de perception pour fermer la boucle en environnement non structuré.

RecherchePaper
1 source
HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique
3arXiv cs.RO 

HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique

Des chercheurs ont publié sur arXiv (référence 2602.11758v2) un framework baptisé HAIC, Humanoid Agile Object Interaction Control, destiné à doter les robots humanoïdes d'une capacité de manipulation d'objets à dynamique indépendante, sans recours à des capteurs externes d'état. Le système repose sur un prédicteur de dynamique qui estime la vitesse et l'accélération d'un objet en contact uniquement à partir de l'historique proprioceptif du robot, c'est-à-dire ses propres données articulaires, sans caméra ni lidar dédié à l'objet. Ces estimations sont projetées sur des priors géométriques statiques pour générer une carte d'occupation dynamique spatialement ancrée, permettant au contrôleur d'inférer les limites de collision et les affordances de contact même dans les zones de l'espace occultées. Les tâches validées expérimentalement sur robot humanoïde incluent le skateboard, la poussée et traction de chariot sous charges variables, et le transport d'un carton sur terrain irrégulier avec plusieurs objets en interaction simultanée. L'apport industriel de HAIC est de combler un angle mort structurel de la robotique humanoïde actuelle : la quasi-totalité des méthodes d'interaction humain-objet (HOI) supposent que l'objet est rigidement couplé au robot et entièrement actionné. Cette hypothèse exclut les objets sous-actionnés à dynamique propre, roues, chariots, caisses sur sol glissant, qui sont précisément les objets courants en entrepôt logistique ou en atelier industriel. En gérant les forces de couplage et les perturbations inertielles de façon proactive, HAIC réduit la dépendance aux capteurs périphériques coûteux et améliore la robustesse aux variations de charge. Le mécanisme d'apprentissage asymétrique (asymmetric fine-tuning), où le world model s'adapte en continu à la politique apprise, adresse directement le problème de distribution shift, un point de fragilité classique des pipelines sim-to-real. La publication s'inscrit dans une course ouverte autour du contrôle whole-body pour humanoïdes, dominée par des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les travaux internes de Figure AI et Agility Robotics. HAIC se distingue en privilégiant une architecture model-based compacte plutôt qu'un grand modèle fondation, un choix de conception qui favorise la latence basse et l'embarquabilité. Le papier ne mentionne pas de partenaire industriel ni de timeline de déploiement ; il reste à ce stade une démonstration en laboratoire sur humanoïde non nommé, sans benchmark standardisé externe, ce qui rend la comparaison directe avec d'autres systèmes difficile à établir.

RechercheActu
1 source
Un système pour des comportements loco-manipulatoires rapides, résilients et adaptatifs sur les robots humanoïdes
4arXiv cs.RO 

Un système pour des comportements loco-manipulatoires rapides, résilients et adaptatifs sur les robots humanoïdes

Des chercheurs de l'IHMC (Institute for Human and Machine Cognition) ont publié une thèse présentant un système de pilotage comportemental pour robots humanoïdes, conçu pour combiner locomotion et manipulation d'objets en temps réel dans des environnements industriels non structurés. Le système, déployé sur cinq plateformes distinctes, le DRC Atlas de Boston Dynamics, le Valkyrie de la NASA, le Nadia d'IHMC et Boardwalk Robotics, le H1-2 d'Unitree et l'Alex d'IHMC, permet à un opérateur de créer, modifier et superviser des comportements directement pendant l'exécution, sans arrêt du robot. La bibliothèque de comportements couvre plus de vingt variantes de tâches réelles : ouverture de portes à poignée rotative, barre anti-panique ou levier, séquences d'exploration multi-étapes, désencombrement d'obstacles et manipulation réactive de surface à surface. Ce travail s'attaque à l'un des verrous fondamentaux de la robotique humanoïde commerciale : la fragilité des comportements face à la variabilité du monde réel. En combinant des "Affordance Templates" centrés sur les objets, une logique inspirée des Behavior Trees et une couche de perception éditable à l'exécution, l'architecture permet d'adapter, d'étendre ou de composer des comportements existants en quelques minutes à quelques heures. C'est une rupture significative par rapport aux pipelines d'apprentissage bout-en-bout, type VLA (Vision-Language-Action), qui nécessitent des cycles d'entraînement longs pour toute nouvelle tâche. Le système repose sur un contrôleur corps-entier autorisant le mouvement des bras pendant la marche, avec un algorithme de superposition d'actions concurrentes pour accélérer les cycles. Le contexte académique est celui du DARPA Robotics Challenge (2013-2015), dont les principes de "Coactive Design", observabilité maximale, prédictibilité, directivité, ont structuré toute l'architecture. Cette thèse constitue une capitalisation de plusieurs années de déploiements multi-robots au sein de l'IHMC, laboratoire fédéral américain historiquement centré sur la locomotion bipède. Face aux approches concurrentes purement end-to-end de Figure AI, Physical Intelligence (pi0) ou Tesla Optimus, ce système positionne un pôle alternatif : contrôle symbolique hybride, intervention opérateur en boucle courte, portabilité multi-plateforme. La prochaine étape naturelle serait une intégration avec des politiques apprises pour les sous-tâches de manipulation fine, comblant le gap sim-to-real que ni l'approche symbolique ni l'apprentissage seul ne résolvent pleinement à ce stade.

RecherchePaper
1 source