
Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie

Des chercheurs de Carnegie Mellon University (CMU) et du Bosch Center for AI ont publié un nouveau système d'IA baptisé HTD (Humanoid Transformer with Touch Dreaming), conçu pour améliorer la manipulation d'objets par des robots humanoïdes dans des environnements à contact complexe. Le framework combine l'apprentissage par imitation avec un module de prédiction tactile, permettant au robot d'anticiper l'évolution des forces de contact et du retour haptique avant et pendant la saisie. Testé sur cinq tâches réelles, insertion d'objet en T, rangement de livres, pliage de serviette, ramassage de litière et service du thé, HTD affiche une amélioration relative de 90,9 % du taux de réussite moyen par rapport à la baseline ACT, un modèle d'imitation de référence dans le domaine. Le système repose sur une architecture dissociée : un contrôleur bas-corps entraîné par renforcement en simulation via une méthode teacher-student stabilise l'orientation du torse, la vitesse et l'équilibre, tandis que la cinématique inverse et le retargeting de main gèrent les mouvements du haut du corps et la dextérité digitale. Les représentations tactiles ne sont pas reconstruites brutes mais encodées dans un espace latent compact via un réseau cible mis à jour lentement, ce qui filtre le bruit sensoriel et améliore la stabilité de la manipulation.
Ce résultat est notable parce qu'il adresse directement l'un des verrous persistants de la robotique humanoïde : la cohabitation entre locomotion et manipulation fine sans dégradation mutuelle. La séparation architecturale bas/haut corps n'est pas nouvelle en soi, mais son intégration avec un modèle prédictif tactile dans une politique unifiée évite le recours à un pré-entraînement tactile séparé ou à un world model externe, ce qui simplifie le pipeline de déploiement. Les études d'ablation sont particulièrement instructives : incorporer le toucher comme entrée brute supplémentaire ne suffit pas, la prédiction dans l'espace latent apporte 30 % de gain relatif supplémentaire sur le raw tactile. Pour les intégrateurs qui envisagent des humanoïdes dans des cellules de manutention délicate, c'est un signal clair que la qualité de la représentation sensorielle prime sur la quantité de capteurs.
HTD s'inscrit dans une vague de travaux cherchant à combler le sim-to-real gap pour la manipulation contact-riche. Le controller bas-corps a été entraîné sur le dataset AMASS, qui fournit des mouvements humains réalistes pour perturber le torse pendant l'apprentissage, une approche de robustification déjà utilisée dans des projets comme Isaac Lab de NVIDIA ou les travaux de Stanford sur whole-body control. Dans le paysage concurrentiel, Figure (Figure 03), Physical Intelligence (Pi-0), Boston Dynamics et 1X Technologies travaillent tous sur des architectures VLA (Vision-Language-Action) pour la manipulation généraliste, mais peu publient des résultats quantitatifs sur des tâches aussi précises que l'insertion de connecteurs ou la manipulation de textiles. CMU n'a pas encore annoncé de partenariat industriel ni de calendrier de transfert vers un produit commercial, mais le Bosch Center for AI comme co-auteur suggère un intérêt applicatif concret dans l'automatisation industrielle à manipulation variable.
Le Bosch Center for AI (Allemagne) co-auteur du papier signale un intérêt applicatif concret pour l'automatisation industrielle européenne à manipulation variable, sans calendrier de transfert industriel annoncé.
Dans nos dossiers




