Aller au contenu principal
Vidéo : un robot DIY fixé au plafond ramasse jouets, vêtements et objets épars
IA physiqueInteresting Engineering2h

Vidéo : un robot DIY fixé au plafond ramasse jouets, vêtements et objets épars

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE
Vidéo : un robot DIY fixé au plafond ramasse jouets, vêtements et objets épars
▶ Voir sur YouTube

Nathaniel Nifong, un ingénieur indépendant, a publié les plans complets d'un robot domestique open source baptisé Stringman, conçu pour ramasser et trier automatiquement les objets épars au sol. Le système repose sur une architecture à câbles (cable-driven parallel robot) : quatre lignes haute résistance, ancrées aux quatre coins d'une pièce, suspendent un préhenseur à deux doigts équipé d'un mécanisme de poignet, qui se déplace dans l'espace aérien de la pièce et descend environ 50 centimètres sous son point d'accroche pour atteindre le sol, voire sous les meubles. Le robot s'appuie sur la plateforme LeRobot de Hugging Face et apprend par imitation : l'utilisateur pilote le système en télé-opération pour lui enseigner la saisie de différents types d'objets. Des marqueurs fiduciaires clip-on désignent les zones de dépôt (bac à jouets, panier à linge, poubelle). L'ensemble est disponible sous licence Apache 2.0 sur GitHub, et des kits prêts à assembler sont proposés en parallèle pour ceux qui ne souhaitent pas usiner les pièces eux-mêmes.

L'intérêt principal de Stringman réside dans son rapport fonctionnalité/coût : avec seulement quatre moteurs, le système atteint une couverture spatiale qu'un bras robotique fixe ne peut pas égaler, sans les contraintes d'une plateforme mobile (batteries, navigation, coût unitaire). C'est la thèse centrale que défend Nifong : de nombreuses tâches domestiques répétitives peuvent être automatisées sans recourir aux robots humanoïdes, dont le coût et la complexité mécanique restent prohibitifs pour le grand public. L'architecture câble-driven évite rails, roues et membres articulés, tout en couvrant la totalité d'une pièce. Des algorithmes de compensation de balancement actif (swing-cancellation) stabilisent le préhenseur en déplacement, un défi classique des systèmes CDPR. Le projet inclut également un mode entièrement local pour le traitement vidéo et la télémétrie, répondant aux préoccupations de vie privée que soulèvent systématiquement les robots domestiques connectés.

Stringman s'inscrit dans l'écosystème DIY qui s'est constitué autour de LeRobot depuis son lancement par Hugging Face en 2024, un framework qui a déjà fédéré des centaines de contributeurs autour de manipulateurs de table bas coût comme le SO-100 ou le Koch v1.1. Il se positionne dans un segment distinct : l'espace domestique vertical plutôt que l'établi ou l'atelier. Il n'existe pas encore de concurrent direct sur ce format résidentiel, bien que les grues CDPR soient bien documentées dans la littérature de robotique industrielle. Les limites actuelles sont réelles et assumées par le créateur : la vision machine nécessite encore des ajustements, les objets plats comme les livres restent difficiles à saisir de manière fiable, et les câbles descendent dans la pièce pendant le fonctionnement, ce qui peut gêner les habitants. Un kit commercial est en préparation, mais ni date de disponibilité ni prix n'ont été communiqués.

Impact France/UE

Stringman s'appuie sur LeRobot de HuggingFace (entreprise française) comme plateforme d'apprentissage par imitation, renforçant l'adoption internationale de cet écosystème open source français comme standard émergent pour la robotique domestique apprenante.

À lire aussi

Vidéo du vendredi : qui gagne entre un robot et un joueur professionnel de ping-pong ?
1IEEE Spectrum Robotics 

Vidéo du vendredi : qui gagne entre un robot et un joueur professionnel de ping-pong ?

La semaine du 18 avril 2026 a été marquée par plusieurs démonstrations robotiques notables, dont la plus emblématique s'est déroulée à Pékin : lors d'un semi-marathon de 21 kilomètres réunissant 12 000 coureurs humains, plus de 100 robots humanoïdes ont pris le départ aux côtés d'athlètes humains, et trois d'entre eux ont franchi la ligne d'arrivée avant tout concurrent humain. Ce résultat, relayé par Al Jazeera, illustre une progression rapide de la locomotion bipedale en conditions réelles. En parallèle, Sony AI publiait dans Nature les résultats d'un système autonome capable de disputer une partie de ping-pong contre des joueurs professionnels, en relevant le défi de la perception haute vitesse et du contrôle dynamique en temps réel, deux verrous longtemps considérés comme bloquants pour l'IA physique compétitive. Autre fait marquant, le robot AthenaZero du Robotics and AI Institute a réalisé du jonglage à trois balles à mains nues, sans motion capture externe ni entonnoir mécanique, en s'appuyant uniquement sur des capteurs embarqués et une coordination oeil-main apprise pour gérer l'incertitude au contact. Ces résultats alimentent le débat sur l'écart entre démonstration et déploiement réel. Le semi-marathon de Pékin constitue une preuve de robustesse locomotrice en environnement non contrôlé, même si les conditions de course (surface, pace, assistance technique en bord de piste) mériteraient d'être précisées pour évaluer la comparabilité exacte avec une performance humaine. La publication Sony dans Nature donne une légitimité scientifique au domaine de l'IA physique compétitive et valide l'idée que des boucles de contrôle rapide peuvent être apprises à partir de données réelles plutôt que simulées. AthenaZero, de son côté, illustre les progrès du sim-to-real sur des tâches de manipulation dynamique sans infrastructure externe, ce qui ouvre la voie à des applications industrielles de tri ou de reorientation d'objets en mouvement. En contrepoint, IEEE Spectrum souligne que la vraie valeur en entrepôt vient encore de systèmes d'automatisation mobile comme ceux de Berkshire Grey, et non des humanoïdes, une nuance importante pour les décideurs B2B qui évaluent des ROI à court terme. Le contexte de cette semaine s'inscrit dans une accélération visible de la robotique chinoise, portée notamment par des acteurs comme Unitree, qui présente des séquences de locomotion en milieu non structuré, et DEEP Robotics, dont les robots quadrupèdes sont déjà déployés en patrouille résidentielle en Amérique du Nord. Sur le plan matériau, le Max Planck Institute for Intelligent Systems a publié une méthode d'évaluation des actionneurs électrostatiques souples utilisant des actionneurs Peano-HASEL, atteignant un rendement électromécanique de 63,6 %, soit plus de trois fois supérieur aux valeurs antérieurement rapportées, ce qui ouvre des perspectives pour des robots légers et silencieux. Côté mobilité aérienne, Skydio a montré la capture de drones en vol avec un bras UR20, tandis qu'ETH Zurich continue ses travaux sur drones suractuatés. Enfin, Sphero se positionne pour combler le vide laissé par LEGO Mindstorms sur le marché de la robotique éducative, un segment commercial non négligeable laissé en friche depuis l'abandon de la gamme par LEGO.

UELes publications de l'ETH Zurich sur les drones suractuatés et du Max Planck Institute sur les actionneurs Peano-HASEL (rendement 63,6%) positionnent la recherche européenne comme contributrice active dans l'écosystème mondial de la robotique physique légère.

IA physiquePaper
1 source
Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle
2Interesting Engineering 

Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle

Genesis AI a présenté GENE-26.5, un modèle de fondation robotique conçu pour doter les robots de capacités de manipulation au niveau humain. La vidéo de démonstration publiée par l'entreprise montre des robots accomplissant une séquence culinaire de 20 étapes (couper des tomates, casser un oeuf d'une seule main, coordonner les deux bras pendant la cuisson), ainsi que la préparation d'un smoothie avec service en l'air, des tâches de laboratoire (pipettage, transfert de liquides), du câblage pour assemblage électronique, la résolution d'un Rubik's Cube en manipulation aérienne continue, et l'interprétation d'une pièce de piano rapide. Pour alimenter l'entraînement du modèle, l'entreprise a développé un gant haptique équipé d'une peau électronique à capteurs tactiles, établissant une correspondance 1:1:1 entre la main humaine, le gant et la main robotique. Genesis revendique un coût matériel cent fois inférieur aux solutions de télé-opération conventionnelles, et une efficacité de collecte de données cinq fois supérieure. Le moteur de données associé intègre également des vidéos égocentriques issues de caméras portables et des vidéos publiques centrées sur l'activité humaine. Ces résultats, s'ils se confirment en environnement réel non contrôlé, représentent une avancée potentiellement significative sur l'un des verrous les plus tenaces de la robotique : l'écart d'incarnation (embodiment gap) entre les mains humaines et robotiques, qui limite depuis des années la transférabilité des données d'entraînement. La cartographie 1:1 glove-to-robot est une approche déjà explorée par des acteurs comme Physical Intelligence (pi-0) et plusieurs laboratoires académiques, mais Genesis revendique une démonstration à une échelle et une polyvalence inédites. Pour les intégrateurs industriels et les décideurs cherchant à automatiser des tâches non structurées (assemblage fin, préparation culinaire en volume, logistique d'entrepôt), la promesse d'un système généraliste capable d'apprendre directement des gestes humains quotidiens, sans retraining extensif, représenterait un changement de paradigme. Il faut toutefois noter que les démonstrations sont des vidéos éditées, sans données indépendantes sur le taux d'échec, les conditions d'éclairage, ou la reproductibilité en cycle de production continu. Genesis AI s'inscrit dans un segment en forte concurrence avec Physical Intelligence (pi-0, Berkeley), Figure AI (Figure 03, déployé avec BMW), Tesla (Optimus Gen 3), NVIDIA (GR00T N2) et Apptronik (Apollo). L'approche par gant haptique à bas coût rappelle les travaux d'Enchanted Tools, acteur français du service robotique, qui mise également sur la capture de mouvement humain pour réduire le coût d'entraînement. Genesis n'a pas encore annoncé de déploiements industriels confirmés ni de partenariats nominatifs : GENE-26.5 reste à ce stade une annonce de produit accompagnée d'une démonstration vidéo, pas un système disponible commercialement. L'entreprise indique prévoir le déploiement de ses gants en milieu de travail réel via des partenariats industriels, avec pour objectif de constituer une bibliothèque de compétences humaines à grande échelle pour l'entraînement robotique.

IA physiqueActu
1 source
DexSynRefine : synthèse et affinement des mouvements humain-objet pour des actions robotiques dextériques réalisables
3arXiv cs.RO 

DexSynRefine : synthèse et affinement des mouvements humain-objet pour des actions robotiques dextériques réalisables

DexSynRefine est un framework de manipulation dextre présenté dans un preprint arXiv daté de mai 2026, conçu pour apprendre des gestes robotiques complexes à partir de données d'interaction humain-objet (HOI) plutôt que par téléopération. L'architecture repose sur trois composants couplés : HOI-MMFP, une extension des "motion manifold primitives" conditionnée par la tâche et l'état initial de l'objet, qui synthétise des trajectoires coordonnées main-objet à partir de démonstrations HOI éparses ; une politique de renforcement résiduelle dans l'espace de la tâche, qui ancre physiquement ces trajectoires de référence tout en héritant de leur structure cinématique ; et un module d'adaptation contact-dynamique qui exploite l'historique proprioceptif pour le transfert sim-to-réel. Le système a été évalué sur cinq tâches : saisie-dépôt, utilisation d'outils et réorientation d'objets. Sur le robot réel, il améliore les taux de succès de 50 à 70 points de pourcentage par rapport au retargeting cinématique classique, et réussit le transfert sur la totalité des cinq tâches. Ce résultat est notable pour les intégrateurs et décideurs industriels parce qu'il adresse simultanément deux verrous majeurs de la manipulation dextre : le mismatch d'embodiment (les mains humaines et les mains robotiques ont des cinématiques incompatibles) et le sim-to-real gap dans des tâches contact-rich. L'approche HOI comme source de données est une alternative à l'échelle à la téléopération, coûteuse en opérateurs qualifiés. La politique résiduelle RL préserve la structure des démos tout en corrigeant la physique, ce qui limite l'exploration RL brute dans des espaces à haute dimension. Le gain de 50-70 pp est annoncé sur des évaluations internes, les conditions de test n'étant pas encore détaillées dans ce preprint préliminaire, ce qui invite à une lecture prudente avant généralisation. DexSynRefine s'inscrit dans une ligne de travaux sur la manipulation dextre post-dexterous-RL qui cherchent à s'affranchir de la téléopération (Dexterous Imitation, AnyDexGrasp, RoboAgent). Les motion manifold primitives sur lesquels s'appuie HOI-MMFP sont un outil issu de la synthèse de mouvement humain adapté ici au domaine robotique. Les concurrents directs incluent les approches de retargeting cinématique pur, les politiques diffusion comme pi-zero et les méthodes VLA appliquées à la manipulation fine. Le papier n'annonce pas de déploiement industriel ni de partenariat commercial, et reste au stade de la démonstration académique en laboratoire. Les prochaines étapes probables concernent la généralisation à des objets non vus et l'intégration dans des pipelines de données HOI à grande échelle.

IA physiquePaper
1 source
AERMANI-PLACE : placement d'objets guidé par le langage avec des manipulateurs aériens
4arXiv cs.RO 

AERMANI-PLACE : placement d'objets guidé par le langage avec des manipulateurs aériens

Des chercheurs ont publié AERMANI-PLACE, un cadre logiciel permettant à un manipulateur aérien (drone équipé d'un bras robotique) de positionner des objets à partir d'instructions en langage naturel, sans que l'opérateur n'ait à saisir de coordonnées métriques. Le système fonctionne en deux étapes : une image de la scène combinée à une consigne textuelle est transmise à un modèle de génération d'images, qui produit une version modifiée de la scène avec un marqueur visuel indiquant l'emplacement cible. Ce marqueur est ensuite ancré dans l'espace physique via des observations de profondeur, permettant de récupérer un point de placement en coordonnées métriques, à partir duquel une trajectoire est calculée et exécutée par le drone. Sur un jeu de test de 100 tâches, le système affiche un taux de réussite de 87 % pour l'inférence des positions, et de 72 % lors du transfert sur une plateforme réelle de manipulation aérienne. L'article a été déposé sur arXiv (ref. 2606.14531) en juin 2026. L'intérêt principal de cette approche réside dans l'élimination du fossé d'interface entre l'intention humaine et la commande robot. Jusqu'à présent, les systèmes de manipulation aérienne exigeaient que l'utilisateur raisonne explicitement sur les référentiels de coordonnées et la géométrie de la scène, ce qui freinait l'adoption opérationnelle hors laboratoire. AERMANI-PLACE propose une abstraction en langage naturel, plus proche des usages industriels réels où les opérateurs ne sont pas roboticiens. Le transfert sim-to-real reste partiel (écart de 15 points entre simulation et terrain), ce qui signale que les conditions d'éclairage, d'occultation ou de texture peuvent encore dégrader la robustesse, un point à surveiller avant tout déploiement critique. La manipulation aérienne reste un domaine de recherche émergent, situé à l'intersection des UAV industriels et de la robotique de préhension. Les travaux précédents imposaient des interfaces semi-automatisées ou des pipelines de vision-to-pose classiques nécessitant une calibration fine. Dans l'écosystème concurrent, des équipes comme celles de l'ETH Zurich (ETHZ-ASL) ou de l'Université de Séville travaillent sur des plateformes similaires, mais peu ont intégré un grounding linguistique direct. L'approche d'AERMANI-PLACE, centrée sur un modèle d'édition d'image comme interface sémantique, est transposable à d'autres plateformes mobiles ou fixes. Les prochaines étapes naturelles incluent l'extension aux gestes de pointage combinés au langage, tel que mentionné dans la motivation du papier, ainsi qu'une validation sur des tâches à contraintes de précision plus élevées.

UEImpact indirect : des équipes européennes (ETH Zurich-ASL, Université de Séville) travaillent sur des plateformes concurrentes de manipulation aérienne, situant ce préprint dans un paysage de recherche partiellement européen.

IA physiqueOpinion
1 source