Aller au contenu principal
AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée
RecherchearXiv cs.RO7sem

AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié en mars 2025 sur arXiv les spécifications complètes d'AhaRobot, un manipulateur mobile bimanuel open-source dont le coût matériel total s'élève à 1 000 dollars. Le système repose sur une architecture à deux bras de type SCARA, conçue pour réduire les couples moteurs nécessaires tout en maintenant un large espace de travail vertical. La précision annoncée est de 0,7 mm en répétabilité, obtenue grâce à une compensation de jeu mécanique par double moteur et à une technique de dithering pour neutraliser le frottement statique. L'interface de téléopération associée, RoboPilot, intègre une poignée marqueur à 26 faces qui réduit l'erreur de suivi de 80 % par rapport à une poignée à 6 faces et améliore l'efficacité de collecte de données de 30 %. L'ensemble du code, des fichiers CAO et de la documentation est mis à disposition en accès libre sur aha-robot.github.io.

L'enjeu central est l'entraînement des modèles VLA (Vision-Language-Action), tels que pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui exigent des volumes massifs de données de manipulation réelles et diversifiées. Les plates-formes commerciales équivalentes coûtent généralement entre 20 000 et 100 000 dollars, ce qui limite mécaniquement l'échelle de collecte. À 1 000 dollars par unité, AhaRobot rend théoriquement possible le déploiement de flottes de collecte à faible coût. Les auteurs affirment que la qualité des données est comparable à celle produite par des systèmes de téléopération VR haute gamme, une assertion non encore validée sur des benchmarks standardisés indépendants. La précision de 0,7 mm reste cependant un chiffre solide pour ce niveau de coût.

Le projet s'inscrit dans un mouvement plus large de démocratisation du hardware robotique open-source, aux côtés de LeRobot, l'initiative de la société française HuggingFace, et du Low Cost Robot d'Alexander Koch. La conception SCARA bimanuelle fait un compromis délibéré entre dextérité et coût, en abaissant les exigences en couple pour utiliser des actionneurs moins chers. À ce stade, il s'agit d'un preprint de recherche sans déploiement industriel ni pilote commercial annoncé : la prochaine étape naturelle serait une reprise par des laboratoires académiques pour valider l'imitation learning sur des tâches bimanuelles complexes en conditions réelles, et mesurer si l'avantage coût se maintient à l'échelle.

Impact France/UE

La démocratisation du hardware robotique open-source profite aux laboratoires académiques européens aux budgets contraints, dans la continuité de l'initiative LeRobot portée par HuggingFace, entreprise française, qui milite pour les mêmes standards ouverts de collecte de données pour les modèles VLA.

À lire aussi

Nori Bot : un manipulateur mobile sol-comptoir à moins de 1 000 dollars
1arXiv cs.RO 

Nori Bot : un manipulateur mobile sol-comptoir à moins de 1 000 dollars

Des chercheurs ont mis en ligne en mai 2026 sur arXiv (2605.16537) les spécifications de Nori Bot, un manipulateur mobile bimanuel à 17 degrés de liberté (DOF) proposé à 947 dollars, soit environ 3% du coût des plateformes commerciales comparables. La plateforme cible trois limitations partagées par tous les systèmes open-source à moins de 1 000 dollars, dont XLeRobot (660 dollars), actuellement le moins cher disponible : un espace de travail figé en hauteur, un contrôle purement réactif, et la destruction des servomoteurs Feetech par blocage mécanique (stall burn-out). Nori Bot répond à ces trois points par un axe Z motorisé de 600 mm intégré sur le bus servo existant, par un Raspberry Pi 4 en client léger couplé au runtime agent proactif OpenClaw permettant de déclencher des tâches physiques via cron jobs et hooks, et par une pile logicielle de sécurité estimant la force de préhension à partir du courant moteur sur des doigts TPU souples, sans capteur dédié. Le code, les fichiers CAD et le manifeste de compétences sont annoncés comme prochainement publiés en open-source. La résolution simultanée de ces trois verrous sous le seuil des 1 000 dollars constitue un signal concret pour les équipes R&D et les intégrateurs en robotique de service. La plage verticale de 600 mm est un prérequis fonctionnel pour la quasi-totalité des tâches réelles de manipulation, ce qui rendait les plateformes économiques existantes peu utilisables hors contexte académique. L'agent proactif OpenClaw marque un décrochage conceptuel par rapport aux robots éducatifs à exécution commandée : le dispositif peut planifier et enchaîner des séquences autonomes, ouvrant la voie à des usages logistiques légers non supervisés. La détection de blocage par lecture de courant moteur, sans accéléromètre ni capteur de force externe, réduit par ailleurs le coût et la complexité de maintenance, premier frein au déploiement de matériel économique en production. La plateforme s'inscrit dans une dynamique plus large qui exploite les composants servo grand public (Feetech, Dynamixel) pour démocratiser la manipulation bimaire, dans la continuité de Low Cost Robot (2023) et XLeRobot (2025). Du côté commercial, les plateformes bi-bras sur base mobile comme celles de Figure, Agility Robotics ou Hello Robot Stretch opèrent à des ordres de grandeur de prix incomparables. Il convient de rappeler que cette publication est un preprint arXiv sans évaluation par les pairs, qu'aucun benchmark standardisé ni déploiement terrain n'est documenté à ce stade, et que les performances réelles dépendront de la mise en ligne du code et des fichiers CAD annoncée pour permettre une validation indépendante.

RecherchePaper
1 source
Guava : un cadre efficace et universel pour la manipulation incarnée
2arXiv cs.RO 

Guava : un cadre efficace et universel pour la manipulation incarnée

Des chercheurs ont publié en juin 2026 sur arXiv (identifiant 2606.18363) Guava, un cadre de harness pour agents robotiques de manipulation. Le système repose sur trois ingrédients identifiés après une exploration systématique de l'espace de conception : des boucles itératives perception-raisonnement-action, des abstractions d'action sémantiques et des observations multimodales. À partir de ces principes, les auteurs ont entraîné un modèle open-source de 4 milliards de paramètres en utilisant moins de 2 000 trajectoires collectées entièrement en simulation, sans aucune donnée réelle. Les évaluations en environnement simulé et en conditions réelles montrent des performances comparables aux modèles propriétaires de pointe, avec une généralisation robuste à des objets non vus en entraînement, des instructions inédites et des tâches longues à plusieurs étapes. Le résultat le plus significatif est qu'un modèle compact peut atteindre des performances compétitives avec des systèmes propriétaires massifs à condition que l'architecture de harness soit bien conçue, et non que le modèle soit immense. Cela conteste directement l'hypothèse dominante selon laquelle les systèmes VLA (Vision-Language-Action) end-to-end nécessitent des millions de trajectoires réelles pour franchir le sim-to-real gap. L'approche par tool use découple le raisonnement de haut niveau des modules de perception et de contrôle, rendant le cadre agnostique au modèle sous-jacent, un avantage concret pour les intégrateurs industriels souhaitant substituer les composants sans réentraîner l'ensemble du système. Ce travail s'inscrit dans un débat structurant de la manipulation robotique qui oppose les VLA end-to-end, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, aux approches modulaires par harness, qui misent sur la composabilité et le raisonnement émergent des LLM. L'approche rappelle SayCan (Google/Everyday Robots) ou Code as Policies, mais avec une validation sim-to-real plus explicite et sur modèle open-source. Le modèle 4B utilisé n'est pas nommé dans le papier, et aucun déploiement industriel ni partenariat commercial n'est mentionné : Guava demeure pour l'instant un résultat de recherche, sans timeline de productisation annoncée.

UELes laboratoires de recherche et intégrateurs robotiques européens peuvent s'appuyer sur ce cadre open-source pour développer des systèmes de manipulation compétitifs sans infrastructure de données réelles à grande échelle.

RechercheOpinion
1 source
IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique
3arXiv cs.RO 

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Une équipe de chercheurs publie sur arXiv (identifiant 2606.05660, juin 2026) une revue systématique de la sécurité dans les systèmes d'IA incarnée (embodied AI) appliqués à la manipulation robotique à long horizon. Ce survey structure la littérature selon trois niveaux d'intervention : la sécurité au stade de la planification (planning-time), au niveau de la politique de contrôle (policy-time) et pendant l'exécution (execution-time). Les auteurs identifient quatre vecteurs de risque pouvant s'accumuler dans un même système en boucle fermée : le misgrounding sémantique (l'agent interprète mal l'instruction de haut niveau), la propagation d'erreur entre sous-tâches, la dérive d'exécution (execution drift) et les risques physiques liés aux contacts. Ils distinguent par ailleurs trois catégories de garanties dans la littérature existante : formelles, statistiques et heuristiques empiriques, et concluent que les preuves formelles font défaut à chaque couche. L'enjeu est direct pour les intégrateurs et les décideurs industriels. Un bras robotique déployé en entrepôt ou en ligne de production enchaîne des dizaines d'actions sur des horizons temporels étendus, et chaque sous-tâche peut propager silencieusement une erreur vers les suivantes. Or le survey révèle que la sécurité au niveau de la politique de contrôle, au coeur même des modèles VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est la couche la moins documentée empiriquement. Les mécanismes d'intervention déclenchés par l'incertitude (uncertainty-triggered intervention) restent immatures, et les benchmarks spécifiques à la sécurité en manipulation longue durée sont quasi-inexistants, ce qui rend toute validation rigoureuse avant déploiement aujourd'hui difficile. Ce travail paraît dans un contexte d'accélération industrielle : Figure AI, Boston Dynamics, Unitree et Physical Intelligence multiplient les démonstrations de manipulation dextère, souvent en conditions semi-contrôlées, alimentant un écart potentiel entre annonces marketing et réalité opérationnelle. Il convient de souligner que ce papier est une analyse critique de l'existant, pas un nouveau système ou algorithme. Ses recommandations prioritaires portent sur trois axes : des assurances cross-couche cohérentes de la planification jusqu'à l'exécution physique, des benchmarks dédiés à la sécurité en manipulation longue durée, et des protocoles de déploiement progressifs pour les agents robotiques en environnements réels. En creux, le constat est que les capacités du secteur progressent plus vite que les outils pour en évaluer la sécurité.

UEL'absence de benchmarks formels de sécurité pour la manipulation longue durée concerne directement les industriels européens déployant des bras robotisés, et pourrait alimenter les exigences de validation dans le cadre de l'AI Act pour les systèmes robotiques à haut risque.

RecherchePaper
1 source
Plateforme d'IA incarnée évolutive pour le transfert réel-sim-réel de tâches de manipulation mobile domestique
4arXiv cs.RO 

Plateforme d'IA incarnée évolutive pour le transfert réel-sim-réel de tâches de manipulation mobile domestique

Une équipe de chercheurs a publié sur arXiv (référence 2606.18646v1) les travaux autour de BestMan, une plateforme logicielle conçue pour boucler le cycle real-to-sim-to-real dans le domaine de la manipulation mobile en environnements domestiques. Le système s'articule autour de trois composants : un module de génération automatique de scènes (ASG) qui reconstruit des environnements simulés à partir d'observations réelles, une architecture d'apprentissage de compétences hybrides évaluable à grande échelle en simulation, et un middleware unifié baptisé HUM (Hardware-agnostic and Unified Middleware) assurant le déploiement sur des manipulateurs mobiles hétérogènes. Il s'agit d'une contribution académique sous forme de preprint, pas d'un produit commercialisé ni d'un déploiement industriel annoncé. L'enjeu central que traite BestMan est le fossé sim-to-real, l'un des verrous les plus persistants de la robotique d'intérieur. La manipulation mobile en environnement non-structuré, c'est-à-dire sur des surfaces encombrées, dans des cuisines ou des entrepôts domestiques sans balisage préalable, reste hors de portée des approches qui nécessitent une reconstruction manuelle et coûteuse des scènes de simulation. Le module ASG automatise cette étape, ce qui réduit le coût d'entrée pour les chercheurs souhaitant tester des stratégies de contrôle. Le middleware HUM, s'il tient ses promesses d'agnosticisme matériel, simplifierait le travail des intégrateurs qui opèrent des flottes de robots hétérogènes : une seule pipeline de simulation pour plusieurs plateformes physiques. L'article revendique des benchmarks standardisés, ce qui manquait cruellement dans le champ de la manipulation mobile, mais les métriques précises de performance (taux de succès, temps de cycle, généralisation à des objets inconnus) ne sont pas détaillées dans l'abstract. BestMan s'inscrit dans une vague de plateformes d'intelligence incarnée visant à industrialiser le pipeline simulation-réel : on pense à Isaac Sim de NVIDIA, à Genesis (plateforme de simulation physique open-source), ou encore aux travaux de Physical Intelligence (pi) autour de Pi-0 qui misent sur les VLA (vision-language-action models) pour généraliser sans retraining massif. Côté européen, des acteurs comme Enchanted Tools (Miroki) ou Wandercraft (Atalante) traitent des problèmes adjacents de transfert sim-réel mais sur des morphologies très différentes. L'équipe derrière BestMan ne précise pas de partenariats industriels ni de calendrier de mise à disposition publique de la plateforme : la prochaine étape logique serait une validation sur plusieurs familles de robots et une ouverture du code pour permettre des benchmarks communautaires comparables.

UEImpact indirect potentiel pour les acteurs européens comme Enchanted Tools ou Wandercraft si la plateforme est rendue publique, mais aucun déploiement ou partenariat européen documenté à ce stade.

RecherchePaper
1 source