Aller au contenu principal
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
IA physiquearXiv cs.RO2h

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue.

L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle.

OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

Impact France/UE

Les équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

À lire aussi

OneVLA : un cadre unifié pour les tâches d'IA incarnée
1arXiv cs.RO 

OneVLA : un cadre unifié pour les tâches d'IA incarnée

Une équipe de recherche a publié fin mai 2026 sur arXiv (référence 2606.01241) un modèle baptisé OneVLA, présenté comme une architecture unifiée Vision-Langage-Action (VLA) capable de gérer à la fois la navigation autonome et la manipulation d'objets au sein d'un seul et même réseau. Le principe central repose sur une tête d'action commune qui génère des commandes de déplacement et des gestes de manipulation sans module séparé ni variante spécialisée selon la tâche. L'entraînement suit une stratégie progressive en plusieurs étapes, avec construction de jeux de données curés et un fine-tuning par Chain-of-Thought (CoT) visant à créer un transfert positif entre les deux domaines. Les expériences rapportées couvrent des environnements simulés et réels, et les auteurs affirment surpasser les modèles spécialisés à tâche unique ainsi que les approches cross-task existantes. Le code source et les poids du modèle sont annoncés comme devant être rendus publics, sans date précisée. L'enjeu est structurel pour le secteur : la quasi-totalité des VLA actuellement déployés ou publiés restent monolithiques par domaine. Pi-0 de Physical Intelligence excelle en manipulation dextère, GR00T N2 de NVIDIA intègre des capacités de navigation mais avec des têtes d'action distinctes, et la plupart des agents issus des travaux RT-X ou OpenVLA ne combinent pas les deux modalités de façon cohérente. Un modèle qui transfère positivement entre navigation et manipulation éviterait aux équipes d'intégration de maintenir deux pipelines d'inférence séparés, un coût opérationnel significatif en production. Le CoT appliqué à la planification motrice est également notable : il indique que le raisonnement symbolique peut renforcer la généralisation comportementale, une hypothèse jusqu'ici difficile à valider à l'échelle réelle. Ce travail s'inscrit dans une tendance de fond amorcée depuis 2024 vers les architectures dites "fondation" pour la robotique généraliste. Les limitations à signaler : il s'agit d'un preprint sans revue par les pairs, les benchmarks précis de performance (taux de succès par scénario, temps de cycle, conditions d'éclairage ou de charge) ne sont pas détaillés dans l'abstract, et aucune institution commerciale ni déploiement industriel n'est mentionné. Les prochaines étapes naturelles seraient la publication du code pour permettre une évaluation indépendante, ainsi qu'une validation sur plateformes humanoïdes réelles, là où la fusion navigation-manipulation est la plus critique pour des cas d'usage entrepôt ou logistique.

IA physiqueOpinion
1 source
SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée
2Pandaily 

SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée

SynapX, une startup fondée en janvier 2026, a annoncé le lancement de SYNData, un système de collecte de données multimodale conçu pour l'apprentissage de la manipulation dextre en robotique incarnée. Le système repose sur trois modules matériels distincts : un casque Ego à quatre caméras pour la vision première personne, des bracelets EMG (électromyographie) pour capter les signaux bioélectriques musculaires, et un exosquelette-gant bionique pour enregistrer la pose de la main, l'état de contact sur toute la paume et la distribution des forces. L'architecture permet la collecte simultanée de ces modalités, y compris en conditions d'occlusion visuelle partielle. Trois semaines seulement après sa création et sa première participation en compétition, SynapX a terminé 2e au classement mondial et 1er en Chine dans la piste "Reasoning to Action" de l'AGIBOT World Challenge, organisé dans le cadre de l'ICRA 2026. L'enjeu central que SYNData prétend résoudre est le goulot d'étranglement de la donnée physique à l'échelle. Dans le développement des modèles vision-langage-action (VLA) pour la manipulation robotique, la collecte de données haute qualité demeure le facteur limitant, davantage que l'architecture des modèles ou la maturité du hardware. Le mécanisme propriétaire Bio2Robot transforme les signaux biologiques humains en données directement exploitables par des modèles de robot, avec l'objectif déclaré de ne pas perturber le comportement naturel de l'opérateur lors de la capture. Si cette promesse tient à l'échelle, cela représenterait un avantage opérationnel significatif pour les intégrateurs cherchant à industrialiser la démonstration humaine sans pipeline de labellisation coûteux. Le contexte concurrentiel est dense : des acteurs comme Physical Intelligence avec son modèle Pi-0, NVIDIA avec GR00T N2, ou encore Agibot et 1X Technologies investissent massivement dans des pipelines de données pour la manipulation généraliste. En Chine, l'écosystème est particulièrement actif, porté par des programmes de soutien public et une communauté robotique illustrée par l'AGIBOT World Challenge lui-même. SynapX se positionne en amont de la chaîne de valeur, comme fournisseur d'infrastructure de collecte plutôt que fabricant de robot. La robustesse du classement ICRA reste à confirmer en conditions de déploiement industriel réelles, le gap entre performance en compétition et application terrain demeurant un défi structurel du secteur.

💬 Le vrai goulot en robotique, c'est pas l'archi du modèle, c'est la donnée physique à l'échelle, et SynapX l'a compris avant beaucoup. Se positionner comme fournisseur d'infra de capture plutôt que fabricant de robot, c'est malin : tu fournis à tout l'écosystème sans te battre contre Physical Intelligence ou NVIDIA sur le hardware. Trois semaines d'existence, 2e mondial à l'ICRA, bon, reste à voir si les EMG et l'exo tiennent hors compétition.

IA physiqueOpinion
1 source
SynapX lance SYNData : un système de collecte de données multimodal pour l'ère de l'IA incarnée
3Pandaily 

SynapX lance SYNData : un système de collecte de données multimodal pour l'ère de l'IA incarnée

SynapX a lancé SYNData, un système de collecte de données multimodales dédié à la manipulation dextre pour l'IA incarnée (embodied AI). La plateforme combine trois modules matériels : un casque Ego équipé de quatre caméras, des bracelets EMG (électromyographie) et un gant exosquelette bionique. Ensemble, ils capturent simultanément la vision à la première personne, la pose des mains, l'état de contact de la paume entière avec distribution des forces, et les signaux bioélectriques musculaires, y compris en cas d'occlusion visuelle. La brique centrale est le mécanisme Bio2Robot : un modèle IA qui transforme les signaux biologiques humains en données directement exploitables pour l'entraînement robotique, sans contraindre le comportement naturel de l'opérateur. Fondée en janvier 2026, SynapX a participé à l'AGIBOT World Challenge (track Reasoning to Action) à ICRA 2026 seulement trois semaines après sa création officielle, décrochant la 2e place mondiale et la 1re place en Chine. Le vrai goulot d'étranglement de l'IA incarnée n'est plus l'architecture des modèles ni le matériel, mais la disponibilité de données d'interaction physique de haute qualité à grande échelle. SYNData cible ce problème en capturant les gestes humains sans les modifier, là où la télé-opération classique introduit des artefacts comportementaux. La capture simultanée de la distribution des forces sur toute la paume et des signaux EMG constitue une modalité que peu de systèmes commerciaux ou open-source proposent aujourd'hui. Le résultat obtenu à ICRA 2026, même pour une entreprise de trois semaines, valide une cohérence technique sur benchmark standardisé, même si les conditions précises du challenge ne sont pas détaillées publiquement. Le marché de la collecte de données pour la robotique manipulatrice est dominé par des pipelines propriétaires : Physical Intelligence (Pi-0), Figure AI et Agility Robotics collectent leurs datasets via télé-opération directe. SynapX se distingue par une approche biosignale potentiellement plus scalable en environnement industriel réel. La société n'a pour l'instant communiqué ni sur ses clients, ni sur ses tarifs, ni sur un calendrier de déploiement commercial. Les prochaines étapes attendues sont la constitution d'un dataset propriétaire de grande envergure et, probablement, une commercialisation du système de collecte auprès de laboratoires de robotique et d'intégrateurs industriels.

💬 Le vrai problème des robots manipulateurs, c'est pas les modèles, c'est les données. SynapX a compris ça : capter les gestes humains sans les contraindre, là où la télé-opération classique introduit des artefacts que les modèles apprennent ensuite à reproduire (y compris les mauvais). La 2e place mondiale à ICRA trois semaines après la création, c'est flatteur, mais le vrai test c'est un dataset à grande échelle en conditions industrielles réelles.

IA physiqueActu
1 source
Dexora : un modèle VLA open source pour la dextérité bimmanuelle à haute DOF
4arXiv cs.RO 

Dexora : un modèle VLA open source pour la dextérité bimmanuelle à haute DOF

Des chercheurs ont publié en mai 2026 Dexora, un système VLA (Vision-Language-Action) open-source conçu nativement pour la manipulation bimane et bi-main à haut nombre de degrés de liberté (DoF). Contrairement aux architectures existantes, limitées soit au contrôle de pinces doubles (faible DoF), soit à la manipulation dextère d'un seul bras, Dexora adresse simultanément les deux problèmes. Le pipeline de téléopération repose sur un exosquelette dorsal pour capturer la cinématique grossière des bras, couplé à un suivi markerless des doigts via Apple Vision Pro pour le mouvement fin des mains. Ce dispositif pilote à la fois un robot physique dual-arm dual-hand et un jumeau numérique identique sous MuJoCo. Le corpus d'entraînement atteint 100 000 trajectoires simulées (6,5 millions de frames) et 10 000 épisodes téléopérés en conditions réelles (2,92 millions de frames). Pour filtrer le bruit inévitable des démonstrations humaines, un discriminateur offline attribue des pondérations par clip avant l'entraînement d'une politique diffusion-transformer. En benchmark, Dexora obtient 66,7 % de succès sur les tâches dextères contre 51,7 % pour les meilleures alternatives comparées, et 90 % sur les tâches de base. Des résultats de généralisation hors distribution et cross-embodiment sont également reportés. Ce travail comble un angle mort réel de l'écosystème VLA actuel : les mains à haute dextérité (typiquement 16 à 22 DoF par main) ne se prêtent pas aux heuristiques utilisées pour les pinces, et les méthodes end-to-end génériques se sont jusqu'ici heurtées à la complexité de la téléopération bimanuelle simultanée. Le gain de 15 points sur les baselines dextères est significatif, même si les benchmarks utilisés restent internes et les conditions expérimentales peu détaillées dans l'abstract, ce qui mérite vérification à la lecture du papier complet. L'ouverture du code, des données et des poids est le point différenciant le plus structurant : elle abaisse la barrière d'entrée pour les laboratoires et les intégrateurs qui cherchent à entraîner des politiques sur leurs propres plateformes dextères sans repartir de zéro. La publication s'inscrit dans une course accélérée à la dextérité fine pour les bras robotiques, où Physical Intelligence (pi0), OpenVLA et plusieurs équipes académiques ont multiplié les releases VLA depuis 2024. Aucun acteur européen n'est directement impliqué dans ce travail, mais des start-ups comme Enchanted Tools (France) ou Shadow Robotics (UK, désormais indépendant de OpenAI) suivent des trajectoires adjacentes sur les mains dextères. Le recours à l'Apple Vision Pro comme capteur de téléopération markerless est un choix pragmatique mais dépendant d'un hardware grand public non industriel, dont la robustesse en environnement de production reste à démontrer. Il s'agit d'un preprint arXiv, pas d'un produit livré : aucun déploiement industriel ni pilote n'est annoncé à ce stade.

UEDes laboratoires et start-ups européens spécialisés dans la manipulation dextère (ex : Enchanted Tools, Shadow Robotics) pourront s'appuyer sur le code, les données et les poids open-source de Dexora pour accélérer leurs propres politiques, sans qu'aucun partenariat ou déploiement en Europe ne soit annoncé.

💬 Le vrai saut, c'est l'open source : code, poids, et les 100 000 trajectoires d'entraînement disponibles. Jusqu'ici chaque équipe qui voulait attaquer la manipulation bimanuelle repartait de zéro, parce que personne ne partageait de base réutilisable à cette granularité de DoF. Reste à voir ce que ça vaut en dehors des benchmarks internes.

IA physiqueOpinion
1 source