IA physiqueInteresting Engineering6sem

Des robots autonomes dotés d'une perception précise de l'environnement réel grâce à une avancée d'ingénieurs américains

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Brain Corp, spécialiste américain des robots autonomes mobiles (AMR) pour environnements commerciaux, annonce un partenariat de recherche avec l'Université de Californie à San Diego (UCSD) autour des technologies de cartographie sémantique et d'intelligence contextuelle. L'objectif est de doter les systèmes autonomes d'une "couche de grounding contextuel", soit une représentation numérique intelligente de l'espace physique qui permet aux robots de comprendre ce qui se passe autour d'eux et de réagir de manière adaptée. Ce partenariat s'appuie sur l'empreinte opérationnelle existante de Brain Corp: plus de 50 000 robots autonomes déployés à l'échelle mondiale, avec plus de 25 millions d'heures d'opérations enregistrées dans des environnements commerciaux variés (centres commerciaux, entrepôts, aéroports). Du côté académique, c'est le Dr. Atanasov, du département Génie électrique et informatique de la Jacobs School of Engineering d'UCSD, qui pilote les travaux. Les avancées issues de cette collaboration seront intégrées dans BrainOS, la plateforme d'autonomie propriétaire de Brain Corp.

Ce partenariat signale un pivot stratégique dans la robotique AMR: le secteur passe d'une compétition centrée sur la navigation vers une compétition sur la compréhension contextuelle de l'espace. Le SLAM (Simultaneous Localization and Mapping) a permis de faire sortir les robots des environnements industriels fixes vers des espaces plus dynamiques, mais pour orchestrer des flottes entières de robots, de capteurs fixes et d'agents IA à l'échelle enterprise, la localisation seule ne suffit plus. Il faut que le système distingue un client qui passe d'un obstacle temporaire, ou adapte son comportement à une zone de travaux en temps réel. John Black, CTO de Brain Corp, formule l'enjeu ainsi: "Le défi n'est plus simplement le mouvement ou la perception, mais la compréhension." C'est le passage de la robotique de tâche à la robotique de situation, dont les implications pour la commercialisation à grande échelle sont concrètes, même si les métriques de performance des cartes sémantiques produites par cette collaboration n'ont pas encore été communiquées.

Brain Corp, fondée en 2009 et dont le siège est à San Diego, a bâti sa position sur BrainOS, système d'exploitation pour AMR utilisé notamment par des fabricants de machines de nettoyage comme Tennant et Minuteman. Avec 50 000 unités déployées, la société dispose d'un corpus de données opérationnelles réelles que peu d'acteurs de la robotique commerciale peuvent revendiquer, un avantage structurel face à des concurrents comme Avidbots ou SoftBank Robotics. Le partenariat avec l'UCSD s'inscrit dans une tendance plus large: les plateformes AMR cherchent à devenir des couches d'orchestration multi-robots et multi-capteurs, concurrençant indirectement des solutions comme celles de Fetch Robotics (racheté par Zebra Technologies) ou 6 River Systems (acquis par Shopify). À ce stade, aucun budget de recherche, ni calendrier de déploiement de fonctionnalités dans BrainOS, n'a été rendu public.

À lire aussi

1Interesting Engineering

Des ingénieurs américains franchissent une étape clé vers une conscience précise de l'environnement réel pour les robots autonomes

Brain Corp, spécialiste américain des systèmes d'autonomie pour robots commerciaux, annonce un partenariat de recherche avec l'Université de Californie San Diego (UC San Diego) pour développer des technologies de cartographie sémantique et d'intelligence contextuelle. L'accord implique notamment le professeur Nikolay Atanasov du département d'Electrical and Computer Engineering de la Jacobs School. L'objectif déclaré : doter les robots autonomes d'une couche de compréhension spatiale plus fine que ce que permettent les solutions de localisation et cartographie simultanées (SLAM) actuelles. Brain Corp s'appuie sur un parc opérationnel de plus de 50 000 robots autonomes déployés dans des environnements commerciaux à l'échelle mondiale, totalisant plus de 25 millions d'heures d'opérations autonomes, corpus de données réelles qui constitue le socle expérimental de la collaboration. L'enjeu dépasse la simple navigation : les approches basées sur la vision directe (end-to-end visual) peinent à maintenir une robustesse satisfaisante dans des environnements dynamiques à grande échelle. Le tandem Brain Corp/UC San Diego parie que des cartes 3D sémantiques enrichies, intégrant la nature fonctionnelle des objets et des espaces et pas seulement leur géométrie, permettront aux flottes de robots de s'adapter à des conditions changeantes sans intervention humaine. Pour les intégrateurs et les opérateurs industriels, cela se traduit par une résilience opérationnelle accrue et une coordination multi-agents fiable à l'échelle d'un site entier, qu'il s'agisse d'entrepôts, d'hôpitaux ou d'espaces commerciaux. John Black, CTO de Brain Corp, résume l'enjeu : "le défi n'est plus le mouvement ou la perception, mais la compréhension." Il convient de noter que l'annonce ne détaille aucune métrique de performance ni résultat expérimental publié à ce stade. Brain Corp, fondée en 2009 à San Diego, s'est imposée dans le segment des robots de nettoyage autonomes (AMR floor care) en grande distribution et facilities management, avec des clients comme Walmart, en déployant sa plateforme BrainOS comme système d'exploitation mutualisé pour l'ensemble de sa flotte. Face à l'émergence de modèles vision-langage-action (VLA) portés par des acteurs comme Physical Intelligence avec pi-0, Nvidia avec GR00T N2, ou Figure AI avec Figure 03, Brain Corp repositionne BrainOS comme infrastructure d'orchestration d'agents autonomes hétérogènes plutôt que comme simple pile de navigation. Le partenariat avec UC San Diego vise à intégrer directement ces avancées en cartographie sémantique dans BrainOS. Aucun calendrier de livraison n'est précisé : il s'agit pour l'heure d'un accord de collaboration recherche, non d'un produit commercialisé ni d'un déploiement en cours.

IndustrielActu

1 source

2Interesting Engineering

Robot park de 90 000 pieds carrés : une entreprise américaine forme des humanoïdes en conditions réelles

Apptronik, entreprise texane basée à Austin, a inauguré Robot Park, une installation de collecte de données et d'entraînement de près de 8 400 m² (90 000 pieds carrés) dédiée à l'accélération du développement de ses robots humanoïdes Apollo. Sur ce site, des unités Apollo 2, la dernière génération de la plateforme, déclinées en version bipède et en version à base roulante, exécutent en continu des tâches représentatives de la logistique, de la fabrication et du commerce de détail, générant ainsi les données réelles nécessaires à l'entraînement de modèles d'IA incarnée. Ce dispositif s'inscrit dans le partenariat de recherche entre Apptronik et Google DeepMind : les données issues d'Apollo 2, combinant téléopération et fonctionnement autonome, alimentent directement les modèles Gemini Robotics de DeepMind tout en améliorant la plateforme commerciale d'Apptronik. Le concept de Robot Park a également été étendu au-delà d'Austin, avec des flux de collecte similaires mis en place chez des clients et partenaires comme Mercedes-Benz et l'opérateur logistique GXO. Apollo 2 sert de « cheval de trait » du programme depuis plus d'un an déjà. Pour l'industrie robotique, cette annonce illustre un déplacement de l'enjeu compétitif : la course aux humanoïdes ne se joue plus seulement sur la démonstration de capacités motrices, mais sur la capacité à produire, à grande échelle et en continu, des données d'usage réel exploitables par des modèles VLA (vision-langage-action). En s'associant à un laboratoire du calibre de Google DeepMind, Apptronik cherche à sécuriser un accès privilégié à des capacités d'IA de pointe plutôt que de tout développer en interne, une stratégie qui tranche avec l'approche plus verticale de concurrents comme Figure AI ou Tesla avec Optimus. Le fait que des clients industriels comme Mercedes-Benz ou GXO participent directement à la collecte de données, sur leurs propres sites, est également un signal notable : il suggère un passage progressif du pilote isolé vers des déploiements multi-sites, même si l'ampleur réelle de l'autonomie atteinte par Apollo 2, par opposition à la téléopération, reste à documenter précisément par Apptronik. Fondée en 2016 et essaimée des travaux de robotique de l'université du Texas à Austin, Apptronik s'est fait connaître avec son premier robot Apollo avant de lancer cette version 2, pensée dès l'origine comme un outil de collecte de données autant que comme un produit commercial. La société évolue dans un secteur de plus en plus dense, aux côtés de Figure AI, Tesla, Boston Dynamics ou encore 1X, chacun misant sur des partenariats logiciels ou une intégration verticale pour combler l'écart entre démonstrations spectaculaires et déploiements industriels réels. Le PDG et cofondateur Jeff Cardenas a présenté l'initiative comme une « boucle d'apprentissage continu » avec l'équipe robotique de Google DeepMind, laissant entendre que d'autres extensions du modèle Robot Park, chez de nouveaux clients ou sur de nouveaux sites, devraient suivre dans les prochains mois.

UEMercedes-Benz, entreprise allemande, participe directement à la collecte de données pour entraîner ces modèles d'IA incarnée, ce qui expose un grand industriel européen à cette technologie mais sans déploiement de production documenté en Europe.

IA physiqueActu

1 source

3arXiv cs.RO

Vers une manipulation robotique généralisable dans des environnements dynamiques

Les chercheurs du consortium H-EmbodVis publient DOMINO, un jeu de données et un benchmark dédiés à la manipulation robotique dans des environnements dynamiques, où les objets à saisir bougent plutôt que de rester immobiles. L'ensemble couvre 35 tâches organisées par niveaux de complexité, plus de 110 000 trajectoires expertes et une suite d'évaluation multidimensionnelle. Parallèlement, l'équipe présente PUMA, une architecture Vision-Language-Action (VLA) conçue spécifiquement pour la dynamique de scène : elle combine un flux optique historique centré sur la scène avec des requêtes spécialisées ("world queries") qui anticipent implicitement l'état futur des objets. Résultat mesuré : un gain absolu de 6,3 points de taux de réussite par rapport aux modèles de référence, avec du code et des données disponibles sur GitHub (H-EmbodVis/DOMINO). L'enjeu dépasse la simple performance sur un benchmark académique. La plupart des modèles VLA actuels, du type de ceux qui alimentent les bras robotiques et les humanoïdes commercialisés, sont entraînés et évalués sur des scènes statiques, alors que les usages industriels réels impliquent souvent des objets en mouvement : pièces sur convoyeur, échanges main à main, tri en environnement encombré. Le papier documente que cette dépendance à l'observation mono-image limite le raisonnement spatio-temporel des modèles, ce qui explique un écart de performance encore mal quantifié entre démonstrations en laboratoire et déploiement réel. Les auteurs montrent aussi que l'entraînement sur données dynamiques améliore les représentations spatio-temporelles au point de bénéficier aux tâches statiques, un signal utile pour les équipes qui arbitrent leurs budgets de collecte de données. Ce travail s'inscrit dans la vague de modèles fondation pour la robotique (dans la lignée de familles comme Pi-0 ou GR00T) qui cherchent à généraliser au-delà des démonstrations scriptées. En publiant dataset, benchmark et code en open source, l'équipe positionne DOMINO comme une référence commune pour comparer les futurs VLA sur la dimension dynamique, un axe jusqu'ici sous-évalué par les benchmarks existants. Aucune date de déploiement industriel n'est annoncée, il s'agit pour l'instant d'une contribution de recherche destinée à orienter les prochains cycles d'entraînement des modèles de manipulation.

IA physiqueActu

1 source

4arXiv cs.RO

IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement

Les modèles Vision-Language-Action (VLA) souffrent d'un défaut structurel bien documenté : en aplatissant les patches d'image en une séquence 1D de tokens, ils perdent les repères spatiaux 2D nécessaires à la manipulation précise d'objets. Des chercheurs ont publié sur arXiv (référence 2601.16207v2) IVRA, une méthode d'inférence légère et sans réentraînement qui corrige ce problème en exploitant des signaux d'affinité déjà présents dans l'encodeur visuel natif du modèle. Ces signaux sont injectés sélectivement dans une couche du modèle de langage où résident les caractéristiques au niveau des instances, réalignant les interactions entre tokens visuels et préservant mieux la structure géométrique sans modifier aucun paramètre. Appliqué à trois architectures distinctes, LLaRA, OpenVLA et FLOWER, IVRA a été évalué sur les benchmarks VIMA (manipulation 2D) et LIBERO (manipulation 3D), ainsi que sur des tâches en environnement physique réel. Sur VIMA en régime de faibles données, il améliore le taux de succès moyen de +4,2 % par rapport à la baseline LLaRA. Sur LIBERO 3D, les gains restent cohérents même proches de la saturation (96,3 % vers 97,1 %). L'intérêt industriel est direct : un intégrateur qui a déjà déployé un VLA peut appliquer IVRA à l'inférence sans réentraînement, sans capteur supplémentaire, sans encodeur externe. C'est un avantage immédiat en time-to-value pour des systèmes en production. Le fait que la méthode fonctionne même à 96,3 % de baseline suggère qu'elle améliore la précision géométrique locale plutôt que la compréhension globale de scène, précisément le point de défaillance des VLA sur des tâches de manipulation fine (saisie d'objets proches, tri par forme, assemblage). Pour la recherche, IVRA valide l'hypothèse que les encodeurs visuels embarqués contiennent des informations spatiales latentes exploitables sans supervision supplémentaire, une direction "training-free adapter" qui mérite davantage d'exploration. La perte de structure spatiale dans les VLA est connue depuis les premières publications sur RT-2 (Google DeepMind, 2023) et OpenVLA (Berkeley/Stanford, 2024). Les réponses habituelles consistent à modifier l'architecture ou à ajouter des flux de données supplémentaires (depth, point clouds), augmentant la complexité de déploiement. Physical Intelligence avec pi-0 et NVIDIA avec GR00T N2 misent sur des architectures propriétaires plus lourdes ; IVRA propose une correction orthogonale applicable sur des modèles ouverts, en compétition directe avec les méthodes de spatial token resampling et d'attention guidée comme RoboFlamingo. L'étape suivante logique serait une validation sur des benchmarks plus exigeants (RLBench, BridgeData v2) et sur des manipulateurs industriels à 6 DOF ou plus en conditions réelles, là où la précision spatiale est critique.

IA physiqueOpinion

1 source