Aller au contenu principal

Dossier Boston Dynamics — page 5

676 articles · page 5 sur 14

Boston Dynamics, pionnier de la locomotion : Atlas électrique, Spot patrouille industrielle et inspection, partenariats Hyundai et Toyota Research Institute.

Un robot-chien chinois affronte -30 °C, traverse rivières et terrains accidentés en démonstration
201Interesting Engineering Chine/AsieOpinion

Un robot-chien chinois affronte -30 °C, traverse rivières et terrains accidentés en démonstration

DEEP Robotics a publié une vidéo de démonstration de son robot hybride roues-pattes Lynx M20S, successeur du M20, capable de traverser des rivières glacées jusqu'à 80 cm de profondeur, de fonctionner à -30°C et d'évoluer à une altitude de 5 177 mètres. La plateforme pèse 35 kg, accepte une charge utile de 15 kg (charge maximale 50 kg) et franchit des obstacles jusqu'à 80 cm de hauteur dans des couloirs aussi étroits que 50 cm, avec des pentes jusqu'à 45 degrés. Son autonomie atteint 3 heures et 15 km à vide par charge, réduite à 2,5 heures et 12 km avec 15 kg de payload, grâce à une double batterie hot-swappable et une endurance améliorée de 17 à 67% par rapport au modèle précédent. La vitesse de pointe en laboratoire est de 5 m/s, la vitesse opérationnelle de 2 m/s. Pour la perception, la plateforme intègre deux LiDAR à 96 lignes en configuration 360° x 90°, des caméras grand-angle et un évitement d'obstacles omnidirectionnel. La certification IP66 lui permet d'opérer entre -20°C et +55°C, avec mises à jour OTA et expansion modulaire. Cette démonstration cible un créneau précis : les environnements où les AMR à roues classiques sont bloqués et où les drones ne peuvent pas porter de charge utile significative, soit l'inspection de lignes haute tension en montagne, la réponse d'urgence post-catastrophe ou l'exploration en zone difficile d'accès. La combinaison roues-pattes est ici un compromis technique cohérent, la propulsion à roues assurant vitesse et efficacité énergétique sur terrain stable, les pattes prenant le relais sur obstacles. Les specs annoncées (80 cm d'eau, -30°C, 45° de pente) dépassent sur le papier celles du Spot de Boston Dynamics en contexte outdoor extrême. Il convient cependant de noter que les séquences présentées sont sélectionnées par l'équipe marketing et que les performances en déploiement industriel continu restent à valider par des clients opérationnels. Une charge utile de 15 kg reste suffisante pour des capteurs LiDAR embarqués, de la thermographie ou des kits d'urgence légers, ce qui ouvre des cas d'usage concrets pour les intégrateurs. DEEP Robotics est un acteur chinois positionné face à Unitree Robotics (B2, Go2) sur le segment robots à pattes compétitifs-prix, et face à ANYbotics (ANYmal, Suisse) sur le segment inspection industrielle premium. Le M20S est une évolution incrémentale du M20 original, dont les points forts principaux sont l'endurance améliorée et la double batterie interchangeable à chaud, plutôt qu'une refonte de l'architecture mécanique. Parallèlement, DEEP développe un humanoïde DR02 pour environnements industriels et dangereux, confirmant la tendance des constructeurs de robots spécialisés à élargir leur catalogue vers les plateformes anthropomorphes. Aucune date de disponibilité commerciale ni tarif n'ont été communiqués pour le M20S : la vidéo reste pour l'instant au stade de la démonstration d'enveloppe de performances, pas d'une annonce de produit livrable.

UEImpact indirect sur ANYbotics (Suisse) dont le segment inspection industrielle premium se retrouve concurrencé par des specs annoncées supérieures à coût potentiellement inférieur, mais sans disponibilité commerciale confirmée.

1 source
ForEnt : un jeu de données multimodal pour caractériser le piégeage des robots quadrupèdes en milieu forestier
202arXiv cs.RO 

ForEnt : un jeu de données multimodal pour caractériser le piégeage des robots quadrupèdes en milieu forestier

Des chercheurs ont publié ForEnt, un dataset multimodal destiné à caractériser les encastrements de robots quadrupèdes en milieu forestier. Collecté avec le Unitree Go2, un quadrupède d'entrée de gamme, sur huit sites du Southampton Common Woodlands au Royaume-Uni, le jeu de données couvre 1,7 km de traversées réparties en 11 séquences, au cours desquelles 69 événements d'encastrement ont été enregistrés. Un encastrement désigne une situation où les pattes du robot se retrouvent piégées dans des lianes, des racines ou d'autres végétaux, provoquant une perte de stabilité et un risque de chute. ForEnt combine des flux temporellement synchronisés : images RGB-D, nuages de points LiDAR, données proprioceptives et vidéo en vue tierce-personne. Chaque événement est labellisé, ce qui en fait un benchmark reproductible pour évaluer des stratégies de détection d'encastrement. Les robots quadrupèdes sont de plus en plus déployés pour la surveillance écologique en forêt, mais leur autonomie est régulièrement interrompue par ces incidents mécaniques, qui nécessitent une intervention humaine et risquent d'endommager le matériel. L'absence d'un dataset dédié à ces modes de défaillance spécifiques freinait le développement d'algorithmes robustes. ForEnt comble ce manque : une base de données multimodale structurée permet désormais d'entraîner et d'évaluer des méthodes de détection in situ. Pour les chercheurs en navigation autonome, c'est une brique essentielle pour que des robots identifient proactivement les zones à risque et adaptent leur locomotion, condition nécessaire à des déploiements sans supervision prolongée dans des environnements non structurés. Le Unitree Go2 est l'un des quadrupèdes les plus accessibles du marché (environ 2 700 dollars), ce qui explique son adoption croissante en recherche académique. La robotique forestière reste un segment de niche mais en expansion, porté par des besoins croissants en monitoring environnemental : inventaires d'espèces, suivi d'incendies, cartographie de biodiversité. Les plateformes plus robustes comme Boston Dynamics Spot ou ANYbotics ANYmal restent hors de portée budgétaire pour la plupart des équipes académiques, ce qui rend les travaux sur des systèmes low-cost d'autant plus stratégiques. Les suites naturelles de ForEnt incluent l'entraînement de modèles de détection en temps réel et leur intégration dans des politiques de locomotion adaptative.

RecherchePaper
1 source
Kawasaki Robotics dévoile sa plateforme d'IA physique RL030N à Automate
203Robotics Business Review 

Kawasaki Robotics dévoile sa plateforme d'IA physique RL030N à Automate

Kawasaki Robotics dévoilera la semaine prochaine, lors du salon Automate 2026 à Chicago (McCormick Place, stand S-2201), sa nouvelle plateforme RL030N, un bras robotique à 8 degrés de liberté (DoF) conçu pour les applications d'IA physique. L'entreprise présentera également deux robots industriels inédits, le MXP360L dédié à la manutention lourde et le BA013L, ainsi que sa technologie d'inspection Pulseboard brevetée. Le RL030N se distingue des bras six axes conventionnels par un axe supplémentaire en configuration dite "plongeoir" ("diving board") : une extension supplémentaire qui permet d'atteindre des positions en espace confiné sans tomber en singularité, c'est-à-dire sans perdre le contrôle du couple cinématique inverse. Selon Paul Marcovecchio, directeur des industries générales chez Kawasaki Robotics (siège américain à Wixom, Michigan), cette articulation maintient également la pleine capacité de charge sur toute l'amplitude de mouvement, un compromis que les bras traditionnels étirent ne peuvent généralement pas tenir. La plateforme repose sur l'API temps réel ouverte KRNX de Kawasaki et supporte l'évitement d'obstacles, la planification de mouvement complexe et l'orchestration externe, c'est-à-dire le pilotage du robot par un superviseur logiciel tiers. L'intérêt industriel de la RL030N réside dans le pont qu'elle tente de construire entre les robots industriels fiables et les exigences de dextérité des nouveaux systèmes d'IA physique. Plusieurs startups ont développé des logiciels de planification de mouvement avancés, mais se heurtaient aux limites cinématiques des plateformes existantes ou à des latences incompatibles avec le contrôle temps réel. Kawasaki répond à cette demande en offrant un matériel pensé dès la conception pour être commandé par des orchestrateurs externes, ce qui réduit la friction d'intégration pour les éditeurs de VLA (Vision-Language-Action models) ou de systèmes de manipulation adaptative. La posture de Kawasaki est délibérément pragmatique : l'entreprise évite le discours "humanoid-first" et mise sur des robots industriels éprouvés reconvertis pour l'IA physique, un pari sur la robustesse plutôt que sur la rupture spectaculaire. Kawasaki Robotics opère dans l'automatisation industrielle depuis 1969, filiale de Kawasaki Heavy Industries, conglomérat japonais actif dans l'aéronautique, le ferroviaire et les véhicules récréatifs. Cette origine manufacture-first explique le discours centré sur les résultats concrets plutôt que sur les benchmarks de laboratoire. Sur un marché où Boston Dynamics, Agility Robotics, Figure ou 1X Technologies concentrent l'attention médiatique autour de l'humanoïde, Kawasaki choisit un positionnement différent : bras industriel augmenté, compatible physique AI, déployable immédiatement dans des lignes existantes. Automate 2026 sera le premier test public de la RL030N ; aucun calendrier de disponibilité commerciale ni tarif n'ont été communiqués à ce stade, ce qui en fait pour l'instant une annonce de salon plutôt qu'un produit disponible à la commande.

UEKawasaki dispose d'une filiale européenne (KRE, Allemagne) et équipe les lignes de production EU, mais la RL030N est présentée exclusivement sur le marché américain sans calendrier ni partenariat européen annoncé.

IA physiqueOpinion
1 source
VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles
204arXiv cs.RO 

VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles

Des chercheurs ont publié sur arXiv (référence 2606.16696) VENOM, un modèle de suivi de mouvement corps entier conçu pour fonctionner sur plusieurs plateformes humanoïdes distinctes sans adaptation spécifique à chaque châssis. L'architecture repose sur un transformeur de type GPT entraîné sur le VENOM dataset, un jeu de données multi-humanoïdes constitué par l'équipe, qui rassemble états, actions et récompenses issus de plusieurs morphologies robotiques. L'originalité principale réside dans l'abandon du découplage classique haut/bas du corps : VENOM produit une politique unifiée qui contrôle simultanément l'ensemble des degrés de liberté. Les évaluations, conduites en simulation, montrent que le modèle surpasse un perceptron multicouche (MLP) entraîné par apprentissage supervisé sur les mêmes données et qu'il égale les performances d'experts formés par renforcement asymétrique acteur-critique, sans jamais avoir eu accès aux signaux de récompense pendant l'entraînement. L'enjeu est structurant pour la filière humanoïde : la majorité des politiques de suivi de mouvement publiées à ce jour segmentent le corps en sous-problèmes distincts, ce qui complique le transfert entre robots aux cinématiques différentes. Une politique cross-embodiment unifiée réduit le coût d'adaptation lorsqu'un intégrateur doit passer d'un châssis à un autre, ou lorsqu'un constructeur révise sa plateforme mécanique. Plus significatif encore, VENOM démontre qu'une architecture de type language model peut absorber la diversité des morphologies sans supervision par récompense explicite, simplifiant ainsi le pipeline d'entraînement. Il faut néanmoins souligner que toutes les expériences restent confinées à la simulation : l'écart sim-to-real n'est pas abordé, et les métriques annoncées ne valident pas encore un comportement physique sur robot réel. Ce travail s'inscrit dans un courant actif qui cherche à généraliser les politiques de contrôle au-delà d'un seul robot, dans la lignée de travaux comme Universal Humanoid Controller ou ExBody. Sur le front industriel, les grands déploiements humanoïdes actuels (Boston Dynamics Atlas, Agility Robotics Digit, Figure 02, Unitree H1) imposent chacun leurs propres pipelines de contrôle propriétaires, ce qui rend le problème du cross-embodiment économiquement pertinent pour tout intégrateur multi-plateforme. VENOM est un preprint non encore évalué par les pairs, le terme "letter" employé dans le texte suggérant une soumission vers une revue IEEE telle que RA-L ; la suite logique serait une validation sur au moins deux plateformes physiques pour établir la robustesse du transfert sim-to-real.

RecherchePaper
1 source
Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable
205arXiv cs.RO 

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.16572) SteerGenPO, un cadre d'apprentissage par renforcement en espace latent destiné à transformer une politique générative entraînée, basée sur la diffusion ou les flux normalisants, en un contrôleur robotique déterministe et stable. Le système a été évalué sur six benchmarks Isaac Lab d'NVIDIA et sur une tâche de locomotion avec le robot humanoïde Unitree G1, avec des résultats supérieurs aux baselines RL classiques et génératives selon les auteurs. Il s'agit d'une publication académique en pré-impression, sans déploiement industriel annoncé ni validation terrain au-delà du G1. Le verrou technique adressé est connu : les politiques de diffusion accumulent des variations d'action à chaque pas de temps, ce qui dégrade la stabilité sur des systèmes robotiques à haute dimensionnalité. SteerGenPO sépare architecturalement exploration et contrôle : l'échantillonnage stochastique reste actif à l'entraînement pour diversifier les proposals d'actions, mais au déploiement, un acteur latent appris prédit une entrée déterministe et dépendante de l'état qui pilote la politique générative sans bruit résiduel. Pour les intégrateurs, la proposition n'exige pas de réentraîner la politique depuis zéro : elle greffe un mécanisme de pilotage sur un checkpoint pré-entraîné existant, ce qui ouvre la voie à l'exploitation de modèles fondation tout en garantissant la reproductibilité des trajectoires en production. Ce travail s'inscrit dans la compétition intense autour des politiques génératives en robotique. Physical Intelligence avec Pi-0 (2024) et NVIDIA avec GR00T N2 (2025) ont validé l'approche VLA-diffusion en environnements contrôlés, mais les questions sur la robustesse à l'inférence longue restent ouvertes. Boston Dynamics, Agility Robotics et Figure AI privilégient des pipelines de contrôle plus classiques pour la fiabilité en production. SteerGenPO propose une voie médiane : capitaliser sur la richesse exploratoire des modèles génératifs sans en subir l'instabilité au déploiement. Aucune timeline, partenariat industriel ni essai terrain n'est mentionné dans le préprint ; les prochaines validations naturelles porteraient sur la manipulation dextère et des tests sim-to-real approfondis.

IA physiqueOpinion
1 source
Soutenu par Samsung, un robot à 7 DOF apprend à travailler dans un grand entrepôt e-commerce
206Interesting Engineering 

Soutenu par Samsung, un robot à 7 DOF apprend à travailler dans un grand entrepôt e-commerce

Le RB-Y1 de Rainbow Robotics, filiale à 35 % de Samsung, aurait débuté des tests opérationnels dans un entrepôt de fulfillment de Coupang, premier e-commerce de Corée du Sud - ce qui constituerait son premier déploiement en environnement logistique commercial réel. Selon le Korea Herald et des sources industrielles citées par ETNews, le pilote vise à évaluer si le robot peut trier, transporter et manipuler des colis de manière fiable dans ce réseau hautement automatisé. Ni Coupang, ni Samsung, ni Rainbow Robotics n'ont confirmé officiellement l'essai : on reste au stade de test non annoncé, pas de déploiement validé. Le RB-Y1 adopte une architecture distincte des humanoïdes bipèdes qui dominent l'actualité : c'est un manipulateur mobile sur base à roues (AMR), mesurant 1,4 mètre pour 131 kilogrammes, équipé de deux bras à 7 degrés de liberté chacun, avec un payload de 3 kg par bras et une vitesse de déplacement de 1,5 m/s. L'ensemble est coordonné par un système de contrôle corps entier à 20 axes avec logiciel d'anti-collision intégré. Coupang a par ailleurs investi plus de 84 millions de dollars dans des startups IA mondiales depuis 2023 dans le cadre de sa stratégie de modernisation logistique. Ce pilote illustre un franchissement potentiel du fossé laboratoire-terrain pour les manipulateurs mobiles avancés, qui restent habituellement cantonnés à des environnements contrôlés. Le contexte réglementaire coréen renforce l'urgence : la loi sur la punition des accidents graves (Serious Accidents Punishment Act) engage pénalement les dirigeants en cas d'accident mortel sur le lieu de travail, créant une incitation directe à automatiser les tâches à risque. Le payload de 3 kg par bras positionne clairement le RB-Y1 sur le tri et le picking de petits articles - un segment différent de robots comme le Boston Dynamics Stretch, conçu pour des charges jusqu'à 23 kg. Pour les décideurs B2B, l'approche AMR plus double bras articulé, plus sobre que les humanoïdes bipèdes, pourrait s'avérer plus rapidement opérationnelle en conditions industrielles réelles - à condition que les métriques annoncées tiennent hors cadre laboratoire. Rainbow Robotics a été fondée en 2011 par des chercheurs issus du KAIST. Samsung a progressivement monté au capital avant d'en faire une filiale, identifiant la robotique comme axe stratégique aux côtés de l'IA et des semi-conducteurs avancés. La Corée du Sud affiche déjà la densité robotique la plus élevée au monde selon l'IFR, avec 1 012 robots industriels pour 10 000 travailleurs manufacturiers, soit plus de sept fois la moyenne mondiale. Dans la compétition sur les manipulateurs mobiles pour la logistique, le RB-Y1 fait face à l'Apollo d'Apptronik (partenaire de Mercedes-Benz), au Digit d'Agility Robotics (évalué par Amazon) et aux solutions de 1X Technologies. En Europe, Enchanted Tools et Pollen Robotics (France) travaillent sur des architectures comparables, à des stades de commercialisation plus précoces. Si le pilote Coupang est concluant, un déploiement à grande échelle en ferait l'un des premiers cas documentés de standardisation de ce type de robot dans la logistique commerciale mondiale.

UEEnchanted Tools et Pollen Robotics (France) sont explicitement positionnées comme en retard de commercialisation face au RB-Y1 de Rainbow Robotics, soulignant la pression concurrentielle que les acteurs européens subissent des conglomérats coréens soutenus par Samsung.

Chine/AsieOpinion
1 source
X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques
207arXiv cs.RO 

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

Publié sur arXiv (2603.03733) en 2025, X-Loco est un framework d'entraînement d'une politique de locomotion généraliste basée sur la vision pour robots humanoïdes. L'approche repose sur une distillation synergétique : plusieurs politiques expertes sont entraînées séparément pour des compétences distinctes - locomotion bipède stable, récupération après chute, coordination corps entier, franchissement de terrains variés - puis une politique unique guidée par entrée visuelle est distillée à partir de ces experts via un mécanisme de sélection adaptative au cas par cas. X-Loco opère uniquement sur des commandes de vitesse, sans recours à des mouvements de référence issus de captures de mouvement. Les auteurs revendiquent une première dans l'intégration simultanée de toutes ces compétences dans une seule politique vision - affirmation à prendre avec les précautions d'usage pour un preprint non encore évalué par les pairs. Ce travail s'attaque à un verrou technique central : entraîner une politique unique qui maîtrise des comportements aux dynamiques radicalement différentes et aux objectifs de contrôle parfois contradictoires. Une telle politique simplifie le déploiement opérationnel en éliminant les modules de commutation entre comportements. L'absence de dépendance aux données de mocap rend également le pipeline d'entraînement plus scalable, puisqu'il ne requiert pas de bibliothèques de mouvements spécifiques à chaque compétence cible. Les études d'ablation incluses renforcent la crédibilité des choix architecturaux, mais les résultats restent cantonnés à la simulation et au laboratoire, sans validation sur hardware réel à grande échelle. X-Loco s'inscrit dans une dynamique de recherche intense sur la locomotion humanoïde, portée par des équipes comme Berkeley Humanoid, CMU et les labos gravitant autour d'Unitree. La distillation enseignant-étudiant est un paradigme établi en apprentissage par renforcement, mais son application à un spectre aussi large de compétences reste un défi ouvert. Côté commercialisation, Tesla (Optimus Gen 2), Figure AI, Boston Dynamics (Atlas) et 1X Technologies travaillent sur des problèmes similaires avec des ressources bien supérieures. La suite logique pour X-Loco serait une validation sim-to-real convaincante sur hardware physique, étape non encore franchie selon le papier.

RecherchePaper
1 source
Kine2Go : jeu de données cinématiques pour le robot Unitree Go2, avec allures et mouvements variés
208arXiv cs.RO 

Kine2Go : jeu de données cinématiques pour le robot Unitree Go2, avec allures et mouvements variés

Une équipe de chercheurs a publié en juin 2026 Kine2Go, un jeu de données cinématiques open-source destiné au robot quadrupède Unitree Go2. Le dataset contient 800 trajectoires de marche couvrant une large variété de gaits, issues de 40 politiques de contrôle distinctes. Le pipeline développé accepte des données de locomotion provenant de morphologies quadrupèdes variées et les retraduit dans un format compatible Go2. Ces politiques sont entraînées par renforcement (RL) pour reproduire fidèlement les trajectoires cibles, puis les données collectées en simulation incluent des perturbations, ce qui produit des séquences cinématiques robustes accompagnées des commandes moteur correspondantes, niveau actionneur. Le problème que Kine2Go cherche à résoudre est concret : les approches modernes d'apprentissage sur robots, qu'il s'agisse d'imitation learning, de behavioral cloning ou de RL, nécessitent des données de démonstration incluant l'état cinématique complet du robot et les actions appliquées aux moteurs. Construire le pipeline d'acquisition de ces données est coûteux en temps et en ingénierie, ce qui constitue un frein réel pour les équipes de recherche à ressources limitées. En prépackageant 800 trajectoires prêtes à l'emploi avec leurs labels moteur, le dataset réduit significativement ce coût d'entrée pour les travaux en navigation, contrôle de locomotion et transfert sim-to-real. La présence de perturbations dans les données est un choix pertinent : elle expose les modèles apprenants à de la variabilité, ce qui améliore la robustesse des politiques résultantes en condition réelle. Le Unitree Go2 s'est imposé ces deux dernières années comme plateforme de référence accessible dans la recherche en locomotion quadrupède, notamment face au Boston Dynamics Spot, beaucoup plus onéreux. Sa démocratisation tient au rapport coût-performance : moins de 2 000 dollars en version grand public, contre plusieurs dizaines de milliers pour ses concurrents institutionnels. Ce contexte de coût hardware décroissant est précisément la motivation affichée par les auteurs. La prochaine étape logique serait l'extension du pipeline à d'autres plateformes quadrupèdes populaires comme l'ANYmal de ANYbotics ou le Spot de Boston Dynamics, voire aux robots bipèdes, que le pipeline générique semble en principe permettre. Le preprint est disponible sur arXiv (2606.14433).

RecherchePaper
1 source
GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels
209arXiv cs.RO 

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Une équipe de chercheurs a publié sur arXiv (2606.14160) une nouvelle méthode d'estimation d'état proprioceptive pour robots à pattes, baptisée GAIT. L'approche repose sur une tokenisation inertielle-jambe (Inertial-Leg, IL) couplée à un réseau d'attention : plutôt que de concaténer l'ensemble des données capteurs en un seul vecteur plat, l'architecture représente les mesures inertielles et les mesures par jambe comme des tokens distincts, puis utilise un mécanisme d'attention pour pondérer dynamiquement chaque source selon les conditions de contact courantes. La méthode a été validée sur un robot quadrupède Unitree Go1, sur des terrains encombrés de débris absents de la simulation d'entraînement, et sur des allures (gait patterns) non présentées lors de l'apprentissage. L'enjeu de GAIT est de résoudre un problème central des estimateurs à pattes : la fiabilité des mesures de cinématique directe dépend du contact effectif du pied avec le sol. Les estimateurs classiques "contact-aided" contournent ce problème via un module de détection de contact explicite et l'hypothèse d'un appui stationnaire, ce qui les rend fragiles sur terrains irréguliers ou lors de transitions d'allure. GAIT apprend ce comportement de repondération directement depuis les données, sans estimateur de contact dédié, éliminant une source d'erreur en cascade. Les résultats montrent une supériorité sur les estimateurs d'apprentissage existants pour des allures non vues, ainsi qu'une amélioration par rapport aux méthodes modèles contact-aided, confirmant que les architectures à attention peuvent réduire le gap sim-to-real sur l'estimation proprioceptive bas-niveau. L'estimation d'état proprioceptive reste un défi persistant en robotique à pattes : les filtres de Kalman étendu (EKF) et variantes invariantes dominent en production chez Boston Dynamics et Unitree, mais peinent sur terrains non structurés. Les approches d'apprentissage antérieures traitaient généralement les capteurs comme un vecteur plat homogène, sans différenciation structurelle entre inertielles et cinématiques. GAIT s'inscrit dans la tendance 2024-2026 d'appliquer des mécanismes d'attention aux données robotiques bas-niveau, une direction convergente avec les architectures VLA (Vision-Language-Action) pour la commande motrice. Le code n'est pas encore publié ; la prochaine étape naturelle serait une validation sur plateformes bipèdes telles que l'Unitree H1 ou le Boston Dynamics Atlas, où la phase de vol rend l'estimation d'état encore plus critique.

RecherchePaper
1 source
Hyundai déploie des chiens robots pour sécuriser les sites de la Coupe du Monde 2026
210Interesting Engineering 

Hyundai déploie des chiens robots pour sécuriser les sites de la Coupe du Monde 2026

Hyundai Motor Company a déployé quatre robots quadrupèdes Spot de Boston Dynamics pour patrouiller deux sites stratégiques de la Coupe du Monde FIFA 2026, qui se tient simultanément aux États-Unis, au Canada et au Mexique. Les robots opèrent à l'International Broadcast Center de Dallas ainsi qu'aux stades de New York et du New Jersey, où ils assurent des rondes de surveillance autonomes, des inspections en temps réel et le monitoring de zones à forte affluence. C'est la première fois que des Spot sont engagés sur un tournoi FIFA, dans le cadre du partenariat officiel "FIFA Official Robotics Partner" signé entre les deux organisations. En parallèle, Hyundai gère une flotte logistique de 1 500 véhicules, 994 voitures particulières et 506 autocars, dont une partie en versions hybrides, pour les transferts d'équipes, officiels et médias entre les 16 villes hôtes. Ce déploiement représente un test grandeur nature pour la robotique mobile hors environnement industriel contrôlé. Les stades et centres de diffusion du Mondial accueillent des dizaines de milliers de visiteurs, de personnels et de journalistes dans des configurations spatiales qui changent d'heure en heure, un contexte radicalement différent des chaînes de montage où Spot a fait ses preuves. Engager quatre unités dans un environnement aussi dense et imprévisible permet à Hyundai et Boston Dynamics de valider des capacités de navigation en foule, de détection d'anomalies et de reporting autonome que les simulations d'usine ne peuvent pas reproduire. Pour les intégrateurs et décideurs sécurité, le signal est clair : la robotique de patrouille commence à franchir le seuil de l'événementiel grand public, avec des contraintes de fiabilité et de sécurité bien plus exigeantes qu'en milieu industriel fermé. Boston Dynamics commercialise Spot depuis 2020 pour des applications d'inspection industrielle, pétrolière et de construction, mais les déploiements en sécurité événementielle restent rares et généralement limités à des pilotes discrets. Hyundai Motor Group a acquis Boston Dynamics en 2021 pour environ 1,1 milliard de dollars, faisant de la robotique mobile l'un de ses axes stratégiques aux côtés de l'électrification. Sur ce segment, Spot est en concurrence directe avec les quadrupèdes de Unitree (Chine) et ANYbotics (Suisse), ce dernier davantage positionné sur l'industrie lourde et les infrastructures critiques. La Coupe du Monde 2026, 48 équipes, 104 matches, trois pays, constitue la plus grande édition de l'histoire du tournoi, et Hyundai l'utilise manifestement comme vitrine commerciale. Les performances opérationnelles des quatre Spot sur les six semaines de compétition seront scrutées par les organisateurs d'événements sportifs et les gestionnaires de sites qui évaluent actuellement la robotique de surveillance comme alternative ou complément aux agents de sécurité humains.

UEImpact indirect : le déploiement valide le segment sécurité événementielle et renforce la pression concurrentielle sur ANYbotics (Suisse), principal acteur européen du quadrupède industriel, sans implication directe d'entreprises ou réglementations françaises ou européennes.

IndustrielOpinion
1 source
WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force
211arXiv cs.RO 

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

Une équipe de chercheurs présente WT-UMI dans un preprint arXiv déposé en juin 2026, une interface tactile portable conçue pour la manipulation corps entier par des robots humanoïdes. Le dispositif se porte sur un opérateur humain ou se monte directement sur un humanoïde, et capture simultanément des images tactiles, des mesures de force de contact et les poses des effecteurs terminaux, aussi bien en mode démonstration humaine qu'en téléopération. L'architecture repose sur deux modules complémentaires : un correcteur de pose cible conditionné par la force, qui apprend à traduire les poses humaines en commandes exécutables par le robot à partir de données de téléopération, et un planificateur supervisé par la force qui prédit conjointement les trajectoires de pose et les profils de force de contact. Ces prédictions servent de référence à un contrôleur d'admittance basé sur le retour tactile. Évalué sur cinq tâches à contacts riches couvrant des objets déformables, des charges rigides encombrantes et la collaboration humain-humanoïde, WT-UMI surpasse quatre politiques de référence en taux de succès et en précision de suivi des contacts. L'enjeu sous-jacent est structurel : la quasi-totalité des politiques d'imitation actuelles traitent les forces de contact de manière implicite, par le signal visuel ou proprioceptif uniquement, ce qui atteint ses limites physiques dès que l'objet manipulé est souple, encombrant ou porté à plusieurs agents. WT-UMI attaque directement le dilemme classique entre démonstrations humaines, riches en interactions de contact naturelles mais non exécutables telles quelles par un robot, et téléopération, précise dans les actions robot mais moins naturelle dans la régulation des forces. La fusion des deux sources via un module de correction appris propose une troisième voie. Pour les intégrateurs et les décideurs industriels, cela ouvre une piste concrète vers la manipulation de charges souples ou asymétriques, un verrou persistant en logistique et en assemblage. WT-UMI s'inscrit dans la lignée des interfaces UMI (Universal Manipulation Interface) apparues vers 2023-2024 pour faciliter la collecte de démonstrations à faible coût. L'extension "WT" ajoute la détection tactile distribuée sur l'ensemble du corps, au-delà des capteurs de poignet ou de doigts habituels. Il s'agit à ce stade d'un preprint de recherche sans déploiement industriel annoncé, ce point mérite d'être précisé face à des métriques présentées sans contexte de cadence de cycle ni de robustesse à l'échelle. Dans le paysage concurrent, Physical Intelligence avec Pi-0, Figure avec ses humanoïdes commerciaux et Boston Dynamics ciblent également la manipulation robuste, mais restent majoritairement dans une logique visuo-motrice ou de politiques VLA. WT-UMI se distingue en faisant du contact une variable de planification explicite plutôt qu'un résidu à corriger a posteriori. Les prochaines étapes logiques seraient une validation sur matériel humanoïde commercial et une comparaison frontale avec des architectures VLA, aujourd'hui dominantes dans la course à la généralisation.

IA physiquePaper
1 source
IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui
212arXiv cs.RO 

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

Des chercheurs ont publié en juin 2026 un préprint sur arXiv (2606.13222) décrivant un système permettant à un robot humanoïde d'apprendre à se distinguer des autres agents présents dans son environnement, sans recourir à des étiquettes d'identité ni à des modèles cinématiques prédéfinis. Le mécanisme repose sur la correspondance proprioceptive-visuelle : le robot corrèle ses propres états articulaires avec ce qu'il perçoit visuellement, ce qui lui permet d'identifier ses propres membres parmi d'autres corps en mouvement. À partir de cette capacité, le système construit automatiquement un modèle prédictif de soi qui associe les configurations articulaires à une représentation d'occupation corporelle en trois dimensions. Le système a été validé dans des scènes multi-agents impliquant soit des humains, soit des robots morphologiquement identiques, et supporte des tâches aval concrètes : atteinte de cibles, planification de mouvement avec évitement de collision, et retargeting de mouvement humain-robot. L'enjeu pratique est significatif pour les intégrateurs déployant des humanoïdes en environnements partagés. Jusqu'ici, la distinction soi/autrui dans les robots était traitée soit par des marqueurs extérieurs, soit par des modèles cinématiques codés en dur, deux approches qui échouent dès que le robot opère aux côtés d'agents inconnus ou de copies identiques de lui-même. Que cette capacité puisse émerger d'un signal d'apprentissage auto-supervisé, sans annotation, contredit l'hypothèse selon laquelle la conscience corporelle nécessite une ingénierie explicite. La robustesse face à des robots morphologiquement identiques est particulièrement notable : c'est précisément le scénario qui se généralise dans les lignes d'assemblage où plusieurs unités du même modèle cohabitent. Le problème de la représentation de soi chez les robots est un sujet actif depuis les travaux fondateurs sur le « miroir robotique », mais les approches précédentes restaient limitées à des configurations contrôlées. Côté concurrent, des équipes chez Figure AI, Boston Dynamics et Sanctuary AI travaillent sur des architectures d'apprentissage incarné, mais peu publient sur la distinction soi/autrui en contexte multi-agent. Ce travail reste à ce stade un preprint non évalué par les pairs ; aucun déploiement industriel ni partenariat n'est annoncé. Les auteurs publient une page projet avec démonstrations vidéo, ce qui permettra d'évaluer la robustesse hors conditions de laboratoire.

IA physiquePaper
1 source
Hello Robot reconnue par le Forum économique mondial comme pionnière technologique
213The Robot Report 

Hello Robot reconnue par le Forum économique mondial comme pionnière technologique

Le Forum Économique Mondial a désigné Hello Robot Inc. comme "Technology Pioneer 2026" le 10 juin 2026, intégrant l'entreprise californienne (Martinez, CA) dans la cohorte annuelle de 100 startups sélectionnées pour leur impact sur les industries et la société. Hello Robot développe le robot mobile manipulateur Stretch, un système open-source sur roues doté d'un bras télescopique conçu pour opérer en proximité directe avec des humains dans des environnements domestiques, médicaux et professionnels. Fondée en 2017 par Aaron Edsinger et Charlie Kemp, deux chercheurs cumulant plus de 50 ans d'expérience combinée en robotique (MIT, Google, Georgia Tech), la société a présenté en mai 2026 la quatrième génération de Stretch, une refonte majeure pilotée par les retours utilisateurs. Le robot est actuellement déployé dans des centaines de sites académiques, de recherche et d'entreprises, et fait l'objet de pilotes auprès de personnes atteintes de handicaps moteurs sévères, dont des cas de quadriplégie, qui le pilotent via une application mobile pour accomplir des tâches quotidiennes : aller chercher un verre d'eau, se nourrir, fermer des stores. La reconnaissance du WEF illustre un glissement de perception dans le secteur robotique : après des années dominées par les démonstrations spectaculaires de robots humanoïdes ou industriels, un intérêt croissant se porte vers les systèmes à utilité directe et déployable. Pour les intégrateurs et les décideurs du secteur de la santé ou du maintien à domicile, Stretch représente un cas d'usage concret et mesurable : augmentation de l'autonomie des patients, réduction de la charge sur les aidants, et compatibilité avec des environnements non structurés (domiciles réels, pas des labs). Là où la plupart des déploiements humanoïdes restent en phase pilote contrôlée en environnement industriel, Hello Robot documente des usages réels chez des utilisateurs à domicile, ce qui en fait un point de référence pour le "reality gap" entre démos et terrain. Hello Robot s'inscrit dans une catégorie distincte du champ robotique actuel, dominé par les humanoïdes industriels (Figure, 1X, Agility, Unitree, Tesla Optimus) et les AMR logistiques (Boston Dynamics Spot, Exotec). Stretch cible un segment sous-investi : l'assistance à la personne dans des environnements non industriels. La société avait déjà été distinguée par le RBR50 Robotics Innovation Award en 2025 pour la version Stretch 3. Avec Stretch 4 lancé en mai 2026 et cette labellisation WEF, Hello Robot consolide sa position de référence dans la robotique d'assistance personnelle. Les prochaines étapes probables incluent une expansion des pilotes cliniques et domestiques, ainsi qu'une potentielle recherche de financement adossée à cette visibilité institutionnelle, dans un contexte où les financeurs institutionnels et les systèmes de santé européens s'intéressent de plus en plus aux robots d'assistance à domicile.

UELes systèmes de santé et financeurs institutionnels européens, en recherche active de solutions de maintien à domicile, peuvent s'appuyer sur les pilotes documentés de Stretch 4 comme référence concrète pour évaluer la maturité de la robotique d'assistance personnelle.

BusinessOpinion
1 source
Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)
214arXiv cs.RO 

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 10 juin 2026 sur arXiv (2606.10495) SALSA, un framework de post-entraînement en deux étapes destiné à rendre les modèles Vision-Language-Action (VLA) capables de naviguer en sécurité parmi des piétons. Sans aucune annotation humaine, la méthode réduit les quasi-collisions de 86,4 % et fait passer la précision de reconnaissance des situations sociales critiques de 53 % à 93 %, mesurée sur le dataset SCAND et lors de déploiements en conditions réelles. SALSA opère en deux temps : une étape d'alignement comportemental social connecte les représentations internes des couches intermédiaires du VLA à sa tête d'action, via un entraînement sur des paires scènes humain/objet contrefactuelles pour casser les raccourcis de saillance visuelle ; une étape d'alignement temporel de sécurité génère automatiquement une supervision sur le risque futur pour permettre une évitement anticipatoire, avant que le danger ne soit imminent, plutôt que purement réactif. L'intérêt principal de ce résultat est de démontrer que les VLA pré-entraînés encodent déjà, dans leurs représentations latentes, la distinction piéton/obstacle et des signaux de collision future, mais que le behavior cloning classique échoue à traduire ces signaux en actions appropriées. Pour les intégrateurs et décideurs industriels, cela signifie que des robots équipés de VLA existants (Pi-0, OpenVLA, GR00T N2) peuvent être rendus plus sûrs en navigation sociale sans réentraînement complet ni pipeline d'annotation coûteux. Le caractère annotation-free est industriellement significatif : il supprime le goulot d'étranglement du labeling humain qui freine le passage à l'échelle des approches d'apprentissage pour la navigation sociale. La navigation sociale en robotique mobile est un problème ouvert depuis une décennie : les approches classiques (Social Force Model, ORCA) ignorent le contexte sémantique, tandis que les méthodes RLHF nécessitent une récompense dense difficile à définir. SALSA s'inscrit dans une vague de travaux post-entraînement sur les VLA, aux côtés de méthodes comme DPO appliqué à la robotique et les pipelines de fine-tuning de Physical Intelligence. Les concurrents directs incluent les approches à modules de détection piéton explicites (Spot de Boston Dynamics, Nav2 avec costmaps sociaux) et les frameworks d'apprentissage par renforcement socialement conscients. Les chercheurs valident sur déploiement réel, mais sans préciser le matériel robotique utilisé ni les conditions d'environnement, un point à surveiller avant toute généralisation industrielle.

IA physiqueOpinion
1 source
AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel
215arXiv cs.RO 

AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel

Des chercheurs ont publié sur arXiv (réf. 2606.10927) AllDayNav, un système de navigation robotique lifelong capable d'évoluer indéfiniment dans des environnements dynamiques sans carte explicite. Son architecture combine un grand modèle d'un milliard de paramètres, entraîné par apprentissage par renforcement directement en conditions réelles, et une mémoire multimodale auto-évolutive qui agrège images-clés visuelles, descriptions sémantiques et contexte temporel. Ce mécanisme permet au robot de générer automatiquement des instructions en vocabulaire ouvert, des objectifs visuels et des récompenses structurées, sans annotation humaine à chaque nouvelle tâche. Évalué sur des scénarios de navigation inter-pièces, inter-épisodes et inter-tâches, AllDayNav atteint des taux de succès proches de 100 % et surpasse des baselines de type SLAM, VLM et RL classique en efficacité de trajectoire et en robustesse, aussi bien en simulation qu'en environnement physique. Ce travail remet en question une hypothèse structurante du domaine : la navigation autonome fiable nécessiterait une représentation spatiale explicite de l'environnement (cartes métriques, graphes de scènes). AllDayNav montre qu'un modèle suffisamment large, affiné en continu par RL avec une mémoire implicite, peut dépasser ces approches y compris hors contextes contrôlés. Pour les intégrateurs de robots mobiles (AMR en logistique, robots de service en espaces publics), cela préfigure des systèmes adaptables aux modifications d'environnement sans reconfiguration manuelle. La prudence reste de mise : les chiffres de "100 % de succès" proviennent d'un preprint non encore évalué par les pairs, sans détail complet sur les conditions exactes d'évaluation ni sur la variabilité entre scènes. AllDayNav s'inscrit dans une tendance de fond visant à remplacer les pipelines modulaires perception-cartographie-planification par des modèles de fondation entraînés de bout en bout. Google DeepMind (travaux NavIRL, SayCan), CMU et Berkeley explorent des directions similaires pour la navigation mobile généraliste, tandis que des acteurs comme Boston Dynamics et ANYbotics continuent de s'appuyer sur des approches hybrides métriques. Soumis le 10 juin 2026, ce papier reste une contribution académique : aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

UEImpact indirect pour les intégrateurs européens d'AMR logistique : si les résultats se confirment après peer review, cette approche pourrait réduire les coûts de reconfiguration dans des entrepôts et espaces publics dynamiques.

IA physiquePaper
1 source
Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger
216Pandaily 

Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger

Le robot humanoïde G1 de Unitree Robotics est devenu en quelques semaines un phénomène viral mondial, déployé dans des contextes radicalement différents selon les pays. En Corée du Sud, un G1 a été ordonné moine bouddhiste au temple Jogyesa de Séoul sous le nom de "Gabi", revêtu d'une robe monastique grise et d'un chapelet, ayant reçu les cinq préceptes dont l'interdiction de "surcharger" -- précepte que les journalistes coréens ont vérifié techniquement, confirmant que le BMS du robot coupe effectivement la charge automatiquement. Au Japon, le temple Seirenji de Kyoto héberge un "Buddharoid" basé sur la même plateforme G1, équipé d'un LLM entraîné sur des sutras et couplé à ChatGPT, capable de mener des séances de conseil individuel avec les visiteurs. En Pologne, un G1 baptisé "Edek" déambule dans Varsovie avec un sac à dos Adidas et une Rolex ornée de diamants, générant du contenu viral en simulant des commandes chez McDonald's, en intervenant à la radio nationale et en prononçant des discours au parlement polonais. Aux États-Unis, "Jake", un G1 customisé en "bro" de l'ère IA avec chapeau de cowboy et chaîne en argent, a déclenché une controverse après une altercation physique avec le streameur IShowSpeed, aboutissant à des accusations d'agression et à une plainte en justice à hauteur d'un million de dollars déposée par sa société de management, RizzBot. Ces déploiements révèlent une dynamique inattendue : le G1 de Unitree, commercialisé autour de 16 000 dollars, s'avère suffisamment accessible pour que des acteurs indépendants -- temples, créateurs de contenu, agences de divertissement -- l'intègrent sans soutien industriel lourd. Le robot humanoïde devient ainsi un vecteur de présence culturelle avant d'être un outil de productivité. Pour les décideurs et intégrateurs, ce phénomène signale que la barrière à l'adoption n'est plus uniquement technique ou financière, mais narrative : le premier humanoïde qui capte l'attention devient une référence de marché, indépendamment de ses capacités réelles en manipulation ou locomotion. Ces usages ne prouvent pas la résolution du sim-to-real gap ni la viabilité industrielle -- les vidéos restent sélectionnées, les environnements contrôlés -- mais ils démontrent que la forme humanoïde génère une adhésion sociale difficile à obtenir avec les AMR classiques. Unitree Robotics, fondée en 2016 à Hangzhou, s'est imposée dans le segment des robots quadrupèdes bon marché avant de lancer le G1 en 2024 comme humanoïde d'entrée de gamme. La société évolue dans un écosystème concurrentiel dense : Figure AI (Figure 03), Boston Dynamics (Atlas), 1X Technologies, et côté chinois Agibot, Fourier Intelligence et UBTECH, tous positionnés sur des segments industriels avec des arguments de payload et de robustesse que le G1 ne revendique pas. La stratégie de Unitree semble délibérément différente -- volume, prix, accessibilité -- et ces déploiements viraux, qu'ils soient spontanés ou orchestrés, construisent une notoriété mondiale qui précède toute annonce de pilote industriel formel.

UEUn acteur indépendant polonais déploie déjà le G1 d'Unitree à Varsovie, signalant que la barrière financière à l'adoption d'humanoïdes en Europe est passée sous 20 000€ et accessible à des non-industriels.

Chine/AsieOpinion
1 source
RLWRLD et Nvidia lancent DexBench pour standardiser la dextérité des robots humanoïdes
217Robotics & Automation News 

RLWRLD et Nvidia lancent DexBench pour standardiser la dextérité des robots humanoïdes

RLWRLD, une startup spécialisée en IA physique, a annoncé en partenariat avec Nvidia le lancement de DexBench, un benchmark universel destiné à standardiser l'évaluation des capacités de dextérité des robots humanoïdes. L'initiative repose sur trois axes : DexBench en tant que référentiel d'évaluation commun, un standard de données pour l'entraînement à la manipulation dextre, et une intégration native aux frameworks open-source Nvidia Isaac Lab et Isaac Lab-Arena. Aucune date de disponibilité publique ni métriques de performance n'ont été communiquées à ce stade -- il s'agit d'une annonce de feuille de route, pas d'un produit shipped. L'absence de standard commun pour mesurer la dextérité est l'un des obstacles majeurs à la comparaison objective entre systèmes humanoïdes. Sans référentiel partagé, chaque constructeur publie ses propres métriques dans des conditions contrôlées, ce qui rend les comparaisons entre Figure 03, Optimus, Unitree ou 1X quasi impossibles pour les intégrateurs industriels. DexBench vise à combler ce vide en établissant des protocoles reproductibles, ce qui pourrait accélérer la qualification de robots pour des tâches d'assemblage ou de picking en milieu non structuré. RLWRLD s'inscrit dans un écosystème naissant autour des fondations de simulation Nvidia, qui positionne Isaac Lab comme infrastructure commune pour le sim-to-real dans la robotique humanoïde. Des acteurs comme Physical Intelligence (Pi-0), Agility Robotics ou Boston Dynamics s'appuient également sur des pipelines de simulation propriétaires. Le choix de standardiser via un framework open Nvidia plutôt qu'un consortium neutre (comme ROS 2 ou IEEE) est un pari sur l'adoption par l'écosystème Jetson/Omniverse -- une dynamique à surveiller face aux initiatives concurrentes en Europe.

UELa standardisation de l'évaluation de la dextérité pourrait indirectement bénéficier aux intégrateurs industriels européens, mais aucun acteur FR/EU n'est impliqué et l'initiative demeure au stade de feuille de route sans métriques ni date de disponibilité.

HumanoïdesOpinion
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
218arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés
219arXiv cs.RO 

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Des chercheurs proposent une méthode de récupération après chute pour robots humanoïdes sur terrains variés, publiée en juin 2026 sur arXiv (identifiant 2606.08922). Baptisée PTDL (Phase-Terrain Decoupled Learning), elle cible un problème concret : un humanoïde tombé sur du gravier, une pente ou un sol inégal doit non seulement se relever, mais reprendre immédiatement une marche dirigée par commande de vitesse, sans capteurs externes ni étiquettes de terrain fournies au moment de l'exécution. La validation porte sur le Unitree G1, humanoïde commercial de 29 degrés de liberté, testé en simulation et sur robot réel, sur sol plat, gravier et inclinaisons allant jusqu'à 20 degrés. L'architecture de PTDL repose sur une double décorrélation. Sur l'axe des phases, des discriminateurs de mouvement à double prior conditionnés par la gravité projetée lient la récupération post-chute à la reprise de locomotion normale. Sur l'axe des terrains, un façonnage de récompense stratifié par surface applique des supervisions d'entraînement spécifiques à chaque sol, labels qui sont ensuite retirés à la politique au déploiement : le robot développe des comportements de lever implicitement adaptés à chaque surface, sans qu'on lui indique sur quoi il repose. Les méthodes antérieures s'arrêtaient généralement au lever quasi-statique ou entraînaient une politique de compromis dégradée face à la diversité des terrains. PTDL enchaîne récupération et reprise de marche sous une seule politique proprioceptive unifiée, ce qui est directement pertinent pour tout déploiement en environnement industriel non structuré où la chute n'est pas une exception mais une probabilité réelle. Le G1 de Unitree Robotics (Shenzhen) est devenu en 2024-2025 une plateforme de référence pour la recherche en locomotion humanoïde, notamment grâce à son accessibilité tarifaire (environ 16 000 USD). La récupération après chute reste un angle mort notoire dans la course humanoïde actuelle : Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus) se concentrent principalement sur les démonstrations de marche et de manipulation, peu sur les protocoles de résilience post-chute. Ce preprint arXiv n'annonce pas de déploiement industriel immédiat et n'a pas encore subi de révision par les pairs, mais il ouvre une piste méthodologique solide : entraîner sur des terrains stratifiés tout en maintenant une politique unifiée à l'inférence, une approche transposable à d'autres défis de robustesse en conditions réelles.

RecherchePaper
1 source
Coordination continue de robots quadrupèdes par découverte de compétences sémantiques
220arXiv cs.RO 

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

Des chercheurs ont publié sur arXiv (réf. 2606.08102) un framework appelé Conquer, conçu pour coordonner des équipes de robots quadrupèdes en apprentissage continu, c'est-à-dire sans avoir à réentraîner le système à chaque nouvelle tâche. L'approche repose sur une bibliothèque de compétences sémantiques organisée autour d'un cycle récupérer-adapter-mettre à jour : avant d'exécuter une tâche inconnue, le système construit un descripteur sémantique à partir des informations pré-exécution, retrouve la compétence la plus proche dans la bibliothèque, l'adapte, puis intègre les trajectoires réelles pour enrichir la base. Le backbone SAG (Self-Allies-Goal) permet de gérer des équipes de taille variable en modélisant explicitement l'état propre de chaque robot, le contexte de ses coéquipiers et l'objectif de la tâche. En simulation, Conquer atteint un taux de succès moyen final de 95,6 %, avec un transfert positif démontré vers de nouvelles tâches et un oubli catastrophique qualifié de négligeable. Des essais en conditions réelles ont été conduits sur des équipes de Unitree Go2, le quadrupède commercial d'Unitree Robotics. Ce résultat compte parce qu'il s'attaque à l'un des verrous fondamentaux de la robotique multi-agents : les méthodes de type MARL (apprentissage par renforcement multi-agents) existantes entraînent des politiques spécifiques à une famille de tâches fermée, ce qui les rend inutilisables dans des environnements industriels où les missions évoluent en permanence. Conquer propose une alternative où de nouvelles compétences de coordination s'accumulent sans effacer les précédentes, un prérequis pour tout déploiement réel dans des entrepôts ou sur des lignes de production à géométrie variable. La capacité à gérer des équipes de taille arbitraire est également non triviale : la plupart des approches supposent un nombre fixe d'agents. À noter cependant que les métriques de succès sont issues de simulation, et que les vidéos de déploiement sur Go2 restent des démonstrations sélectionnées, sans données quantifiées sur les taux d'échec terrain ni sur les temps de cycle réels. La coordination multi-quadrupèdes s'est intensifiée avec la disponibilité de robots comme le Go2 d'Unitree (lancé à moins de 2 700 dollars en version grand public), qui abaisse le coût d'expérimentation en laboratoire. La problématique de l'apprentissage continu en robotique est partagée par plusieurs groupes de recherche, notamment autour des architectures VLA (Vision-Language-Action) qui cherchent elles aussi à éviter la réinitialisation à chaque nouvelle tâche. Conquer se positionne dans un espace encore peu industrialisé, entre les approches MARL classiques et les frameworks généralistes de type foundation model. Les prochaines étapes logiques seraient des évaluations en entrepôt réel sur des tâches de manutention collaboratives, domaine où des acteurs comme Exotec (France) ou Boston Dynamics investissent sur des flottes mixtes humanoïdes et quadrupèdes.

RecherchePaper
1 source
QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède
221arXiv cs.RO 

QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède

Une équipe de recherche a publié début juin 2026 QuadVerse, un cadre de simulation intégré pour robots quadrupèdes conçu pour résoudre simultanément les décalages visuels, physiques et d'actionneur qui constituent le sim-to-real gap. La méthode repose sur une reconstruction de scènes par 3D Gaussian Splatting (3DGS) à partir de vidéos RGB ordinaires : ces scènes servent de substrat de calibration commun à toute la pipeline. Les maillages géométriques extraits permettent un rendu photoréaliste en vue ego, une détection de collisions, et une initialisation de priors de friction spatialement variables, affinés par une recherche bayésienne sur des trajectoires réelles. Un compensateur de dynamique résiduelle est ensuite entraîné en rejouant ces trajectoires sur le terrain calibré, séparant les erreurs de contact dues au relief des non-idéalités propres aux actionneurs. Les expériences rapportées montrent une amélioration de la qualité de reconstruction et du suivi de locomotion par rapport aux baselines, ainsi qu'un déploiement zero-shot d'une politique de navigation visuelle sans aucune collecte de données terrain spécifique à la tâche. Ce que QuadVerse apporte concrètement, c'est une approche unifiée du sim-to-real : là où la majorité des travaux traitent le gap visuel ou dynamique de façon indépendante, ce framework les calibre conjointement à partir du même substrat de scène reconstruite. L'accumulation et la propagation des erreurs individuelles dans l'évolution d'état du robot sont explicitement prises en compte, un problème souvent sous-estimé dans les pipelines existants. Le résultat le plus opérationnel est le déploiement zero-shot : une politique entraînée entièrement en simulation peut être transférée sur un robot réel sans rollout terrain supplémentaire, ce qui réduit le coût d'adaptation à de nouveaux environnements. Pour les intégrateurs qui cherchent à accélérer les cycles de validation, c'est un levier potentiellement significatif. Il faut néanmoins souligner que l'article est un preprint arXiv (v2 déposé en juin 2026), les expériences sont conduites en environnement contrôlé, et aucune validation industrielle à grande échelle n'est encore documentée. Le sim-to-real gap est l'un des problèmes centraux de la robotique apprenante depuis plusieurs années. Des équipes comme ETH Zurich (ANYmal), Agility Robotics ou Boston Dynamics ont montré que les politiques de locomotion peuvent franchir ce gap, mais souvent au prix d'une randomisation de domaine intensive ou d'une adaptation en conditions réelles coûteuse. La technique de 3D Gaussian Splatting, popularisée en 2023, est de plus en plus mobilisée dans des pipelines robotiques pour sa capacité à produire des représentations photoréalistes différentiables. QuadVerse s'inscrit dans un courant actif incluant des travaux comparables autour de NeRF-to-Real et les simulateurs hybrides de Nvidia Isaac Lab. La prochaine étape logique serait une validation sur des plateformes commerciales standardisées comme l'Unitree Go2 ou l'ANYmal-D en environnements non structurés, et une éventuelle extension aux politiques de manipulation pour robots à pattes équipés de bras.

RecherchePaper
1 source
Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement
222arXiv cs.RO 

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

Une équipe de chercheurs a publié RE-GoT (Reward Evolution with Graph-of-Thoughts), un cadre de conception automatique de fonctions de récompense pour l'apprentissage par renforcement (RL). La méthode, présentée dans l'article arXiv:2509.16136 (version 5), associe des grands modèles de langage (LLM) à des modèles visuels (VLM) via un raisonnement structuré en graphe. RE-GoT décompose d'abord la tâche cible en un graphe d'attributs textuels, génère une fonction de récompense correspondante, puis la raffine itérativement en exploitant les retours visuels fournis par un VLM, sans intervention humaine. Évalué sur 10 tâches RoboGen et 4 tâches ManiSkill2, le système améliore le taux de succès moyen de 32,25 % sur RoboGen par rapport aux baselines LLM existantes, et atteint 93,73 % de taux de succès sur les quatre tâches de manipulation de ManiSkill2, dépassant même les récompenses conçues manuellement par des experts. L'enjeu est significatif : la conception des fonctions de récompense représente l'un des principaux goulots d'étranglement du RL appliqué à la robotique, et elle exige aujourd'hui une expertise humaine considérable ainsi que de nombreuses itérations manuelles. RE-GoT adresse deux faiblesses chroniques des approches LLM existantes : les hallucinations, que la structure en graphe réduit en contraignant le raisonnement, et l'incapacité à traiter des tâches multi-étapes complexes. Le fait que RE-GoT surpasse les récompenses expertes sur ManiSkill2 est notable, bien qu'il convienne de nuancer : les expériences restent dans des environnements simulés, et la question du sim-to-real gap, cruciale pour les industriels souhaitant déployer ces méthodes sur des robots physiques, n'est pas traitée dans ce travail. Ce travail s'inscrit dans une dynamique de recherche active depuis 2023, notamment portée par Eureka (NVIDIA, octobre 2023), qui utilisait GPT-4 pour générer des fonctions de récompense sur IsaacGym, ou par FunsSearch (DeepMind). RE-GoT se distingue en introduisant le paradigme Graph-of-Thoughts, une extension du Chain-of-Thought qui organise le raisonnement en graphe plutôt qu'en chaîne linéaire, permettant une analyse plus exhaustive des dépendances entre sous-tâches. Les prochaines étapes naturelles concernent la validation sur robots physiques et l'intégration à des pipelines sim-to-real comme ceux utilisés par Figure AI, Agility Robotics ou Boston Dynamics dans leurs boucles d'entraînement.

RecherchePaper
1 source
Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes
223arXiv cs.RO 

Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes

Des chercheurs ont déposé le 9 juin 2026 sur arXiv (réf. 2606.08253) un framework léger pour entraîner des politiques de locomotion humanoïde capables de suivre précisément des appuis en 3D. Les approches dominantes basées sur l'apprentissage par renforcement avec commande de vitesse produisent des humanoïdes robustes, mais sans contrôle explicite du placement des pas : le robot peut marcher sur un pied humain ou rater un appui précis, compromettant les tâches de manipulation en aval. La méthode proposée introduit un "goal sampler" dynamique qui génère des séquences d'appuis variées pendant l'entraînement, rendant la politique agnostique au terrain. Une nouvelle représentation des cibles de pas compense les imprécisions du monde réel (estimation de pose bruitée, détection de contact peu fiable). La politique fonctionne comme un contrôleur bas niveau autonome, couplable à n'importe quel planificateur haut niveau, qu'il soit basé sur des cartes 2.5D, la vision ou un agent VLA. L'intérêt pour les intégrateurs industriels est concret : la précision du placement des appuis conditionne l'ensemble des tâches loco-manipulation, soit la prochaine étape critique avant le déploiement d'humanoïdes dans les entrepôts et lignes de montage. En découplant le contrôleur bas niveau du planificateur, cette architecture permet de substituer l'algorithme de planification sans réentraîner la locomotion, un argument de modularité fort pour des déploiements multi-environnements. Les expériences en simulation et en transfert sim-to-real sur terrains complexes sont présentées comme concluantes, mais ce preprint non encore évalué par les pairs ne fournit pas de benchmark comparatif public ni de métriques de précision standardisées. Ce framework s'inscrit dans la continuité des travaux sur la locomotion bipède précise issus d'ETH Zurich, du MIT et de CMU, que les équipes commerciales (Boston Dynamics Atlas, Agility Robotics Digit, Unitree H1, Figure AI) cherchent à industrialiser. L'abstract ne précise pas la plateforme matérielle utilisée lors des tests réels, ce qui limite la reproductibilité des résultats. La prochaine étape logique serait une évaluation ouverte sur des robots nommément identifiés, assortie de métriques comparables aux approches concurrentes en planification de pas développées à l'EPFL ou à Carnegie Mellon.

UEL'EPFL est citée comme référence concurrente pour la planification de pas, ce qui signale la compétitivité des labos européens dans ce domaine, mais sans impact direct sur des acteurs ou institutions français.

HumanoïdesPaper
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
224arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Un robot humanoïde gravit un volcan de 6 200 m, l'équipe vise ensuite l'Everest
225Interesting Engineering 

Un robot humanoïde gravit un volcan de 6 200 m, l'équipe vise ensuite l'Everest

Un robot humanoïde Unitree G1 modifié, baptisé "Pemba", a atteint le sommet du Chimborazo en Équateur le 7 juin 2026, soit 6 200 mètres d'altitude. L'expédition, conduite par l'ingénieur Pablo Berlanga Boemare et son entreprise Geologic Dome, s'est déroulée sur 16 heures. Pemba est une première étape d'un programme baptisé "Triple Crown" qui vise à terme l'ascension de l'Everest. À noter : le robot n'a pas grimpé en autonomie totale. Il a marché de manière indépendante sur les sections présentant une inclinaison inférieure à 30 degrés, mais a été porté par les membres de l'expédition sur les passages plus techniques. Les modifications matérielles incluent des systèmes de gestion thermique sur mesure et des équipements de ventilation intégrés aux vêtements protecteurs du robot, s'appuyant sur des tests antérieurs conduits dans la région chinoise d'Altay à des températures descendant jusqu'à -47,4°C. Ce projet répond à une question que les benchmarks en laboratoire ne peuvent pas trancher : un humanoïde peut-il opérer de manière utile dans des environnements extrêmes, là où les capteurs fixes sont coûteux à déployer et où les conditions mettent en danger les opérateurs humains ? Berlanga Boemare, ancien collaborateur du WWF dans le bassin du Congo et en Amazonie, articule le cas d'usage autour de la surveillance environnementale mobile : remplacer ou compléter des réseaux de caméras stationnaires par des plateformes autonomes capables de patrouiller de grandes surfaces, équipées de caméras, capteurs et connectivité satellite (Starlink est mentionné). Pour les décideurs B2B et les intégrateurs industriels, l'intérêt est ailleurs : il s'agit d'un premier jeu de données réel sur la résilience des batteries, la cinématique articulaire et le comportement thermique de l'électronique embarquée au-delà de 6 000 mètres, dans des conditions que les simulations ne modélisent pas fidèlement. Unitree Robotics, fabricant chinois du G1, s'est imposé ces deux dernières années comme un acteur de référence sur le segment des humanoïdes accessibles, face à Boston Dynamics, Figure AI et Agility Robotics qui ciblent davantage le marché industriel avec des machines nettement plus coûteuses. Geologic Dome ne s'inscrit pas dans cette course à la productivité d'entrepôt, mais ouvre un segment distinct : la robotique d'exploration et de surveillance environnementale en terrain hostile. La prochaine étape annoncée est l'Everest, en partenariat avec l'opérateur népalais Fourteen Peaks Expedition, avec un programme de test prévu entre le camp de base et le Camp IV (environ 8 000 mètres), couvrant performance des batteries, stress articulaire et collecte de données environnementales. Le projet bute cependant sur un obstacle réglementaire concret : le Népal ne dispose pas encore de cadre légal encadrant les expéditions robotiques sur l'Everest, et les autorités auraient demandé de nouvelles régulations avant toute autorisation.

HumanoïdesPaper
1 source
CSC Financial : engins de construction au-dessus des attentes en mai, IPO d'Unitree approuvée, secteur humanoïde dopé
226Pandaily 

CSC Financial : engins de construction au-dessus des attentes en mai, IPO d'Unitree approuvée, secteur humanoïde dopé

En mai 2026, la banque d'investissement chinoise CSC Financial a publié un rapport sectoriel couvrant cinq industries, dont deux dominent l'analyse: la robotique humanoïde et les engins de chantier. Sur ce dernier segment, les ventes d'excavateurs ont atteint 24 794 unités en Chine le mois dernier, en hausse de 36,2% sur un an. Les ventes domestiques ont progressé de 38,6% à 11 628 unités, tandis que les exportations ont crû de 34,2% pour atteindre 13 166 unités. Trois grands fabricants ont simultanément relevé leurs prix: SANY Heavy Industry a appliqué une hausse de 5% au 15 mai, Liugong une augmentation identique au 20 mai, et XCMG une revalorisation de 3 à 5% au 1er juin. Sur le front de la robotique, Unitree - constructeur chinois de robots humanoïdes connu pour ses modèles H1 et G1 - a franchi l'examen de l'autorité boursière pour son introduction en bourse, étape préliminaire à une cotation effective. Le rapport note par ailleurs que le programme Optimus de Tesla approche de la production de masse, le lancement du modèle V3 et les objectifs de volume pour la chaîne d'approvisionnement devenant progressivement plus précis. La validation du dossier d'IPO d'Unitree constitue un signal de maturité pour le secteur du Physical AI: les marchés financiers commencent à traiter la robotique humanoïde comme une industrie à trajectoire commerciale crédible, et non comme une promesse spéculative. Pour les décideurs industriels et les intégrateurs, cela annonce potentiellement une revalorisation en cascade des acteurs du secteur, à mesure que d'autres entreprises chinoises avancent vers leur propre cotation dans les prochains trimestres. Du côté des engins de chantier, la convergence des hausses tarifaires chez SANY, Liugong et XCMG - officiellement justifiées par la hausse des matières premières - est lue par les analystes comme le signe que la guerre des prix destructrice pesant sur les marges du secteur commence enfin à se résorber. Unitree s'est imposé ces dernières années parmi les acteurs les plus actifs de la scène robotique chinoise, aux côtés d'entreprises comme UBTECH et Fourier Intelligence. Son accession à une cotation publique intervient dans un contexte de compétition mondiale intense sur le segment humanoïde, où s'affrontent Tesla (Optimus), Figure AI, Boston Dynamics et leurs homologues chinois. Le rapport de CSC Financial ne détaille pas les métriques opérationnelles d'Unitree en conditions industrielles réelles - ce qui rend difficile l'évaluation du fossé entre les démonstrations publiées et les capacités effectives en production. Les introductions en bourse attendues d'autres acteurs du secteur dans les prochains trimestres permettront de mieux cerner les valorisations que le marché est prêt à accorder à cette nouvelle génération de robotique physique.

UELa validation de l'IPO d'Unitree et la trajectoire vers la production de masse d'Optimus accélèrent la maturité commerciale du secteur humanoïde chinois, renforçant indirectement la pression concurrentielle sur les acteurs européens qui n'ont pas encore atteint ce stade de crédibilité financière.

Chine/AsieOpinion
1 source
NVIDIA et Doosan Group s'associent pour développer l'IA physique et les infrastructures d'usines IA
227NVIDIA Blog Robotics 

NVIDIA et Doosan Group s'associent pour développer l'IA physique et les infrastructures d'usines IA

NVIDIA et le conglomérat sud-coréen Doosan Group ont annoncé en juin 2026 un élargissement de leur collaboration couvrant quatre entités du groupe : Doosan Robotics, Doosan Bobcat, Doosan Enerbility et Doosan Corporation Electro-Materials BG. Côté robotique, Doosan Robotics intègre la pile physique AI de NVIDIA, dont Isaac Sim et Isaac Lab pour la simulation, les modèles de fondation Cosmos pour la génération de monde physique, le moteur de physique open source Newton, et le SoC embarqué Jetson Thor. L'objectif est de faire évoluer leur plateforme "Agentic Robot OS" -- présentée comme une couche logicielle unifiant perception, raisonnement, simulation, apprentissage et inférence on-device -- pour des tâches industrielles concrètes comme la dépalettisation et le ponçage, ainsi que pour de nouveaux facteurs de forme incluant des bras doubles et des plateformes humanoïdes. Doosan Bobcat, spécialisé dans les engins compacts (construction, agriculture, manutention), entend de son côté exploiter les mêmes technologies pour développer des world models spécialisés. Enfin, Doosan Enerbility explore l'alimentation des AI factories NVIDIA via turbines à gaz, vapeur, réacteurs modulaires de petite taille (SMR) et piles à combustible hydrogène, pendant que Doosan Electro-Materials fournit des copper clad laminates (CCL) haute performance pour les PCB des accélérateurs et serveurs IA compatibles NVIDIA MGX. Il faut lire cette annonce pour ce qu'elle est : un accord de collaboration, pas un déploiement. Aucun chiffre de production, de cycle time, ni de volume shipment n'est communiqué. Cela dit, la structure de l'accord est stratégiquement cohérente. Doosan couvre plusieurs couches de la chaîne de valeur de l'infrastructure IA simultanément : hardware embarqué (Jetson Thor sur cobots), logiciel de simulation (Isaac Lab), matériaux de base pour data centers (CCL), et production d'énergie pour alimenter ces mêmes data centers. Pour les intégrateurs industriels, le signal le plus concret est le passage revendiqué de Doosan Robotics d'un fournisseur de bras articulés vers une entreprise "AI-first full-stack" -- une ambition que partagent Universal Robots, Fanuc et Yaskawa, mais que peu ont encore matérialisée à l'échelle. L'intégration sim-to-real via Cosmos et Newton suggère une volonté de réduire le demo-to-reality gap qui plombe encore de nombreuses démonstrations de manipulation complexe. Doosan Group, fondé en Corée du Sud en 1896 et désormais actif dans l'énergie, l'industrie lourde et la robotique, a acquis Bobcat en 2007 et structuré Doosan Robotics en unité autonome cotée en 2023. Sur le terrain de la robotique collaborative, ses concurrents directs incluent Universal Robots (acquis par Teradyne), FANUC, ABB et Techman Robot, tous en train d'intégrer des couches IA similaires. Sur le segment humanoïde, auquel Doosan fait désormais référence explicitement, la concurrence est plus intense encore : Figure (qui déploie chez BMW), Agility Robotics (Amazon), 1X, Apptronik et Tesla Optimus avancent tous sur des timelines industrielles. NVIDIA, de son côté, capitalise sur cette annonce pour consolider son positionnement de "système d'exploitation de la robotique physique", après des accords similaires avec Boston Dynamics, Foxconn et Intrinsic (Alphabet). Les prochaines étapes mentionnées restent vagues : des cas d'usage de référence sont "en cours de développement", sans date ni client annoncés.

IndustrielOpinion
1 source
Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix
228The Verge 

Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix

Amazon a présenté une nouvelle version de Proteus, son robot de manutention autonome déployé dans ses entrepôts, capable désormais de recevoir des instructions en langage naturel. Là où les opérateurs devaient auparavant passer par un logiciel spécialisé pour programmer les déplacements de l'engin, ils peuvent désormais lui communiquer des tâches verbalement, comme à un collègue. Le robot, au format bas et trapézoïdal conçu pour déplacer de lourds chariots à travers les allées logistiques, conserve le même châssis que le modèle original annoncé en 2022, la nouveauté est exclusivement logicielle, portée par une surcouche IA. L'enjeu est significatif pour les opérations à grande échelle : éliminer la friction de programmation réduit le temps de formation des opérateurs et permet une réaffectation dynamique des robots sans intervention IT. C'est aussi un signal clair sur la direction qu'Amazon prend dans la course à l'automatisation de ses 1 000+ centres de distribution aux États-Unis, où la pression syndicale et les coûts de main-d'oeuvre accélèrent les déploiements robotiques. Cela dit, l'annonce reste pour l'instant au stade de démonstration capacitaire : Amazon ne communique pas de chiffres de déploiement, de taux d'erreur ni de benchmarks de cycle time dans des conditions réelles. Proteus fait partie d'un portefeuille robotique Amazon qui inclut Sequoia (tri de petits colis), Sparrow (picking d'articles) et Cardinal (manutention de caisses). Sur le volet langage naturel appliqué aux robots industriels, Amazon rejoint une tendance portée par Boston Dynamics (Spot) et Intrinsic (filiale Alphabet), qui intègrent des interfaces LLM pour réduire la barrière à la programmation en atelier. Les prochaines étapes annoncées par Amazon restent vagues, sans timeline précise ni volume de déploiement confirmé.

UEAmazon opère des entrepôts en France et en Europe ; l'adoption à grande échelle d'interfaces LLM sur robots industriels pourrait accélérer la pression à l'automatisation dans la logistique EU et influencer les standards d'intégration des opérateurs locaux.

IA physiqueOpinion
1 source
Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle
229MarkTechPost 

Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle

Genesis AI a lancé Genesis World 1.0, une plateforme de simulation conçue pour accélérer le développement des modèles de fondation en robotique. La suite se compose de quatre éléments : un moteur physique, Nyx (un moteur de rendu par lancer de rayons en temps réel), Quadrants (un compilateur Python vers GPU), et une interface de simulation. Le problème que tente de résoudre cette plateforme est concret : évaluer une politique robotique sur une centaine de tâches avec plusieurs centaines d'épisodes chacune nécessite normalement plus de 200 heures de fonctionnement continu avec un opérateur humain et un seul robot. Genesis World 1.0 ramène cette même évaluation à moins de 30 minutes, sans intervention humaine ni matériel physique, avec une reproductibilité bit à bit des résultats. C'est un gain d'environ deux ordres de grandeur sur le temps de cycle d'évaluation. Ce bond de performance change fondamentalement la manière dont les équipes de recherche peuvent comparer des variantes de modèles. Jusqu'ici, la lenteur de l'évaluation réelle obligeait à faire des choix brutaux sur le nombre de checkpoints testés, biaisant de facto les décisions de développement. Genesis AI a délibérément choisi d'utiliser la simulation pour l'évaluation avant de l'utiliser pour la génération de données d'entraînement, et ce pour une raison méthodologique précise : si entraînement et évaluation partagent la même distribution simulée, un gain de performance peut simplement refléter une meilleure adaptation au simulateur, et non un progrès réel. L'approche retenue, baptisée "zero-shot real-to-sim", consiste à évaluer en simulation des politiques entraînées exclusivement sur des données réelles. Les résultats de corrélation sont probants : la corrélation de Pearson entre les performances en simulation et sur robot physique atteint 0,8996 (intervalle de confiance à 95 % : [0,7439 ; 0,9314]), calculée sur trois variantes de modèles (Small, Medium, Large), 14 tâches et 200 épisodes par tâche, avec un million d'itérations bootstrap. Le Mean Maximum Rank Violation (MMRV) s'établit à 0,0166, ce qui signifie que le simulateur préserve fidèlement le classement relatif des modèles entre eux. Genesis AI évolue dans un secteur en pleine structuration, où des acteurs comme Google DeepMind, Physical Intelligence ou encore Boston Dynamics investissent massivement dans les modèles de fondation pour la robotique généraliste. La qualité du simulateur est devenue un avantage compétitif direct : Genesis revendique un écart de réalité réduit de 45 % par rapport au meilleur simulateur concurrent, mesuré par le score FID sur leur jeu de données. Pour diagnostiquer précisément les sources de divergence simulation-réalité, l'équipe a construit un banc de test côte à côte permettant de faire fonctionner simultanément le simulateur et un robot physique depuis la même initialisation, en permutant les sources d'observations (caméra, proprioception) pour isoler si les écarts viennent de la physique, du rendu, des communications ou du contrôle. Nyx, le moteur de rendu intégré, vise des images 1080p sans bruit en moins de 4 millisecondes sur un GPU grand public haut de gamme, en s'appuyant sur le lancer de rayons matériel et des splats gaussiens 3D pour les zones où la reconstruction en maillage reste insuffisante.

💬 200 heures d'évaluation robotique ramenées à 30 minutes, c'est pas un gain marginal, c'est un changement de paradigme dans la façon dont on peut itérer sur les modèles. Ce qui m'intéresse surtout, c'est leur choix de séparer les distributions d'entraînement et d'évaluation : simuler les deux ensemble, c'est se mentir à soi-même, et ils l'ont compris. Bon, la corrélation à 0,89 est impressionnante sur le papier, reste à voir si ça tient sur des tâches vraiment hors distribution.

BusinessActu
1 source
Le sommet de Tokyo impressionne avec des humanoïdes et des mains robotiques capables d'enfiler une aiguille
230Interesting Engineering 

Le sommet de Tokyo impressionne avec des humanoïdes et des mains robotiques capables d'enfiler une aiguille

Au Humanoids Summit 2026 de Tokyo, organisé les 28 et 29 mai, une vingtaine d'entreprises mondiales ont présenté leurs dernières plateformes humanoïdes devant un public d'ingénieurs et de décideurs industriels. Honda y a démontré une main robotique hautement dextre capable d'enfiler une aiguille et de serrer de minuscules boulons, illustration concrète de l'expertise japonaise en manipulation de précision. La startup japonaise GMO dévoilait un humanoïde destiné à la manutention fret aéroportuaire et au support logistique, conçu pour s'insérer sans modification dans les workflows humains existants via un système de vision par caméra, mais dont le coeur mécanique a été fourni par le chinois Unitree. Ce même Unitree présentait également un robot quadrupède à mobilité tout-terrain. Les entreprises chinoises Booster Robotics et LimX Dynamics figuraient parmi les exposants notables, aux côtés de Boston Dynamics et Toyota. En marge du salon, une université japonaise annonçait l'ouverture d'un laboratoire médical piloté par dix robots, dont le Maholo LabDroid, visant une automatisation complète des expériences sans personnel humain permanent. Le sommet de Tokyo cristallise une bifurcation stratégique dans la course mondiale aux humanoïdes : d'un côté le Japon et ses démonstrations de haute précision, de l'autre les acteurs chinois qui misent sur l'industrialisation rapide et les coûts de production réduits. Le fait que GMO, entreprise japonaise, s'appuie sur les composants robotiques d'Unitree pour son humanoïde aéroportuaire illustre ce rééquilibrage : les intégrateurs et OEM japonais adoptent des sous-ensembles chinois pour rester compétitifs, creusant l'écart entre l'image de maîtrise technologique nationale et la réalité de la chaîne d'approvisionnement. Pour les décideurs B2B, l'enjeu est double : la maturité des VLA (vision-language-action models) progresse assez pour justifier des pilotes en conditions réelles (fret aérien, logistique), mais la plupart des démonstrations présentées restent des showcases contrôlés, pas des déploiements en série. La main dextre de Honda impressionne sur scène ; en production, le delta entre la performance en laboratoire et la robustesse opérationnelle sur des volumétries significatives reste à valider. Cette dynamique s'inscrit dans une crise démographique structurelle : le Japon est la société la plus vieillie du monde, avec 28,7 % de sa population âgée de 65 ans ou plus, une population en recul de 127 millions d'habitants en 2015 vers une projection de 88 millions en 2065, et un tiers des habitants qui sera septuagénaire dès 2036. Face à une pénurie de main-d'oeuvre que les politiques d'immigration restrictives du pays n'atténuent pas, l'automatisation n'est plus un avantage concurrentiel mais une nécessité opérationnelle. Ce terrain favorable explique pourquoi les entreprises chinoises ciblent explicitement le marché japonais : Unitree, déjà présent via GMO, et ses concurrents Booster Robotics et LimX Dynamics y voient un client industriel à fort pouvoir d'achat, culturellement réceptif aux robots. Boston Dynamics et Toyota maintiennent un positionnement premium sur la robustesse et les cas d'usage professionnels. Les prochaines échéances à surveiller sont les pilotes d'humanoïdes en environnement aéroportuaire annoncés par GMO et la montée en charge des robots médicaux autonomes dans les universités japonaises, deux secteurs où la régulation et la validation de sécurité constitueront les vrais goulots d'étranglement.

UEL'adoption par des intégrateurs japonais de composants Unitree illustre la compétitivité croissante des fournisseurs chinois de sous-systèmes robotiques, une dynamique que les acheteurs et intégrateurs industriels européens devront intégrer dans leurs arbitrages de chaîne d'approvisionnement.

Chine/AsieOpinion
1 source
Vidéo : un humanoïde chinois à 13 000 dollars pour démocratiser la robotique avancée
231Interesting Engineering 

Vidéo : un humanoïde chinois à 13 000 dollars pour démocratiser la robotique avancée

Astribot, startup robotique de Shenzhen également connue sous le nom Stardust Intelligence, a ouvert les commandes de son humanoïde T1 à partir de 13 000 dollars, soit environ sept fois moins cher que son propre modèle phare S1 vendu près de 100 000 dollars. Le T1 est un humanoïde à base roulante de 155 cm pour 66 kg, doté de 23 degrés de liberté hors effecteurs, avec une capacité de charge de 5 kg par bras. Son architecture motrice repose sur des câbles tendus, la même approche que le S1, conçue pour produire des mouvements plus fluides qu'un entraînement par engrenages traditionnels. Il accepte des pinces robotiques standard et des mains à cinq doigts pour la manipulation fine, et cible des applications comme la cuisine, les opérations en laboratoire, le pliage du linge, le tri de pièces automobiles et la recharge de véhicules électriques. L'IA embarquée est entraînée principalement par démonstration humaine plutôt que par téléopération, une méthode d'imitation learning qui permet au robot d'apprendre des workflows en observant un opérateur humain. Le seuil des 13 000 dollars modifie le calcul économique pour les intégrateurs et les équipes qui souhaitent piloter l'humanoïde en environnement industriel. À titre de comparaison, le Unitree G1 reste l'une des rares références sous 20 000 dollars sur le marché mondial; les offres Figure 03, Agility Digit ou Boston Dynamics Electric Atlas se négocient bien au-delà. Si le T1 tient ses performances hors laboratoire, il pourrait abaisser la barrière d'entrée pour des secteurs à marges serrées comme la logistique légère ou l'assemblage à faible volume. Il convient cependant d'être prudent: Astribot liste des tâches réussies sans publier de métriques de cadence ni de données de robustesse en conditions industrielles réelles, et les vidéos de démonstration restent sélectionnées par l'entreprise. C'est une ouverture de commandes, pas un déploiement en volume documenté. Fondée en 2022 et basée à Shenzhen, Astribot s'est fait connaître à la World Robot Conference de Pékin en août 2024 avec le S1, humanoïde bimanuel de 170 cm et 90 kg aux 23 DOF (7 par bras, 4 pour le torse, 2 pour la tête, 3 pour la base omnidirectionnelle). Une publication arXiv de juillet 2025 détaillait la suite logicielle Astribot Suite, combinant collecte de données en réalité virtuelle, politiques d'imitation learning et optimisation de trajectoire en temps réel, avec des taux de réussite annoncés entre 80 et 100% sur tâches sélectionnées. La startup a levé environ 100 millions de dollars depuis 2024. Sur le segment prix du T1, les concurrents directs incluent le Unitree G1 et, dans une moindre mesure, les robots de recherche comme le GR00T N2 de NVIDIA. Aucun acteur européen ne se positionne encore clairement sur ce créneau accessible. La démonstration de robustesse en milieu non contrôlé et l'annonce de premiers clients industriels constitueront les prochaines étapes décisives pour valider l'ambition commerciale d'Astribot.

UELa démocratisation des prix sur ce segment pourrait inciter des intégrateurs européens à évaluer un pilote humanoïde, mais aucun déploiement ni partenariat européen n'est mentionné.

HumanoïdesOpinion
1 source
Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent
232arXiv cs.RO 

Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent

Des chercheurs de TARS Robotics ont publié sur arXiv (2605.24931) une méthode de contrôle robotique haute fréquence baptisée RTR (Reuse-then-Refine), visant à résoudre un problème identifié dans les politiques d'action chunking actuelles. À 60 Hz, les systèmes qui exécutent des séquences pré-calculées de commandes motrices génèrent des mouvements saccadés et spatialement incohérents, ce que les politiques standard ne parviennent pas à corriger. L'approche RTR déplace l'apprentissage depuis l'espace d'action direct vers un espace latent encodé par un auto-encodeur variationnel (VAE), ce qui améliore significativement la consistance temporelle et spatiale. Elle intègre également une stratégie de raffinement par chunk permettant une transition fluide entre séquences adjacentes lors d'une inférence asynchrone. Les auteurs valident la méthode sur trois tâches réelles à contact riche, avec une exécution continue et moins de pauses involontaires. Le code et les données sont publiés en open source sur GitHub (tars-robotics/RTR). Le passage de 10-30 Hz à 60 Hz représente une frontière critique pour la manipulation robotique : à basse fréquence, le robot doit compenser sa lenteur par des pauses de recalcul, limitant son utilité en production industrielle. Les politiques de type VLA (Vision-Language-Action) ou diffusion policy, actuellement dominantes en imitation learning, fonctionnent généralement en dessous de 30 Hz. En montrant qu'un encodage latent peut absorber la variance temporelle sans sacrifier la précision spatiale, RTR apporte une réponse concrète au problème de "jerkiness" qui freine le déploiement des robots manipulateurs en conditions réelles. Pour un intégrateur ou un décideur B2B, c'est une voie vers des systèmes capables d'assurer une cadence de travail continue sans interruption de flux de production. L'action chunking a été popularisé par ACT (Action Chunking with Transformers, Zhao et al., 2023) et les travaux sur Diffusion Policy, tous deux conçus pour des fréquences modérées. TARS Robotics se positionne dans un espace concurrentiel qui inclut Physical Intelligence avec pi0-FAST (ciblant 50-200 Hz via flow-matching) et les efforts de Figure AI, Agility Robotics et Boston Dynamics sur le contrôle haute cadence. RTR se distingue de pi0-FAST en proposant un raffinement incrémental du chunk existant plutôt qu'une régénération complète, ce qui réduit la charge computationnelle par inférence. Il s'agit pour l'instant d'une contribution de recherche validée en laboratoire sur robot réel, sans timeline de déploiement industriel ni partenariat annoncé.

RechercheOpinion
1 source
Commande corpo-entière sûreté-critique pour robots humanoïdes via les barrières de contrôle entrée-état
233arXiv cs.RO 

Commande corpo-entière sûreté-critique pour robots humanoïdes via les barrières de contrôle entrée-état

Des chercheurs ont publié sur arXiv (référence 2605.25546) un framework hiérarchique de contrôle sécurisé corps entier pour robots humanoïdes, fondé sur les fonctions barrières robustes aux perturbations (ISSf-CBF, Input-to-State Safe Control Barrier Functions). L'architecture s'articule en trois couches : un contrôleur whole-body cinématique (KinWBC) qui génère des références articulaires à partir de tâches priorisées, un filtre ISSf-CBF qui les ajuste au minimum pour satisfaire les contraintes de sécurité sous perturbations bornées, et un contrôleur whole-body dynamique (DynWBC) qui garantit la faisabilité corps entier et la stabilité des contacts. Les contraintes couvertes incluent les limites articulaires, l'évitement d'auto-collision, l'évitement d'obstacles et les frontières du workspace. Validé en simulation et sur robot réel, le système a été testé dans trois scénarios : locomotion, téleopération et équilibre monopode avec contrôle simultané des mains. L'intérêt de l'approche tient à un problème fondamental en robotique humanoïde : les garanties de sécurité formelles s'effondrent dès qu'apparaît un écart entre le modèle de simulation et le comportement physique réel. Les CBFs classiques supposent un système parfaitement connu et deviennent fragiles face aux incertitudes de modèle, aux erreurs de suivi de trajectoire ou aux perturbations externes, précisément les conditions d'un environnement industriel. Les ISSf-CBFs étendent ce formalisme en admettant des perturbations bornées tout en maintenant des garanties formelles transférables du niveau cinématique vers la dynamique complète. Le filtre intervient de façon minimalement invasive, ne corrigeant les références nominales que lorsque nécessaire, ce qui préserve la performance globale. C'est une réponse directe au "demo-to-reality gap" structurellement reproché aux humanoïdes actuels, et un prérequis pour toute certification de robot collaboratif en environnement humain. Les Control Barrier Functions sont un outil bien établi en automatique, popularisé dans les années 2010 pour les véhicules autonomes et les bras robotiques. Leur extension aux ISSf-CBFs pour la robustesse aux perturbations est plus récente, et leur application à un humanoïde corps entier avec des dizaines de degrés de liberté, des contacts multiples et des dynamiques non linéaires représente un saut de complexité notable. Dans la course actuelle aux humanoïdes, les acteurs comme Figure, Boston Dynamics, Tesla (Optimus), Agility Robotics, Apptronik ou Unitree publient peu sur les garanties de sécurité formelles corps entier, un domaine resté majoritairement académique. Ce travail n'annonce pas de déploiement industriel, mais fournit une brique méthodologique directement applicable aux pipelines de validation et de certification des futurs robots collaboratifs.

UELes garanties de sécurité formelles apportées par ce framework sont directement pertinentes pour la certification des robots collaboratifs humanoïdes dans le cadre du Machinery Regulation et de l'AI Act européens.

RecherchePaper
1 source
Robotics Summit : le discours d'ouverture présente une fondation ouverte pour les robots à base d'IA
234Robotics Business Review 

Robotics Summit : le discours d'ouverture présente une fondation ouverte pour les robots à base d'IA

Brian Gerkey, co-fondateur d'Open Robotics et actuel directeur technique d'Intrinsic, filiale d'Alphabet dédiée aux logiciels robotiques, prendra la parole le mercredi 28 mai 2026 à 9h00 ET lors du Robotics Summit & Expo de Boston, au Thomas M. Menino Convention & Exhibition Center (salle 253 ABC). Sa conférence, intitulée "An Open Foundation for the Age of AI-Powered Robots", présentera la stratégie de l'Open Source Robotics Alliance (OSRA) en matière d'accessibilité, d'outillage moderne et de sécurité fonctionnelle. Open Robotics, organisation qui maintient le Robot Operating System (ROS) et le simulateur Gazebo, y défendra la thèse que l'open source devient une infrastructure critique à mesure que l'IA physique accélère. La session remplace une conférence initialement prévue avec Russ Tedrake, professeur au MIT et ex-vice-président senior pour les large behavior models au Toyota Research Institute. L'événement rassemble cette année plus de 70 intervenants confirmés issus d'Amazon Robotics, AWS, Tesla, Universal Robots, Brain Corp, PickNik Robotics et Robust AI, avec plus de 50 sessions réparties sur des tracks IA, design, healthcare et logistique. Le signal est moins technique qu'institutionnel. L'émergence des architectures Vision-Language-Action (VLA), des pipelines sim-to-real et des foundation models pour la robotique physique rend la standardisation des middlewares plus stratégique que jamais. ROS 2, qui reste la référence pour la communication inter-processus sur les plateformes industrielles et humanoïdes, est maintenu collectivement via l'OSRA. Pour les intégrateurs et les équipes R&D, le fait que Gerkey articule une roadmap publique au principal salon technique commercial américain de robotique signale que l'OSRA entend jouer un rôle normatif, pas seulement communautaire. La question non résolue est celle de la performance : les pipelines d'inférence GPU modernes imposent des contraintes de latence que les architectures ROS classiques gèrent mal, et c'est précisément là que se jouera la crédibilité du discours. Open Robotics a été fondée en 2012 autour de ROS, né à Willow Garage, l'un des premiers labs à industrialiser la recherche robotique aux États-Unis. Gerkey y a travaillé avant de co-fonder l'organisation, et son rattachement actuel à Intrinsic place cette prise de parole à l'intersection de la stratégie Google/Alphabet et de la gouvernance open source. Sur le plan concurrentiel, l'écosystème ROS fait face à des alternatives propriétaires croissantes : Isaac ROS de NVIDIA, les middlewares maison de Boston Dynamics ou de Figure AI, et des frameworks applicatifs comme LeRobot de HuggingFace. La prochaine étape pour l'OSRA sera de démontrer comment ROS 2 s'intègre nativement avec des architectures de foundation models en production, un point que Gerkey devrait adresser lors de sa session du 28 mai.

UEROS 2 étant la référence middleware adoptée par la majorité des équipes robotiques européennes, la roadmap OSRA articulée par Gerkey influencera les choix d'architecture pour les intégrateurs et startups FR/EU développant des robots à base de foundation models.

InfrastructureOpinion
1 source
Amélioration du SLAM par graphes en environnement sans GNSS grâce à l'odométrie des jambes
235arXiv cs.RO 

Amélioration du SLAM par graphes en environnement sans GNSS grâce à l'odométrie des jambes

Des chercheurs ont publié sur arXiv (2605.20484) une architecture de graphe de facteurs qui améliore significativement la précision verticale du SLAM LiDAR-inertiel pour robots à pattes en environnement sans GNSS. Le système augmente le framework LIO-SAM avec une voie cinématique parallèle, alimentée par l'odométrie proprioceptive des jambes, couplée à la voie LiDAR-inertielle principale via une contrainte de pose relative avec modèle de bruit sélectif. Testé sur un quadrupède Linxai D50 lors de deux boucles extérieures totalisant plus d'un kilomètre, l'approche réduit la dérive en élévation de plus de 30 mètres à moins de 30 centimètres, soit une réduction de deux ordres de grandeur. Sur un scénario où le pipeline de référence échoue complètement à converger, la méthode proposée maintient la localisation. Ce résultat est significatif parce qu'il exploite une source de données déjà disponible à bord, calculée pour le contrôle de la locomotion, sans capteur supplémentaire. Le problème de la dérive verticale du LiDAR est bien documenté dans les environnements géométriquement pauvres ou répétitifs (couloirs, forêts, parkings), où les points de correspondance sont insuffisants pour contraindre l'axe Z. Utiliser l'odométrie des pattes comme ancre verticale légère est une approche pragmatique : elle s'insère dans les pipelines existants sans reconfiguration hardware, ce qui en facilite le déploiement sur des plateformes commerciales comme Unitree, Boston Dynamics Spot, ou ANYmal. Pour les intégrateurs et les équipes déployant des robots en inspection industrielle ou en environnements souterrains, c'est une piste concrète pour améliorer la robustesse SLAM sans surcoût matériel. LIO-SAM est un framework SLAM LiDAR-inertiel développé par Ji Zhang et Sanjiv Singh (Carnegie Mellon), largement adopté dans la communauté robotique depuis 2020, notamment pour les robots terrestres et aériens. Le couplage proprioception-SLAM n'est pas nouveau en théorie, mais son intégration efficace dans un graphe de facteurs en conditions réelles reste un sujet actif. Côté concurrence, les approches actuelles s'appuient généralement sur la fusion IMU renforcée (LOAM, LEGO-LOAM) ou l'ajout de capteurs barométriques pour corriger la dérive verticale. La prochaine étape naturelle serait de tester l'approche sur des terrains avec dénivelé marqué, et d'évaluer la robustesse face aux glissements de pattes, cas limite non abordé dans cette version préliminaire.

RecherchePaper
1 source
Sélectionner ou ne pas sélectionner : distillation de la prédiction de compétences robotiques en petit ensemble
236arXiv cs.RO 

Sélectionner ou ne pas sélectionner : distillation de la prédiction de compétences robotiques en petit ensemble

Une équipe de chercheurs publie en mai 2026 un preprint (arXiv:2605.21242) portant sur la prédiction automatique de compétences robotiques dans les flottes hétérogènes. À partir d'une description de tâche en langage naturel, le système identifie quelles capacités physiques sont requises parmi six catégories: vol, roues, pattes, navigation en surface aquatique, navigation sous-marine et manipulation avec mains. Faute de données labellisées existantes pour ce mapping, les auteurs ont construit un dataset synthétique via génération assistée par LLM et audit ciblé des étiquettes. Un ensemble de deux encodeurs de phrases fine-tunés (mpnet + MiniLM, environ 133 millions de paramètres au total) atteint 83,5 % de précision sur un jeu de test stratifié de 200 tâches, dépassant Kimi K2 (1 000 milliards de paramètres, architecture MoE) à 72,0 %, GPT-OSS-120B à 71,5 %, et Llama-4-Scout-17B à 69,0 %, tous évalués en zero-shot avec le même prompt. Ce résultat expose une asymétrie opérationnelle significative: un modèle de 133 millions de paramètres déployable localement surclasse des LLMs un millier de fois plus volumineux sur une tâche de routage de flotte. Pour les intégrateurs gérant des flottes mixtes (humanoïdes, quadrupèdes, drones, rovers), l'assignation automatique de la bonne plateforme à la bonne tâche reste un problème non résolu en production. Une limite mérite d'être soulignée: le jeu d'évaluation de 200 tâches synthétiques a été produit par les auteurs eux-mêmes, ce qui appelle une validation indépendante sur des scénarios réels avant de tirer des conclusions définitives. La gestion de flottes robotiques hétérogènes s'est intensifiée avec la multiplication des plateformes commerciales (Boston Dynamics Spot, Unitree B2, humanoïdes Figure ou Agility Digit, drones industriels), et les approches actuelles de routage reposent encore sur des règles manuelles peu scalables. Les auteurs s'inscrivent dans la tendance de distillation de capacités LLM vers des modèles compacts (famille SetFit, sentence-transformers), appliquée ici pour la première fois à la sélection de plateforme robotique. Ce preprint ne mentionne ni déploiement terrain ni partenariat industriel, mais l'utilisation de mpnet et MiniLM, disponibles en open-source sur Hugging Face, abaisse la barrière à une validation industrielle rapide.

RecherchePaper
1 source
LLMs incarnés : quand une meilleure fidélité d'observation nuit à la résolution de problèmes
237arXiv cs.RO 

LLMs incarnés : quand une meilleure fidélité d'observation nuit à la résolution de problèmes

Une équipe de chercheurs présente sur arXiv (réf. 2605.20072) une étude empirique sur le comportement des LLM incarnés en robotique. Pour sonder l'effet de la fidélité perceptuelle sur les agents cognitifs, ils ont conçu une série d'expériences autour du "Lockbox", un puzzle mécanique séquentiel aux interdépendances cachées, déployé sur un robot physique. Trois modes d'observation ont été testés : RGB brut, RGB-D (avec profondeur), et observations symboliques ground-truth (état parfaitement connu de l'environnement). Le résultat est contre-intuitif : les agents obtiennent leurs meilleures performances avec le RGB brut et leurs pires avec les observations parfaites. En simulation, les chercheurs ont consolidé ce constat en injectant du bruit artificiel, en inversant aléatoirement les résultats des actions perçues par l'agent. La performance culmine à un taux d'inversion de 40%, avec une multiplication du taux de réussite par 2,85 par rapport à la baseline sans bruit. Ce résultat interroge directement un postulat central de la robotique cognitive : l'idée qu'une perception plus précise améliore mécaniquement la prise de décision. L'analyse des trajectoires d'actions révèle que le gain provient d'une réduction des boucles répétitives : un agent qui perçoit l'état du monde avec précision peut se bloquer dans un raisonnement circulaire, faute de signal lui indiquant de changer de stratégie. Un bruit perceptuel modéré brise ces boucles en forçant l'agent à reconsidérer ses hypothèses. Cette observation soulève une question sérieuse pour les pipelines VLA (Vision-Language-Action) actuels, où la précision des capteurs et la richesse des représentations symboliques sont présentées comme des leviers d'amélioration inconditionnels. Les auteurs tirent une conclusion méthodologique forte : les taux de réussite seuls sont insuffisants pour évaluer les LLM dans des tâches incarnées, car une performance mesurée peut refléter une interaction fortuite entre erreurs perceptuelles et défauts de raisonnement, plutôt qu'une résolution robuste. Cette mise en garde arrive à un moment où Figure, 1X, Agility Robotics et Boston Dynamics intègrent des LLM comme planificateurs de haut niveau dans leurs humanoïdes, souvent évalués sur des benchmarks de tâches simples en environnement contrôlé. L'approche "empirical AI" adoptée ici, qui consiste à varier systématiquement les entrées et mesurer les effets comportementaux, offre un cadre d'évaluation plus rigoureux que les métriques agrégées habituelles.

RecherchePaper
1 source
Locus Array élargit ses capacités de préhension grâce à NeuraGrasp de Nexera Robotics
238Robotics Business Review 

Locus Array élargit ses capacités de préhension grâce à NeuraGrasp de Nexera Robotics

Locus Robotics a annoncé l'acquisition de Nexera Robotics, une startup canadienne basée à Vancouver, quelques semaines à peine après le lancement commercial de son robot mobile manipulateur Locus Array. Le coeur de la transaction : NeuraGrasp, un préhenseur développé par Nexera qui combine une membrane souple et conforme, de la vision par ordinateur et de l'intelligence artificielle embarquée. Cette technologie remplacera l'effecteur à ventouse actuel de l'Array, avec pour objectif d'élargir la couverture SKU à des catégories jusqu'ici problématiques pour les systèmes de picking robotisé : sacs en polyéthylène poreux, vêtements en vrac, emballages pharmaceutiques irréguliers, petite électronique et produits de grande consommation jusqu'à 2,2 kg (comme un flacon de lessive). Nexera revendique plusieurs millions de picks réalisés à ce jour. Roy Belak, CEO de Nexera, rejoint la structure Locus, dont le CEO Rick Faulk et la chief strategy officer Gina Chung pilotent l'intégration. Les clients existants de Nexera seront repris au cas par cas. L'enjeu est direct pour les opérateurs logistiques et les intégrateurs : le goulot d'étranglement du picking robotisé n'a jamais été la navigation ni la planification de trajectoire, mais bien la préhension elle-même. Rueben Scriven, analyste chez Interact Analysis spécialisé en automatisation logistique, confirme que "la manipulation et la saisie d'articles - et donc la couverture SKU - a été l'un des plus grands obstacles". Le passage d'un préhenseur à ventouse à un système hybride membrane/IA adresse structurellement cette limite : la ventouse échoue sur les surfaces poreuses ou souples, et le changement d'outil (tool switching) est éliminatoire pour la plupart des clients en environnement haute cadence. Locus affirme que les SKU couvertes par NeuraGrasp représentent la majorité du e-commerce. Si le chiffre est plausible dans sa direction, il reste à vérifier dans des déploiements réels diversifiés : les démonstrations vidéo en conditions contrôlées ne garantissent pas les performances en picking haute vitesse sur des millions de références actives. Locus Robotics, qui avait connu des difficultés financières en 2023 avant de se restructurer, mise sur l'Array pour repositionner son offre au-delà des AMR (robots mobiles autonomes) de transport vers la manipulation autonome intégrée. L'Array a d'ailleurs reçu le prix RBR50 Robotics Innovation Award 2026, décerné par Robotics Business Review. Sur le marché, les concurrents directs incluent des systèmes de picking intégré comme ceux d'Exotec (France, avec le Skypod), Boston Dynamics (Stretch), Berkshire Grey ou encore Mujin, ainsi que les bras de picking d'Amazon Robotics. L'acquisition de Nexera positionne Locus sur le segment "un seul préhenseur universel" plutôt que sur des solutions multi-effecteurs, un pari technologique cohérent mais dont la validation à l'échelle industrielle reste la prochaine étape critique. Hamid Montazeri, SVP Software & AI chez Locus, interviendra au Robotics Summit & Expo de Boston la semaine prochaine.

UEL'acquisition renforce la compétitivité de Locus face à Exotec (France, Skypod) sur le segment du picking robotisé e-commerce, en comblant la principale faiblesse des AMR, la couverture SKU, ce qui pourrait accélérer la pression commerciale sur les acteurs européens de l'automatisation logistique.

IndustrielOpinion
1 source
Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions
239arXiv cs.RO 

Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions

Des chercheurs ont publié sur arXiv (réf. 2602.08167, version 2) la méthode R&B-EnCoRe, conçue pour améliorer le raisonnement des modèles Vision-Language-Action (VLA) en robotique sans annotation humaine ni récompense externe. Sur des tâches de manipulation avec bras Franka Panda en simulation et WidowX sur matériel réel, et de navigation sur quatre types de plateformes (bipèdes, wheeled, vélo et quadrupède), la méthode affiche 28 % de gain sur le taux de succès en manipulation, 101 % d'amélioration sur les scores de navigation, et 21 % de réduction du taux de collision par rapport aux baselines VLA traitant indistinctement tous les primitives de raisonnement disponibles. Les tests couvrent des architectures de 1B à 30B paramètres et incluent un volet conduite autonome ; aucun déploiement industriel ni partenaire commercial n'est mentionné, il s'agit d'une contribution de recherche fondamentale. Le problème ciblé est structurel dans le domaine VLA : les approches actuelles de raisonnement "chain-of-thought" incarné (Embodied CoT) imposent des templates rigides qui listent objets visibles, plans de haut niveau et affordances de scène, quelle que soit leur pertinence pour l'action à exécuter. Ce bruit informationnel nuit à la prédiction d'action et fragilise la politique de contrôle. R&B-EnCoRe modélise le raisonnement comme une variable latente dans un cadre d'inférence variationnelle pondérée par importance, permettant au modèle de générer et distiller automatiquement des raisonnements filtrés par leur capacité à prédire une action réussie. Ce mécanisme améliore le transfert des connaissances internet vers l'exécution physique réelle, problème central du "grounding" en robotique incarnée. Les VLA à raisonnement incarné forment un sous-domaine actif depuis les travaux π0 de Physical Intelligence, OpenVLA d'UC Berkeley et RT-2 de Google DeepMind. R&B-EnCoRe se positionne comme un raffinement post-entraînement applicable à des architectures existantes plutôt que comme un nouveau modèle de fondation. La validation sur cinq catégories d'embodiments distincts est plus large que la majorité des contributions VLA, qui restent limitées à la manipulation. Aucune suite commerciale n'est annoncée, mais l'approche est directement compatible avec des plateformes comme Unitree, Boston Dynamics Spot ou Franka Production 3, ainsi qu'avec les benchmarks standardisés LIBERO et BRS.

IA physiqueOpinion
1 source
Comment l'IA à base d'agents permet la navigation robotique généraliste
240Robotics Business Review 

Comment l'IA à base d'agents permet la navigation robotique généraliste

Les systèmes de navigation robotique traditionnels s'appuient sur un pipeline déterministe en cinq étapes séquentielles: perception, localisation, cartographie, planification, contrôle. Des techniques comme le SLAM (Simultaneous Localization and Mapping) permettent à un robot de construire une carte et d'estimer sa position en temps réel, mais ces approches supposent un environnement relativement stable. Dès qu'un robot sort d'un entrepôt balisé ou d'une cellule d'usine pour se retrouver dans un domicile, une zone sinistrée, un chantier ou une opération logistique extérieure, les performances se dégradent: obstacles mobiles, cartes incomplètes, terrains inconnus font échouer les hypothèses de base du pipeline. L'IA agentique propose une rupture architecturale en ajoutant une couche d'orchestration au-dessus du stack existant. Plutôt qu'exécuter une séquence fixe de modules, ces systèmes coordonnent dynamiquement perception, planification et contrôle en fonction de l'objectif courant, via des boucles de raisonnement itératives, une mémoire contextuelle et un usage dynamique d'outils invocables à la demande. L'impact concret pour les intégrateurs et décideurs est structurel. En traitant ses propres capacités comme des outils sélectionnables selon le contexte, un robot agentique peut adapter sa stratégie de navigation sans reprogrammation explicite de chaque scénario, ce qui élargit significativement le périmètre de déploiement réel. Cela remet en question l'hypothèse longtemps dominante selon laquelle la robotique mobile généraliste exige une pré-cartographie exhaustive et des règles explicites pour chaque situation rencontrée. L'approche agentique suggère qu'une part de cette rigidité peut être remplacée par un raisonnement contextuel, rapprochant la navigation robotique de la capacité d'adaptation d'un opérateur humain en terrain inconnu. Pour un COO industriel, cela se traduit par une réduction potentielle des coûts de mise en service et une plus grande tolérance aux variations d'environnement entre sites. Ce changement de paradigme s'inscrit dans une évolution longue. Les architectures réactives des années 1980, popularisées par Rodney Brooks avec la subsumption architecture, répondaient aux capteurs sans modèle global. Les générations suivantes ont introduit SLAM et la planification par graphes, dominant le secteur durant les années 2000-2010. L'émergence des LLMs et des modèles VLA (Vision-Language-Action) à partir de 2022-2023 ouvre une troisième voie. Sur le plan concurrentiel, des acteurs comme Boston Dynamics, Figure AI et Agility Robotics investissent dans ces architectures agentiques pour leurs robots humanoïdes et AMR. En Europe, Enchanted Tools et Wandercraft restent positionnés sur des segments spécialisés, mais l'architecture agentique pourrait modifier les équilibres en abaissant le coût d'adaptation aux environnements non structurés. Les prochaines étapes attendues incluent des benchmarks standardisés pour évaluer la performance hors environnements contrôlés, ainsi que les premières intégrations commerciales dans la logistique du dernier kilomètre et les services à domicile.

UEEnchanted Tools et Wandercraft sont cités comme acteurs européens dont les positions concurrentielles pourraient être réévaluées si l'architecture agentique abaisse le coût d'adaptation aux environnements non structurés.

IA physiqueOpinion
1 source
Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes
241arXiv cs.RO 

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

Une équipe de recherche publie sur arXiv (arXiv:2605.08511, mai 2026) une méthode pour corriger un défaut structurel des politiques de type flow matching appliquées à la manipulation robotique. Ces architectures apprennent des champs de vitesse continus pour convertir du bruit en séquences d'actions, permettant une inférence déterministe rapide. Le problème identifié est un écart fondamental entre entraînement et inférence : l'objectif d'entraînement optimise une vitesse ponctuelle, tandis que l'inférence requiert l'intégration numérique de ce champ sur une trajectoire complète. Les erreurs s'accumulent et dégradent les performances. La méthode proposée, baptisée TC-Flow, associe quatre correctifs complémentaires : une régression de vitesse par rectified flow auxiliaire pour une supervision uniforme sur l'intervalle temporel, un entraînement par cohérence de trajectoire multi-étapes qui supervise directement le déplacement intégré, une régularisation du champ de vitesse pour forcer la continuité temporelle, et un intégrateur de Runge-Kutta d'ordre 4 (RK4) à l'inférence pour réduire l'erreur de discrétisation. Un encodeur de nuage de points 3D à double vue, basé sur deux PointNet indépendants, complète l'architecture. Validée sur un bras Franka et un robot quadrupède Boston Dynamics Spot, la méthode atteint 70 % et 60 % de succès sur deux tâches longue-horizon multi-phases où les deux baselines de référence stagnent à 0 %, et 100 % sur une tâche de placement d'outil de précision. Trois tâches de simulation MetaWorld confirment les gains. Ce résultat est significatif pour les équipes qui développent des VLAs (vision-language-action) basées sur le flow matching : il démontre que le sim-to-real gap et l'échec sur les tâches longue-horizon ne viennent pas nécessairement de la représentation sensorielle ou de la politique en elle-même, mais du désalignement train-inférence. Le passage de 0 % à 60-70 % sur les mêmes tâches en corrigeant uniquement cet écart est un signal fort. L'ablation confirme que les quatre composants sont nécessaires en synergie : RK4 seul sans champ lisse échoue, et la régularisation sans supervision trajectoire dérive quand même. Dans le contexte du marché, le flow matching pour la robotique a été popularisé par Physical Intelligence avec pi-0, qui domine aujourd'hui les benchmarks de manipulation généraliste, et par des travaux comme ACT ou Diffusion Policy. TC-Flow se positionne comme une correction algorithmique orthogonale, applicable à toute architecture flow matching existante. Il s'agit d'un preprint arXiv sans code public annoncé à ce stade, ni déploiement industriel. Les prochaines étapes naturelles seraient une validation sur des tâches bi-manuelles ou sur des plateformes humanoïdes, terrain où les erreurs cumulées de trajectoire sont particulièrement pénalisantes.

RechercheOpinion
1 source
Un nouveau système d'IA aide les robots à transférer leur entraînement virtuel vers des tâches réelles
242Interesting Engineering 

Un nouveau système d'IA aide les robots à transférer leur entraînement virtuel vers des tâches réelles

Des chercheurs de l'Aston University et de l'University of Birmingham ont publié dans Scientific Reports une méthode d'entraînement robotique visant à réduire le "sim-to-real gap", ce fossé persistant entre les performances d'un robot en simulation et son comportement réel. L'approche, développée dans le cadre du projet REBELION financé par UK Research and Innovation, utilise un générateur de variations d'environnement piloté par IA : pendant la phase de simulation, le système introduit automatiquement des perturbations (bruit capteur, variabilité des matériaux, forces inattendues) pour entraîner le robot à des conditions plus proches du terrain. La validation expérimentale porte sur des tâches de manipulation et de découpe impliquant une interaction physique avec des matériaux, puis un ajustement avec un volume minimal de données réelles. Le cas d'usage mis en avant est le recyclage de batteries lithium-ion, où les robots doivent opérer autour de cellules endommagées ou potentiellement dangereuses, rendant les cycles de test physiques coûteux et risqués. L'intérêt industriel est direct : la dépendance à de longs cycles de test en environnement réel est l'un des principaux freins au déploiement rapide de robots dans des lignes de production ou des ateliers de recyclage. En permettant de compresser l'essentiel de l'apprentissage en simulation tout en garantissant un transfert fiable avec peu de données réelles, cette approche pourrait raccourcir significativement les timelines d'intégration et réduire les coûts opérationnels pour les industriels. Elle valide aussi une hypothèse qui fait débat dans le secteur depuis plusieurs années : que le sim-to-real gap n'est pas une fatalité, mais un problème d'exposition à la variance pendant l'entraînement. La vision formulée par le Dr. Alireza Rastegarpanah, assistant professor en applied AI and robotics à Aston University, est celle de systèmes robotiques "plug-and-play", entraînés une fois en simulation et redéployés rapidement dans un nouveau contexte sans reconfiguration lourde. C'est une promesse ambitieuse, et les résultats publiés restent limités à un périmètre de tâches contrôlées ; aucun chiffre de performance comparative (taux de succès, cycles de recalibration) n'est rendu public dans la version relayée. Le sim-to-real gap est un problème structurel documenté depuis les premières applications de reinforcement learning en robotique. Des acteurs comme Boston Dynamics, Agility Robotics ou encore Wandercraft (France, exosquelettes) utilisent des combinaisons de domain randomization et de transfert par imitation pour y répondre, avec des niveaux de maturité variables selon les tâches. Le projet REBELION s'inscrit dans un effort européen plus large sur l'automatisation du recyclage de batteries, filière en forte croissance avec l'essor des véhicules électriques. Les prochaines étapes annoncées par l'équipe visent à élargir la méthode à des environnements industriels plus incertains et à des applications en manufacturing avancé et opérations autonomes, sans calendrier précis communiqué.

UELa méthode du projet REBELION (financé UKRI, inscrit dans un effort européen) pourrait accélérer le déploiement de robots dans les filières EU de recyclage de batteries lithium-ion, secteur stratégique pour la transition électrique.

RecherchePaper
1 source
Locus Robotics déploie Locus Array pour l'automatisation complète des entrepôts
243Robotics & Automation News 

Locus Robotics déploie Locus Array pour l'automatisation complète des entrepôts

Locus Robotics, spécialiste américain des systèmes d'automatisation d'entrepôts, a officialisé le lancement de Locus Array, une solution qu'elle qualifie de système de préparation de commandes entièrement autonome. La plateforme intègre des robots mobiles autonomes (AMR), un bras de préhension robotisé et un module de perception piloté par IA, avec l'objectif de couvrir l'ensemble du flux de traitement des commandes sans intervention humaine. Des déploiements en accès anticipé sont déjà engagés chez des clients en Amérique du Nord, bien que les détails opérationnels (payload, cadence de cycle, taux de précision) n'aient pas encore été communiqués publiquement. L'enjeu industriel est réel : les AMR de première génération automatisaient le transport inter-zones, mais laissaient le picking, tâche la plus coûteuse en main-d'oeuvre -- à des opérateurs humains. Intégrer un bras de préhension directement sur la plateforme mobile représente un saut architectural vers l'autonomie bout-en-bout. Pour les intégrateurs et les décideurs logistiques, cela change le calcul du ROI : si les métriques tiennent à l'échelle, l'argument pour réduire les effectifs de picking devient structurel. Reste à valider la robustesse hors conditions contrôlées, un point que l'annonce ne documente pas encore. Locus Robotics a levé plus de 400 millions de dollars depuis sa fondation en 2015, mais a traversé une période difficile en 2023, avec des réductions d'effectifs significatives liées à un ralentissement du marché e-commerce. Locus Array s'inscrit donc dans une stratégie de repositionnement vers la valeur ajoutée. Sur ce segment, la concurrence est dense : Exotec (Roubaix, France) avec son système Skypod, Symbotic, Geek+ et Boston Dynamics avec Stretch visent tous le même créneau de préparation autonome. La phase d'accès anticipé devra produire des données opérationnelles convaincantes pour crédibiliser la proposition face à ces acteurs déjà déployés à grande échelle.

UEExotec (Roubaix, France) est directement en compétition sur ce créneau de préparation autonome et devra défendre sa position si Locus Array produit des métriques opérationnelles convaincantes à l'échelle.

IndustrielOpinion
1 source
Apprentissage de politiques de loco-manipulation quadrupède avec perception tactile
244arXiv cs.RO 

Apprentissage de politiques de loco-manipulation quadrupède avec perception tactile

Une équipe de chercheurs a publié en avril 2026 sur arXiv (2604.27224) un pipeline hiérarchique de loco-manipulation pour robots quadrupèdes intégrant le retour tactile. Le système combine une politique visuotactile de haut niveau, entraînée sur des démonstrations humaines réelles, qui prédit simultanément les trajectoires de l'effecteur terminal et les signaux tactiles attendus caractérisant l'évolution du contact, avec une politique corps-entier entraînée par reinforcement learning à grande échelle en simulation et transférée zero-shot sur robot physique. Évalué sur trois tâches à contact riche (réorientation en main avec insertion, serrage de vanne, manipulation d'objets fragiles), le système affiche un gain moyen de 28,54 % par rapport aux baselines vision seule et visuotactile sans prédiction tactile. L'apport principal est de démontrer que vision et proprioception restent insuffisantes pour résoudre des contacts incertains et évolutifs, et que le retour tactile fournit une observabilité directe que les autres modalités ne peuvent pas suppléer. La mise à l'échelle de l'apprentissage tactile à un système complet de loco-manipulation quadrupède est une contribution distinctive : la littérature récente s'était concentrée sur les bras fixes et les mains dextres, laissant les plateformes mobiles en dehors du périmètre. Le transfert zero-shot sim-to-real de la politique multimodale corps-entier valide par ailleurs qu'il est possible de combler le gap simulation-réalité sur des politiques sensorielles complexes sans fine-tuning sur robot physique, un résultat concret pour les déploiements industriels. La manipulation par quadrupèdes s'est accélérée depuis 2023 avec Spot (Boston Dynamics) et ANYmal (ANYbotics, ETH Zurich), qui s'appuient cependant essentiellement sur la vision et la proprioception. L'intégration d'une couche tactile hiérarchique sur des systèmes mobiles reste une extension non triviale, absente des plateformes Unitree B2/Z1 ou des travaux sur MIT Cheetah. La suite logique inclut l'extension à des capteurs haute densité (GelSight, capacitif distribué) et à des chaînes de manipulation multi-étapes en milieu industriel réel. Ce travail est un preprint non encore évalué par les pairs, ce qui invite à la prudence sur la généralisabilité des résultats au-delà du protocole expérimental décrit.

UELes résultats sur le transfert zero-shot sim-to-real et la manipulation tactile quadrupède sont directement pertinents pour ANYbotics (spin-off ETH Zurich) et ses déploiements d'inspection industrielle en Europe, où ANYmal constitue la plateforme de référence.

RecherchePaper
1 source
M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions
245arXiv cs.RO 

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions

Des chercheurs ont publié fin avril 2025 sur arXiv (2504.18662) un extracteur de représentations multimodal baptisé M2R2 (MultiModal Robotic Representation for Robotic TAS), conçu pour la segmentation temporelle d'actions (TAS) en robotique. L'approche combine des informations proprioceptives (encodeurs, capteurs force-couple, état des articulations) et extéroceptives (caméras RGB) dans un extracteur de features commun, accompagné d'une stratégie d'entraînement inédite permettant la réutilisation de ces représentations sur plusieurs architectures de segmentation indépendantes. Les résultats annoncés positionnent M2R2 à l'état de l'art sur trois jeux de données de référence en robotique : REASSEMBLE (assemblage de composants), (Im)PerfectPour (versage de liquide) et JIGSAWS (chirurgie robotique laparoscopique simulée). Une étude d'ablation extensive quantifie la contribution respective de chaque modalité. L'intérêt principal de M2R2 réside dans la modularité de son extracteur : les approches multimodales existantes en robotique fusionnaient les modalités directement à l'intérieur du modèle de segmentation, rendant les features non réutilisables entre architectures. Ici, le découplage extracteur/modèle de TAS ouvre la voie à une bibliothèque de représentations partageable, ce qui réduit le coût de réentraînement lors du changement de tâche ou de robot. Sur les scénarios à faible visibilité d'objet, les extracteurs purement visuels issus du computer vision chutent en performance, là où l'ajout de la proprioception maintient la robustesse. C'est un résultat concret sur la fragilité des approches vision-seule dans des environnements industriels ou chirurgicaux réels, où occlusions et éclairage variable sont la norme. La segmentation temporelle d'actions est un verrou historique pour l'autonomie des robots manipulateurs : sans identifier les frontières entre skills (saisir, aligner, visser...), il est impossible de planifier, corriger ou réutiliser des séquences de gestes. En chirurgie robotique, JIGSAWS est le benchmark de référence depuis 2016, utilisé notamment dans les travaux autour des plateformes da Vinci (Intuitive Surgical). En robotique industrielle, des acteurs comme Wandercraft ou les équipes de manipulation de Boston Dynamics s'appuient sur des approches similaires pour les transitions de phases motrices. M2R2 reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé, mais son extracteur réutilisable représente un candidat sérieux pour des pipelines d'imitation learning dans lesquels labelliser chaque skill manuellement est le principal goulot d'étranglement.

UEL'extracteur modulaire M2R2 pourrait bénéficier aux équipes de manipulation françaises (notamment Wandercraft) en réduisant le coût de labellisation dans les pipelines d'imitation learning, mais reste une contribution académique sans déploiement industriel annoncé.

RecherchePaper
1 source
ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot
246arXiv cs.RO 

ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot

Des chercheurs ont présenté ExpressMM, un framework destiné aux manipulateurs mobiles déployés en environnements humains, capable de générer des comportements expressifs en temps réel pendant l'exécution de tâches collaboratives. Publié sur arXiv (2604.05320v3), le système repose sur une architecture à deux niveaux : un planificateur de haut niveau fondé sur un modèle vision-langage (VLM) prend en charge la perception et le raisonnement conversationnel, tandis qu'une politique vision-langage-action (VLA) de bas niveau produit les mouvements expressifs du robot. Élément distinctif : ExpressMM supporte les interactions interruptibles, c'est-à-dire que l'utilisateur peut modifier ou rediriger les instructions du robot en cours d'exécution. L'évaluation a été conduite sur un manipulateur mobile réel lors d'un scénario d'assemblage collaboratif, avec des démonstrations en direct devant un public et des questionnaires post-session. La majorité des travaux antérieurs sur les comportements expressifs des robots s'appuyaient sur des mouvements préprogrammés ou appris par démonstration, et n'anticipaient pas les interruptions en cours de tâche, un cas pourtant courant dès qu'un humain travaille aux côtés d'un robot. ExpressMM traite cette lacune en couplant une VLA capable de s'adapter dynamiquement aux nouvelles instructions avec un raisonnement langage-vision pour maintenir la cohérence sociale de l'interaction. Les résultats des questionnaires indiquent que les observateurs ont trouvé les actions du robot clairement interprétables, les interactions socialement appropriées, et le comportement prévisible et sûr. Pour les intégrateurs industriels et les équipes opérations, c'est un signal fort : les robots collaboratifs ne peuvent plus se contenter d'accomplir une tâche ; ils doivent être lisibles par les humains qui partagent l'espace de travail. Le sujet de l'expressivité robotique est activement exploré depuis plusieurs années dans la communauté HRI, mais les approches précédentes peinaient à généraliser au-delà de comportements scénarisés ou de démos contrôlées. L'utilisation conjointe d'un VLM et d'une VLA dans un seul pipeline interruptible représente une progression architecturale significative. Sur le plan concurrentiel, des acteurs comme Boston Dynamics (avec Spot) ou des startups HRI telles que Enchanted Tools en France (robot Miroki) travaillent également sur la dimension sociale des robots collaboratifs, mais peu publient des évaluations HRI aussi structurées en conditions réelles. Les prochaines étapes logiques pour ExpressMM seraient des déploiements en environnements industriels ou de service à plus grande échelle, où la variété des interactions humaines dépasse largement les scénarios d'assemblage contrôlés.

UELa recherche est directement pertinente pour Enchanted Tools (France, robot Miroki), qui travaille sur des problématiques similaires d'expressivité sociale et d'interaction humain-robot collaboratif.

IA physiqueOpinion
1 source
GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle
247arXiv cs.RO 

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

Des chercheurs ont soumis sur arXiv (arXiv:2604.19522) un framework baptisé GenerativeMPC, destiné aux robots manipulateurs mobiles bimanaux. Le système articule un modèle de vision-langage couplé à une génération augmentée par récupération (VLM-RAG) avec un contrôleur prédictif sur le corps entier (Whole-Body MPC). Concrètement, le module VLM-RAG analyse la scène en temps réel, visuellement et en langage naturel, puis génère des contraintes de contrôle numériques directement exploitables: limites de vitesse dynamiques et marges de sécurité injectées dans le MPC. Parallèlement, il module les gains de raideur et d'amortissement virtuels d'un contrôleur impédance-admittance unifié pour adapter la compliance du robot au contexte. Les expériences menées dans les simulateurs MuJoCo et IsaacSim, puis sur une plateforme physique bimanuale, font état d'une réduction de vitesse de 60% à proximité des humains. Le système s'appuie sur une base de données vectorielle alimentée par l'expérience passée, ce qui permet d'ancrer les paramètres de contrôle sans ré-entraînement du modèle. L'enjeu architectural est significatif pour les intégrateurs et les décideurs industriels. Les approches end-to-end de type VLA, comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), délèguent entièrement la traduction sémantique-physique au réseau neuronal, rendant les garanties de sécurité difficiles à certifier formellement. GenerativeMPC propose une architecture hybride explicite: le grand modèle raisonne sur le contexte (présence humaine, nature de la tâche) et produit des paramètres numériques interprétables qui alimentent un MPC classique au comportement auditable et déterministe. Pour les secteurs à forte contrainte réglementaire, c'est un argument de poids. La réduction de 60% reste cependant une métrique à contextualiser: le papier ne précise pas la vitesse de référence initiale ni les conditions exactes des essais physiques, un bémol courant dans les publications de ce type. La manipulation mobile bimanuale est l'un des problèmes ouverts les plus exigeants de la robotique collaborative, coincé entre contrôleurs classiques contextuellement aveugles et modèles end-to-end difficilement certifiables. L'utilisation du RAG pour paramétrer des contrôleurs physiques est une direction de recherche émergente, distincte de l'apprentissage par renforcement. Dans l'écosystème concurrent, Figure AI (Figure 03), Boston Dynamics (Atlas) et 1X Technologies explorent des architectures hybrides pour des tâches bimanales. En Europe, Enchanted Tools (France) et des laboratoires comme le LAAS-CNRS avancent sur des architectures de contrôle sûres pour la collaboration humain-robot. GenerativeMPC reste pour l'instant un résultat de recherche académique sans déploiement industriel annoncé, mais son approche explicitement certifiable ouvre des perspectives concrètes pour la logistique collaborative et la robotique médicale.

UELe LAAS-CNRS et Enchanted Tools (France) travaillent sur des architectures de contrôle sûres similaires ; l'approche hybride certifiable de GenerativeMPC pourrait renforcer le positionnement européen dans les débats réglementaires sur la certification des robots collaboratifs au titre de l'AI Act.

RechercheOpinion
1 source
Transformer de navigation multimodal sensible à l'incarnation physique
248arXiv cs.RO 

Transformer de navigation multimodal sensible à l'incarnation physique

Des chercheurs ont publié sur arXiv (2604.19267) ViLiNT, un modèle de navigation par objectif pour robots terrestres qui fusionne images RGB, nuages de points LiDAR 3D, un embedding de destination et un descripteur d'embodiment dans une architecture transformer. La sortie du transformer conditionne un modèle de diffusion chargé de générer des trajectoires navigables ; ces trajectoires sont ensuite scorées et classées par une tête de prédiction de dégagement de chemin (path clearance), entraînée sur des labels générés automatiquement hors ligne. Un token d'embodiment propre à chaque robot permet au modèle d'adapter la génération et la sélection des trajectoires aux dimensions physiques de la plateforme. Entraîné sur données hétérogènes issues de plusieurs plateformes et environnements, ViLiNT affiche une amélioration de 166 % du taux de succès (Success Rate) en moyenne sur trois environnements simulés par rapport à NoMaD, la baseline vision-only de référence. Ces résultats ont été confirmés en déploiement réel, sur un rover évoluant dans des champs d'obstacles. Le gain de 166 % sur NoMaD est frappant, mais à contextualiser : la comparaison porte sur des scénarios de navigation hors route où la dégradation sous distribution shift est précisément le problème ciblé, ce qui peut gonfler le delta. L'enjeu industriel est néanmoins réel : les AMR et robots de livraison outdoor subissent exactement ce type de régression dès qu'ils quittent leur environnement d'entraînement. L'apport clé de ViLiNT pour les intégrateurs est double. D'abord, la fusion RGB + LiDAR rend le modèle plus robuste aux variations de luminosité ou de texture de terrain. Ensuite, l'embodiment token ouvre la voie à un modèle unique déployable sur plusieurs plateformes de dimensions différentes, sans réentraînement complet, ce qui réduit significativement le coût de portage. La navigation par objectif pour robots mobiles terrestres est un chantier actif depuis les travaux fondateurs de NoMaD (Berkeley, 2023) et des politiques GNFactor/ViNT. ViLiNT s'inscrit dans la vague des politiques multimodales qui cherchent à combler le sim-to-real gap par enrichissement sensoriel plutôt que par augmentation de données synthétiques. Côté concurrence, des acteurs comme Boston Dynamics (Spot), Clearpath ou Anybotics travaillent sur des problématiques similaires de robustesse hors route, et des laboratoires comme ETH Zurich et CMU publient dans le même espace. ViLiNT reste pour l'instant un preprint sans déploiement industriel annoncé ; les prochaines étapes naturelles seraient une validation sur terrains non structurés plus diversifiés (végétation, boue) et une évaluation du coût computationnel embarqué pour confirmer la viabilité sur hardware contraint.

UEETH Zurich travaille sur des problématiques similaires de navigation hors route ; les fabricants d'AMR et robots outdoor européens pourraient bénéficier de l'embodiment token pour réduire les coûts de portage multi-plateformes, mais aucun partenariat ou déploiement européen n'est annoncé à ce stade.

IA physiquePaper
1 source
EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles
249arXiv cs.RO 

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu
1 source
Assemblage robotique à contacts multiples dans la construction par politique de diffusion
250arXiv cs.RO 

Assemblage robotique à contacts multiples dans la construction par politique de diffusion

Des chercheurs ont publié sur arXiv (arXiv:2511.17774, version 3) une étude portant sur l'application de l'apprentissage par diffusion à l'assemblage robotique dans le secteur de la construction. Le cas d'usage retenu est l'assemblage tenon-mortaise en bois, une jonction à contact riche soumise à des contraintes de friction et de géométrie strictes, avec des jeux inférieurs au millimètre. Les politiques de diffusion sensori-motrices ont été entraînées à partir de démonstrations téléopérées collectées sur un poste de travail robotique industriel équipé de capteurs force/couple. L'évaluation s'est déroulée en deux phases : une baseline en conditions nominales et un test de robustesse avec des perturbations positionnelles aléatoires allant jusqu'à 10 mm, soit un ordre de grandeur au-delà de la tolérance d'assemblage. La politique la plus performante atteint 100 % de taux de succès en conditions nominales et 75 % en moyenne sous perturbation. Ce résultat est notable car il adresse directement un verrou industriel structurel : l'accumulation de tolérances dans la construction empêche depuis longtemps l'automatisation fiable des tâches d'assemblage à contact. Le fait qu'une politique diffusion parvienne à compenser des désalignements de 10 mm pour des jeux sub-millimétriques suggère que ces architectures apprennent implicitement une stratégie de compliance active via le retour d'effort, sans modélisation géométrique explicite. Pour un intégrateur industriel ou un bureau de méthodes, cela signifie que le sim-to-real gap sur des tâches de précision en construction pourrait être en partie résorbé par l'apprentissage par imitation couplé à la force/couple, sans recalibration manuelle systématique. L'assemblage tenon-mortaise n'est pas un choix anodin : cette technique millénaire est revenue en force dans la construction bois massive (CLT, charpente lamellée-croisée), un segment en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann. Les politiques de diffusion appliquées à la robotique manipulatrice ont été popularisées par des travaux comme le Diffusion Policy de Chi et al. (2023, Columbia/Toyota) et sont désormais explorées par des labos comme Physical Intelligence (pi) avec Pi-0, ou par Boston Dynamics Research. Cette étude se distingue en ciblant explicitement la construction industrielle plutôt que la cuisine ou la logistique. La prochaine étape logique serait un déploiement en conditions chantier réelles, avec variation de matériaux et de géométries, ce que les auteurs n'ont pas encore testé.

UELe segment construction bois massive (CLT, charpente lamellée-croisée) est en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann ; une automatisation fiable des assemblages à contact ouvrirait une voie d'industrialisation directement applicable sur les chantiers européens.

RecherchePaper
1 source