Aller au contenu principal
IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste
RecherchearXiv cs.RO19h

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement.

L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers.

Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

Impact France/UE

La traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

À lire aussi

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde
1arXiv cs.RO 

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde

Une équipe de chercheurs a publié le 21 avril 2026 sur arXiv (2604.21355) un framework baptisé RPG (Robust Policy Gating), conçu pour permettre à des robots humanoïdes d'enchaîner plusieurs compétences de combat dynamique sans instabilité. L'approche repose sur une politique unifiée entraînée avec deux mécanismes de randomisation : la randomisation des transitions de mouvement, qui expose la politique à des états initiaux et terminaux variés entre compétences, et la randomisation temporelle, qui rend l'agent robuste aux coupures imprévises dans la séquence de mouvements. La pipeline de contrôle intègre la locomotion (marche, course) avec les compétences de combat, permettant théoriquement des séquences de durée arbitraire. Le système a été validé en simulation extensive, puis déployé sur le robot humanoïde Unitree G1, la plateforme à 23 DDL du constructeur chinois Unitree Robotics. Le problème central que RPG adresse est connu dans le domaine sous le nom de "skill transition gap" : lorsqu'un agent bascule d'une politique spécialisée à une autre, les états terminaux de la première ne correspondent pas aux états initiaux supposés de la seconde, produisant des comportements hors domaine, des chutes ou des mouvements saccadés. Les approches concurrentes utilisent soit une commutation entre politiques mono-compétence, soit une politique généraliste qui imite des motion clips de référence -- les deux souffrent de ce décalage. RPG propose une solution d'entraînement plutôt que d'architecture, ce qui est notable : la robustesse aux transitions est injectée pendant la phase d'apprentissage, pas via un mécanisme de gating à l'inférence. L'absence de métriques quantitatives dans la publication (temps de cycle, taux de chute, nombre de transitions testées) limite cependant la comparaison directe avec d'autres travaux. RPG s'inscrit dans une vague active de recherche sur le contrôle corps entier des humanoïdes pour des tâches hautement dynamiques, un domaine où les laboratoires UCB, CMU et Stanford publient régulièrement depuis 2023. L'utilisation du G1 comme plateforme de validation est cohérente avec sa popularité croissante en recherche académique, notamment grâce à son coût inférieur à celui des plateformes concurrentes (Boston Dynamics Atlas, Agility Digit). Sur le plan commercial, des acteurs comme Figure AI, 1X Technologies ou Apptronik ciblent des tâches répétitives en entrepôt plutôt que le combat, mais les techniques de transition de compétences développées ici sont directement transposables aux scénarios industriels nécessitant des enchaînements fluides de manipulation et de locomotion. La prochaine étape naturelle serait une évaluation quantitative en conditions adversariales réelles, ainsi qu'un transfert vers des tâches moins "spectaculaires" mais plus proches du déploiement B2B.

RecherchePaper
1 source
Cartes de coût conditionnées à la tâche pour la locomotion sur pattes
2arXiv cs.RO 

Cartes de coût conditionnées à la tâche pour la locomotion sur pattes

Une équipe de recherche a publié sur arXiv (identifiant 2605.00261, mai 2025) une méthode permettant aux robots à pattes de naviguer plus fiablement sur des terrains non structurés en modélisant l'incertitude épistémique dans la prédiction des appuis. Le principe : un modèle appris, entraîné à prédire les points de contact viables au sol, intègre désormais une estimation de sa propre incertitude, conditionnée à la fois sur les relevés de hauteur du terrain et sur la commande de mouvement transmise au robot. Testé en simulation et en conditions réelles, le système distingue les zones de terrain "connues" (in-distribution) des zones hors distribution (OOD), c'est-à-dire absentes des données d'entraînement. Cette incertitude est intégrée dans un cadre unifié de génération de costmaps, directement exploitable par un planificateur de trajectoire. Résultat principal : jusqu'à 37 % de réduction de l'erreur de faisabilité en simulation, avec un comportement de planification plus robuste qu'un modèle reposant uniquement sur la géométrie du terrain. L'enjeu est concret pour les intégrateurs de robots à pattes en milieu industriel. La plupart des systèmes appris actuels échouent silencieusement sur des terrains hors distribution : le robot tente quand même le franchissement, avec des risques de chute ou de blocage. En rendant l'incertitude explicite et traduite en coût dans le planificateur, le système peut délibérément éviter les zones qu'il ne reconnaît pas. C'est une avancée pour le déploiement en environnements non contrôlés, là où il est impossible de couvrir exhaustivement tous les types de surface lors de l'entraînement. La méthode offre aussi une voie de sortie au problème des datasets limités : un modèle entraîné sur une distribution restreinte peut opérer en sécurité en sachant délimiter son propre domaine de compétence. Cette problématique s'inscrit dans un effort de recherche plus large visant à combler le gap sim-to-real en locomotion à pattes, défi qui mobilise des acteurs comme ANYbotics (dont l'ANYmal est déployé en inspection industrielle), Boston Dynamics (Spot) ou Unitree Robotics. La tendance dominante jusqu'ici consistait à accumuler davantage de données et à diversifier les terrains de simulation. L'approche par quantification d'incertitude offre une voie complémentaire, particulièrement adaptée aux déploiements à domaine restreint où la collecte de données exhaustive est coûteuse. Les auteurs ne mentionnent ni timeline de commercialisation ni partenariat industriel identifié : il s'agit d'un preprint académique, sans validation sur robot commercial nommé.

RecherchePaper
1 source
Tests de robustesse par recherche pour un logiciel de robotique de reconditionnement d'ordinateurs portables
3arXiv cs.RO 

Tests de robustesse par recherche pour un logiciel de robotique de reconditionnement d'ordinateurs portables

Le Danish Technological Institute (DTI), centre de recherche appliquée danois spécialisé dans le transfert technologique vers l'industrie et le secteur public, publie PROBE, une méthode de test de robustesse pour les logiciels robotiques utilisés dans le reconditionnement de laptops. L'approche cible les modèles de détection d'objets embarqués dans ces robots, chargés d'identifier des vis pour le démontage ou des autocollants à retirer, dont les défaillances peuvent entraîner des dommages physiques aux appareils. PROBE s'appuie sur NSGA-II, un algorithme d'optimisation multi-objectifs évolutionnaire, pour explorer de manière systématique l'espace des perturbations d'images : l'objectif est de trouver les modifications minimales et localisées qui font échouer le modèle de détection, en équilibrant l'intensité de la perturbation, sa localisation spatiale et son effet sur le score de confiance du modèle. Les résultats quantitatifs sont significatifs : PROBE est 3 à 7 fois plus efficace qu'une recherche aléatoire pour générer des perturbations induisant des échecs, tout en utilisant des perturbations de magnitude plus faible, ce qui signifie qu'il expose des vulnérabilités réelles plutôt que des cas limites artificiels. Fait notable, les perturbations générées se transfèrent entre modèles différents, suggérant qu'elles révèlent des fragilités structurelles communes et non des artefacts liés à une architecture particulière. L'article introduit également l'usage de relations métamorphiques pour évaluer la stabilité des modèles même dans des cas non-défaillants, enrichissant le diagnostic de robustesse au-delà de la simple détection de pannes. Pour un intégrateur déployant des robots dans une chaîne de reconditionnement, cette approche offre un cadre de qualification objective des modèles de vision avant mise en production industrielle. Ce travail s'inscrit dans la trajectoire du DTI sur la robotique appliquée à l'économie circulaire, en lien direct avec le Plan d'action européen pour l'économie circulaire. Le reconditionnement automatisé de matériel informatique reste un segment de niche mais en croissance, où la précision de la détection d'objets est critique : une vis mal localisée peut endommager irrémédiablement une carte mère. Côté recherche, PROBE rejoint un corpus croissant de travaux sur les tests adversariaux pour systèmes embarqués, un domaine où les approches search-based testing (SBST) gagnent du terrain face aux méthodes purement statistiques. Aucun déploiement commercial n'est annoncé à ce stade : il s'agit d'un résultat académique (arXiv:2605.07530), sans timeline de productisation précisée.

UELe DTI, centre de recherche danois (EU), propose un cadre de qualification objectif pour les modèles de vision embarqués dans les robots de reconditionnement, en alignement avec le Plan d'action européen pour l'économie circulaire.

RecherchePaper
1 source
NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste
4arXiv cs.RO 

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

NEXUS est un cadre modulaire présenté en mai 2026 sous forme de preprint arXiv (2605.09387), conçu pour l'apprentissage continu de contraintes symboliques dans les agents incarnés. Son objectif central : combler l'écart fondamental entre l'incertitude probabiliste des grands modèles de langage (LLM) et les exigences de déterminisme strict requises dans le monde physique. Le framework dissocie explicitement deux dimensions : la faisabilité physique, améliorée par des retours d'exécution en boucle fermée, et les spécifications de sécurité, ancrées dans des contraintes dures déterministes formant une défense pré-action. Évalué sur le benchmark SafeAgentBench, NEXUS affiche des taux de succès supérieurs aux approches existantes, refuse efficacement les instructions non sûres, résiste aux attaques adversariales, et améliore progressivement son efficacité de planification par accumulation de connaissances symboliques. La pertinence du cadre réside dans son traitement architectural d'un problème structurel : les LLM, malgré leurs performances en planification, restent des systèmes probabilistes susceptibles de produire des comportements dangereux en environnement physique contraint. NEXUS transforme les artefacts symboliques, jusqu'ici utilisés comme de simples interfaces statiques dans les travaux antérieurs, en vecteurs d'évolution de la connaissance. L'ancrage déterministe des risques est particulièrement utile pour les intégrateurs industriels : un agent peut apprendre à reconnaître et refuser des séquences d'actions dangereuses, y compris face à des instructions adversariales délibérément construites. Pour les décideurs envisageant le déploiement d'agents autonomes en entrepôts ou en production, la distinction entre défense réactive et défense pré-action constitue un avantage concret sur le plan de la certification et de la traçabilité. Ce travail s'inscrit dans la continuité de cadres comme SayCan (Google DeepMind) ou Code as Policies, qui ont posé les bases de la planification incarnée par LLM mais traitaient la sécurité comme une contrainte externe figée. NEXUS la rend évolutive via l'apprentissage continu, ce qui le distingue architecturalement. SafeAgentBench, utilisé pour la validation, s'impose progressivement comme référence pour évaluer la robustesse sécuritaire des agents incarnés. Il convient de noter qu'il s'agit à ce stade d'un preprint sans déploiement industriel annoncé ni validation terrain confirmée. La séparation faisabilité/sécurité que propose NEXUS pourrait néanmoins influencer les prochaines générations de middleware robotique, notamment dans les contextes où la traçabilité réglementaire des décisions autonomes est requise.

UELe cadre NEXUS, en rendant les décisions autonomes traçables et auditables via des contraintes symboliques déterministes, pourrait faciliter la mise en conformité avec l'AI Act pour les intégrateurs européens déployant des agents autonomes en environnement industriel.

RecherchePaper
1 source