Aller au contenu principal
λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes
RecherchearXiv cs.RO1h

λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie sur arXiv (arXiv:2606.16022, juin 2026) une nouvelle méthode d'analyse de sécurité pour robots humanoïdes à haute dimension, baptisée λ-Reachability. L'approche reformule les équations de Bellman Hamilton-Jacobi, qui permettent de délimiter le "safe set" d'un système dynamique, en remplaçant les mises à jour TD à un seul pas par un estimateur stochastique multi-pas à horizon géométrique. Un paramètre λ contrôle l'interpolation entre cohérence locale et objectifs sur horizon long, par analogie avec TD(λ) en apprentissage par renforcement. Un second paramètre δ < 1 garantit formellement que la mise à jour est une contraction, permettant l'apprentissage par différence temporelle avec convergence prouvée. Les auteurs appliquent la méthode à des humanoïdes en simulation et en conditions réelles, sur des tâches d'équilibre et d'évitement de collision, avec une amélioration significative de la classification des frontières du safe set et de l'estimation des marges de sécurité par rapport aux baselines TD à un seul pas.

Le verrou que cherche à lever ce travail est central pour la commercialisation des humanoïdes : garantir formellement la sécurité d'un système à plusieurs dizaines de degrés de liberté opérant près d'humains. L'analyse Hamilton-Jacobi est mathématiquement rigoureuse mais ne passait pas à l'échelle au-delà de six ou sept dimensions. L'estimateur multi-pas à horizon géométrique améliore l'estimation de valeur de sécurité sans exploser la variance, un compromis que les méthodes à un seul pas gèrent mal sur des espaces d'état élevés. L'inclusion d'expériences sur vrai robot renforce la crédibilité des résultats, même si la nature précise du robot et les conditions expérimentales exactes ne sont pas détaillées dans le résumé du preprint.

L'analyse de reachability Hamilton-Jacobi est un domaine actif depuis les années 1990, mais les toolboxes classiques (helperOC, BEACLS) butaient sur la malédiction de la dimensionnalité. Les méthodes concurrentes incluent les Control Barrier Functions (CBF), très utilisées dans les laboratoires de CMU, MIT et Berkeley, et le safe RL à contraintes Lagrangiennes. La connexion avec TD(λ) positionne ce travail à l'intersection du contrôle optimal et du deep RL, un territoire que convoitent Figure, 1X, Agility Robotics et Unitree pour obtenir des garanties de sécurité certifiables en déploiement industriel. Il s'agit d'un preprint académique sans partenariat industriel annoncé : les équipes robotique qui évaluent des approches de safety pour homologation auront intérêt à surveiller la suite de ces travaux.

Impact France/UE

Les laboratoires européens comme le CEA-List et l'INRIA, actifs sur la vérification formelle des systèmes robotiques, pourraient intégrer cette approche à horizon géométrique dans leurs travaux de certification sécurité pour humanoïdes.

À lire aussi

Représentations sémantiques et géométriques des tâches pour la manipulation bimanuelles : des démonstrations humaines à la planification robotique
1arXiv cs.RO 

Représentations sémantiques et géométriques des tâches pour la manipulation bimanuelles : des démonstrations humaines à la planification robotique

Des chercheurs ont publié une approche pour apprendre des représentations structurées de tâches bimanuelles directement à partir de démonstrations humaines, sans annotation manuelle des actions. Le système, baptisé représentation sémantique-géométrique par graphe, combine un encodeur de type Message Passing Neural Network (MPNN) avec un décodeur Transformer. L'encodeur opère sur un graphe de scène temporel : il capture les identités des objets, leurs relations sémantiques mutuelles et l'historique de leurs mouvements. Le décodeur, conditionné par le contexte d'action, prédit l'action suivante, les objets impliqués et leurs trajectoires. L'ensemble a été évalué sur onze tâches bimanuelles issues de deux jeux de données distincts, et déployé avec succès sur deux tâches réelles en boucle fermée, via un planificateur couplant les prédictions à des Probabilistic Movement Primitives (ProDMP). L'apport principal réside dans le découplage entre encodeur et décodeur : l'encodeur produit des représentations dites agnostiques à la tâche, réutilisables sur différents robots via un simple fine-tuning du décodeur sur un petit dataset robot. En pratique, cela réduit significativement le coût de ré-entraînement lors d'un changement de plateforme ou d'effecteur. Les résultats montrent que le bénéfice des représentations sémantiques-géométriques sur les modèles séquentiels plus simples s'accentue avec la variabilité des tâches : plus l'ordre des actions et les objets impliqués varient d'une exécution à l'autre, plus l'avantage est marqué. Le système surpasse des baselines incluant un Transformer pur, un décodeur seul, et des modèles vision-langage fine-tunés (VLM), ce qui est notable même si les benchmarks utilisés restent internes aux auteurs et non standardisés dans la communauté. Ce travail s'inscrit dans un effort plus large visant à combler le fossé entre manipulation bimanuelle en laboratoire et déploiement industriel, là où la reproductibilité d'exécutions variables reste un verrou. Il fait écho à des approches concurrentes comme les Vision-Language-Action models (VLA) de Google DeepMind ou les travaux sur les graphes de tâches de l'ETH Zurich, mais se distingue par son orientation vers le transfert inter-robots à faible coût de données. Les auteurs n'annoncent pas de partenaire industriel ni de timeline de déploiement commercial ; il s'agit d'un résultat académique, présenté en version révisée sur arXiv (v2, janvier 2026), dont les suites probables incluent une extension à des scènes plus encombrées et à des horizons de planification plus longs.

RecherchePaper
1 source
IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste
2arXiv cs.RO 

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement. L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers. Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

UELa traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

RecherchePaper
1 source
EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes
3arXiv cs.RO 

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (réf. 2606.08495) EgoPriMo, un cadre unifié d'apprentissage de prior de mouvement pour robots humanoïdes, entraîné exclusivement à partir de démonstrations humaines en vue égocentrique (caméra portée sur la personne). Le système prend en entrée une séquence vidéo égocentrique et un prompt texte, puis reconstruit, génère ou prédit des mouvements corps entier au format SMPL (Skinned Multi-Person Linear model, le standard académique de représentation du squelette humain). L'architecture centrale est un Triple-stream Diffusion Transformer (DiT) qui modélise conjointement la dynamique corporelle, le contexte visuel égocentriique et le langage naturel via un seul checkpoint partagé, des masques de conditionnement de tâche routant les trois cas d'usage sans architecture distincte. Évalué sur les datasets Nymeria et EgoExo4D, EgoPriMo surpasse UniEgoMotion sur la génération égocentrique, et les trajectoires SMPL produites ont été exécutées avec succès sur le contrôleur humanoïde Unitree (probablement G1 ou H1). Il s'agit d'un papier de recherche, pas d'un déploiement industriel. L'intérêt de cette approche tient à son vecteur de données : les vidéos égocentrique humaines (Nymeria, EgoExo4D) sont disponibles à grande échelle, contrairement aux démonstrations téléopérées sur robots qui restent coûteuses et lentes à collecter. En utilisant le langage comme signal de contrôle haut niveau plutôt que comme spécification complète du mouvement, EgoPriMo vise la généralisation comportementale sans avoir à décrire exhaustivement chaque trajectoire, ce qui est l'un des verrous historiques des systèmes VLA (Vision-Language-Action). Le fait qu'un seul checkpoint gère reconstruction, génération et prévision simplifie le déploiement et réduit la dette de maintenance. La validation sur Unitree démontre une transition sim-to-real partielle, bien qu'aucun chiffre de robustesse en environnement non contrôlé ne soit communiqué dans l'abstract. Ce travail s'inscrit dans une compétition dense autour des priors de mouvement pour humanoïdes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Figure (03) investissent massivement dans des pipelines VLA capables de généraliser à des tâches variées. L'originalité d'EgoPriMo est de contourner la dépendance aux données robot en exploitant l'observation humaine égocentrique, une direction explorée également par des travaux issus de CMU et Stanford sur l'imitation via vidéo. Le choix de Unitree comme cible hardware est cohérent avec sa diffusion large dans les labos académiques. Les prochaines étapes naturelles seraient une validation en environnement semi-industriel et une intégration dans une boucle de contrôle fermée, deux dimensions absentes de ce preprint.

RechercheOpinion
1 source
Des politiques de mouvement géométrique sûres et pilotables pour la manipulation dextérique robotique
4arXiv cs.RO 

Des politiques de mouvement géométrique sûres et pilotables pour la manipulation dextérique robotique

Des chercheurs de Stanford (TML, Tamara Manipulation Lab) ont publié sur arXiv (arXiv:2605.21811) un cadre mathématique baptisé SafePBDS (Safe Pullback Bundle Dynamical Systems) destiné à la manipulation dextre robotique. Le système opère sur des espaces géométriques hétérogènes simultanément : une configuration en R^7 pour le bras, des poses d'effecteur en SE(3), et des marges d'évitement d'obstacles en R. Validé sur une plateforme Franka Panda avec main Allegro à 23 degrés de liberté, SafePBDS atteint 92,5 % de succès sur 120 essais de saisie couvrant 20 objets du quotidien. Une interface d'action permet en outre d'exclure n'importe quel doigt de la préhension via une action unidimensionnelle, avec 94,4 % de succès en saisie à trois doigts sur 36 essais. Plus significatif encore : les auteurs revendiquent la première réorientation in-hand palm-down entièrement actionnée et basée sur un modèle, atteignant plus de 360° de rotation en lacet dans les deux sens, sous différents poids d'objet et mouvements de poignet. La contribution centrale de SafePBDS est double. D'abord, une construction de "pullback control barrier function" qui convertit les conditions de sécurité définies sur n'importe quelle variété tâche en contraintes linéaires sur les accélérations en espace de configuration, ce qui permet des garanties de sécurité certifiables, pas seulement empiriques. Ensuite, une interface d'action qui laisse une politique de haut niveau (un VLA, un planificateur, un opérateur humain) injecter des résidus de mouvement de faible dimension, sans jamais violer les contraintes de sécurité. Entrée nulle = comportement autonome préservé. Ce découplage entre planification stratégique et contrôle précis répond à un problème récurrent des architectures VLA : la difficulté à garantir formellement la sécurité physique lors de la phase d'exploration en monde réel. Le travail s'inscrit dans une tradition de dynamical systems pour la manipulation, prolongeant des approches comme les DS-based motion policies de l'EPFL et les travaux de Riemannian motion policies (RMP). Les concurrents directs incluent les méthodes d'apprentissage par imitation avec contraintes CBF (type Berkeley Humanoid, Physical Intelligence pi0) et les architectures modèle-libre qui sacrifient les garanties formelles à la généralisation. SafePBDS reste pour l'instant un résultat de laboratoire sur preprint non relu par les pairs, validé en simulation et sur banc de test mono-robot. Les prochaines étapes annoncées pointent vers l'intégration avec des politiques d'apprentissage de haut niveau et la généralisation à d'autres morphologies de mains.

RecherchePaper
1 source