RecherchearXiv cs.RO 16 juin 2026

λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie sur arXiv (arXiv:2606.16022, juin 2026) une nouvelle méthode d'analyse de sécurité pour robots humanoïdes à haute dimension, baptisée λ-Reachability. L'approche reformule les équations de Bellman Hamilton-Jacobi, qui permettent de délimiter le "safe set" d'un système dynamique, en remplaçant les mises à jour TD à un seul pas par un estimateur stochastique multi-pas à horizon géométrique. Un paramètre λ contrôle l'interpolation entre cohérence locale et objectifs sur horizon long, par analogie avec TD(λ) en apprentissage par renforcement. Un second paramètre δ < 1 garantit formellement que la mise à jour est une contraction, permettant l'apprentissage par différence temporelle avec convergence prouvée. Les auteurs appliquent la méthode à des humanoïdes en simulation et en conditions réelles, sur des tâches d'équilibre et d'évitement de collision, avec une amélioration significative de la classification des frontières du safe set et de l'estimation des marges de sécurité par rapport aux baselines TD à un seul pas.

Le verrou que cherche à lever ce travail est central pour la commercialisation des humanoïdes : garantir formellement la sécurité d'un système à plusieurs dizaines de degrés de liberté opérant près d'humains. L'analyse Hamilton-Jacobi est mathématiquement rigoureuse mais ne passait pas à l'échelle au-delà de six ou sept dimensions. L'estimateur multi-pas à horizon géométrique améliore l'estimation de valeur de sécurité sans exploser la variance, un compromis que les méthodes à un seul pas gèrent mal sur des espaces d'état élevés. L'inclusion d'expériences sur vrai robot renforce la crédibilité des résultats, même si la nature précise du robot et les conditions expérimentales exactes ne sont pas détaillées dans le résumé du preprint.

L'analyse de reachability Hamilton-Jacobi est un domaine actif depuis les années 1990, mais les toolboxes classiques (helperOC, BEACLS) butaient sur la malédiction de la dimensionnalité. Les méthodes concurrentes incluent les Control Barrier Functions (CBF), très utilisées dans les laboratoires de CMU, MIT et Berkeley, et le safe RL à contraintes Lagrangiennes. La connexion avec TD(λ) positionne ce travail à l'intersection du contrôle optimal et du deep RL, un territoire que convoitent Figure, 1X, Agility Robotics et Unitree pour obtenir des garanties de sécurité certifiables en déploiement industriel. Il s'agit d'un preprint académique sans partenariat industriel annoncé : les équipes robotique qui évaluent des approches de safety pour homologation auront intérêt à surveiller la suite de ces travaux.

Impact France/UE

Les laboratoires européens comme le CEA-List et l'INRIA, actifs sur la vérification formelle des systèmes robotiques, pourraient intégrer cette approche à horizon géométrique dans leurs travaux de certification sécurité pour humanoïdes.

Dans nos dossiers

Unitree Agility Robotics — Digit arXiv cs.RO

À lire aussi

1arXiv cs.RO

Robot humanoïde : apprendre des interventions de sécurité personnalisées pour le contrôle partagé haptique humain-robot

Traduction de l'article demandée. Un système de retour haptique personnalisé permet désormais aux robots partagés en téléopération d'apprendre les préférences de sécurité individuelles d'un utilisateur à partir de démonstrations limitées, plutôt que d'imposer des réglages génériques prédéfinis. L'approche, baptisée Learning from Haptics (LfH), s'appuie sur une couche d'optimisation différentiable fondée sur des fonctions de barrière de contrôle (Control Barrier Function, CBF), un outil mathématique classique pour garantir qu'un système reste dans une zone d'état sûre. Concrètement, l'opérateur n'a plus besoin de régler manuellement les paramètres du contrôleur par essais-erreurs: il montre au système comment il souhaite que celui-ci intervienne pendant la téléopération, et l'algorithme ajuste automatiquement les paramètres de sécurité sous-jacents pour reproduire ce comportement démontré. Les auteurs ont validé le cadre à la fois en simulation et sur un banc matériel réel, montrant que le système apprend des interventions personnalisées à partir de peu de données utilisateur et réduit l'écart entre le retour haptique généré et les préférences réellement démontrées. Cette avancée s'attaque à une limite connue des systèmes de guidage haptique en contrôle partagé humain-robot: les stratégies d'intervention prédéfinies ne s'adaptent ni aux préférences individuelles des opérateurs, ni aux spécificités de chaque scénario applicatif (chirurgie assistée, téléopération industrielle, exosquelettes, manipulation à distance). Pour les intégrateurs et concepteurs de systèmes à contrôle partagé, cela signifie potentiellement moins de temps de calibration terrain et une meilleure acceptabilité utilisateur, un facteur souvent négligé mais déterminant dans l'adoption réelle de ces interfaces. Le résultat conforte aussi une tendance plus large en robotique interactive: remplacer le réglage manuel de paramètres de contrôle par de l'apprentissage à partir de démonstrations éparses, une approche qui gagne du terrain face aux méthodes classiques de tuning expert. Le travail s'inscrit dans la lignée des recherches sur le contrôle partagé haptique et les CBF, deux domaines matures séparément mais rarement combinés de façon apprenante. Les CBF sont largement utilisés en robotique de sécurité (véhicules autonomes, manipulateurs collaboratifs) pour garantir formellement l'évitement de zones dangereuses, mais leurs paramètres restent généralement fixés à la main par des experts. En les rendant différentiables et ajustables par apprentissage, les auteurs ouvrent la voie à des systèmes de téléopération qui s'adaptent utilisateur par utilisateur. L'article, publié sur arXiv fin juillet 2026, ne précise pas de partenaire industriel ni de calendrier de déploiement au-delà des expériences en laboratoire, ce qui en fait pour l'instant un travail de recherche fondamentale plutôt qu'une solution prête à l'intégration.

RecherchePaper

1 source

2arXiv cs.RO

Représentations sémantiques et géométriques des tâches pour la manipulation bimanuelles : des démonstrations humaines à la planification robotique

Des chercheurs ont publié une approche pour apprendre des représentations structurées de tâches bimanuelles directement à partir de démonstrations humaines, sans annotation manuelle des actions. Le système, baptisé représentation sémantique-géométrique par graphe, combine un encodeur de type Message Passing Neural Network (MPNN) avec un décodeur Transformer. L'encodeur opère sur un graphe de scène temporel : il capture les identités des objets, leurs relations sémantiques mutuelles et l'historique de leurs mouvements. Le décodeur, conditionné par le contexte d'action, prédit l'action suivante, les objets impliqués et leurs trajectoires. L'ensemble a été évalué sur onze tâches bimanuelles issues de deux jeux de données distincts, et déployé avec succès sur deux tâches réelles en boucle fermée, via un planificateur couplant les prédictions à des Probabilistic Movement Primitives (ProDMP). L'apport principal réside dans le découplage entre encodeur et décodeur : l'encodeur produit des représentations dites agnostiques à la tâche, réutilisables sur différents robots via un simple fine-tuning du décodeur sur un petit dataset robot. En pratique, cela réduit significativement le coût de ré-entraînement lors d'un changement de plateforme ou d'effecteur. Les résultats montrent que le bénéfice des représentations sémantiques-géométriques sur les modèles séquentiels plus simples s'accentue avec la variabilité des tâches : plus l'ordre des actions et les objets impliqués varient d'une exécution à l'autre, plus l'avantage est marqué. Le système surpasse des baselines incluant un Transformer pur, un décodeur seul, et des modèles vision-langage fine-tunés (VLM), ce qui est notable même si les benchmarks utilisés restent internes aux auteurs et non standardisés dans la communauté. Ce travail s'inscrit dans un effort plus large visant à combler le fossé entre manipulation bimanuelle en laboratoire et déploiement industriel, là où la reproductibilité d'exécutions variables reste un verrou. Il fait écho à des approches concurrentes comme les Vision-Language-Action models (VLA) de Google DeepMind ou les travaux sur les graphes de tâches de l'ETH Zurich, mais se distingue par son orientation vers le transfert inter-robots à faible coût de données. Les auteurs n'annoncent pas de partenaire industriel ni de timeline de déploiement commercial ; il s'agit d'un résultat académique, présenté en version révisée sur arXiv (v2, janvier 2026), dont les suites probables incluent une extension à des scènes plus encombrées et à des horizons de planification plus longs.

RecherchePaper

1 source

3arXiv cs.RO

Attention spatiale : adapter les horizons d'exécution des politiques de diffusion via la sensibilité à l'observation

Les chercheurs à l'origine de ce papier arXiv (2607.04739v1) s'attaquent à un problème central des politiques robotiques par imitation basées sur des modèles génératifs : l'échantillonnage de blocs d'actions ("action chunks") via diffusion. Ces méthodes, aujourd'hui largement utilisées pour l'apprentissage par démonstration, exécutent généralement chaque bloc d'actions pendant un horizon fixe, ce qui oblige à choisir entre réactivité et coût de calcul. Les auteurs proposent une métrique baptisée "Spatial Attention", définie comme la norme carrée attendue du gradient de la log-vraisemblance de l'action par rapport à l'observation. Elle mesure la sensibilité de la distribution d'actions de la politique aux variations de l'observation. Leur résultat théorique montre que, à budget d'échantillonnage fixe, l'horizon d'exécution qui minimise la perte de vraisemblance cumulée causée par des perturbations diminue quand la Spatial Attention augmente. En prévoyant les valeurs futures de cette métrique en parallèle du bloc d'actions, le système ajuste dynamiquement l'horizon : plus court dans les phases sensibles, plus long dans les phases stables. Des tests en simulation et sur robot réel, sur tâches standards et perturbées, montrent une amélioration significative des taux de succès par rapport aux méthodes à horizon fixe, à horizon moyen d'exécution comparable. Pour l'industrie robotique, ce travail cible un compromis très concret rencontré par les architectures VLA et de type Diffusion Policy (ACT, Pi-0, RT-2 et consorts) : plus un bloc d'actions est long, moins le système coûte cher en inférence, mais plus il devient vulnérable aux imprévus entre deux replanifications. Une adaptation automatique de cet horizon, sans capteur supplémentaire ni coût de calcul additionnel notable, pourrait rendre les politiques de diffusion plus robustes en environnement réel, un enjeu clé pour tout déploiement en usine ou en logistique où les perturbations sont fréquentes. Ce papier s'inscrit dans la lignée des travaux sur les Diffusion Policies et l'apprentissage par imitation à base de modèles génératifs, un courant de recherche en forte expansion depuis l'introduction de l'action chunking comme alternative aux politiques réactives image-par-image. L'abstract ne précise ni l'institution ni la plateforme robotique utilisée pour les essais réels, et reste pour l'instant au stade de contribution méthodologique validée expérimentalement, sans annonce de déploiement industriel.

RecherchePaper

1 source

4arXiv cs.RO

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement. L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers. Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

UELa traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

RecherchePaper

1 source