Planification optimale de frappe-et-saisie pour des blo…

Vertus du chaos ordonné : planification par actions de renversement pour la réorganisation de piles sur table

37

1arXiv cs.RO

Vertus du chaos ordonné : planification par actions de renversement pour la réorganisation de piles sur table

Publiée sur arXiv (2605.17815) en mai 2026, une étude propose d'enrichir les planificateurs de manipulation robotique avec des actions non-préhensiles dites "agrégantes", en particulier le basculement d'objets (topple). Au lieu de déplacer un à un les éléments d'une pile sur un plan de travail, le robot peut renverser tout ou partie de la pile d'un seul mouvement avant de saisir les objets dans l'ordre souhaité. Les chercheurs formalisent cet espace de planification hybride pick-and-place + topple via un gadget graphique directionnel original, réduisant le calcul du plan à une variante du problème des galets en mouvement (pebble motion problem) : chaque objet est traité comme un galet se déplaçant sur un graphe selon des contraintes de non-collision. Les benchmarks conduits en simulation physique sur NVIDIA IsaacSim montrent une réduction significative du temps d'exécution par rapport à une stratégie purement pick-and-place. L'enjeu industriel est concret pour la manipulation en entrepôt, le kitting ou le tri de bacs. Réorganiser une pile de n pièces nécessite classiquement O(n) opérations de saisie-dépose ; une action topple peut en remplacer plusieurs, réduisant le temps de cycle et la sollicitation mécanique des actionneurs. L'article pointe ainsi un angle mort fréquent en robotique de production : les planificateurs de tâches restent majoritairement construits autour de la saisie, alors que les actions non-préhensiles offrent des gains de débit substantiels dès lors qu'elles sont correctement abstraites. Limite notable : les gains sont mesurés en simulation seulement, et le passage sim-to-real pour des actions dynamiques comme le topple reste une question ouverte. Les auteurs s'inscrivent dans la continuité des recherches sur la manipulation non-préhensile, actives depuis les années 1990 mais rarement intégrées au niveau de la planification symbolique de tâches. La formalisation est volontairement généraliste : une action de type "scoop" (raclage) peut être modélisée par la même abstraction graphique, ouvrant la voie à un cadre unifié pour plusieurs familles d'actions agrégantes. Face aux approches concurrentes basées sur l'apprentissage par renforcement ou les planificateurs géométriques, cette méthode symbolique-graphique offre lisibilité et garanties de complétude sur les instances modélisées. Aucun déploiement n'est annoncé ; les auteurs qualifient eux-mêmes leurs résultats de "preliminary indication", laissant la validation en environnement physique réel pour de futurs travaux.

RecherchePaper

1 source

Contrôle de hauteur et planification optimale du couple pour le saut de robots bipèdes à roues

38

2arXiv cs.RO

Contrôle de hauteur et planification optimale du couple pour le saut de robots bipèdes à roues

Des chercheurs présentent dans un preprint arXiv (2605.03302, mai 2026) deux méthodes combinées pour contrôler avec précision la hauteur de saut des robots bipèdes à roues. Le constat de départ est pratique : face à l'incertitude dynamique, ces plateformes sautent systématiquement plus haut que nécessaire pour garantir la sécurité, ce qui génère des pertes moteur évitables, des forces de contact au sol excessives et une surconsommation énergétique. La première contribution, le modèle W-JBD (Wheeled-Bipedal Jumping Dynamical), permet de cibler précisément une hauteur de saut, mais produit une consigne de couple en échelon incompatible avec les actionneurs réels. La seconde, BOTP (Bayesian Optimization for Torque Planning), optimise la trajectoire de couple sans nécessiter de modèle dynamique précis et converge en 40 itérations en moyenne. Validée sur le simulateur Webots, BOTP réduit l'erreur de hauteur de 82,3 % et la consommation énergétique de 26,9 % par rapport à la baseline, tout en produisant une courbe de couple continue. Ce résultat est pertinent pour les intégrateurs qui déploient des robots bipèdes à roues dans des environnements industriels ou logistiques : l'efficacité énergétique conditionne directement l'autonomie embarquée, et la reproductibilité du saut détermine la fiabilité du franchissement d'obstacles. Le fait que BOTP fonctionne sans modèle dynamique précis est un avantage opérationnel concret, car calibrer un modèle complet sur chaque variante de plateforme est coûteux. L'approche bayésienne converge rapidement, ce qui la rend adaptée à une validation sur robot réel avec un nombre limité d'essais physiques, un point critique pour réduire l'usure mécanique. Cela dit, les auteurs n'ont pas encore franchi le sim-to-real : l'ensemble des résultats reste en simulation, et le gap entre Webots et un vrai terrain reste à quantifier. Les robots bipèdes à roues constituent une classe en expansion : Unitree B2-W, l'ETH Zurich avec Ascento, ou encore les plateformes Handle/mobility de Boston Dynamics combinent la vitesse des roues avec la capacité de franchissement des pattes. Le planning de couple par optimisation bayésienne s'inscrit dans une tendance plus large qui vise à remplacer les contrôleurs MPC classiques, trop dépendants de modèles précis, par des méthodes d'optimisation légères adaptables à la production. Les auteurs annoncent comme prochaine étape la validation expérimentale sur robot physique en s'appuyant sur les trajectoires simulées pour réduire l'espace de recherche, ce qui devrait permettre de confirmer, ou non, la tenue des gains annoncés hors simulation.

UELes travaux pourraient intéresser les équipes de recherche européennes sur les robots bipèdes à roues (notamment ETH Zurich / Ascento), mais l'impact reste indirect, sans contribution ni déploiement européen identifié.

RecherchePaper

1 source

Accessibilité différentiable parallèle pour l'apprentissage et la planification avec dynamiques neuronales et contrôleurs certifiés

44

3arXiv cs.RO

Accessibilité différentiable parallèle pour l'apprentissage et la planification avec dynamiques neuronales et contrôleurs certifiés

Une équipe de recherche a publié en mai 2026 (arXiv:2605.25346) un cadre de vérification formelle parallélisable et différentiable pour systèmes robotiques pilotés par réseaux de neurones (NN). Implémenté en JAX pour exploiter le calcul GPU-batché, le framework combine la construction de "flowpipes" par modèles de Taylor avec la propagation de bornes linéaires de type CROWN, une technique issue de la vérification des NN adversariaux. Le résultat est une représentation unifiée qui préserve les dépendances affines tout en supportant la différentiation automatique. Sur cette base, les auteurs proposent deux applications concrètes : une méthode d'entraînement certifié qui pousse les modèles NN à produire des dynamiques "reachability-friendly", et un schéma de commande prédictive (MPC) combinant échantillonnage et raffinement par gradient. Les expériences couvrent la manipulation non préhensile (objets poussés sans saisie) et des drones quadrotors, avec des évaluations hardware et des systèmes allant jusqu'à 72 dimensions d'état. Le problème central que ce travail adresse est le fossé entre performance des NN et garanties formelles de sécurité : les outils de "reachability" existants (NNV, Veritex, CROWN-reach) produisent des sur-approximations valides des ensembles atteignables, mais sont trop lents pour être intégrés dans une boucle d'apprentissage ou de planification en ligne, et rarement différentiables. Rendre ce calcul GPU-compatible et différentiable ouvre la voie à une co-optimisation contrôleur/garantie, ce qui change la logique de déploiement : au lieu de vérifier après entraînement (post-hoc, coûteux), on certifie pendant l'entraînement. Pour les intégrateurs industriels et les équipes robotique, c'est un pas vers des robots NN-pilotés qui satisfont des contraintes de sécurité hard sans sacrifier la performance apprise. La vérification formelle pour les NN en robotique est un axe de recherche actif depuis 2018, porté notamment par les travaux CROWN (Zhang et al.), qui ciblaient initialement la robustesse adversariale en vision. L'extension à la dynamique continue et aux boucles fermées reste un problème ouvert, avec des groupes concurrents chez MIT, CMU et DeepMind. Ce preprint positionne JAX comme plateforme centrale pour ce type de pipeline hybride apprentissage/vérification, une tendance émergente face à PyTorch. Les prochaines étapes probables incluent des tests sur manipulateurs industriels à plus haute dimensionnalité et l'intégration dans des frameworks MPC embarqués.

UELa certification embarquée dans la boucle d'entraînement s'aligne directement avec les exigences de vérifiabilité formelle de l'AI Act pour les systèmes IA à haut risque (dont les robots industriels et autonomes), réduisant le coût de mise en conformité pour les équipes R&D européennes.

RecherchePaper

1 source

Hybrid TD3 : analyse du biais de surestimation et optimisation stable des politiques pour les espaces d'actions hybrides

41

4arXiv cs.RO

Hybrid TD3 : analyse du biais de surestimation et optimisation stable des politiques pour les espaces d'actions hybrides

Une équipe de recherche propose Hybrid TD3 (arXiv:2603.01302v2), une extension de Twin Delayed Deep Deterministic Policy Gradient (TD3) pour les espaces d'action hybrides discrets-continus en manipulation robotique. En manipulation, un agent doit simultanément prendre des décisions de haut niveau (quelle action exécuter, domaine discret) et contrôler finement les articulations (domaine continu). Les approches existantes discrétisent les composantes continues ou relaxent les choix discrets en approximations continues, au prix d'une scalabilité limitée et d'une instabilité croissante sous domain randomization en grande dimension. Hybrid TD3 traite nativement les espaces hybrides paramétrés via une analyse théorique formelle du biais de surestimation (overestimation bias), en dérivant des bornes sous architectures twin-critic et en établissant un ordre de biais sur cinq variantes algorithmiques sous hypothèses gaussiennes synchronisées. Les auteurs introduisent une cible Q-learning pondérée avec écrêtage, marginalisant sur la distribution des actions discrètes, qui obtient une réduction de biais équivalente au clipped double Q-learning classique tout en améliorant le lissage de politique. Les résultats expérimentaux montrent une stabilité d'entraînement supérieure et des performances compétitives face aux baselines hybrides de l'état de l'art. Pour les ingénieurs développant des contrôleurs de bras manipulateurs ou des politiques de pick-and-place, l'apport central est un algorithme dont la stabilité est mathématiquement caractérisée plutôt qu'empiriquement espérée. La littérature disposait d'analyses du biais pour les espaces purement discrets (DQN) ou continus (TD3, SAC), mais pas pour leur combinaison paramétrée. Le weighted clipped Q-learning target peut ainsi réduire les comportements erratiques en entraînement sans surcoût computationnel majeur, un point pertinent pour les équipes travaillant sous contrainte de temps de simulation. TD3 a été introduit par Fujimoto et al. en 2018 comme amélioration de DDPG contre le biais de surestimation via un mécanisme twin-critic et des mises à jour retardées. Les espaces d'action hybrides ont depuis été adressés par plusieurs algorithmes, dont P-DQN, HHQN et MAHHQN, utilisés ici comme baselines de comparaison. Hybrid TD3 se distingue par son fondement théorique explicite là où les prédécesseurs restaient largement empiriques. Il s'agit d'un preprint arXiv en version 2, révisé mais sans validation par peer-review, et les expériences semblent conduites exclusivement en simulation. Aucun déploiement sur robot physique ni partenariat industriel n'est mentionné. Une validation sur benchmarks standards tels que Gym-Hybrid ou des environnements MuJoCo avec espaces d'action paramétrés constituerait la prochaine étape attendue par la communauté.

RecherchePaper

1 source

Planification optimale de frappe-et-saisie pour des blocs serrés sur table avec pinces parallèles

À lire aussi

Vertus du chaos ordonné : planification par actions de renversement pour la réorganisation de piles sur table

Contrôle de hauteur et planification optimale du couple pour le saut de robots bipèdes à roues

Accessibilité différentiable parallèle pour l'apprentissage et la planification avec dynamiques neuronales et contrôleurs certifiés

Hybrid TD3 : analyse du biais de surestimation et optimisation stable des politiques pour les espaces d'actions hybrides