Aller au contenu principal
RecherchearXiv cs.RO1h

Construction de la généralisation dans la génération de comportements via des compositions adaptatives de régularités

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a déposé sur arXiv (2605.31110) un cadre baptisé AICON (Active InterCONnect) pour aborder la généralisation en robotique. Le système représente les régularités, soit les relations prévisibles au sein du couple robot-environnement, sous forme de processus en interaction dans un réseau différentiable. Le retour sensoriel orchestre leur composition en temps réel, tandis qu'une descente de gradient génère le comportement. Les expériences sont menées entièrement en simulation sur un problème maîtrisé, où toutes les régularités pertinentes ont été identifiées et encodées a priori. Confronté à un large éventail de conditions inédites, le modèle produit un comportement adapté dans presque tous les cas ; seul un scénario échoue, et les auteurs démontrent formellement que les régularités encodées y sont insuffisantes.

La généralisation reste le verrou central de la robotique apprenante : un robot entraîné sur un ensemble de tâches échoue souvent dès que les conditions varient légèrement. AICON propose une réponse structurelle, en ancrant la généralisation dans un biais inductif explicite, la composition adaptative de régularités, plutôt que dans le volume de données. Les ablations montrent que le réseau module automatiquement l'influence de chaque régularité selon son caractère informatif dans la situation courante, un mécanisme de pondération émergent sans supervision. Pour les chercheurs en apprentissage robot et les intégrateurs, cela remet en question l'hypothèse que la mise à l'échelle des données ou des paramètres suffit à couvrir la distribution des situations réelles.

La généralisation est aujourd'hui au coeur des travaux sur les VLA (Vision-Language-Action models) comme pi0 de Physical Intelligence, RT-2 de Google DeepMind ou OpenVLA, qui misent sur des fondations pré-entraînées à grande échelle pour transférer vers de nouvelles tâches. AICON emprunte une voie opposée, plus proche des systèmes dynamiques et du contrôle adaptatif, en cherchant à encoder la structure du monde plutôt qu'à l'approximer par accumulation de données. L'étude reste entièrement en simulation sur des problèmes jouets ; le passage aux robots physiques et l'identification automatique des régularités pertinentes restent des questions ouvertes. Une validation sur des benchmarks de manipulation réelle comme LIBERO ou RLBench constituerait la prochaine étape naturelle.

À lire aussi

Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active
1arXiv cs.RO 

Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active

Une équipe de chercheurs propose dans un article arXiv (2601.08454) un pipeline Real2Sim piloté par l'intention, qui automatise la construction d'environnements de simulation physiquement précis à partir d'une instruction en langage naturel. Un modèle vision-langage (VLM) analyse une observation visuelle et une description de simulation incomplète pour identifier le sous-ensemble minimal de paramètres physiques manquants (masse des objets, géométrie de surface, friction), puis génère automatiquement un arbre de comportement (Behavior Tree, BT) composé de primitives motrices et sensorielles atomiques pour les acquérir par interaction physique avec l'environnement. Les expériences ont été conduites sur un bras Franka Emika Panda à contrôle en couple (7 DOF), manipulateur standard en recherche robotique. Les résultats indiquent des gains d'efficacité opérationnelle significatifs par rapport aux méthodes d'exploration exhaustive, validés par des études d'ablation sur plusieurs VLMs de référence, mais les chiffres précis de performance ne sont pas fournis dans l'abstract, ce qui limite la comparabilité externe. L'apport principal est le remplacement de pipelines d'identification système manuels par une stratégie sémantique : au lieu d'explorer exhaustivement l'environnement, le système ne collecte que les données pertinentes pour la tâche demandée, réduisant les interactions redondantes. Pour les équipes travaillant sur des jumeaux numériques industriels, cela représente un gain potentiel en temps de calibration avant déploiement. Le BT joue également un rôle de filtre de sécurité déterministe : sa hiérarchie réactive intercepte les hallucinations du VLM et prévient les anomalies physiques dangereuses, ce qui est non-négligeable pour une application en conditions réelles. Cette combinaison, intelligence sémantique du VLM associée à la robustesse déterministe du BT, constitue l'aspect architectural le plus notable du travail. La construction de simulations fidèles au réel est un verrou classique du déploiement robotique : un jumeau numérique mal calibré amplifie le sim-to-real gap qui dégrade les politiques apprises en simulation, problème central pour les VLA (Vision-Language-Action) actuels. Côté concurrence, Physical Intelligence (pi0), Google DeepMind (successeurs de RT-2) et des projets open-source comme LeRobot de Hugging Face investissent tous dans des pipelines sim-to-real plus robustes. L'utilisation des BT comme couche d'interprétabilité face aux modèles génératifs s'inscrit dans une tendance plus large visant à rendre les LLM/VLM compatibles avec des contraintes de sécurité industrielle. Les prochaines étapes logiques seraient d'étendre le pipeline à des robots mobiles ou des plateformes humanoïdes, et de publier des benchmarks complets permettant une comparaison rigoureuse avec les méthodes d'identification système existantes.

RecherchePaper
1 source
Diffusion coordonnée : générer des comportements multi-agents sans démonstrations multi-agents
2arXiv cs.RO 

Diffusion coordonnée : générer des comportements multi-agents sans démonstrations multi-agents

Une équipe de chercheurs publie sur arXiv (réf. 2605.11485, mai 2026) CoDi (Coordinated Diffusion), un cadre d'apprentissage par imitation qui permet à plusieurs robots de se coordonner en n'utilisant que des données mono-agent. La méthode entraîne indépendamment une politique de diffusion par agent, puis les couple à l'inférence via une fonction de coût définie par l'utilisateur. Mathématiquement, le score de diffusion se décompose en politiques individuelles pré-entraînées auxquelles s'ajoute un terme de guidage piloté par le coût. Ce terme s'estime sans calcul de gradient, rendant CoDi applicable à des fonctions boîte noire non différentiables, sans ré-entraînement ni données coordonnées supplémentaires. Les validations couvrent des simulations et un banc matériel réel de manipulation bimanuelle à deux bras. Le verrou central adressé est l'explosion combinatoire des données : l'espace état-action d'un système multi-agent croît exponentiellement avec le nombre d'agents, rendant la collecte de démonstrations coordonnées prohibitivement coûteuse. CoDi contourne ce problème en réutilisant des démonstrations mono-agent, plus accessibles, et surpasse des baselines multi-agents classiques en efficacité de données. Pour un intégrateur déployant deux bras en coopération, cela représente une réduction potentiellement significative de la charge de télé-opération. L'indépendance vis-à-vis de la différentiabilité du coût élargit également l'applicabilité à des contraintes de sécurité ou opérationnelles arbitraires. L'abstract ne communique cependant pas de métriques précises de taux de succès ni de temps de cycle, ce qui limite l'évaluation externe de ce preprint. CoDi s'inscrit dans la vague des politiques de diffusion pour la robotique, popularisée par Diffusion Policy (2023, Columbia) et les architectures VLA comme Pi-0 de Physical Intelligence. Là où des systèmes comme GR00T N2 de NVIDIA ou Helix de Figure cherchent la généralisation sur un seul corps humanoïde, CoDi cible la coordination multi-corps, un problème distinct et encore peu résolu à l'échelle industrielle. Les approches concurrentes incluent le reinforcement learning multi-agent (MARL) et l'imitation centralisée, toutes deux très consommatrices de démonstrations coordonnées. L'étape suivante naturelle serait la montée en charge au-delà de deux agents et la validation sur des tâches industrielles complexes, dimensions que cette version préliminaire n'aborde pas encore.

RecherchePaper
1 source
Planification de la manipulation pour des activités de construction répétitives
3arXiv cs.RO 

Planification de la manipulation pour des activités de construction répétitives

Une équipe de chercheurs a publié mi-mai 2026 sur arXiv un framework de planification de manipulation robotique destiné aux tâches de construction répétitives, comme la pose de briques ou l'installation de dalles de plafond. L'approche repose sur un environnement de démonstration en réalité virtuelle (VR) : un opérateur humain réalise une seule démonstration du geste à apprendre, que le système capture puis décompose en une séquence de mouvements à vis constants (screw motions) via la géométrie des vis. À partir de cette représentation, deux algorithmes, la Screw Linear Interpolation (ScLERP) et le Resolved Motion Rate Control (RMRC), génèrent automatiquement les plans de mouvement articulaire pour chaque instance répétée de la tâche. Les expériences ont été conduites sur un bras à 7 degrés de liberté (7-DoF), d'abord en simulation puis sur robot physique, avec deux scénarios concrets : construction de murs de briques en configurations arbitraires et pose de multiples dalles de plafond, chacun déclenché depuis une unique démonstration. Le résultat le plus significatif est la généralisation one-shot à des séquences de longueur arbitraire, un mur peut contenir autant de briques que nécessaire sans nouvelle démonstration. C'est un point directement pertinent pour les intégrateurs industriels : en construction, la variabilité de l'environnement (dimensions de chantier, positions relatives des éléments) est précisément ce qui freine le déploiement des robots. Ici, la représentation par vis capture la structure géométrique du mouvement de façon compacte, ce qui permet une extrapolation robuste plutôt qu'une simple répétition mémorisée. La validation hardware réduit partiellement le sim-to-real gap souvent invoqué pour relativiser les démonstrations purement simulées, bien que les conditions expérimentales (charge utile, tolérance dimensionnelle, matériaux réels) ne soient pas précisément détaillées dans le préprint. La robotique de construction est un secteur en accélération : Hilti, Hadrian X (Fastbrick Robotics), ou encore Dusty Robotics adressent des tâches spécifiques de chantier, mais la plupart restent sur des pipelines hautement programmés et peu flexibles. L'approche par démonstration VR + géométrie des vis s'inscrit dans un courant plus large de Learning from Demonstration (LfD) qui tente de réduire le coût d'intégration sur des tâches manuelles qualifiées. La prochaine étape naturelle serait de tester la robustesse face aux perturbations réelles du chantier (vibrations, tolérances matériaux, occlusions) et d'étendre à des tâches multi-bras ou à manipulation bimane, deux lacunes que le papier ne couvre pas encore.

RecherchePaper
1 source
DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique
4arXiv cs.RO 

DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique

Des chercheurs ont publié DISC (Decoupling Instruction from State-Conditioned Control via Policy Generation), une architecture de politique de manipulation robotique conditionnée par le langage, déposée sur arXiv (2605.20856) en mai 2026. L'approche repose sur un hyperréseau qui génère l'intégralité des paramètres d'une politique visuomotrice spécifique à la tâche à partir de la seule instruction textuelle. La politique générée n'accède jamais directement au langage : sa compréhension de la tâche provient exclusivement des poids produits par l'hyperréseau. Sur les benchmarks LIBERO-90 et Meta-World, DISC surpasse l'ensemble des architectures couplées évaluées, et dépasse pi-0 (Physical Intelligence) malgré l'absence de tout préentraînement sur données externes. Le code est disponible publiquement sur GitHub. Ce résultat touche à un problème structurel bien documenté dans le domaine des VLA (Vision-Language-Action models) : l'"observation leakage", c'est-à-dire la tendance des réseaux couplés à apprendre des raccourcis scène-à-action qui contournent le grounding linguistique. En pratique, cela signifie qu'un modèle peut réussir une tâche en exploitant des corrélations visuelles parasites plutôt qu'en comprenant l'instruction. DISC élimine ce chemin de fuite par construction, et non par régularisation post-hoc. Le fait de surpasser pi-0 sans préentraînement est notable : pi-0 est entraîné sur des volumes de données multi-robots à grande échelle, ce qui rend la comparaison significative pour les équipes qui cherchent à calibrer le retour sur investissement du préentraînement massif versus des architectures mieux conçues. L'hyperréseau apprend également un manifold de paramètres structuré sémantiquement, ce qui permet une adaptation few-shot à partir de très peu de démonstrations et une robustesse aux reformulations d'instructions. Les architectures de politiques conditionnées par le langage sont au coeur de la course aux robots généralistes depuis 2023, avec des travaux fondateurs comme RT-2 (Google DeepMind), OpenVLA, et pi-0 de Physical Intelligence qui ont structuré le débat autour du préentraînement à grande échelle. DISC propose une alternative architecturale plutôt que scalaire : résoudre le problème de couplage instruction-état en amont, plutôt que de le noyer dans des données. Côté concurrents directs, les approches hyperréseau pour la génération de politiques restent peu explorées en robotique de manipulation, ce qui laisse DISC dans un espace relativement dégagé pour l'instant. Les prochaines étapes naturelles seraient une validation sur hardware physique à plus grande échelle (les expériences réelles mentionnées dans le papier restent limitées à un benchmark à contexte visuel partagé) et une évaluation de la latence de génération des paramètres en conditions de déploiement industriel, deux points que le papier ne documente pas encore précisément.

RechercheOpinion
1 source