Aller au contenu principal
Utilisation créative d'outils par raisonnement contrefactuel
RecherchearXiv cs.RO7sem

Utilisation créative d'outils par raisonnement contrefactuel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont déposé en mai 2025 sur arXiv (arXiv:2605.05411) un framework de raisonnement causal destiné à l'utilisation créative d'outils par les robots. L'objectif est de permettre à un système robotique d'identifier et d'exploiter des objets comme outils, même lorsque ceux-ci ne sont pas conçus pour la tâche en question. Le pipeline repose sur deux composants complémentaires : une suggestion de caractéristiques (features) par un modèle de vision-langage (VLM), et une génération contrefactuelle d'outils via des perturbations ciblées sur les propriétés géométriques et physiques de l'objet. Une fois les relations causales identifiées dans un modèle de dynamique simulé, les nouveaux objets sont classifiés selon ces features causales, et le transfert de compétence se fait par keypoint matching conditionné sur ces mêmes caractéristiques. Les démonstrations expérimentales incluent l'atteinte d'un objet distant avec différents bâtons, la collecte de bonbons dans un bol avec divers ustensiles, et l'utilisation de caisses comme plateformes pour atteindre un objet en hauteur.

L'approche est notable car elle découple explicitement la découverte causale de l'exécution motrice, là où les pipelines VLA (Vision-Language-Action) de type Pi-0 ou GR00T N2 apprennent ces deux aspects conjointement depuis de grandes quantités de données de démonstration. En ancrant la sélection d'outil dans la physique du problème plutôt que dans des corrélations statistiques, le framework prétend offrir une meilleure généralisation à des objets non vus lors de l'entraînement. Les comparaisons avec des baselines montrent que l'identification de features causales améliore à la fois la fiabilité de la sélection d'outil et la qualité du transfert de compétence par keypoints. Pour un intégrateur industriel, cela représente une piste concrète pour réduire la dépendance aux grandes bases de données de démonstration et faciliter l'adaptation à des environnements non structurés, un point de friction majeur dans les déploiements actuels.

Ce travail s'inscrit dans un courant de recherche qui cherche à introduire du raisonnement causal explicite dans la robotique manipulatoire, en réaction aux limites de généralisation des approches purement end-to-end. Des équipes comme celles de DeepMind (avec RoboCat) ou Stanford (avec la série LEROBOT) explorent également des mécanismes de transfert, mais avec des architectures plus orientées données. La génération contrefactuelle d'outils rappelle des travaux antérieurs sur l'analogie structurelle en planification symbolique, ici traduite dans un espace physique continu. À ce stade, le framework est présenté sous forme de préprint sans déploiement industriel annoncé ; les expériences restent en environnement contrôlé, et les métriques de robustesse en conditions réelles ne sont pas encore publiées.

Dans nos dossiers

À lire aussi

Contrôle par planification réactive pour robots mobiles en environnements encombrés d'obstacles
1arXiv cs.RO 

Contrôle par planification réactive pour robots mobiles en environnements encombrés d'obstacles

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.14232v1) une méthode de contrôle de mouvement pour robots mobiles évoluant dans des environnements encombrés d'obstacles. L'approche, baptisée RPCS (Reactive Planning based Control Strategy), s'attaque à un problème classique de la robotique mobile : déplacer un robot d'un point de départ à une cible sans collision, en ne disposant que d'une information partielle sur l'environnement, c'est-à-dire sans carte globale préalable. Le système fonctionne en deux couches combinées : une trajectoire de référence est d'abord tracée en ligne droite entre les deux points, puis un module de planification réactive (RPS) la modifie localement à la volée lorsque des obstacles sont détectés. Un contrôleur de suivi adaptatif (ATCS), basé sur des techniques de discrétisation, assure ensuite l'exécution effective de cette trajectoire potentiellement modifiée. Les résultats présentés s'appuient uniquement sur des simulations numériques, sans validation hardware reportée. L'intérêt de cette architecture réside dans la séparation claire entre planification réactive et contrôle de suivi, ce qui permet théoriquement d'adapter chaque couche indépendamment selon le robot cible. Pour les intégrateurs travaillant sur des AGV ou AMR dans des entrepôts à géométrie variable, la capacité à opérer sans carte globale complète reste un enjeu réel, les approches purement réactives souffrent souvent de blocages locaux, et les approches globales peinent face aux environnements dynamiques. L'ATCS adaptatif suggère une robustesse potentielle aux perturbations de modèle, mais l'absence d'expérimentation physique limite la portée des conclusions à ce stade. Ce travail s'inscrit dans une longue tradition de recherche sur la navigation réactive, depuis les champs de potentiel de Khatib (1986) jusqu'aux approches VFH et DWA largement déployées dans ROS. Les chercheurs ne positionnent pas explicitement leur méthode face aux planificateurs modernes appris (RL, imitation learning) qui commencent à équiper des plateformes commerciales comme Spot de Boston Dynamics ou les AMR de MiR. La prochaine étape naturelle serait une validation sur robot réel en environnement semi-structuré, condition sine qua non pour que la méthode pèse dans le débat industriel.

RecherchePaper
1 source
Modélisation dynamique par données d'un robot continu à actionnement tendineux
2arXiv cs.RO 

Modélisation dynamique par données d'un robot continu à actionnement tendineux

Des chercheurs associés au CERN publient sur arXiv (arXiv:2605.18720, mai 2025) une étude comparative de méthodes d'identification de systèmes par apprentissage automatique appliquées à un robot continu à actionnement par tendons équipé de joints roulants. Trois approches ont été évaluées : N4SID (identification par sous-espaces), ARX (modèle autorégressif à entrées exogènes) et SINDYc (identification parcimonieuse de dynamiques non linéaires avec contrôle). Le résultat central : malgré le nombre élevé de joints du robot, un modèle dynamique à seulement deux degrés de liberté (2-DDL) suffit à capturer fidèlement le comportement du système, grâce aux fortes dépendances cinématiques entre les joints. Les modèles obtenus ont été validés sur données expérimentales, puis intégrés dans un contrôleur prédictif (MPC) opérant en temps réel. L'enjeu est réel pour quiconque travaille sur le contrôle de robots continus : leur dynamique est réputée difficile à modéliser, dominée par la friction, hautement non linéaire et de dimension élevée. Démontrer qu'un modèle 2-DDL issu de données expérimentales suffit pour piloter un MPC réduit considérablement la complexité d'intégration. Cela ouvre la voie à des boucles de contrôle plus rapides sans requérir de modèles analytiques complets, souvent inaccessibles pour les structures souples. Le robot en question est développé au CERN, probablement pour des applications d'inspection ou de maintenance dans des environnements confinés, domaine où les robots continus rivalisent avec des solutions de Festo Robotics ou des laboratoires comme le BioRobotics Institute de Pise. L'article reste un preprint non encore évalué par les pairs, et les performances du MPC en conditions opérationnelles réelles restent à confirmer.

UELe CERN étant une institution paneuropéenne (Genève, FR/CH), les méthodes présentées, modèle 2-DDL data-driven couplé à un MPC temps réel, intéressent directement les équipes R&D européennes travaillant sur l'inspection robotisée en environnements confinés (nucléaire, ITER, maintenance industrielle).

RecherchePaper
1 source
Raisonnement continu pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Raisonnement continu pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (2606.00229) une architecture appelée Continuous Reasoning for VLA, qui remplace le langage naturel comme médium de raisonnement pour les politiques robotiques par un espace latent gaussien continu. Le problème est fondamental : le texte opère à la granularité d'une tâche entière, tandis qu'une politique VLA (Vision-Language-Action) doit sélectionner des actions à une échelle temporelle bien plus fine. Le modèle génère d'abord un ensemble structuré de "pensées continues" sous forme de vecteurs gaussiens, puis les réutilise comme contexte partagé pour la génération d'actions par chunks. L'entraînement repose sur un objectif de vérification croisée : un teacher EMA (exponential moving average) doit consommer le raisonnement du modèle étudiant pour prédire les actions cibles, forçant le latent à rester transférable et vérifiable entre instances. Sur robots réels, l'architecture améliore le taux de succès moyen par sous-tâche de 40,4 % sur TX-G2 (variante compatible AgiBot G2) et de 26,3 % sur HSR (Human Support Robot de Toyota), comparé à π0.5 de Physical Intelligence. Ces résultats contredisent une hypothèse répandue : ajouter des tokens de raisonnement textuel via chain-of-thought ou sous-objectifs explicites améliore le contrôle robotique. Les auteurs montrent que ce raisonnement textuel devient facilement un raccourci interne au modèle, efficace sur les comportements vus en entraînement mais peu généralisable. Un médium de raisonnement utile doit être partageable entre instances de modèle et vérifiable via l'amélioration du contrôle aval, deux propriétés que le texte satisfait mal à l'échelle de l'action. La comparaison directe avec π0.5 positionne ce travail en réponse à Physical Intelligence, acteur de référence dans l'espace VLA. Les plateformes testées (AgiBot G2 et HSR) couvrent la robotique de service et industrielle légère, pas uniquement les humanoïdes à fort investissement comme Figure 03 ou Optimus Gen 3. D'autres architectures concurrentes, dont GR00T N2 de NVIDIA et Helix de Figure AI, misent sur des représentations latentes pour améliorer le transfert sim-to-real, mais restent davantage orientées production que recherche fondamentale. Il s'agit pour l'instant d'un résultat académique, sans annonce de pilote commercial ni de déploiement industriel.

RechercheOpinion
1 source
Raisonnement d'ordre supérieur pour des opérations collaboratives de robots mobiles sans communication
4arXiv cs.RO 

Raisonnement d'ordre supérieur pour des opérations collaboratives de robots mobiles sans communication

Des chercheurs présentent un cadre de planification épistémique dynamique permettant à des robots mobiles de se coordonner sans aucun échange de messages entre agents (arXiv:2605.21901). L'architecture repose sur des particules de croyances d'ordre supérieur : chaque robot modélise non seulement l'état du monde, mais aussi ce que ses coéquipiers croient de cet état, et ainsi de suite en cascade. Ces croyances sont mises à jour par inférence bayésienne, et un arbre de comportements sélectionne les actions en anticipant les décisions probables des voisins. Un contrôleur MPPI (Model Predictive Path Integral) temporellement conscient traduit ensuite ce raisonnement en trajectoires basse fréquence adaptées à l'observabilité partielle. Testée en simulation et sur robots physiques, l'approche réduit le temps de complétion des tâches par rapport à une baseline de raisonnement du premier ordre, sans que l'abstract précise la taille des flottes ni les conditions exactes des essais. L'enjeu est direct pour les intégrateurs de flottes d'AMR (Autonomous Mobile Robots) en logistique ou en industrie : les architectures actuelles supposent un orchestrateur central ou un réseau Wi-Fi stable, et toute dégradation du signal dégrade la coordination collective. Un mécanisme de coordination implicite fondé sur la logique épistémique ouvre la voie à des déploiements plus résilients dans des environnements RF-dégradés, souterrains ou à bande passante contrainte. L'approche valide également l'opérationnalisation de la logique épistémique, longtemps cantonnée à l'IA symbolique, dans une boucle de contrôle temps réel sur hardware physique, ce qui n'était pas acquis à cette échelle. La coordination décentralisée sans communication est un problème ouvert depuis les systèmes multi-agents des années 1990, mais son implémentation sur robots réels est restée marginale au profit des solutions centralisées. Les approches concurrentes incluent les champs de potentiel artificiel, l'optimisation distribuée (ADMM, consensus) et l'apprentissage par renforcement multi-agents (MARL). Ce travail se distingue par le couplage inhabituel entre raisonnement épistémique symbolique et contrôle continu par MPPI. Les suites naturelles attendues : une évaluation à plus grande échelle (cinq robots ou plus), des comparaisons directes avec des méthodes MARL de référence, et une analyse de la complexité computationnelle du raisonnement d'ordre supérieur en temps réel, point critique pour un déploiement industriel viable.

UEBénéfice indirect pour les intégrateurs européens de flottes AMR (logistique, industrie) opérant dans des environnements RF-dégradés, mais aucun acteur français ou européen n'est impliqué dans cette recherche.

RecherchePaper
1 source