VibeAct : la vibration comme signal pour la dextérité r…

Génération itérative et compositionnelle de données pour le contrôle de robots

40

1arXiv cs.RO

Génération itérative et compositionnelle de données pour le contrôle de robots

Une équipe de chercheurs propose, dans un article arXiv (2512.10891, cinquième révision), un modèle génératif appelé "semantic compositional diffusion transformer" pour produire des données d'entraînement en manipulation robotique. Le principe central consiste à décomposer chaque transition dans l'espace d'état en quatre composantes distinctes, propres au robot, aux objets manipulés, aux obstacles, et à l'objectif de la tâche, dont les interactions sont apprises via des mécanismes d'attention. Entraîné sur un sous-ensemble limité de combinaisons de tâches, le modèle génère en inférence zéro-shot des transitions synthétiques de haute qualité pour des configurations jamais vues : nouveaux objets, nouveaux environnements, nouvelles associations robot-tâche. Un processus d'auto-amélioration itératif complète l'approche : les données synthétiques générées sont validées par apprentissage par renforcement hors-ligne (offline RL), puis réintégrées dans les rounds d'entraînement suivants. Au terme de ce cycle, le système résout la quasi-totalité des tâches de test non vues lors de l'entraînement. L'enjeu industriel est direct : collecter des démonstrations robotiques réelles pour couvrir l'espace combinatoire de toutes les tâches possibles en environnement multi-objets, multi-robots, multi-sites est économiquement prohibitif. Ce travail démontre qu'une structure compositionnelle apprise permet de briser cette malédiction combinatoire, sans démonstrations exhaustives. La boucle génération-validation-réentraînement est particulièrement notable : elle réduit le risque classique de drift sim-to-real en filtrant les transitions synthétiques non viables avant qu'elles ne contaminent le pipeline de policy learning. Les résultats surpassent significativement les baselines monolithiques et les approches compositionnelles à règles fixes (hard-coded), ce qui suggère que la structure compositionnelle émergente est réellement capturée par les représentations apprises, et non artificiellement injectée. Ce travail s'inscrit dans une dynamique de recherche qui cherche à contourner le goulot d'étranglement des données en robotique, aux côtés d'approches comme Diffusion Policy (Chi et al., CMU) ou les Visual Language Action models (VLA) tels que Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). Là où ces derniers misent sur des fondations visuolinguistiques massives, cette contribution cible la généralisation compositionnelle avec des données d'entraînement réduites. La première soumission datant de décembre 2025 et le papier en étant à sa cinquième révision, les auteurs ont visiblement consolidé leurs expériences au fil des retours communautaires. Les prochaines étapes naturelles seraient une validation sur hardware réel et une extension aux chaînes de manipulation longue-horizon, domaine où l'absence de compositionnalité reste le principal point de rupture des approches actuelles.

RecherchePaper

1 source

Modèles fondation vérifiables pour la sécurité des robots

56

2arXiv cs.RO

Modèles fondation vérifiables pour la sécurité des robots

Une équipe de chercheurs présente FEARL (Foundation-Enabled Assured Robot Learning), un cadre publié en juin 2026 sur arXiv (2606.23754), conçu pour rendre les modèles de fondation utilisés en robotique formellement vérifiables. L'architecture repose sur une décomposition en deux modules : un grand Contrôleur (C) qui gère la perception haute dimension et le raisonnement sur les tâches, et un petit module de Sécurité (S) alimenté par des capteurs dédiés basse dimension et un embedding contextuel borné fourni par C, qui produit l'action finale. La vérification formelle s'applique uniquement à S, un composant compact dont les contraintes de sécurité, évitement de collision, limites d'espace de travail, peuvent s'exprimer sur des observations de faible dimension. Le cadre a été évalué sur trois domaines robotiques simulés, en intégrant des VLA (Vision-Language-Action) pré-entraînés disponibles sur étagère, et le transfert vers un robot physique a été validé. Ce découplage répond à un blocage concret pour les intégrateurs et équipes de certification industrielle. Des VLA comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA sont performants mais formellement opaques, ce qui les rend incompatibles avec les outils de vérification existants et freine leur déploiement dans des environnements à risque. FEARL propose un compromis : le Contrôleur conserve sa pleine expressivité pour le raisonnement, tandis que S reste vérifiable. Le transfert sim-to-real réussi indique que l'interface basse dimension ne dégrade pas les performances réelles, ce qui nuance l'hypothèse selon laquelle la richesse sensorielle serait indispensable à un contrôle fiable. Les approches antérieures pour sécuriser les politiques robotiques reposaient sur le reinforcement learning contraint ou des moniteurs d'exécution superposés, sans garanties formelles sur l'ensemble du pipeline. FEARL s'inscrit dans le champ de l'assured autonomy et constitue l'une des premières architectures à intégrer des VLA pré-entraînés dans une boucle vérifiable. Des acteurs comme Enchanted Tools (France) ou Wandercraft, qui développent des systèmes embarqués à contraintes de sécurité fortes, pourraient directement bénéficier de ce type d'approche. Les prochaines étapes naturelles seraient une validation sur des benchmarks de safety formels (IEC 61508, DO-178C) et des tests sur des manipulateurs industriels en environnement non structuré.

UEEnchanted Tools et Wandercraft, acteurs français développant des robots à fortes contraintes de sécurité embarquée, sont explicitement identifiés comme bénéficiaires directs de cette architecture de vérification formelle des VLA.

RecherchePaper

1 source

VibeCheck : détection tactile acoustique active pour la manipulation riche en contacts

42

3arXiv cs.RO

VibeCheck : détection tactile acoustique active pour la manipulation riche en contacts

Des chercheurs du ROAM Lab présentent VibeCheck, un préhenseur de robot équipé de deux doigts piézoélectriques : l'un émet une vibration acoustique à travers l'objet saisi, l'autre la reçoit. Cette configuration de captation acoustique active permet d'extraire, en temps réel, des informations sur l'état de l'objet, ses propriétés matérielles, la position de saisie, la pose de structures internes, et la nature des contacts extrinsèques que l'objet entretient avec son environnement. Le système a été validé sur un bras UR5, en prenant le retour acoustique comme unique feedback sensoriel, sur la tâche d'insertion de goupille (peg insertion), un benchmark classique de manipulation dite contact-riche. Les travaux sont disponibles sur arXiv (2504.15535v2). L'intérêt principal de cette approche est d'offrir une modalité sensorielle tactile qui ne repose ni sur la vision (contrairement à GelSight ou DIGIT), ni sur un capteur force-couple classique, souvent coûteux et fragile. Le fait d'inférer le type de contact extrinsèque uniquement par signature acoustique, et d'en dériver une politique d'imitation learning robuste aux prédictions imparfaites du classificateur, suggère une voie sérieuse vers des manipulateurs capables de réagir à des contacts non planifiés sans percevoir explicitement la scène. La résilience de la politique à l'imperfection du signal est un point notable : elle a été entraînée sur un modèle de transition simulé calibré sur les performances réelles du capteur, ce qui réduit partiellement le sim-to-real gap habituel dans ce type de pipelines. L'acoustique active en robotique n'est pas nouvelle, des travaux comme SonicSense ou les approches vibrotactiles en exploration de matériaux existent depuis plusieurs années, mais son intégration dans un préhenseur commercialement plausible (doigts piézoélectriques standard) pour des tâches longue-durée reste rare. Côté concurrence, les capteurs vision-based (GelSight de MIT, DIGIT de Meta/CMU) dominent la recherche en tactile, tandis que des startups comme Touchlab ou Xela Robotics misent sur d'autres modalités. VibeCheck se distingue par sa capacité à fonctionner à travers l'objet, pas seulement à sa surface. Les prochaines étapes probables incluent l'extension à des géométries d'objets variées et l'intégration à des systèmes multi-modaux combinant acoustique et vision.

RecherchePaper

1 source

PointAction : les points 3D comme représentation universelle des actions pour le contrôle robotique

42

4arXiv cs.RO

PointAction : les points 3D comme représentation universelle des actions pour le contrôle robotique

Des chercheurs ont publié le 3 juin 2026 PointAction (arXiv:2506.03943), un cadre de contrôle robotique qui fait le pont entre les Video-Action Models (VAMs) et les commandes exécutables sur bras physique. Le constat de départ est précis : les modèles vidéo entraînés uniquement sur du RGB ne permettent pas de contraindre la géométrie de contact 3D ni les marges spatiales métriques nécessaires à la manipulation, rendant le grounding des actions ambigu. PointAction répond à ce problème en affinant un modèle de génération vidéo de fondation pour prédire simultanément des frames RGB futurs et des pointmaps 3D dynamiques, produisant une représentation 4D (3D + temps) cohérente de la scène. Ces cartes de points servent d'interface structurée et embodiment-agnostic entre prédiction vidéo et contrôle moteur, qu'un décodeur d'actions basé sur la diffusion traduit ensuite en commandes exécutables. Les résultats publiés indiquent une qualité de génération 4D état de l'art sur scènes robotiques, une supériorité sur les baselines existantes en simulation, et une généralisation à deux bras robotiques absents du préentraînement. L'enjeu pour les intégrateurs est concret. Les VAMs peinent depuis plusieurs années à franchir le fossé entre rollout vidéo convaincant et action physique fiable : le RGB seul ne transmet ni la profondeur métrique, ni l'orientation des surfaces de contact, ni les tolérances de précision requises. En intercalant une couche intermédiaire explicite, les pointmaps 3D dynamiques, PointAction décompose le problème et réduit structurellement l'ambiguïté d'ancrage. L'interface embodiment-agnostic réduit aussi le coût de supervision nécessaire pour adapter un modèle à une nouvelle plateforme, argument concret pour les intégrateurs multi-robots. La généralisation à des bras non vus en préentraînement contredit partiellement l'hypothèse dominante selon laquelle les architectures VLA (Vision-Language-Action) exigent des volumes massifs de données spécifiques par embodiment, bien qu'aucun chiffre de transfert à l'échelle industrielle ne soit publié. PointAction s'inscrit dans une vague de recherche exploitant les modèles de diffusion vidéo pour la robotique, dans le sillage de pi-0 de Physical Intelligence, de GR00T N2 de NVIDIA et d'OpenVLA. La représentation en points 3D fait écho à des travaux antérieurs comme Tracking Any Point (TAP) ou 3D-DiffuserActor, mais PointAction les intègre dans la boucle de génération plutôt qu'en post-traitement. Le papier reste à l'étape pré-print arXiv, sans validation indépendante ni déploiement industriel annoncé ; les prochaines étapes probables incluent une extension à des manipulateurs à plus haut degré de liberté et à des configurations mobiles, ainsi qu'une intégration avec des pipelines VLA existants.

RechercheOpinion

1 source

VibeAct : la vibration comme signal pour la dextérité réactive des robots en contact

À lire aussi

Génération itérative et compositionnelle de données pour le contrôle de robots

Modèles fondation vérifiables pour la sécurité des robots

VibeCheck : détection tactile acoustique active pour la manipulation riche en contacts

PointAction : les points 3D comme représentation universelle des actions pour le contrôle robotique