RecherchearXiv cs.RO 3 juin 2026

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié début juin 2026 RobotValues (arXiv:2606.03312), un benchmark constitué de 10 000 scénarios destinés à évaluer les robots domestiques dans des situations où les valeurs humaines entrent en conflit. Chaque instance associe une image réaliste d'intérieur résidentiel à plusieurs actions robot plausibles, chacune privilégiant une valeur différente : autonomie de l'utilisateur, efficacité, sécurité, ou respect de la vie privée. Le corpus a été généré par une pipeline semi-automatique combinant génération assistée par LLM, extraction de valeurs ancrée dans des retours de parties prenantes, génération d'images et contrôle qualité automatique. Les modèles de vision-langage (VLM) couramment utilisés comme planificateurs robotiques y ont été évalués, avec des résultats préoccupants : lorsqu'on leur demande explicitement de prioriser une valeur qui contredit leurs préférences par défaut, les modèles échouent dans 80 % des cas et maintiennent leur comportement initial.

Ce résultat chiffré remet en cause un angle mort de l'évaluation robotique standard, qui se concentre quasi exclusivement sur le taux de complétion de tâche et la conformité aux règles de sécurité. Dans un foyer, un robot aspirateur qui désactive un microphone pour respecter la vie privée d'un utilisateur fait un choix contraire à l'efficacité opérationnelle mais aligné avec une valeur légitime. RobotValues formalise exactement ces arbitrages. Le constat que les modèles favorisent par défaut la sécurité et l'accommodement au détriment de la protection de la vie privée soulève des questions concrètes pour les intégrateurs B2B et les équipes produit déployant des assistants domestiques, notamment sur la robustesse des mécanismes d'instruction fine-grained dans les VLMs.

Les VLMs utilisés comme planificateurs robotiques constituent une tendance lourde depuis les travaux de Google sur RT-2 et les architectures Vision-Language-Action (VLA) comme Pi-0 de Physical Intelligence ou OpenVLA. Ces modèles héritent de biais d'entraînement qui ne posent pas de problème dans des contextes de complétion de tâche pure, mais deviennent critiques dès que le robot opère dans un espace privé avec des occupants ayant des préférences potentiellement contradictoires. RobotValues s'inscrit dans un agenda de recherche plus large sur l'alignement des agents embarqués, distinct des débats sur les LLMs conversationnels. Aucun fabricant de robot domestique (Samsung, LG, Amazon Astro, ou les startups européennes comme Enchanted Tools) n'est cité dans le papier ; le benchmark reste pour l'instant un outil académique, mais sa structure modulaire et son échelle de 10 000 instances le positionnent comme un candidat sérieux à l'intégration dans les pipelines d'évaluation de prochaines générations de plateformes embarquées.

Impact France/UE

Le benchmark RobotValues pourrait servir de référentiel d'évaluation pour les startups européennes de robotique domestique comme Enchanted Tools, notamment dans le cadre des exigences de l'AI Act sur les systèmes autonomes opérant en espace privé.

Dans nos dossiers

Enchanted Tools — Mirokaï Physical Intelligence — π0 OpenVLA / RT-X arXiv cs.RO

À lire aussi

1arXiv cs.RO

Attaques trojans sur les contrôleurs de réseaux de neurones pour systèmes robotiques

Des chercheurs ont publié sur arXiv (référence 2602.05121v2) une démonstration de faisabilité d'attaques par backdoor, dites attaques "Trojan", ciblant des contrôleurs neuronaux embarqués dans des systèmes robotiques. Le vecteur d'attaque étudié est un robot mobile à propulsion différentielle, dont le contrôleur de suivi de trajectoire et de stabilisation de pose est implémenté sous forme de réseau de neurones. Les auteurs ont conçu un module Trojan parallèle, léger, conçu pour être inséré dans le réseau principal sans modifier ses poids. Ce module reste inactif en fonctionnement normal, puis s'active dès qu'une condition de déclenchement très précise est détectée, définie conjointement par la pose courante du robot et ses paramètres objectifs. À l'activation, le module corrompt directement les commandes de vitesse des roues, provoquant des comportements non désirés, potentiellement dangereux. L'attaque est validée en simulation selon deux scénarios distincts. Ce travail met en lumière un risque souvent sous-estimé dans la robotique industrielle et les AMR (robots mobiles autonomes) : la chaîne d'approvisionnement en modèles neuronaux. Dès lors qu'un contrôleur est fourni par un tiers, entraîné sur une infrastructure externe, ou acquis via un pipeline de fine-tuning non audité, l'intégrateur ne peut pas garantir l'absence de modules cachés. La discrétion du Trojan, dormant jusqu'à un trigger très spécifique, le rend difficilement détectable par les tests fonctionnels classiques. Pour les COO industriels et les équipes sécurité, cela signifie que les approches de validation de modèles actuelles, orientées performance, sont insuffisantes face à des attaques intentionnelles. Les attaques par backdoor sur les réseaux de neurones sont documentées depuis 2017 dans le domaine de la classification d'images, mais leur transposition aux systèmes de contrôle robotique en temps réel est plus récente et plus critique : une erreur de classification est bénigne, une dérive de trajectoire sur un robot industriel peut provoquer des dommages matériels ou humains. Ce papier s'inscrit dans un corpus croissant qui questionne la robustesse des architectures VLA (Vision-Language-Action) et des contrôleurs neuronaux génériques. Les suites logiques sont des méthodes de détection (analyse spectrale des poids, tests adversariaux ciblés) et des protocoles de certification des modèles embarqués, un chantier encore largement ouvert pour les organismes de standardisation comme l'ISO ou l'IEC.

UELes intégrateurs européens d'AMR et robots industriels utilisant des contrôleurs neuronaux fournis par des tiers sont directement exposés à ce vecteur d'attaque ; les travaux de normalisation ISO/IEC sur la certification des modèles embarqués deviennent un chantier prioritaire pour le marché européen.

RechercheOpinion

1 source

2arXiv cs.RO

RoboWorld : des simulateurs neuronaux rapides et fiables pour évaluer les politiques robotiques génériques

Une équipe de recherche a publié sur arXiv (2607.01060) RoboWorld, un pipeline automatisé d'évaluation pour les politiques robotiques génon-généralistes fondé sur des modèles de monde vidéo. Le système combine un modèle de monde vidéo autorégressif rapide avec un scoring assuré par un modèle vision-langage sensible à la progression de la tâche. Pour fiabiliser les simulations sur de longs horizons temporels, les auteurs introduisent une technique baptisée Step Forcing, qui mélange des contextes ancrés et des contextes auto-propagés en un seul pas afin de réduire l'écart entre entraînement et inférence, tout en préservant la cohérence entre actions et observations générées. Résultat annoncé : une corrélation quasi parfaite avec les évaluations réelles de robots physiques, avec un coefficient de Pearson de 0,989 et un coefficient de Spearman de 0,970, mesurés sur plusieurs tâches et environnements. L'enjeu dépasse la seule prouesse technique. Évaluer une politique robotique généraliste sur du matériel réel coûte cher et prend du temps : il faut multiplier les essais physiques, gérer l'usure du matériel et l'imprévisibilité de l'environnement. Les modèles de monde vidéo promettent de contourner cette contrainte en simulant les conséquences des actions d'un robot directement à partir de flux vidéo, sans passeser par un moteur physique classique. Le problème jusqu'ici restait la fiabilité : les erreurs cumulées du modèle de monde rendent les simulations longues peu crédibles, et l'inférence lente limite le nombre d'évaluations possibles à grande échelle. En démontrant une corrélation aussi forte avec la réalité tout en visant la rapidité, RoboWorld s'attaque frontalement à ce goulot d'étranglement, ce qui intéresse directement les laboratoires qui entraînent des politiques de type VLA (vision-langage-action) et cherchent à les valider avant tout déploiement physique coûteux. Ce travail s'inscrit dans une tendance plus large de la recherche en robotique où les modèles de monde vidéo remplacent progressivement les simulateurs physiques traditionnels pour l'évaluation de politiques, notamment à mesure que les modèles génératifs vidéo gagnent en fidélité. La difficulté classique de ces approches, le décalage entre les rollouts générés en entraînement et ceux produits en inférence, est justement ce que vise à corriger la méthode Step Forcing. L'article ne précise pas de partenariat industriel ni de déploiement en conditions réelles : il s'agit à ce stade d'un travail de recherche évalué sur des benchmarks internes, dont la reproductibilité et la généralisation à d'autres familles de robots restent à confirmer par la communauté.

RecherchePaper

1 source

3NVIDIA Developer Blog

Comment évaluer les politiques de robots généralistes pour un déploiement en conditions réelles

Une équipe de recherche en robotique publie un article de blog consacré à l'évaluation rigoureuse des politiques robotiques généralistes destinées au déploiement réel. Le texte part d'un constat : les meilleurs systèmes actuels, capables de suivre des instructions en langage naturel pour saisir, déplacer, trier et manipuler une grande variété d'objets, ont progressé rapidement ces derniers mois. Mais à mesure que ces modèles gagnent en capacité, les évaluer de façon fiable est devenu, selon les auteurs, l'un des problèmes non résolus les plus difficiles du secteur. Le billet ne détaille pas encore la méthode complète, mais annonce vouloir poser les problèmes clés de l'évaluation et présenter une approche pour les traiter, sans livrer dans cet extrait de chiffres de benchmark, de taux de réussite ou de comparaison entre modèles nommés. Pour l'industrie robotique, la question de l'évaluation n'est pas secondaire : elle conditionne la confiance que les intégrateurs et décideurs B2B peuvent accorder à des politiques génériques de type VLA avant de les déployer sur une ligne de production ou un site logistique. De nombreuses démonstrations de robots manipulateurs ou humanoïdes sont aujourd'hui présentées avec des vidéos sélectionnées et des conditions de test non standardisées, ce qui rend difficile toute comparaison objective entre acteurs. En pointant ce manque de rigueur méthodologique, la démarche s'inscrit dans une remise en question plus large de l'écart entre démonstration et réalité opérationnelle, un sujet central alors que plusieurs laboratoires affirment avoir résolu le passage de la simulation au réel à grande échelle. Cette initiative s'inscrit dans un mouvement plus large où plusieurs laboratoires de robotique généraliste développent des politiques capables d'exécuter des instructions en langage naturel sur des tâches variées, sans qu'il existe pour l'instant de standard d'évaluation partagé par le secteur. L'absence de protocole commun complique la comparaison entre approches concurrentes et freine l'adoption industrielle, les entreprises utilisatrices devant se fier aux métriques propres à chaque fournisseur. Le billet annonce vouloir combler ce vide méthodologique, sans préciser à ce stade de calendrier de publication détaillée ni de partenaires industriels associés à la démarche.

RecherchePaper

1 source

4arXiv cs.RO

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

Une étude publiée sur arXiv (arXiv:2602.03920) examine comment des utilisateurs non-spécialistes interprètent les données de performance des modèles de fondation robotiques (RFM, Robot Foundation Models), ces architectures d'IA généraliste conçues pour piloter des robots domestiques polyvalents comme ceux développés par Physical Intelligence (pi0), Google DeepMind (GR00T N2) ou Figure AI. Le cœur du problème : lorsqu'un utilisateur demande à un robot RFM d'effectuer une tâche hors de son domaine d'entraînement, il doit pouvoir évaluer le risque d'échec, qui peut être coûteux, voire dangereux. Les chercheurs ont exposé des participants à des données réelles issues de plusieurs projets RFM publiés, incluant le taux de succès aux tâches (TSR, Task Success Rate), des descriptions de cas d'échec et des vidéos de démos. Les résultats montrent que les non-experts comprennent et utilisent le TSR de façon conforme aux attentes des spécialistes, ce qui valide son usage comme métrique primaire dans les publications académiques. Mais la découverte la plus significative est ailleurs : les utilisateurs accordent une valeur élevée aux descriptions de cas d'échec, une information rarement reportée de façon systématique dans les évaluations de RFMs. Par extension, ils souhaitent disposer à la fois de données historiques issues des évaluations passées du modèle et d'estimations proactives du robot sur ses chances de succès face à une tâche inédite. Cette attente soulève un défi concret pour les intégrateurs et les équipes produit : la transparence sur les limites du modèle n'est pas optionnelle si l'on vise un déploiement grand public. Ce travail s'inscrit dans un débat plus large sur le fossé entre les démos laboratoire et l'usage réel, souvent qualifié de "demo-to-reality gap". Alors que le secteur converge vers des benchmarks standardisés comme DROID ou Open-X-Embodiment pour comparer les RFMs entre eux, la question de leur lisibilité par les décideurs non-techniques reste largement ouverte. Des acteurs comme Enchanted Tools en France ou Wandercraft misent sur des interfaces d'interaction proches de l'utilisateur final, mais peu d'équipes formalisent encore la communication sur les taux d'échec. Cette étude plaide pour l'intégration de "failure reporting" structuré dans les fiches produit et les publications techniques, une évolution qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique.

UEL'étude plaide pour un 'failure reporting' structuré qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique, concernant directement Enchanted Tools et Wandercraft pour leurs fiches produit.

RecherchePaper

1 source