RecherchearXiv cs.RO 11 juin 2026

PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.12112v1) les spécifications de PEBRE, un module matériel et logiciel open-source conçu pour augmenter les capacités du robot Pepper. Le module intègre une carte Jetson Orin Nano de NVIDIA pour le calcul embarqué, une caméra RGB Logitech BRIO 4K, une caméra de profondeur Intel RealSense D435i pour la perception 3D, un microphone USB Samson UB1 et un micro directionnel RØDE VideoMicro II pour la capture audio. L'ensemble forme un add-on modulaire, conçu pour s'intégrer physiquement sur Pepper sans modifier son architecture d'origine. Les auteurs rapportent des améliorations mesurables en capacités de perception et en puissance de calcul, sans toutefois publier de benchmarks chiffrés comparatifs dans le résumé disponible.

L'intérêt concret de PEBRE pour la communauté académique et les intégrateurs tient à une problématique bien réelle : Pepper approche ou dépasse sa durée de vie commerciale prévue, et SoftBank Robotics a progressivement réduit son support. Des dizaines de labos de recherche mondiaux disposent de plateformes Pepper dont la chaîne logicielle devient obsolète et dont le matériel interne (processeur Intel Atom, caméras grand-angle basiques) ne permet plus d'exécuter des modèles modernes de vision ou de traitement du langage en local. En proposant une solution open-hardware, les auteurs cherchent à mutualiser l'effort de mise à niveau, évitant à chaque labo de réinventer sa propre solution de retrofitting. C'est une approche pragmatique face à l'abandon progressif d'une plateforme encore présente dans de nombreux établissements.

Pepper a été conçu à l'origine par Aldebaran Robotics, entreprise française rachetée par SoftBank en 2012, puis commercialisé à partir de 2014 comme robot d'accueil et d'interaction sociale. Malgré l'arrêt de sa production pour le marché grand public annoncé en 2021, Pepper reste présent dans plusieurs centaines de laboratoires et sites industriels en Europe et en Asie. Côté concurrence sur le segment des plateformes académiques humanoïdes légères, Pepper fait face à des alternatives comme le NAO (lui aussi Aldebaran/SoftBank), le Furhat ou des plateformes bras-et-torse comme Hello Robot Stretch. PEBRE ne repositionne pas Pepper dans la course aux humanoïdes mobiles de nouvelle génération, mais tente de lui donner une seconde vie utile dans des contextes de recherche appliquée en HRI (Human-Robot Interaction), là où le coût d'acquisition d'une nouvelle plateforme reste prohibitif.

Impact France/UE

Les laboratoires européens équipés de robots Pepper, nombreux en France et en Europe, héritiers du rachat d'Aldebaran Robotics, peuvent bénéficier directement de ce module open-source pour prolonger la durée de vie de leurs plateformes et exécuter des modèles modernes de perception et de traitement du langage sans investissement dans une nouvelle plateforme.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Robot industriel d'évaluation de dextérité : une plateforme matérielle et logicielle pour le benchmarking de la manipulation dextre industrielle

La revue arXiv a publié ce 14 juillet un article intitulé "Industrial Dexterity Benchmark: A Hardware-Software Benchmarking Platform for Industrial Dexterous Manipulation" (référence 2607.14021v1), qui propose un nouveau cadre de test pour l'automatisation industrielle fine. Les auteurs introduisent trois éléments : une série de plateaux de test baptisés Industrial Dexterity Benchmark (IDB), conçus pour reproduire trois scénarios concrets, le câblage de datacenters, les harnais de câbles automobiles et l'assemblage de boîtes de vitesses ; un framework d'apprentissage par imitation nommé DAG-ROS ; et une politique de contrôle basée sur la diffusion, AG-iDP3, qui fusionne images RGB, nuages de points, positions articulaires et données de force au poignet. Les tests se concentrent sur une tâche précise, le nettoyage d'un câble unique sur le plateau datacenter, évaluée sur 48 essais par configuration. La meilleure configuration, une Diffusion Policy multimodale combinant plusieurs caméras RGB via un encodeur R3M, atteint 78% de réussite combinée sur la prise et l'insertion, contre 36% pour la version à caméra unique. Chaque configuration n'a nécessité qu'environ 100 démonstrations téléopérées par phase de tâche. Ce résultat intéresse directement les intégrateurs industriels parce qu'il touche un point resté largement non résolu malgré des décennies de recherche en robotique : le câblage, l'insertion de connecteurs et l'assemblage de précision continuent de dépendre du travail manuel. L'écart de performance entre la version mono-caméra et la version multi-vues suggère que la robustesse des politiques apprises tient autant à la richesse des capteurs qu'à l'algorithme lui-même, un point utile pour quiconque évalue des solutions VLA ou d'apprentissage par imitation pour des lignes à haute disponibilité. Reste que l'échantillon de validation demeure limité, une seule tâche testée sur 48 essais par configuration, ce qui invite à la prudence avant d'extrapoler ces chiffres à d'autres cas d'usage. Ce travail s'inscrit dans une transition plus large observée dans la recherche en robotique industrielle, celle du passage des pipelines modulaires classiques, perception puis planification puis contrôle codés séparément, vers des architectures de bout en bout entraînées par imitation. Les benchmarks IDB visent à combler un manque identifié par les auteurs : l'absence de plateformes standardisées pour comparer objectivement les méthodes de manipulation dextre en environnement industriel. Aucun calendrier de déploiement commercial n'est mentionné à ce stade, l'article reste un travail de recherche publié en prépublication, sans partenariat industriel ni date de mise en production annoncés.

RecherchePaper

1 source

2Robotics Business Review

Daimon Robotics et Galbot lancent RobOmni pour évaluer la perception tactile et la manipulation dextérique

Daimon Robotics, entreprise de Hong Kong spécialisée dans la perception tactile et la manipulation dextre, a présenté RobOmni lors de l'ICRA 2026, en partenariat avec Galbot. Il s'agit du premier benchmark d'évaluation omni-modal intégrant la perception tactile pour les interactions physiques en robotique. La plateforme, construite sur NVIDIA Isaac Sim, standardise l'évaluation de tâches de manipulation au contact : saisie d'objets, insertion de précision, assemblage de composants et placement. RobOmni capture simultanément plusieurs flux de données, capteurs tactiles haute résolution au bout des doigts, vision RGB montée au poignet, état de la pince, trajectoires TCP et observations de caméras externes, pour évaluer les systèmes robotiques selon cinq dimensions : taux de succès, efficacité de manipulation, capacité de manipulation dextre, événements d'échec (glissement, coinçage, collision, nouvelle tentative) et robustesse de généralisation. Ce lancement répond à un manque structurel dans l'industrie : l'absence de cadre standardisé pour mesurer l'apport réel du sens tactile par rapport à la perception purement visuelle. Sans benchmark unifié, il est impossible de comparer les systèmes, de quantifier les progrès ou d'identifier quelles données tactiles améliorent concrètement les tâches réelles. Pour les intégrateurs industriels et les décideurs B2B qui évaluent des bras manipulateurs pour des lignes d'assemblage ou de service, ce vide est critique : une manipulation fiable dans des environnements non structurés requiert de détecter le glissement, la déformation du contact ou la rigidité d'un matériau lors d'un emboîtement, autant de signaux que la vision seule ne peut pas capturer. RobOmni propose de quantifier systématiquement cet apport, ce qui permettrait notamment de comparer des architectures VLA (Vision-Language-Action) avec et sans retour tactile sur des tâches identiques. Daimon Robotics a développé ses propres capteurs tactiles basés sur la vision, capables de mesurer non seulement la force de contact mais aussi la déformation, le glissement, les propriétés de matériau, la texture et la dureté, à haute fréquence et haute résolution. Galbot, partenaire du projet, apporte son expertise en robotique mobile et manipulation. Si aucune métrique de performance comparative ni timeline de déploiement commercial ne sont encore publiées, ce lancement reste à ce stade une annonce de framework de recherche, pas un produit expédié, le positionnement à l'ICRA 2026 signale une ambition de standardisation sectorielle. Les concurrents dans l'espace des benchmarks robotiques, notamment Google DeepMind (RoboVerse) et Meta (PARTNR), n'intègrent pas la modalité tactile comme dimension centrale d'évaluation. RobOmni comble potentiellement ce vide, à condition que la communauté adopte le framework comme référence commune.

RecherchePaper

1 source

3arXiv cs.RO

RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique

Une équipe de chercheurs a publié RoboEval (arXiv:2507.00435), un cadre d'évaluation structuré et un benchmark dédié à la manipulation robotique. L'outil propose huit tâches bimanuelles assorties de variantes systématiquement contrôlées, plus de trois mille démonstrations expertes, et une plateforme de simulation modulaire conçue pour garantir la reproductibilité des expériences. Chaque tâche est instrumentée avec des métriques standardisées couvrant l'efficacité d'exécution, la coordination entre les deux bras, et la stabilité ou sécurité du mouvement. Le cadre inclut également des mesures de progression par étapes qui permettent de localiser précisément où et pourquoi une politique échoue, plutôt que de simplement enregistrer un échec global. Les expériences ont été conduites sur des politiques visuomotrices de l'état de l'art, en évaluant la stabilité des métriques face aux variations de conditions et leur pouvoir discriminant entre politiques affichant des taux de succès similaires. L'enjeu est méthodologique autant qu'industriel. Aujourd'hui, la majorité des benchmarks de manipulation robotique réduisent la performance à un comptage binaire succès/échec, ce qui efface les différences réelles de qualité d'exécution. Deux politiques peuvent afficher le même taux de réussite tout en présentant des comportements radicalement différents en termes de fluidité, de robustesse aux perturbations, ou de coordination interdigitale. Pour un intégrateur ou un décideur industriel qui doit choisir entre plusieurs VLA (Vision-Language-Action policies) pour déployer un robot en production, cette granularité est critique. RoboEval tente de combler ce fossé en fournissant des métriques intermédiaires qui corrèlent avec le succès final mais révèlent aussi la structure des défaillances, un prérequis pour itérer efficacement sur l'entraînement. Ce travail s'inscrit dans une dynamique plus large de maturation de l'évaluation en robotique apprenable, un domaine qui souffre depuis des années d'une fragmentation des protocoles. Des initiatives comparables comme LIBERO ou RoboVerse ont tenté de standardiser les conditions expérimentales, mais restaient souvent limitées aux tâches unimanuelles ou aux métriques de haut niveau. RoboEval se distingue par son focus bimanuel, directement pertinent pour les applications industrielles d'assemblage ou de logistique, et par la richesse de ses métriques comportementales. La page projet est accessible sur robo-eval.github.io. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : il s'agit pour l'instant d'une contribution académique, sans validation en environnement réel annoncée.

UEContribution académique ouverte utilisable par tout labo ou intégrateur européen souhaitant évaluer et comparer des politiques VLA bimanuelles sans dépendre de benchmarks propriétaires.

RecherchePaper

1 source

4arXiv cs.RO

Mémoire pour attention : re-perception conditionnée par le langage avec une carte vision-langage-mouvement

Des chercheurs testent une carte persistante annotée par comportements, la Vision-Language-Motion Map (VLMM), sur deux questions de planification robotique. Sur 28 scènes du simulateur AI2-THOR, un planificateur exploitant les coûts comportementaux de la VLMM réduit l'objectif de planification d'environ 35% par rapport à une approche classique. Mais en exécution réelle en boucle fermée, ce gain fond à environ 4%, et un modèle vision-langage (VLM) interrogé à la demande fait quasiment aussi bien. Sur la seconde question, celle de savoir quoi ré-observer en priorité quand le budget de perception est limité, la mémoire de la carte, historique des changements ou simple date de dernière observation, produit le meilleur calendrier de re-perception, équivalent à un oracle, là où un VLM sans mémoire se révèle médiocre. Le bénéfice se concentre sur les objets importants (facteur d'environ 1,6 fois la moyenne), et une tâche de récupération d'objet confirme moins de trajets inutiles. Le gain croît avec l'hétérogénéité des scènes selon une borne de Cauchy-Schwarz, égale à la variance de la racine de la volatilité. Avec un vrai prior CLIP sur des objets rendus, l'avantage atteint +21 à 26%. Quand la tâche est conditionnée par le langage, la VLMM identifie les objets pertinents en vocabulaire ouvert et suit leurs changements, dépassant une base récence-pertinence de +2,5% et un VLM à la demande de +8,9%. Ce résultat nuance l'idée répandue qu'une carte sémantique persistante améliore mécaniquement la navigation: pour "comment contourner une pièce", la mémoire est un luxe dont l'intérêt s'évapore à l'exécution, un VLM interrogé au vol suffisant. En revanche, pour décider quoi re-observer sans tout rescanner, cruciale pour un robot mobile ou humanoïde à budget de calcul et de caméra limité, la mémoire change la donne. Pour les intégrateurs, la leçon est concrète: pas besoin de carte comportementale complexe pour le déplacement, mais un vrai gain à prioriser les re-vérifications sur les objets qui comptent, avec économie de calcul et de temps de cycle. Ni le langage seul ni la dynamique seule ne suffisent, seule leur combinaison produit l'avantage. Les cartes sémantiques enrichies par VLM se sont multipliées avec la montée des modèles vision-langage-action, généralement validés en simulation avant tout déploiement réel. Ce travail se positionne en creux face à cette tendance en exposant l'écart entre gains de planification hors ligne et performance réelle en boucle fermée, un avertissement utile pendant que le secteur multiplie les annonces de cartes cognitives pour robots humanoïdes et logistiques. Les auteurs comparent leur approche aux VLM à la demande, sans mémoire mais coûteux en calcul, et aux baselines de récence pondérée. Travail de recherche publié sur arXiv, sans partenaire industriel annoncé, ses suites naturelles porteraient sur une validation hors simulateur et sur des plateformes robotiques réelles, où l'arbitrage calcul-mémoire-perception est plus contraint.

RecherchePaper

1 source