Aller au contenu principal
DIJIT : une tête robotique pour un observateur actif
RecherchearXiv cs.RO4h

DIJIT : une tête robotique pour un observateur actif

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont présenté DIJIT, une tête robotique binoculaire conçue pour équiper des agents mobiles opérant en tant qu'observateurs actifs. Le système cumule neuf degrés de liberté mécaniques auxquels s'ajoutent quatre degrés de liberté optiques fournis par les caméras et les objectifs, soit 13 DOF au total. La conception mécanique couvre l'ensemble des mouvements nécessaires à la stéréovision convergente : vergence, version et cyclotorsion. DIJIT atteint 85 % de la vitesse de saccade humaine maximale, et la méthode de contrôle développée par l'équipe, basée sur une relation directe entre l'orientation de la caméra et les valeurs moteur, produit des mouvements saccadiques avec une erreur moyenne de 1,17° pour la caméra gauche et 1,14° pour la droite. L'article, publié sur arXiv (2512.07998v2), reste à ce stade un travail académique sans déploiement industriel annoncé.

L'intérêt de DIJIT réside dans la rareté des plateformes permettant d'étudier conjointement les mouvements oculaires et tête-cou dans un cadre robotique mobile. La plupart des systèmes de vision active existants traitent ces deux axes séparément ou sacrifient la fidélité biomécanique au profit de la simplicité mécanique. En reproduisant les plages et vitesses comparables à celles de l'humain, DIJIT offre un banc d'essai pour comparer directement les stratégies de perception visuelle humaine aux méthodes de computer vision classiques, ce qui est particulièrement utile pour valider ou invalider des hypothèses sur le sim-to-real gap dans les systèmes de vision embarquée.

La vision active robotique connaît un regain d'intérêt depuis que les modèles VLA (Vision-Language-Action) imposent des flux visuels plus riches et dynamiques aux robots humanoïdes. Des laboratoires comme celui de CMU ou des équipes travaillant sur des plateformes telles que Figure 03 ou Digit (Agility Robotics) cherchent à améliorer la perception visuelle active pour des tâches de manipulation en environnement non structuré. DIJIT se positionne comme un outil de recherche fondamentale plutôt que comme un produit commercialisable à court terme. L'absence de partenaire industriel annoncé et le format arXiv suggèrent une phase d'exploration académique ; les prochaines étapes probables concernent l'intégration sur une plateforme mobile complète et la publication de benchmarks comparatifs face aux systèmes de vision fixe.

À lire aussi

ATLAS : un outil d'annotation pour la segmentation d'actions robotiques à long horizon
1arXiv cs.RO 

ATLAS : un outil d'annotation pour la segmentation d'actions robotiques à long horizon

Des chercheurs ont publié le 30 avril 2026 sur arXiv (référence 2604.26637) ATLAS, un outil d'annotation dédié à la segmentation d'actions robotiques sur des horizons temporels longs. L'outil propose une visualisation synchronisée de données multimodales : flux vidéo multi-vues et signaux proprioceptifs comme l'état de la pince ou les capteurs force/couple. ATLAS prend en charge nativement les formats les plus répandus dans la communauté robotique, à savoir les ROS bags et le format RLDS (Reinforcement Learning Dataset), avec un support direct pour des jeux de données spécifiques tels que REASSEMBLE. Son interface centrée sur le clavier vise à réduire la charge cognitive de l'annotateur. Sur une tâche d'assemblage riche en contacts, ATLAS réduit le temps moyen d'annotation par action d'au moins 6 % par rapport à ELAN, améliore l'alignement temporel avec les annotations expertes de plus de 2,8 %, et divise par cinq l'erreur aux frontières d'actions par rapport aux outils purement visuels. Ce résultat pointe vers un goulot d'étranglement souvent sous-estimé dans le développement des politiques de manipulation : la qualité des annotations temporelles conditionne directement la performance des modèles d'imitation et de segmentation d'actions. Les approches VLA (Vision-Language-Action) et les méthodes de policy learning par démonstration nécessitent des frontières d'actions précises pour généraliser correctement. L'absence de synchronisation entre vidéo et signaux robot dans les outils existants introduit des biais systématiques dans les datasets, qui se répercutent ensuite sur le sim-to-real gap. ATLAS adresse ce problème structurel pour les équipes qui construisent des pipelines de données à grande échelle. ELAN, l'outil de référence historique pour l'annotation multimodale issu de la linguistique computationnelle, était jusqu'ici la solution la plus utilisée dans les labos robotique faute d'alternative spécialisée. ATLAS se positionne explicitement comme son successeur pour les usages robotiques, avec une couche d'abstraction modulaire qui facilite l'intégration de nouveaux formats. Le format RLDS, popularisé notamment par les travaux de Google DeepMind sur RT-2 et Open X-Embodiment, est devenu un standard de facto pour les datasets de manipulation à large échelle, rendant la compatibilité native d'ATLAS particulièrement pertinente. Aucun déploiement industriel ni partenariat commercial n'est mentionné à ce stade : il s'agit d'un outil de recherche open source, dont la prochaine étape naturelle serait une adoption par les équipes construisant des benchmarks de manipulation standardisés.

RecherchePaper
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
2arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
OASIS : alignement espace observation-action par prédiction de trajectoire SE(3) pour la manipulation robotique
3arXiv cs.RO 

OASIS : alignement espace observation-action par prédiction de trajectoire SE(3) pour la manipulation robotique

Des chercheurs ont soumis sur arXiv (réf. 2505.25829) OASIS, un nouveau modèle de politique visuomotrice pour la manipulation robotique dont le nom complet est "Observation-Action Space Alignment via SE(3) Trajectory Prediction". L'architecture combine un encodeur de features 3D qui fusionne données visuelles, linguistiques et de profondeur métrique, avec un prédicteur de trajectoire dans le groupe SE(3), l'espace mathématique des rotations et translations rigides en trois dimensions. Ce prédicteur génère une trajectoire de l'effecteur terminal dans le référentiel caméra; ses états cachés, supervisés par pose, conditionnent ensuite un décodeur d'actions qui produit des blocs d'actions ("action chunks") géométriquement cohérents. Les auteurs rapportent des expériences en simulation et en conditions réelles sur des tâches de manipulation, surpassant les baselines VLA et WAM sur le taux de succès et la généralisation hors-distribution. Aucun chiffre absolu n'est fourni dans l'abstract, ce qui invite à attendre la lecture complète du papier avant toute conclusion quantitative. Le problème visé est structurel dans les modèles VLA actuels : leurs représentations intermédiaires restent dans l'espace d'observation (pixels, tokens) alors que la manipulation exige une géométrie de corps rigide. Forcer le décodeur à récupérer cette géométrie implicitement introduit un biais que les auteurs considèrent coûteux en données et en robustesse. L'alignement explicite via SE(3) est une piste sérieuse, et l'amélioration annoncée sur la généralisation hors-distribution est la métrique la plus pertinente pour les intégrateurs industriels, pour qui re-collecter des données à chaque nouvelle variante de tâche est prohibitif. Si les résultats se confirment à la lecture complète, OASIS apporte un argument concret au débat sur la bonne inductive bias à injecter dans les VLA. Le champ des VLA a été structuré ces dix-huit mois par Pi-0 (Physical Intelligence), OpenVLA, RoboVLMs, et plus récemment GR00T N2 de NVIDIA, tous cherchant à unifier compréhension linguistique et contrôle moteur fin. Les WAMs ont ajouté la prédiction d'états visuels futurs comme signal auxiliaire. OASIS s'inscrit dans ce second courant en changeant l'espace de prédiction : des pixels vers une trajectoire géométrique explicite en SE(3), un choix qui converge avec des travaux antérieurs comme SE(3)-DiffusionFields ou EquiBot. L'URL du projet (npuhandsome.github.io) suggère une affiliation avec la Northwestern Polytechnical University de Xi'an, laboratoire actif en robotique et apprentissage. Le papier est un preprint non encore évalué par les pairs; les démonstrations vidéo sur la page projet sont à interpréter avec la prudence habituelle avant tout déploiement applicatif.

RechercheOpinion
1 source
Détection de contact active pour un transfert d'objet robuste de robot à humain
4arXiv cs.RO 

Détection de contact active pour un transfert d'objet robuste de robot à humain

Une équipe de chercheurs propose une méthode de détection de contact active pour fiabiliser les transferts d'objets de robot à humain, publiée en prépublication sur arXiv (2605.04610, mai 2026). Au lieu d'attendre passivement un signal de saisie, le robot génère des micro-mouvements exploratoires et mesure les forces appliquées en retour par l'humain : une saisie ferme produit des forces dans plusieurs directions, un contact accidentel non. Le système repose sur un modèle bayésien linéaire par morceaux qui estime la probabilité de chaque état de contact à partir de ces réponses en force. Testé avec 12 participants sur 30 objets rigides variés, il atteint un taux de succès de 97,5 %, soit plus de 30 points au-dessus des deux approches passives utilisées comme référence. Les applications visées vont du robot d'assistance à domicile (servir un verre) au bloc opératoire (passer un instrument chirurgical). Ce résultat est significatif car la généralisation inter-objets est précisément le point dur des approches passives (tactile, force/couple) : elles peinent à distinguer saisie ferme et contact fortuit face à la diversité des formes, des masses et des comportements humains. L'active sensing force une perturbation contrôlée qui rend les états ambigus séparables. Pour les intégrateurs et les décideurs industriels, l'enjeu est directement lié à la sécurité : dans un environnement collaboratif ou chirurgical, un relâchement prématuré peut causer un incident grave. Un taux de 97,5 % commence à entrer dans la plage exploitable pour des assistants robotiques en conditions réelles, même si le périmètre du test reste limité (objets rigides, 12 sujets, conditions de laboratoire). La question du handover robot-humain est active en recherche depuis plusieurs années, portée notamment par les domaines de l'assistance à la personne et de la chirurgie robotique. Ce papier est une prépublication non encore évaluée par les pairs, et l'abstract ne mentionne ni institution ni partenaire industriel, ce qui rend difficile l'évaluation de sa trajectoire vers un déploiement réel. Aucune intégration commerciale n'est annoncée. Les suites logiques incluent des tests sur objets déformables ou non rigides, une validation en conditions cliniques contrôlées, et une intégration dans des plateformes à retour d'effort comme les cobots ou les mains de robots humanoïdes qui commencent à offrir les interfaces mécaniques nécessaires à ce type de dialogue haptique.

RecherchePaper
1 source