
Phone2Act : système de téléopération économique et universel pour la collecte de données VLA à grande échelle
Phone2Act est un framework de téleopération publié sur arXiv (2605.01948) qui transforme un smartphone grand public en contrôleur de robot à 6 degrés de liberté (DoF) via Google ARCore. Développé sur une architecture ROS 2 modulaire, le système découple la logique de contrôle des spécificités matérielles grâce à des noeuds bridge interchangeables, ce qui permet de passer d'un cobot industriel à un bras bimanuel bas coût sans modification de code. Un composant baptisé Universal Recorder synchronise des flux RGB multi-caméras avec le retour d'état du robot, puis exporte les démonstrations directement au format LeRobot, supprimant toute étape de post-traitement. Le framework a été validé en affinant le modèle VLA GR00T-N1.5 de NVIDIA sur 130 épisodes collectés, atteignant un taux de succès de 90 % sur une tâche réelle de pick-and-place multi-étapes déployée sur un Dobot CR5 physique.
Ce résultat interpelle à plusieurs titres. La collecte de données de manipulation reste l'un des goulets d'étranglement les plus coûteux du pipeline d'entraînement VLA (Vision-Language-Action) : les frameworks existants supposent du matériel spécialisé, exosquelettes, gants haptiques, SpaceMouse, représentant souvent plusieurs milliers d'euros par poste. Phone2Act abaisse ce seuil à la possession d'un smartphone compatible ARCore. Les 90 % de succès sur tâche physique réelle, obtenus avec seulement 130 épisodes, suggèrent que la qualité des données collectées est suffisante pour le fine-tuning de modèles de fondation actuels. Pour un intégrateur ou un laboratoire à budget contraint, le facteur limitant n'est plus le matériel de collecte, mais le temps opérateur. Il faut toutefois noter que les vidéos de démonstration ne couvrent qu'une seule tâche, et que 130 épisodes représente un volume très limité pour tirer des conclusions généralisables.
La problématique du coût de la donnée robotique est centrale depuis l'essor des modèles VLA fin 2023. Des initiatives comme Open X-Embodiment (Google DeepMind) ou LeRobot (HuggingFace, 2024) ont standardisé les formats de datasets sans résoudre l'acquisition terrain à bas coût. Phone2Act s'inscrit dans cette continuité en ciblant le format LeRobot comme sortie native. Face à lui, des systèmes comme ALOHA 2 (Google DeepMind/Stanford) ou les kits SO-100/SO-101 (The Robot Company) restent liés à des plateformes matérielles spécifiques. Le Dobot CR5 retenu pour les tests est un cobot industriel d'entrée de gamme, aux alentours de 15 000 euros, ce qui délimite le périmètre cible. Le code source et les données collectées n'étaient pas encore publics au moment de la soumission arXiv.
Impact indirect pour les laboratoires européens utilisant le format LeRobot (HuggingFace) ; aucune institution française ou européenne n'est directement impliquée dans le développement du framework.
Dans nos dossiers




