Rapport technique RhinoVLA
HuixiAI a publié un rapport technique sur RhinoVLA, un modèle vision-langage-action (VLA) conçu spécifiquement pour tourner en temps réel sur du matériel embarqué, en co-conception avec le SoC edge Huixi R1. Le modèle s'appuie sur un backbone Qwen3-VL optimisé pour limiter le nombre de tokens visuels et contextuels traités, identifiés par les auteurs comme le principal goulot d'étranglement en latence des VLA sur puce embarquée : dans les opérateurs de projection dominés par le calcul matriciel (GEMM), le coût croît linéairement avec le nombre de tokens en entrée. RhinoVLA associe ce backbone allégé à un Action Expert à sortie continue, ainsi qu'à une interface unifiée combinant un registre de vues (View Registry), un espace d'état-action physique à 72 dimensions et des adaptateurs LoRA propres à chaque instance de robot, pour aligner des observations et schémas d'action hétérogènes sous une politique commune. Résultat annoncé : des performances comparables à π0.5 à taille de paramètres équivalente, avec une inférence de bout en bout à 11,69 Hz sur le Huixi R1, au-dessus du seuil de 10 Hz jugé nécessaire pour un contrôle en boucle fermée temps réel.
L'enjeu dépasse la simple performance brute : la plupart des VLA démontrés en laboratoire (π0, GR00T N2, Helix) tournent sur GPU serveur ou desktop, loin des contraintes de puissance et de latence d'un robot mobile ou d'un bras industriel autonome. En optimisant simultanément l'architecture du modèle et la compilation matérielle (précision mixte, encodage visuel parallélisé), RhinoVLA s'attaque directement au fossé entre démonstration et déploiement réel, un point sensible pour les intégrateurs qui évaluent la viabilité commerciale des VLA en usine ou en logistique plutôt qu'en simple preuve de concept.
Le projet doit être publié en open source sur GitHub (HuixiAI/RhinoVLA), une démarche qui s'inscrit dans la compétition croissante autour des architectures VLA généralistes multi-robots, aux côtés des travaux de Physical Intelligence (π0, π0.5) et NVIDIA (GR00T). Le document constitue une version révisée (v2) d'un rapport déjà déposé sur arXiv, sans calendrier de déploiement industriel précisé à ce stade.
Dans nos dossiers




