
Marché de l'IA physique encore ouvert : une entreprise chinoise propose l'approche 'edge-native' comme nouvelle solution
Au premier trimestre 2026, les investissements mondiaux dans le Physical AI ont dépassé 6,4 milliards de dollars, avec des levées emblématiques : AMI Labs (1,03 milliard de dollars en seed), World Labs (1 milliard) et le chinois Qianxun Intelligence (4,5 milliards de yuans en quatre tours en mars). C'est dans ce contexte qu'Om AI, une startup chinoise, a présenté du 27 au 29 juin 2026 une suite de trois modèles, VLX-Flow, VLX-Seek et VLX-Go, positionnée non pas sur la manipulation dextère ni la planification longue portée, mais sur la perception visuelle continue, la localisation spatiale précise et la navigation autonome. VLX-Flow utilise une attention linéaire (Linear Attention) couplée à une double mémoire (cache visuel et carryover textuel) pour ingérer le flux vidéo en continu, à la différence du paradigme classique qui traite des images isolées. VLX-Seek substitue la génération de coordonnées par une référence de région, fournissant des ancres spatiales à précision millimétrique. VLX-Go produit directement des trajectoires de waypoints exécutables via prédiction court-terme, apprentissage hors-ligne et optimisation RL en ligne.
L'approche d'Om AI soulève un angle mort que les architectures VLA et world model dominantes n'ont pas encore résolu : dans les VLA mainstream, le tronc LLM absorbe plus de 90 % des ressources de calcul et des données, reléguant la tête d'action en composant chroniquement sous-entraîné. Les world models, censés combler ce déficit via la simulation physique, butent sur la rareté des données haute qualité à l'échelle requise. Or, la majorité des terminaux physiques déployés, drones en environnement GPS-dégradé, robots quadrupèdes, lunettes AR, terminaux d'inspection industrielle, n'ont pas besoin de mains dextères : ils ont besoin de localisation fiable et de perception continue. En repositionnant le problème sur la vision edge-native plutôt que sur la génération d'actions complexes, Om AI cible un segment plus large et potentiellement plus rapidement déployable que les humanoïdes, à condition que ses benchmarks se confirment hors des vidéos de démonstration sélectionnées.
NVIDIA a présenté au GTC 2026 Alpamayo (VLA propriétaire) et Isaac GR00T N1.6 (VLA open-source pour humanoïdes) ; Xiaopeng a dévoilé X-Foresight au CVPR 2026 ; Google DeepMind avait publié Genie 3 en août 2025. La Beijing Academy of AI (BAAI) recense quatre routes de world models sans consensus industriel : centrée langage (Gemini 3), pixel (Sora), 3D (World Labs Marble de Fei-Fei Li) et représentation visuelle (V-JEPA de Yann LeCun). Les projections de marché divergent fortement : Future Markets table sur 383 milliards de dollars en 2026 croissant à 32 600 milliards en 2040, tandis que Coatue Management anticipe au moins 6 000 milliards, soit 50 % de plus que le digital AI. Om AI n'a pas encore communiqué de clients industriels nommés ni de volumes de déploiement pour sa suite VLX, ce qui reste la prochaine étape déterminante.
Dans nos dossiers




