CoStream : combiner des comportements simples pour une manipulation complexe et généralisable
Une équipe de chercheurs propose CoStream (arXiv 2606.26423), un cadre de manipulation robotique conçu pour atteindre simultanément précision millimétrique et généralisation à de nouvelles tâches. L'article cible des opérations d'assemblage à haute contrainte de contact comme l'insertion d'un GPU dans un slot PCIe, où les approches existantes échouent sur au moins l'un des deux critères. Le système a été validé sur 8 tâches réelles couvrant manipulation quotidienne et assemblage de précision, avec récupération robuste après perturbations manuelles en cours d'exécution.
L'apport central est de rompre avec deux paradigmes dominants : les pipelines classiques, précis mais rigides et coûteux à adapter à chaque nouvelle tâche, et les politiques end-to-end monolithiques, généralisables mais insuffisamment précises hors-distribution sans réentraînement. CoStream orchestre modèles de fondation et modalités de capteurs variées en trois comportements composables : sémantique (extraction de contraintes spatiales via modèles de fondation), prédictif (estimation de trajectoires par tracking de keypoints dans des vidéos imaginées) et réactif (corrections tactiles et de force haute fréquence). Ces sorties se composent par right-multiplication dans l'espace SE(3), produisant une commande de pose unique à chaque pas de contrôle, exécutée par un contrôleur compliant. Les gains les plus significatifs sont observés sur les tâches d'assemblage avec contact et de transfert d'objets, précisément là où la précision et l'adaptabilité sont le plus difficiles à concilier.
CoStream s'inscrit dans la tendance qui cherche à exploiter les modèles de fondation visuels et linguistiques pour la planification robotique, tout en conservant des contrôleurs bas niveau fiables pour l'exécution temps réel. Les approches concurrentes les plus directes sont les VLA monolithiques comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, ainsi que les pipelines hiérarchiques classiques. La décomposition modulaire proposée n'implique pas de réentraînement complet pour chaque nouvelle tâche, ce qui constitue le principal argument de rupture avancé par les auteurs. L'article reste un preprint de recherche sans déploiement industriel annoncé ni partenaire de production mentionné ; les performances à l'échelle et hors environnement de laboratoire contrôlé restent à démontrer.



