S2M-Trek : du transport mono-sphère au multi-sphère par Deep Sets par image sur un robot roues-pattes
Une équipe de recherche présente S2M-Trek, un système permettant à un robot quadrupède à roues et pattes de transporter jusqu'à cinq sphères libres simultanément sur son dos, sans grilles, pinces ni butées mécaniques. L'article arXiv (2606.01332) adresse un problème précis en apprentissage par renforcement : plusieurs sphères identiques forment un ensemble non ordonné dont l'ordre peut changer à chaque frame d'historique, créant une symétrie de permutation par frame que les encodeurs Deep Sets à concaténation d'historique (HCDS) classiques ne capturent pas. Entraîné avec PPO sur un budget fixe, le HCDS de référence plafonne à deux sphères sans randomisation des assignations balle-slot ; les MLP plats et encodeurs par branche aussi. La solution proposée, Per-Frame Deep Sets (PFDS), applique un pooling invariant aux permutations à l'intérieur de chaque frame avant lecture temporelle, et les auteurs prouvent formellement son invariance et son approximation universelle des politiques continues invariantes. PFDS atteint le stade cinq sphères avec 100 % de transport sans chute en simulation sur cinq seeds aléatoires. Une distillation via DAgger produit TactSet, qui remplace l'état privilégié des sphères par une carte de contact booléenne 16×16, compacte et naturellement invariante.
Ce résultat révèle un biais structurel non trivial dans les encodeurs d'ensembles temporels : HCDS exploite les indices de slot comme raccourci de curriculum, simulant une généralisation sans apprendre une dynamique vraiment multi-objets sans identité persistante. L'ablation 2×2 (architecture × randomisation des données) montre que les deux corrections ne sont pas interchangeables : PFDS résout le problème architecturalement, indépendamment de l'augmentation de données. Pour les décideurs travaillant sur la manutention d'objets interchangeables en entrepôt ou en logistique, cela suggère que des politiques entraînées sur des configurations identifiées risquent d'échouer en déploiement réel où les objets sont physiquement indiscernables.
S2M-Trek s'inscrit dans la montée des robots à locomotion hybride roues-pattes capables de coupler dynamiquement locomotion et manipulation sans contrainte physique externe. L'approche TactSet, utilisant des cartes de contact binaires basse résolution pour remplacer des observations d'état simulées, ouvre une voie vers le déploiement hardware sans instrumentation coûteuse. Les travaux connexes incluent Transporter Networks et les approches d'RL équivariant, mais ce papier se distingue par le contexte de locomotion active sur objets libres non contraints. L'étape critique restante est le transfert sim-to-real : l'ensemble des résultats est exclusivement en simulation, et les auteurs ne rapportent aucune expérience physique sur robot réel.
Dans nos dossiers




