
Préhension volumétrique équivariante
Des chercheurs ont publié sur arXiv (identifiant 2507.18847, troisième révision) un nouveau modèle de planification de saisie robotique volumétrique intégrant des propriétés d'équivariance aux rotations autour de l'axe vertical. Le modèle repose sur une représentation tri-plan : les caractéristiques 3D de la scène sont projetées sur trois plans canoniques (horizontal, frontal, latéral). Sur le plan horizontal, les features sont équivariantes aux rotations de 90°, tandis que la somme des features issues des deux autres plans reste invariante aux réflexions induites par ces mêmes transformations. Les auteurs ont ensuite développé des adaptations équivariantes de deux planificateurs volumétriques de référence, GIGA et IGD. Pour IGD, ils reformulent le mécanisme d'attention déformable en version équivariante. Ils proposent également un modèle génératif des orientations de saisie basé sur le flow matching, une technique de modélisation générative récente. Les résultats expérimentaux, en simulation et en monde réel, montrent une réduction des coûts computationnels et mémoire, ainsi que des performances supérieures à leurs homologues non-équivariants sous contrainte temps réel.
L'apport principal est d'ordre pratique pour les intégrateurs robotiques : l'équivariance permet au modèle de généraliser automatiquement une stratégie de saisie apprise depuis une orientation à toutes les rotations équivalentes, sans qu'il soit nécessaire d'augmenter massivement les données d'entraînement. Cela se traduit directement par une meilleure efficacité d'échantillonnage et une empreinte mémoire réduite, deux contraintes critiques pour le déploiement sur hardware embarqué. Le fait que les gains de performance soient maintenus sous contrainte temps réel -- et non seulement en conditions de laboratoire sans limite de calcul -- est un signal pertinent pour les ingénieurs en robotique manipulation industrielle, souvent contraints par des boucles de contrôle à fréquence fixe.
GIGA et IGD représentent l'état de l'art récent en grasping volumétrique ; les intégrer plutôt que de proposer une architecture from scratch renforce la crédibilité comparative des résultats. Le champ de l'équivariance géométrique dans les réseaux de neurones connaît une activité soutenue depuis plusieurs années, notamment autour des groupes SO(3) et SE(3), mais les applications concrètes au grasping temps réel restent peu nombreuses. Ce travail s'inscrit dans une tendance à exploiter les symétries physiques pour réduire le coût d'apprentissage, une direction qui intéresse aussi bien les labos académiques que des acteurs industriels comme Boston Dynamics AI Institute ou Physical Intelligence (Pi). Le code et les vidéos de démonstration sont accessibles publiquement sur la page projet des auteurs.
Dans nos dossiers




