Préhension indépendante du point de vue par VLM et obse…

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

42

1arXiv cs.RO

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

Une équipe de chercheurs propose SCALE (Self-uncertainty Conditioned Adaptive Looking and Execution), une méthode d'inférence adaptative pour les modèles Vision-Language-Action (VLA) publiée sur arXiv (2602.04208v2). Contrairement aux approches de test-time scaling (TTS) existantes, SCALE ne nécessite ni entraînement supplémentaire, ni vérificateur externe, ni passes multiples : un seul passage forward suffit. Le système repose sur un mécanisme de self-uncertainty (auto-incertitude) qui module simultanément deux dimensions : la représentation visuelle, c'est-à-dire comment le modèle perçoit la scène, et l'action produite. Inspiré de la théorie de l'inférence active (Active Inference), SCALE élargit son exploration perceptuelle et motrice en situation d'incertitude élevée, et se concentre sur l'exploitation lorsque la confiance est forte. Les auteurs valident l'approche sur des benchmarks simulés et réels, avec des gains mesurés sur plusieurs VLA de l'état de l'art. L'intérêt industriel est direct. Les méthodes TTS existantes pour robots empruntent leur logique aux succès des LLM comme o1, mais exigent des ressources difficilement compatibles avec la production : vérificateurs externes, passes multiples, parfois fine-tuning ciblé. SCALE lève ce verrou en maintenant l'efficacité d'un passage unique, compatible avec des contraintes de temps réel sur systèmes embarqués. Plus structurellement, la méthode adresse un angle souvent ignoré par les approches concurrentes : l'ambiguïté perceptuelle. En conditions réelles, un robot confronté à une scène mal éclairée ou partiellement occultée a autant besoin de reconsidérer sa perception que son action. SCALE couple ces deux dimensions, là où les TTS classiques n'interviennent qu'au niveau du décodage d'action -- une distinction qui compte dès que l'on sort des environnements contrôlés de laboratoire. Le test-time scaling appliqué à la robotique reste un champ en construction. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA visent à généraliser le contrôle robotique via des architectures VLA, mais leur robustesse hors distribution est un problème ouvert. La plupart des améliorations passent encore par du fine-tuning ; SCALE propose une voie alternative en améliorant le comportement à l'inférence sans toucher aux poids du modèle. L'article ne documente pas encore de déploiements industriels à grande échelle, et les benchmarks utilisés restent des environnements relativement balisés. Si la robustesse se confirme dans des configurations non contrôlées, la méthode pourrait s'intégrer comme composant standard dans les pipelines VLA déployés par des acteurs comme Figure AI, Agility Robotics ou 1X Technologies.

IA physiqueOpinion

1 source

3DVLA : amélioration des modèles VLA par la compréhension spatiale 3D et des instances

42

2arXiv cs.RO

3DVLA : amélioration des modèles VLA par la compréhension spatiale 3D et des instances

Une équipe de chercheurs a publié fin mai 2026 sur arXiv (référence 2605.29416) un cadre méthodologique baptisé 3DVLA, conçu pour renforcer les modèles Vision-Language-Action (VLA) en manipulation robotique. Ces modèles, qui combinent perception visuelle, compréhension du langage et génération d'actions motrices, souffrent d'une limitation structurelle : ils opèrent dans un espace de représentation 2D hérité des grands modèles de vision-langage, alors que les robots évoluent dans un environnement tridimensionnel. Ce manque de compréhension spatiale se traduit par trois faiblesses concrètes : extraction insuffisante des positions 3D sans cohérence multi-vue, mauvaise discrimination des instances individuelles dans une scène encombrée, et raisonnement fragile face aux occlusions partielles. 3DVLA propose d'injecter cette compréhension 3D dans des VLA préentraînés sans modifier leur architecture de base ni exiger d'annotations supplémentaires au niveau des instances, un coût souvent prohibitif dans les pipelines existants. Le framework s'appuie sur trois mécanismes complémentaires : un encodage de features 3D avec contraintes de cohérence multi-vue via une méthode dite Spatially-Conditioned Geometry Aggregation (SCGA) ; un module d'estimation d'instances par tokens de haut niveau pour la conscience 3D des objets ; et une branche d'encodage auto-supervisé masqué pour gérer les occlusions par complétion de tokens visuels. Évalué sur les benchmarks LIBERO-Plus et RoboTwin 2.0, le cadre affiche des gains qualifiés de "consistants et significatifs" sur plusieurs architectures VLA de référence, des résultats qui restent toutefois cantonnés à des environnements de simulation standardisés et non à des déploiements terrain. L'enjeu dépasse la performance sur banc de test. Les VLA de nouvelle génération, notamment Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, ont démontré une forte capacité de généralisation, mais butent précisément sur la robustesse aux occlusions et aux scènes encombrées, conditions quasi-universelles en production industrielle. La compatibilité plug-and-play de 3DVLA est sa principale proposition de valeur : applicable à des modèles existants sans réentraînement complet, il ouvre la voie à une amélioration incrémentale des VLA déjà en cours d'évaluation. Ce préprint n'est pas encore évalué par les pairs, mais il s'inscrit dans la dynamique de recherche visant à combler le fossé entre démos contrôlées et déploiement réel, ce que le secteur nomme le demo-to-reality gap.

IA physiqueOpinion

1 source

GCNGrasp-VP : planification de vue guidée par les affordances pour une préhension efficace orientée tâche

43

3arXiv cs.RO

GCNGrasp-VP : planification de vue guidée par les affordances pour une préhension efficace orientée tâche

Une équipe de recherche publie ce mois-ci sur arXiv (référence 2606.19091) GCNGrasp-VP, un framework destiné à améliorer la saisie orientée tâche en robotique de manipulation, en particulier lorsque l'objet cible est partiellement masqué. Le système repose sur deux composants : GCNGrasp-v2, un modèle de préhension qui évalue simultanément la qualité d'une prise et prédit un champ d'affordance en temps constant, et Affordance-VP, un planificateur de points de vue qui utilise ce champ d'affordance comme métrique de gain d'information pour repositionner la caméra du robot vers les zones fonctionnellement pertinentes. Les auteurs rapportent une validation en environnement réel sur des scénarios mono-objet, avec une latence de calcul annoncée à l'échelle de la milliseconde et une correction de point de vue obtenue en un seul déplacement caméra. Le code et les modèles sont rendus publics sur GitHub. L'intérêt technique de cette approche réside dans la dissociation entre perception active et reconstruction de scène. Les méthodes existantes de view planning s'appuient généralement sur une reconstruction 3D complète avant de décider où observer, ce qui introduit une latence incompatible avec les contraintes de cycle industriel. GCNGrasp-VP contourne ce goulot en substituant la carte d'affordance à l'incertitude géométrique comme critère d'exploration, ce qui réduit le nombre d'ajustements nécessaires à un seul dans les tests publiés. Pour les intégrateurs travaillant sur des cellules de picking ou d'assemblage, c'est un angle pertinent : gérer les occlusions partielles sans recourir à un système de vision multi-caméras fixe ou à une reconstruction volumétrique coûteuse. Ce travail s'inscrit dans une tendance plus large vers les modèles de préhension sémantiquement informés, où la notion d'affordance, popularisée par des travaux comme GCNGrasp original et les approches VLA (Vision-Language-Action) de type pi-zero ou GR00T, commence à descendre au niveau de la planification perceptuelle. La contribution reste pour l'instant un preprint non peer-reviewed, validé sur des scénarios mono-objet en laboratoire. Les benchmarks sur des configurations multi-objets avec occlusions sévères, ou dans un contexte industriel réel, n'ont pas encore été publiés. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné.

💬 Ce qui est malin ici, c'est de remplacer la reconstruction 3D complète par une carte d'affordance pour guider la caméra. Un robot qui cherche à voir ce qu'il veut saisir plutôt que de tout reconstruire avant d'agir, c'est un vrai changement de logique dans la perception active, et ça ramène les ajustements caméra à un seul dans les tests. Bon, c'est un preprint sur scénarios mono-objet, donc on garde la tête froide.

IA physiquePaper

1 source

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données

51

4arXiv cs.RO

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données

Des chercheurs publient sur arXiv (arXiv:2605.11114, mai 2025) une méthode baptisée SEVO (Semantic-Enhanced Virtual Observation) visant à résoudre l'un des problèmes les plus documentés des politiques VLA (Vision-Language-Action) et d'apprentissage par imitation : leur effondrement dès qu'elles quittent l'environnement d'entraînement. Sans modification de l'architecture du modèle, SEVO agit sur le flux caméra RGB brut via trois mécanismes combinés : des caméras fixes sur le corps du robot dont les champs de vision couvrent l'intégralité de l'espace de manipulation, un éclairage actif en spectre rouge qui normalise physiquement l'apparence des objets, et une segmentation YOLO en temps réel qui produit une représentation sémantique invariante au fond. Les tests portent sur des bouteilles d'eau transparentes -- objets délibérément difficiles car ils se confondent visuellement avec leur environnement -- dans une tâche de pick-and-place répétée sur deux plateformes mobiles. Avec SEVO, la politique ACT atteint 95 % de succès en environnement d'entraînement et 85 % en environnement inédit ; SmolVLA atteint 83 % et 75 % respectivement. Sans SEVO, ces mêmes politiques plafonnent à 75 %/70 % en entraînement et s'effondrent à 30-35 % hors contexte. Ces résultats remettent directement en cause le paradigme dominant qui consiste à compenser le manque de robustesse par une mise à l'échelle des modèles. Les praticiens de la communauté open source rapportaient déjà des taux de transfert quasi nuls avec les benchmarks ACT et SmolVLA standards, pourtant affichant des scores élevés en laboratoire. SEVO démontre que la conception de l'observation -- ce que le robot "voit" et comment -- combinée à une diversification systématique des données de téléopération (variations d'éclairage, de fond, d'objets distracteurs) constitue le levier de généralisation le plus efficace, bien devant le choix du modèle. Pour un intégrateur ou un COO industriel, l'implication est directe : un robot à bas coût bien "observé" et entraîné sur des données variées surpasse un modèle plus sophistiqué entraîné dans des conditions homogènes. Le contexte est celui de l'essor des toolchains communautaires autour des VLA, notamment les frameworks lekiwi et SO-101 sur lesquels ACT et SmolVLA sont régulièrement évalués. La "sim-to-real gap" et le "domain shift" sont des problèmes ouverts depuis des années dans la manipulation robotique ; des approches comme domain randomization ou data augmentation tentaient déjà d'y répondre par le calcul. SEVO prend le parti inverse : agir sur le hardware d'observation et le protocole de collecte plutôt que sur l'architecture ou la puissance de calcul. Les suites logiques de ces travaux incluent l'extension à des tâches multi-étapes, à des objets plus variés, et potentiellement à des bases mobiles commerciales -- un terrain sur lequel des acteurs comme Boston Dynamics (Spot), AgileX ou les startups européennes de manipulation à coût réduit sont directement concernés.

UESmolVLA, développé par HuggingFace (entreprise franco-américaine), est directement évalué dans cette étude, les équipes européennes travaillant sur la manipulation VLA disposent d'un levier hardware-protocole immédiatement applicable pour multiplier leurs taux de succès hors environnement d'entraînement, sans changer d'architecture ni investir dans des modèles plus lourds.

💬 J'attendais quelqu'un pour le montrer proprement : le domain shift, c'est pas un problème de modèle, c'est un problème d'observation. SEVO passe de 30 à 85 % de succès hors environnement d'entraînement en contrôlant l'éclairage, les angles de caméra et la segmentation temps réel, sans changer une ligne d'architecture. Un robot bas coût bien observé bat un modèle sophistiqué entraîné dans une bulle.

IA physiqueOpinion

1 source

Préhension indépendante du point de vue par VLM et observations partielles

À lire aussi

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

3DVLA : amélioration des modèles VLA par la compréhension spatiale 3D et des instances

GCNGrasp-VP : planification de vue guidée par les affordances pour une préhension efficace orientée tâche

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données