Aller au contenu principal
RecherchearXiv cs.RO2h

Estimation de scènes encombrées prêtes pour la simulation par optimisation conjointe de forme et de pose intégrant la physique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie sur arXiv (réf. 2602.20150, v2, février 2026) SPARCS, un pipeline de reconstruction de scènes directement exploitables en simulation physique à partir d'observations réelles. Le système estime simultanément la forme géométrique et la pose de plusieurs objets rigides en interaction, dans des environnements encombrés comportant jusqu'à cinq objets représentés par 22 enveloppes convexes. Deux contributions techniques distinguent l'approche : un modèle de contact à différentiabilité de forme globale permettant l'optimisation conjointe géométrie-pose tout en modélisant les contacts inter-objets, et un solveur linéaire exploitant la sparsité structurée du Hessien Lagrangien augmenté, dont le coût de calcul croît favorablement avec la complexité de la scène. Le pipeline complet enchaîne initialisation par réseau de neurones, optimisation physique contrainte et raffinement différentiable des textures.

L'intérêt industriel est direct : les pipelines d'apprentissage de politiques robotiques, qu'ils reposent sur l'imitation learning ou le reinforcement learning, sont freinés par la rareté de scènes simulées physiquement cohérentes. Générer automatiquement ces scènes à partir du réel réduit le fossé real-to-sim qui fragilise ensuite le transfert sim-to-real. Là où les méthodes existantes échouent dans les environnements denses (coût computationnel prohibitif, robustesse insuffisante, portée limitée à un seul objet), SPARCS traite plusieurs objets en contact simultané. Pour un intégrateur développant des systèmes de manipulation ou un laboratoire travaillant sur des robots humanoïdes, cela ouvre une voie crédible vers la génération automatique de données d'entraînement directement issues de scènes réelles.

Le domaine real-to-sim est en forte expansion depuis 2023, principalement tiré par l'entraînement de modèles vision-action (VLA) comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les approches concurrentes telles que BundleSDF (Meta / University of Washington) privilégient la reconstruction 6-DoF d'objets inconnus, tandis que les méthodes NeRF et 3D Gaussian Splatting maximisent la fidélité visuelle sans garanties physiques. SPARCS se différencie par son orientation explicitement "simulation-ready" : les scènes produites sont directement injectables dans des simulateurs comme MuJoCo ou Isaac Sim. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication ; il s'agit d'une contribution académique sans produit commercial annoncé.

À lire aussi

LeHome : un environnement de simulation pour la manipulation d'objets déformables en contexte domestique
1arXiv cs.RO 

LeHome : un environnement de simulation pour la manipulation d'objets déformables en contexte domestique

Des chercheurs ont publié LeHome, un environnement de simulation open-source consacré à la manipulation d'objets déformables en contexte domestique, accessible en préprint sur arXiv (2604.22363) et accompagné d'une page de démonstration. LeHome couvre un spectre large d'objets typiques des foyers, vêtements, aliments, textiles, avec une modélisation dynamique haute-fidélité destinée à reproduire les interactions complexes que les simulateurs existants peinent à rendre correctement. L'environnement supporte plusieurs morphologies robotiques et place explicitement les robots à faible coût au centre de sa conception, permettant d'évaluer des tâches ménagères de bout en bout sur du matériel à budget contraint. Le problème que tente de résoudre LeHome est structurant pour la robotique domestique : les objets déformables représentent une part massive des tâches quotidiennes (plier du linge, manipuler des aliments, ranger des textiles), mais leur simulation réaliste reste un angle mort des environnements dominants comme Isaac Sim, MuJoCo ou Gazebo. Sans simulation fiable de ces matériaux, le transfert sim-to-real, technique centrale dans l'entraînement des politiques modernes par renforcement ou imitation, produit des modèles qui s'effondrent dès qu'ils quittent les objets rigides. LeHome prétend combler ce fossé en proposant un banc de test scalable, ce qui pourrait accélérer le développement de politiques de manipulation généralistes pour l'environnement résidentiel. Le problème du "deformable gap" est documenté depuis plusieurs années : des projets comme DexDeform (Stanford), SoftGym ou PyBullet Cloth ont proposé des approches partielles, sans jamais couvrir l'ensemble des catégories domestiques avec un accent sur les plateformes accessibles. LeHome s'inscrit dans un mouvement plus large où des laboratoires ciblent explicitement le segment low-cost, Boston Dynamics, Figure ou 1X restant hors de portée de la plupart des équipes académiques. À ce stade, il s'agit d'un préprint sans validation industrielle ni déploiement annoncé : la crédibilité du projet dépendra de la capacité des auteurs à démontrer un transfert réel sur des plateformes concrètes telles que Low Cost Robot, SO-ARM ou des équivalents open-hardware.

UELes équipes académiques européennes travaillant sur la manipulation domestique pourraient adopter LeHome pour entraîner des politiques sur plateformes low-cost open-hardware, mais aucun impact institutionnel ou industriel direct n'est documenté à ce stade.

RecherchePaper
1 source
ShapeGrasp : complétion de forme et préhension visuo-haptiques simultanées pour une manipulation robotique améliorée
2arXiv cs.RO 

ShapeGrasp : complétion de forme et préhension visuo-haptiques simultanées pour une manipulation robotique améliorée

ShapeGrasp est un pipeline de manipulation robotique itératif présenté en mai 2025 sur arXiv (2605.02347), qui couple reconstruction de forme 3D implicite avec planification de saisie par simulation physique. À partir d'une seule image RGB-D, le système infère la forme complète d'un objet partiellement occulté (nuage de points ou maillage triangulaire), génère des candidats de saisie par simulation de corps rigides, puis exécute la prise jugée optimale. Après chaque tentative, les contacts tactiles enregistrés et le volume occupé par le préhenseur sont fusionnés pour affiner le modèle 3D de l'objet. En cas d'échec, le système re-estime la pose et re-planifie depuis la forme mise à jour. Validé sur deux robots distincts et deux types de préhenseurs, l'approche atteint 84 % de taux de succès avec un préhenseur à trois doigts et 91 % avec un préhenseur à deux doigts, tout en améliorant la qualité de reconstruction 3D sur l'ensemble des métriques retenues. La manipulation d'objets inconnus ou partiellement visibles reste un verrou majeur en robotique industrielle. La plupart des systèmes de grasping actuels reposent sur une estimation visuelle initiale figée, sans correction post-tentative. ShapeGrasp introduit une boucle de raffinement perceptif où chaque échec enrichit la représentation géométrique de l'objet, reproduisant ainsi la stratégie d'exploration tactile humaine face à un objet non familier. Les auteurs affirment qu'il s'agit de la première approche à mettre à jour une représentation de forme après une saisie réelle, et non en simulation, ce qui comble un écart important entre résultats de labo et conditions opérationnelles réelles. Pour les intégrateurs industriels, cette correction itérative réduit la dépendance aux modèles CAO préalables et aux conditions d'éclairage maîtrisées, deux contraintes structurantes dans les environnements de production variables. La complétion de forme pour la manipulation robotique croise vision 3D (réseaux d'occupation implicite, PointNet) et perception tactile (capteurs GelSight, Digit). Des systèmes concurrents comme Contact-GraspNet ou GraspNeRF opèrent sur des représentations visuelles statiques, sans exploitation du retour haptique post-saisie. ShapeGrasp s'inscrit dans une tendance plus large de systèmes multimodaux couplant vision et proprioception, visible également dans les plateformes humanoïdes récentes (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA). Le travail est actuellement un preprint arXiv non encore soumis à une conférence majeure du domaine (ICRA, IROS, RSS), et les conditions expérimentales détaillées, notamment les familles d'objets testés, les vitesses de cycle et les contraintes d'environnement, n'ont pas encore été publiées dans leur intégralité.

RecherchePaper
1 source
PISTO : inférence proximale pour l'optimisation stochastique de trajectoires
3arXiv cs.RO 

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires

Des chercheurs ont publié sur arXiv (arXiv:2605.07215) un algorithme de planification de trajectoires robotiques appelé PISTO (Proximal Inference for Stochastic Trajectory Optimization). Leur contribution centrale est de démontrer que STOMP, méthode stochastique classique, minimise implicitement une divergence KL par rapport à une distribution de trajectoires de Boltzmann, révélant une structure d'inférence variationnelle (VI) sous-jacente. PISTO exploite cette observation en ajoutant une régularisation KL entre propositions gaussiennes successives, ce qui stabilise les mises à jour et produit une interprétation de type trust-region. L'algorithme reste entièrement sans dérivées et s'appuie sur un échantillonnage Monte Carlo à pondération d'importance. Sur les benchmarks de planification de bras robotiques, PISTO atteint 89 % de taux de succès contre 63 % pour CHOMP et 68 % pour STOMP, tout en générant des trajectoires plus courtes et plus lisses, à deux fois la vitesse des méthodes stochastiques concurrentes. Des validations complémentaires sur des tâches de locomotion et manipulation contact-rich en simulation MuJoCo montrent des performances supérieures aux baselines CEM et MPPI en termes de récompense cumulée. Pour les intégrateurs et ingénieurs en planification de mouvement, l'absence totale de dérivées est une caractéristique décisive : elle permet de traiter des fonctions de coût non-différentiables ou discontinues, fréquentes dans les environnements industriels réels (détection de collisions, zones interdites, contraintes non paramétriques). Le gain de vitesse d'un facteur deux par rapport aux méthodes stochastiques existantes réduit directement les temps de cycle dans les applications de planification en ligne, point critique pour la robotique collaborative et les systèmes pick-and-place haute cadence. La validation sur MuJoCo avec contacts ouvre des perspectives vers la locomotion humanoïde et la manipulation dextre, bien que ces résultats restent pour l'instant entièrement simulés, sans validation sur matériel physique. PISTO s'inscrit dans la lignée de STOMP (développé chez Willow Garage et présenté à l'ICRA 2011) et de ses concurrents gradient-based tels que CHOMP, ainsi que des méthodes stochastiques modernes MPPI (popularisé par NVIDIA en 2017) et CEM. Soumis comme preprint arXiv sans révision par les pairs à ce stade, l'article n'annonce ni déploiement industriel ni partenariat commercial. Son impact pratique dépendra de la mise à disposition du code source et de validations expérimentales sur robot réel, étapes absentes de la publication actuelle.

RecherchePaper
1 source
Scensory : perception olfactive robotique en temps réel pour l'identification conjointe et la localisation de source
4arXiv cs.RO 

Scensory : perception olfactive robotique en temps réel pour l'identification conjointe et la localisation de source

Des chercheurs ont publié sur arXiv (référence 2509.19318, version révisée en 2026) un système baptisé Scensory, conçu pour doter les robots d'une capacité olfactive temps réel appliquée à la détection de contaminations fongiques en intérieur. Le framework repose sur des réseaux de capteurs VOC (composés organiques volatils) bon marché et à sensibilité croisée, couplés à des réseaux de neurones capables d'analyser de courtes séries temporelles de 3 à 7 secondes. Sur un panel de cinq espèces fongiques testées en conditions ambiantes, Scensory atteint 89,85 % de précision pour l'identification de l'espèce et 87,31 % pour la localisation de la source. Les deux tâches sont résolues simultanément, à partir d'un même flux de données capteurs. Ce résultat est techniquement significatif parce que les signaux chimiques en diffusion libre sont particulièrement difficiles à exploiter : contrairement à la vision ou au toucher, où le signal est directionnel et localisé, les panaches olfactifs se dispersent de manière stochastique selon les flux d'air ambiants. Que des capteurs VOC grand public, combinés à un apprentissage supervisé sur données collectées automatiquement par le robot, permettent de relier dynamique temporelle du signal et position spatiale de la source change l'équation économique du nez électronique embarqué. Jusqu'ici, la perception chimique robotique supposait soit des capteurs spécialisés coûteux, soit des conditions contrôlées de laboratoire. Scensory suggère qu'une approche data-driven sur matériel accessible peut combler une partie de ce fossé. Le domaine de l'olfaction robotique reste nettement en retard sur la vision et la manipulation, malgré des travaux académiques réguliers depuis les années 2000 sur les nez électroniques (e-nose) et la navigation par gradient chimique. Les applications visées par Scensory, inspection de bâtiments, monitoring environnemental indoor, contrôle qualité alimentaire, n'ont pas encore de solution robotique commerciale établie. Le papier reste un résultat académique sur arXiv sans déploiement annoncé ni partenaire industriel identifié ; les performances reportées devront être validées sur un spectre élargi d'espèces, de conditions d'humidité et de géométries de pièce avant d'envisager une intégration produit.

RecherchePaper
1 source