Recherche — page 13

1770 articles · page 13 sur 36

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Humanoïdes IA physique Industriel FR/EU ecosysteme Chine/Asie Business Exosquelettes Regulation Infrastructure Societe/Ethique Autre

601arXiv cs.RO RecherchePaper

PACT : alignement de sécurité physique auto-évolutif pour les politiques de diffusion en manipulation incarnée

Une équipe de chercheurs publie PACT (Physical safety Alignment for Constrained Trajectories), un cadre d'alignement post-entraînement destiné à rendre les politiques de diffusion robotique conformes à des contraintes physiques strictes, sans accéder aux données de démonstration ni aux récompenses de tâche (arXiv:2606.08414). Les politiques de diffusion, qui génèrent des trajectoires motrices par débruitage itératif, ont connu des succès notables en manipulation robotique mais peinent à satisfaire des contraintes de sécurité fermes en déploiement réel. PACT projette les politiques pré-entraînées dans des régions faisables en distillant des gradients de contrainte via un objectif KL inverse, avec supervision dense à chaque pas de temps du processus de débruitage. Un curriculum progressif resserre graduellement les contraintes tout en maintenant un écart théoriquement borné par rapport à la politique d'origine, limitant l'oubli catastrophique. Sur des benchmarks de manipulation simulée et réelle, PACT réduit les violations de sécurité de 31,0% en moyenne et améliore simultanément le taux de réussite des tâches de 30,7%. Ces résultats interpellent directement les intégrateurs : sécuriser une politique robotique impliquait jusqu'ici soit de contraindre l'entraînement dès le départ, au prix de l'expressivité, soit d'ajouter des garde-fous externes à l'inférence, nuisant à la scalabilité. PACT propose une troisième voie, post-entraînement et sans données supplémentaires, qui permettrait en théorie d'aligner n'importe quelle politique de diffusion existante. Le fait que sécurité et performance progressent conjointement contredit l'hypothèse d'un compromis structurel entre les deux, pourtant largement admise dans le secteur. À noter : l'article ne précise pas les configurations matérielles ni les volumes de données des tests réels, ce qui limite la portée des comparaisons directes. Les politiques de diffusion ont connu une montée en puissance récente, portée notamment par Pi-0 (Physical Intelligence) et d'autres architectures VLA de grands laboratoires. PACT s'inspire des techniques d'alignement post-entraînement développées pour les LLM, de type RLHF, adaptées aux contraintes physiques plutôt qu'aux préférences humaines, et se positionne face aux approches par apprentissage par renforcement contraint et aux filtres CBF (Control Barrier Functions). Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit d'un résultat purement académique, sans pilote industriel annoncé. La validation sur des plateformes humanoïdes complètes et l'intégration dans des pipelines VLA de production restent à démontrer.

Recherche — page 13

PACT : alignement de sécurité physique auto-évolutif pour les politiques de diffusion en manipulation incarnée

HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents

Modèle fondation de comportement perceptif : adapter les a priori de mouvement humain au terrain robotique

DexPIE : amélioration stable des politiques de manipulation à partir de données réelles

QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède

SynManDex : génération de saisies dextériques de type humain à partir de pré-saisies synthétiques

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration

EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet

Revisiter la perception des parties articulées en manipulation robotique

Apprentissage par renforcement dans un espace d'embedding linéaire pour un contrôle généralisable sur différentes configurations de robots souples

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

Objectifs définis par ensembles, pas par états : des buts de robots interrogeables via le réétiquetage rétrospectif par ensemble d'objectifs

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)

OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

AHA-WAM : modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées

Q-VGM : un guidage par gradient de valeur pour les politiques VLA à flux normalisants

Planification et commande de mouvement sûres par polytopes imbriqués et fonctions de barrière de contrôle

IntentNav : apprendre la navigation spatiale vers des objets à partir de démonstrations humaines

Saut à la corde en coopération grâce à l'apprentissage par renforcement multi-agents

DIJIT : une tête robotique pour un observateur actif

Estimation dense des forces par capteur tactile optique à événements

Découverte guidée de nouveaux comportements par politiques de diffusion

Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques

Real-IKEA : la fidélité physique est le prérequis d'une manipulation robuste

IA physique : le middleware robotique comme couche d'intégration

GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D

VGP-Nav : perception géométrique visuelle adaptée aux métriques pour la navigation robotique

Peut-on stabiliser un pendule inversé grâce à une caméra à temps de vol ?

Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange

IA incarnée : traduire les actions en images de mouvement et de contact pour les modèles du monde

Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude

ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action

AetheRock : un système d'enseignement robotique porté au bras pour l'apprentissage vision-tactile guidé par la force

Conception d'actionneurs souples poreux à déformation programmable par anisotropie volumétrique

Formation de formes pour le transport coopératif d'objets quelconques par apprentissage par renforcement multi-agents

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

Algorithme de cinématique inverse par branch-and-bound à intervalles pour la résolution globalement optimale de la redondance

Robot 3D à sauts robustes assisté par hélices avec allocation hiérarchique des forces

Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes

Daimon Robotics et Galbot lancent RobOmni pour évaluer la perception tactile et la manipulation dextérique

Vidéo : un robot maîtrise l'air hockey et bat des humains sans jamais toucher une vraie table

Robot Talk, épisode 159 : captation sensorielle et manipulation robotique, avec Maria Koskinopoulou

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Apprentissage de la représentation du contact pour l'odométrie des jambes

MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation