RechercheRobotics Business Review 3 juin 2026

L'équipe de Boston University remporte le MassRobotics Form & Function Challenge au Robotics Summit

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Lors du Robotics Summit & Expo de Boston fin mai 2026, MassRobotics a dévoilé les lauréats de sa quatrième édition du Form & Function Robotics Challenge, compétition annuelle réservée aux équipes universitaires. Quinze équipes issues d'établissements nord-américains et internationaux -- MIT, Purdue, WPI, Laval, UPenn, University of British Columbia, Waterloo, Manipal Academy de Dubaï, entre autres -- ont présenté leurs projets devant un jury d'experts de l'industrie. La première place et le prix du public reviennent à l'équipe de Boston University pour AGROBOT T.O.M., un robot de récolte de précision monté sur portique gantry, conçu pour l'agriculture verticale et indoor. Le système parcourt de façon autonome les bacs de culture, s'appuie sur un pipeline lidar et vision/machine learning pour détecter les fruits, évalue maturité et état via des indicateurs de couleur et taille, puis récolte uniquement les fruits qualifiés grâce à un préhenseur à actionnement pneumatique souple. La deuxième place revient à Northeastern University pour un mécanisme plan dédié à la métrologie, et la troisième à WPI pour un chargeur centrifuge pour l'automatisation de laboratoire. Les sponsors -- AMD, Dassault Systèmes, Harmonic Drive, maxon, Mitsubishi Electric -- ont fourni composants et logiciels aux équipes participantes.

AGROBOT T.O.M. illustre une tendance concrète dans la robotique agricole : l'intégration bout-en-bout de perception, décision et manipulation dans un système autonome déployable en environnement contrôlé. Le choix d'un préhenseur souple pour des fruits fragiles, couplé à un pipeline de qualification visuelle en temps réel, répond directement aux freins commerciaux du secteur -- taux de casse, faux positifs, adaptabilité à des variétés multiples. Ce type de projet étudiant sert aussi d'indicateur avancé des priorités technologiques de l'industrie : la sélection de sujets autour de la métrology robotique (Northeastern) et de l'automatisation de labo (WPI) confirme l'intérêt croissant pour des niches à haute valeur ajoutée, moins médiatisées que l'humanoïde mais commercialement plus matures.

MassRobotics est un hub à but non lucratif basé à Boston qui fédère startups, laboratoires et grands industriels autour de la robotique physique. En parallèle de la compétition, l'organisation a présenté son Startup Alley avec treize startups résidentes -- dont Ava Robotics, XYZ Robotics, TP7 AI Robotics et LabyrinthAI -- et annoncé la deuxième promotion de son Physical AI Fellowship, programme de huit semaines en distanciel co-organisé avec NVIDIA et AWS. Cette cohorte réunit neuf startups, parmi lesquelles Haply Robotics (interface haptique, Canada), Telexistence (Japon), Burro (robots agricoles) et Roboto AI. Le fellowship vise l'accélération au stade de l'intégration matérielle et logicielle, là où la plupart des startups physiques butent sur le passage à l'échelle. Aucune date de démo publique ni de commercialisation n'a été communiquée pour les projets du fellowship.

Dans nos dossiers

IA physique & VLA

À lire aussi

1arXiv cs.RO

WatchAct : un benchmark de manipulation robotique fondée sur le comportement

Une équipe de chercheurs a publié WatchAct (arXiv:2606.26443), un nouveau benchmark pour la manipulation robotique fondé sur l'observation du comportement humain. Contrairement aux évaluations existantes, qui associent une instruction textuelle à une image statique, WatchAct impose aux systèmes robotiques de raisonner à partir d'une vidéo montrant un humain accomplir une tâche, puis d'en déduire un plan d'action exécutable. Le benchmark comprend 3 000 instances réparties sur 14 tâches dans quatre domaines cognitifs : compréhension des événements (Event Grounding), récupération de la structure procédurale (Procedural Reasoning), inférence d'intentions implicites (Implicit Intent Inference) et suivi des modifications de scène (Episodic Reasoning). Chaque instance couple une vidéo réelle, une instruction en langue naturelle, une scène simulée dans le framework LIBERO et une tâche exécutable sur un robot Franka Research 3. Le meilleur pipeline testé, associant Gemini-3.1-Pro et le modèle π₀.₅ de Physical Intelligence, atteint seulement 16,3 % de taux de réussite en simulation et 14,0 % sur robot réel. Ces chiffres révèlent un fossé considérable entre capacités humaines et systèmes actuels. Sur la seule composante de planification vidéo-vers-plan, Gemini-3.1-Pro obtient 36,8 % de Plan SR, contre 97,1 % pour les humains, soit un écart de plus de 60 points de pourcentage. Même avec un plan oracle fourni directement, sans recours à un VLM, π₀.₅ ne dépasse pas 21,5 % de Task SR, et chute à 10,6 % sur des scénarios hors domaine. Le protocole d'évaluation décomposé de WatchAct, qui mesure séparément le raisonnement VLM, l'exécution de la politique robotique et la performance bout-en-bout, est méthodologiquement précieux : il permet d'identifier précisément où chaque composant échoue, plutôt que d'observer un taux global difficile à interpréter. Pour les intégrateurs et les équipes R&D industrielles, ce résultat indique que ni les grands modèles vision-langage actuels ni les politiques de manipulation ne sont prêts pour des scénarios de collaboration humain-robot en environnement non structuré. WatchAct s'inscrit dans une tendance de fond visant à dépasser les benchmarks « instruction + image unique » qui ne capturent pas la complexité temporelle du travail réel en atelier ou en logistique. Les évaluations existantes comme LIBERO (utilisé ici comme substrat de simulation), RoboSuite ou BridgeData évaluent principalement l'exécution sous contraintes statiques. WatchAct introduit une dimension de video-grounding qui rapproche l'évaluation des conditions réelles, où un robot doit comprendre ce qu'un collègue humain vient de faire pour enchaîner correctement. Le modèle π₀.₅ est développé par Physical Intelligence, l'une des startups VLA les plus suivies du secteur aux côtés de Figure AI, Agility Robotics et 1X Technologies. Aucun acteur européen n'est impliqué dans ce benchmark. Le dataset et le code sont disponibles publiquement ; les prochaines étapes naturelles incluent l'intégration de modèles de raisonnement vidéo plus récents et l'extension à des scénarios multi-agents.

RechercheOpinion

1 source

2arXiv cs.RO

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

Une équipe de chercheurs a publié le 10 mai 2026 sur arXiv un travail (2605.07381) remettant en cause une pratique répandue dans l'adaptation des modèles Vision-Language-Action (VLA) à des robots réels : la collecte de démonstrations aussi variées que possible. Leur étude formalise ce qu'ils appellent un "piège de la diversité", le fait que, sous un budget de données fixe et limité, multiplier les conditions uniques introduit un bruit d'estimation qui ne converge pas vers zéro, dégradant finalement la fiabilité de la politique apprise. Pour le quantifier, ils décomposent l'erreur de politique en deux composantes : un terme d'estimation lié à la densité des démonstrations, et un terme d'extrapolation lié à la couverture des conditions. Ils montrent qu'il existe un point optimal intérieur, c'est-à-dire non aux extrêmes, pour l'allocation des configurations uniques avec un budget contraint. Sur cette base, ils proposent l'Anchor-Centric Adaptation (ACA), un cadre en deux étapes : d'abord stabiliser un squelette de politique via des démonstrations répétées sur des ancres centrales, puis étendre sélectivement la couverture vers des zones à haut risque d'erreur via un "teacher-forced error mining" et des mises à jour résiduelles contraintes. Des expériences sur robot réel valident l'approche et montrent des taux de succès supérieurs à la stratégie diversifiée standard avec le même budget. Ce résultat a des implications directes pour les équipes qui tentent de déployer des VLA généralistes, tels que pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, sur des plateformes matérielles spécifiques. Le coût de collecte de démonstrations physiques est élevé, et la pratique habituelle consistant à "maximiser la diversité" repose sur une intuition empruntée au machine learning classique qui ne tient pas ici. ACA suggère qu'un protocole structuré, ciblant d'abord la répétabilité sur des configurations critiques avant d'explorer les marges, peut réduire significativement les besoins en données tout en améliorant la robustesse. Cela touche directement le "reality gap" : les VLA entraînés en simulation ou en général échouent souvent à l'adaptation fine non pas par manque de couverture, mais par instabilité statistique sur les ancres critiques. Le travail s'inscrit dans un mouvement plus large de rationalisation du fine-tuning des VLA pour des applications industrielles, où chaque heure de télé-opération coûte cher. Les approches concurrentes incluent DAgger, des méthodes de résidual policy learning, et diverses stratégies de curriculum. Ce papier est un preprint non encore évalué par les pairs ; les expériences réelles décrites restent à reproduire indépendamment. Les prochaines étapes probables incluent une validation sur plusieurs plateformes (bras industriels, manipulateurs mobiles) et une intégration dans des pipelines de déploiement VLA existants.

RechercheOpinion

1 source

3arXiv cs.RO

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

Une équipe de chercheurs a publié sur arXiv (ref. 2404.19670) un framework baptisé RAPIDDS, conçu pour améliorer la collaboration entre humains et robots dans des environnements industriels répétitifs, typiquement les lignes de fabrication. Le système opère sur plusieurs cycles de travail successifs : à chaque cycle, il apprend les comportements spatiaux (trajectoires réelles empruntées par l'opérateur) et temporels (temps effectifs de réalisation de chaque tâche) propres à l'individu face à lui. Ces modèles personnalisés alimentent ensuite deux mécanismes couplés : un planificateur de tâches qui réorganise allocations et séquençages, et un modèle de diffusion qui steer les trajectoires du robot en temps réel pour éviter les zones de proximité critique. Les expériences ont été conduites en simulation, puis sur un bras robotique à 7 degrés de liberté (7-DOF) dans un scénario physique, et validées par une étude utilisateur portant sur 32 participants (n=32). Les résultats montrent une amélioration significative sur des indicateurs objectifs (efficacité, distance de proximité) et subjectifs (fluidité perçue, préférence utilisateur) par rapport à un système non adaptatif. L'apport central de RAPIDDS réside dans la jonction de deux niveaux d'adaptation longtemps traités séparément dans la littérature. Les méthodes de planification de tâches optimisaient l'allocation et le séquençage mais ignoraient les interférences spatiales en situation de proximité étroite ; les méthodes de niveau motion se concentraient sur l'évitement de collision sans tenir compte du contexte global de la tâche. Unifier les deux, en les calibrant sur un modèle individuel mis à jour cycle après cycle, représente un changement concret de posture pour les déploiements industriels : le robot ne s'adapte pas à un opérateur générique, mais à la personne précise qui travaille ce jour-là, avec ses rythmes et ses habitudes de déplacement. Ce travail s'inscrit dans un courant plus large d'utilisation des modèles de diffusion pour la génération de trajectoires robotiques, un terrain que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) exploitent côté manipulation généraliste. RAPIDDS se distingue par sa focalisation sur la couche adaptation humain-robot plutôt que sur la polyvalence du modèle de motion. Le papier reste pour l'instant un preprint arXiv non encore soumis à peer-review, et aucun déploiement industriel ni partenariat avec un intégrateur n'est mentionné. La prochaine étape naturelle serait une validation sur des opérateurs en conditions réelles de production, avec une diversité de profils moteurs, pour tester la robustesse de la personnalisation au-delà d'un environnement contrôlé.

RecherchePaper

1 source

4arXiv cs.RO

PointAction : les points 3D comme représentation universelle des actions pour le contrôle robotique

Des chercheurs ont publié le 3 juin 2026 PointAction (arXiv:2506.03943), un cadre de contrôle robotique qui fait le pont entre les Video-Action Models (VAMs) et les commandes exécutables sur bras physique. Le constat de départ est précis : les modèles vidéo entraînés uniquement sur du RGB ne permettent pas de contraindre la géométrie de contact 3D ni les marges spatiales métriques nécessaires à la manipulation, rendant le grounding des actions ambigu. PointAction répond à ce problème en affinant un modèle de génération vidéo de fondation pour prédire simultanément des frames RGB futurs et des pointmaps 3D dynamiques, produisant une représentation 4D (3D + temps) cohérente de la scène. Ces cartes de points servent d'interface structurée et embodiment-agnostic entre prédiction vidéo et contrôle moteur, qu'un décodeur d'actions basé sur la diffusion traduit ensuite en commandes exécutables. Les résultats publiés indiquent une qualité de génération 4D état de l'art sur scènes robotiques, une supériorité sur les baselines existantes en simulation, et une généralisation à deux bras robotiques absents du préentraînement. L'enjeu pour les intégrateurs est concret. Les VAMs peinent depuis plusieurs années à franchir le fossé entre rollout vidéo convaincant et action physique fiable : le RGB seul ne transmet ni la profondeur métrique, ni l'orientation des surfaces de contact, ni les tolérances de précision requises. En intercalant une couche intermédiaire explicite, les pointmaps 3D dynamiques, PointAction décompose le problème et réduit structurellement l'ambiguïté d'ancrage. L'interface embodiment-agnostic réduit aussi le coût de supervision nécessaire pour adapter un modèle à une nouvelle plateforme, argument concret pour les intégrateurs multi-robots. La généralisation à des bras non vus en préentraînement contredit partiellement l'hypothèse dominante selon laquelle les architectures VLA (Vision-Language-Action) exigent des volumes massifs de données spécifiques par embodiment, bien qu'aucun chiffre de transfert à l'échelle industrielle ne soit publié. PointAction s'inscrit dans une vague de recherche exploitant les modèles de diffusion vidéo pour la robotique, dans le sillage de pi-0 de Physical Intelligence, de GR00T N2 de NVIDIA et d'OpenVLA. La représentation en points 3D fait écho à des travaux antérieurs comme Tracking Any Point (TAP) ou 3D-DiffuserActor, mais PointAction les intègre dans la boucle de génération plutôt qu'en post-traitement. Le papier reste à l'étape pré-print arXiv, sans validation indépendante ni déploiement industriel annoncé ; les prochaines étapes probables incluent une extension à des manipulateurs à plus haut degré de liberté et à des configurations mobiles, ainsi qu'une intégration avec des pipelines VLA existants.

RechercheOpinion

1 source