Aller au contenu principal
Cette startup IA nettoie votre maison gratuitement pour entraîner ses futurs robots
IA physiqueThe Verge12h

Cette startup IA nettoie votre maison gratuitement pour entraîner ses futurs robots

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

La startup américaine Shift a annoncé jeudi sur les réseaux sociaux un programme inédit : le nettoyage gratuit de domiciles en échange de données d'entraînement pour robots. Le principe est simple, Shift envoie des agents de ménage équipés de caméras qui filment chaque geste : aspiration, dépoussiérage, lavage de vitres, rangement. Ces vidéos constituent le dataset comportemental que la société utilise pour entraîner ses modèles robotiques. Shift justifie l'économie du deal sur son site : "Vous obtenez un appartement impeccable. Nous obtenons des données d'entraînement. Tout le monde y gagne." Aucun prix de revient ni volume de déploiements n'a été communiqué à ce stade.

Ce modèle économique inversé illustre une tension structurelle du secteur : collecter des données de manipulation en environnement domestique réel reste l'un des goulets d'étranglement les plus coûteux pour entraîner des robots polyvalents. Les espaces domestiques sont non structurés, imprévisibles et très variés, exactement ce qui fait défaut aux datasets synthétiques ou aux environnements d'entrepôt contrôlés. Si Shift valide que la valeur des données couvre effectivement le coût opérationnel des interventions, ce modèle pourrait devenir un template pour d'autres acteurs cherchant à scaler la collecte de données en monde réel sans financement massif en propre.

Shift s'inscrit dans une vague de startups spécialisées dans la collecte de données robotiques, en concurrence avec des initiatives comme celles de Physical Intelligence (pi0) ou les programmes internes de Figure et 1X. La stratégie rappelle aussi les approches de crowdsourcing adoptées dans l'autonome (dashcams, flottes instrumentées). L'équipement porté par les agents, notamment un casque visiblement encombrant visible dans la vidéo promotionnelle, suggère un dispositif de capture multi-angle encore en phase de prototypage. Aucun partenariat industriel ni timeline de produit n'a été annoncé.

À lire aussi

Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel
1Robotics Business Review 

Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel

Tutor Intelligence a inauguré DF1, sa "Data Factory" installée dans une ancienne manufacture de Watertown, Massachusetts : un parc de 100 robots semi-humanoïdes bimanaux baptisés Sonny, destinés à collecter des données réelles pour entraîner son modèle vision-langage-action (VLA) Ti0. Fondée en 2021 par Josh Gruenstein (CEO) et Alon Kosowsky-Sachs (CTO) issus du MIT-CSAIL, la startup revendique avoir constitué la plus grande infrastructure de ce type aux États-Unis. Elle a levé 34 millions de dollars en Série A en décembre 2025, puis tenu une journée portes ouvertes en avril 2026. Entre 45 et 50 téléopérateurs distants au Mexique et aux Philippines pilotent les robots par téleopération proprioceptive pour leur enseigner des tâches de picking, kitting et préparation de commandes e-commerce. En évaluant simultanément le même comportement sur 100 unités, la détection d'anomalies s'effectue 100 fois plus vite qu'en opération solo : un cas limite normalement visible après 8 heures d'opération sur un robot unique devient détectable en 5 minutes de fonctionnement de la flotte. Une méthode de prétraitement baptisée "velocity normalization" standardise les profils de démonstration entre téléopérateurs pour homogénéiser le corpus d'entraînement. L'enjeu central est de s'affranchir de la dépendance à la simulation, un pari sur la donnée réelle là où la majorité des acteurs humanoïdes s'appuient encore sur des environnements synthétiques pour réduire leurs coûts de collecte. La thèse de Gruenstein est directe : sans équivalent robotique de Wikipédia, le transfert d'intelligence à l'échelle industrielle passe nécessairement par des humains enseignant des machines en conditions réelles. DF1 est conçue comme le premier maillon d'un cycle vertueux, déploiements commerciaux, données à l'échelle, amélioration continue de Ti0. Pour les intégrateurs et décideurs industriels, cette approche ouvre une trajectoire vers un modèle généraliste capable d'absorber de nouvelles tâches sans reprogrammation lourde, précisément le verrou économique du marché actuel. Les performances annoncées restent toutefois auto-déclarées, sans validation indépendante. Tutor Intelligence a émergé du MIT-CSAIL en 2021, avant l'essor commercial des VLA. La startup est membre de la première promotion du Physical AI Fellowship, programme co-animé par AWS, NVIDIA et MassRobotics, qui lui fournit ressources de calcul cloud et expertise technique. Dans un paysage concurrentiel où Physical Intelligence (pi0), Figure, Apptronik et Boston Dynamics développent chacun leurs propres stacks d'entraînement, Tutor se différencie en contrôlant à la fois le hardware d'entraînement (Sonny), la plateforme de téleopération et le modèle VLA, sans dépendre d'une simulation propriétaire. L'objectif déclaré est de lancer le premier déploiement commercial humanoïde généraliste, en alimentant la boucle de données depuis la production réelle pour piloter les itérations suivantes. Les conditions commerciales, les performances comparatives de Ti0 et les éventuels clients pilotes n'ont pas encore été communiqués.

IA physiqueOpinion
1 source
Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle
2Interesting Engineering 

Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle

Genesis AI a présenté GENE-26.5, un modèle de fondation robotique conçu pour doter les robots de capacités de manipulation au niveau humain. La vidéo de démonstration publiée par l'entreprise montre des robots accomplissant une séquence culinaire de 20 étapes (couper des tomates, casser un oeuf d'une seule main, coordonner les deux bras pendant la cuisson), ainsi que la préparation d'un smoothie avec service en l'air, des tâches de laboratoire (pipettage, transfert de liquides), du câblage pour assemblage électronique, la résolution d'un Rubik's Cube en manipulation aérienne continue, et l'interprétation d'une pièce de piano rapide. Pour alimenter l'entraînement du modèle, l'entreprise a développé un gant haptique équipé d'une peau électronique à capteurs tactiles, établissant une correspondance 1:1:1 entre la main humaine, le gant et la main robotique. Genesis revendique un coût matériel cent fois inférieur aux solutions de télé-opération conventionnelles, et une efficacité de collecte de données cinq fois supérieure. Le moteur de données associé intègre également des vidéos égocentriques issues de caméras portables et des vidéos publiques centrées sur l'activité humaine. Ces résultats, s'ils se confirment en environnement réel non contrôlé, représentent une avancée potentiellement significative sur l'un des verrous les plus tenaces de la robotique : l'écart d'incarnation (embodiment gap) entre les mains humaines et robotiques, qui limite depuis des années la transférabilité des données d'entraînement. La cartographie 1:1 glove-to-robot est une approche déjà explorée par des acteurs comme Physical Intelligence (pi-0) et plusieurs laboratoires académiques, mais Genesis revendique une démonstration à une échelle et une polyvalence inédites. Pour les intégrateurs industriels et les décideurs cherchant à automatiser des tâches non structurées (assemblage fin, préparation culinaire en volume, logistique d'entrepôt), la promesse d'un système généraliste capable d'apprendre directement des gestes humains quotidiens, sans retraining extensif, représenterait un changement de paradigme. Il faut toutefois noter que les démonstrations sont des vidéos éditées, sans données indépendantes sur le taux d'échec, les conditions d'éclairage, ou la reproductibilité en cycle de production continu. Genesis AI s'inscrit dans un segment en forte concurrence avec Physical Intelligence (pi-0, Berkeley), Figure AI (Figure 03, déployé avec BMW), Tesla (Optimus Gen 3), NVIDIA (GR00T N2) et Apptronik (Apollo). L'approche par gant haptique à bas coût rappelle les travaux d'Enchanted Tools, acteur français du service robotique, qui mise également sur la capture de mouvement humain pour réduire le coût d'entraînement. Genesis n'a pas encore annoncé de déploiements industriels confirmés ni de partenariats nominatifs : GENE-26.5 reste à ce stade une annonce de produit accompagnée d'une démonstration vidéo, pas un système disponible commercialement. L'entreprise indique prévoir le déploiement de ses gants en milieu de travail réel via des partenariats industriels, avec pour objectif de constituer une bibliothèque de compétences humaines à grande échelle pour l'entraînement robotique.

IA physiqueActu
1 source
Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense
3arXiv cs.RO 

Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense

Une équipe de chercheurs a publié MSDP (MultiSensory Dynamic Pretraining), un cadre d'apprentissage par représentation auto-supervisé conçu pour la manipulation robotique en contact étroit. Le système fusionne trois flux sensoriels, vision, force et proprioception, via un encodeur transformer entraîné par autoencoding masqué : l'encodeur doit reconstruire des observations multisensorielles complètes à partir d'un sous-ensemble partiel d'embeddings, forçant l'émergence d'une prédiction inter-modale et d'une fusion sensorielle robuste. Pour l'apprentissage de politiques en aval (downstream policy learning), MSDP introduit une architecture asymétrique originale : un mécanisme de cross-attention permet au critique d'extraire des caractéristiques dynamiques et tâche-spécifiques depuis les embeddings figés, tandis que l'acteur reçoit une représentation poolée stable pour guider ses actions. Sur robot réel, la méthode revendique des taux de succès élevés avec seulement 6 000 interactions en ligne, un chiffre à prendre avec précaution car le papier ne détaille pas précisément le type de robot, les seuils de succès retenus ni le panel de tâches évalué. Les expériences couvrent plusieurs scénarios de manipulation contact-riches, en simulation et sur plateforme physique. L'importance de MSDP tient d'abord à la difficulté structurelle qu'il adresse : l'apprentissage par renforcement multisensoriel est notoirement instable en présence de bruit et de perturbations dynamiques, deux conditions omniprésentes en environnement industriel. Si le chiffre de 6 000 interactions en ligne se confirme sur des tâches variées, il représenterait un signal fort sur l'efficacité des données, goulot d'étranglement critique pour tout déploiement en production. L'architecture asymétrique critique-acteur est un choix peu commun et potentiellement généralisable : elle découple la richesse représentationnelle nécessaire à l'évaluation des états de la stabilité requise pour l'exécution motrice, un compromis que la communauté robotique cherche à résoudre depuis plusieurs années. Pour un intégrateur ou un COO industriel, le préentraînement auto-supervisé sans étiquetage manuel réduit également le coût de déploiement sur de nouvelles tâches ou de nouveaux effecteurs. Le contexte académique de MSDP s'inscrit dans la dynamique de transfert des techniques de préentraînement auto-supervisé, popularisées en vision (MAE de Meta, 2021) et en NLP (BERT, GPT), vers la robotique multisensorielle. La manipulation en contact étroit reste l'un des défis les plus difficiles du domaine, car contrairement au pick-and-place, elle exige une gestion précise des forces de contact et une réponse rapide aux perturbations tactiles. Côté positionnement concurrentiel, des approches comme R3M (Meta) ou les modèles VLA récents (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) explorent des fusions multimodales différentes, mais restent majoritairement centrés sur vision et langage, sans intégration native de la force au stade du préentraînement. Le papier est soumis en version 3 sur arXiv (2511.14427), ce qui témoigne de plusieurs cycles de révision. Les suites naturelles incluent la validation sur bras industriels standards (UR, Franka) et des tâches d'assemblage de précision, terrain où des acteurs européens comme Wandercraft ou les labos de robotique du CNRS pourraient s'appuyer sur ce cadre pour accélérer leurs travaux sur la manipulation dextre.

IA physiquePaper
1 source
Demo-JEPA : architecture prédictive à enchâssement conjoint pour l'imitation inter-robots en une seule démonstration
4arXiv cs.RO 

Demo-JEPA : architecture prédictive à enchâssement conjoint pour l'imitation inter-robots en une seule démonstration

Une équipe de chercheurs publie Demo-JEPA (arXiv:2605.20811, mai 2026), un cadre d'imitation robotique inter-morphologies fondé sur une architecture prédictive à représentation jointe (JEPA). L'approche s'attaque au problème du "cross-embodiment" : permettre à un robot d'apprendre depuis des démonstrations réalisées par un humain ou un robot aux cinématiques radicalement différentes. Plutôt que de copier les actions du démonstrateur, Demo-JEPA infère l'état cible que celui-ci cherchait à atteindre. Le système traduit des démonstrations visuelles brutes en trajectoires latentes futures dans un espace de représentation partagé ; l'agent cible planifie ensuite vers ces sous-objectifs via sa propre dynamique forward apprise par interaction. Les évaluations sur le benchmark RLBench et des tâches de manipulation réelles montrent que Demo-JEPA égale des planificateurs entraînés sur la même morphologie et généralise à des configurations inédites où les méthodes antérieures échouent. L'impact pour les équipes de robotique est potentiellement significatif. Les approches d'imitation existantes requièrent soit un espace d'action commun, soit des heuristiques de retargeting cinématique, soit de larges corpus multi-morphologies cotraînés, comme ceux mobilisés par Physical Intelligence pour pi-0 ou par NVIDIA pour GR00T N2. Demo-JEPA ramène le problème à deux ingrédients : des vidéos de démonstration (humain ou autre robot) et l'expérience propre de l'agent cible. L'aspect "one-shot" revendiqué mérite une nuance : il s'agit d'une seule démonstration par tâche, pas d'un système zéro-shot sans calibration préalable. Reste que la capacité à généraliser à des morphologies non vues lors de l'entraînement représente un pas concret vers des pipelines plus flexibles, où un même corpus vidéo pourrait alimenter des flottes hétérogènes. L'architecture JEPA est issue des travaux de Yann LeCun chez Meta : au lieu de prédire des pixels, elle prédit des représentations latentes compressées, ce qui la rend plus robuste aux détails visuels non pertinents pour la tâche. Dans le paysage du cross-embodiment, les approches dominantes sont actuellement la coformation à grande échelle (RDT-1B, OpenVLA) et le retargeting cinématique par heuristiques. Demo-JEPA propose une troisième voie, plus frugale en données supervisées. L'article demeure un preprint non validé par les pairs, sans partenariat industriel ni timeline de déploiement annoncés.

IA physiqueOpinion
1 source