IA physiqueThe Robot Report 4 juin 2026

Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE Take éditorial

Generalist AI Inc. a annoncé une levée de fonds de 400 millions de dollars, portant son financement total à plus de 500 millions depuis sa création en 2024. Le tour a été mené par Radical Ventures, avec de nouveaux entrants incluant 8VC, Union Square Ventures, Hanabi Capital et Norwest, auxquels s'ajoutent les investisseurs historiques NVentures (NVIDIA), Boldstart Ventures, Spark Capital et Bezos Expeditions. Parmi les investisseurs individuels figurent Fei-Fei Li, Eric Yuan (PDG de Zoom), Bin Lin et Naval Ravikant. Basée à San Mateo, en Californie, la startup développe des modèles fondamentaux destinés à des robots généralistes, capables d'opérer sur différentes architectures matérielles. En novembre 2025, elle avait lancé GEN-0, présenté comme le premier modèle à appliquer les lois de mise à l'échelle (scaling laws) à la robotique physique. En avril 2026, elle a publié GEN-1, avec des métriques communiquées par la société elle-même: taux de succès moyen de 99 % sur des tâches où les modèles précédents atteignaient 64 %, vitesse d'exécution environ trois fois supérieure sur des manipulations dextères, et seulement une heure de données robotiques nécessaires par compétence apprise.

Ces chiffres, s'ils se confirment en conditions industrielles réelles, représenteraient un changement structurel pour la commercialisation de la robotique généraliste. Le principal verrou du secteur reste logiciel: la plupart des intégrateurs investissent encore des semaines de collecte de données pour chaque nouvelle tâche. Un modèle nécessitant une heure de données par compétence transformerait radicalement l'économie du déploiement. Cela dit, les métriques publiées proviennent exclusivement des communications internes de Generalist AI, sans validation indépendante ni précision sur les conditions de benchmark ou la nature des tâches testées. Le concept de "data flywheel", selon lequel les déploiements chez des clients industriels génèrent les données qui alimentent le modèle suivant, est éprouvé dans le logiciel; sa transposition à la robotique physique, avec ses contraintes de sécurité et de variabilité du monde réel, reste à démontrer à l'échelle.

Generalist AI a été fondée en 2024 par Pete Florence (CEO), Andy Zeng (Chief Scientist) et Andrew Barry (CTO), trois chercheurs issus des milieux académiques et industriels de la robotique. La startup s'inscrit dans un marché en forte compétition: Physical Intelligence avec son modèle Pi-0, Figure AI avec le Figure 03, Boston Dynamics, Apptronik et 1X Technologies ciblent tous le même segment des modèles d'IA généralistes pour robots physiques. En Europe, Enchanted Tools et Wandercraft progressent sur des verticales plus ciblées. Avec cette levée, Generalist AI prévoit d'accélérer le développement de modèles de nouvelle génération, d'étendre son infrastructure d'entraînement et de renforcer son moteur de collecte de données physiques. La prochaine étape observable sera la documentation de déploiements industriels concrets chez des clients identifiés, seul critère qui permettra de distinguer les performances en laboratoire de la viabilité commerciale annoncée.

Impact France/UE

La montée en puissance de Generalist AI accentue la pression concurrentielle sur les acteurs européens comme Enchanted Tools et Wandercraft, dont les verticales ciblées et les capacités de financement ne sont pas comparables aux 500 M$ levés par cette startup américaine en moins de deux ans.

💬 Le point de vue du dev

500 millions en deux ans, c'est du sérieux. Ce qui m'intéresse vraiment, c'est pas le chèque, c'est cette histoire d'une heure de données par compétence apprise (contre des semaines pour les intégrateurs actuels). Si ça tient en conditions industrielles, tu changes complètement l'économie du déploiement robotique, mais tous les chiffres sortent de chez eux sans validation externe, donc faut voir les premiers clients réels avant de s'emballer.

Dans nos dossiers

Figure 1X Technologies Boston Dynamics Apptronik Apollo

À lire aussi

1Robotics Business Review

HIVE lève 15 millions de dollars pour développer une IA physique destinée aux machines industrielles

HIVE, startup de physical AI basée à Londres avec des bureaux en Norvège, a annoncé une levée de 15 millions de dollars en pre-série A menée par SuperSeed, avec la participation de Veriten, Skyfall et Nysnø, ainsi que des investisseurs providentiels comme Børge Hald, fondateur de Medallia, et Jørn Lyseggen, fondateur de Meltwater. L'entreprise, dirigée par le cofondateur et PDG Christoffer Jørgensvaag, développe ce qu'elle appelle un "silicon brain", une couche d'intelligence unifiée qui permet à des engins industriels existants de percevoir leur environnement, de décider et d'agir de façon autonome. Concrètement, HIVE ne construit pas de nouveaux robots mais rétrofite des véhicules déjà en service, chargeuses sur pneus, engins d'entrepôts, de lignes de production ou de chantiers, en y ajoutant capteurs et caméras. Un déploiement est déjà opérationnel sur Vikafjellet, un des cols de montagne les plus exposés de Norvège, où le déminage des zones d'avalanche nécessitait auparavant d'attendre plusieurs heures la validation d'un géologue avant d'envoyer une équipe. Avec le silicon brain installé, l'opérateur de la société Presis Vegdrift peut désormais engager une chargeuse immédiatement, pilotée à distance depuis une salle de supervision sécurisée plutôt que depuis la cabine exposée. L'approche de HIVE tranche avec la course aux robots humanoïdes qui domine l'actualité physical AI: plutôt que de fabriquer une nouvelle plateforme robotique, l'entreprise mise sur le rétrofit de flottes industrielles déjà amorties, un pari pertinent pour les intégrateurs et décideurs B2B qui cherchent un retour sur investissement rapide sans remplacer leur parc machine. Le modèle commercial repose sur une boucle d'apprentissage par renforcement mutualisée entre toutes les machines déployées: chaque heure d'exploitation alimenterait cette boucle, avec un objectif affiché de réduction de 80% du coût de l'heure-machine productive. Ce chiffre, non encore audité indépendamment, reste à confirmer à l'échelle, mais illustre la logique de mutualisation des données propre aux acteurs de la conduite autonome industrielle. HIVE a construit ses premiers déploiements en Scandinavie avant d'entamer une expansion aux États-Unis, actuellement en cours. Le positionnement de l'entreprise la distingue des laboratoires centrés sur les modèles vision-langage-action pour robots humanoïdes, comme Physical Intelligence avec Pi-0 ou NVIDIA avec GR00T, en se concentrant plutôt sur l'autonomie de véhicules lourds déjà présents sur le terrain, mines, chantiers, entrepôts. Les prochaines étapes annoncées incluent le renforcement de l'équipe fondatrice, recrutée récemment à l'international, et l'extension des déploiements commerciaux auprès de partenaires industriels nouveaux et existants.

UELe déploiement opérationnel de HIVE en Norvège et sa base londonienne illustrent une approche de rétrofit industriel pertinente pour les acteurs européens du BTP et des mines, mais sans impact réglementaire ou institutionnel direct sur la France.

IA physiqueActu

1 source

2Robotics Business Review

General Intuition lève 320 millions de dollars pour entraîner des robots avec des données de jeux vidéo

General Intuition US Inc. a annoncé cette semaine une levée de fonds de 320 millions de dollars en Série A, portant sa valorisation à 2,3 milliards de dollars et son financement total à 454 millions, après un premier tour de 134 millions en octobre 2025. Le round est mené par General Catalyst et inclut Jeff Bezos, fondateur d'Amazon, et Eric Schmidt, ex-PDG de Google. L'entreprise new-yorkaise, fondée en 2015 par Pim de Witte, développe deux familles de modèles : des action models, qui décident quelle action entreprendre, et des world models, qui prédisent les conséquences de ces actions dans des environnements virtuels ou physiques. La particularité de son approche est la source des données d'entraînement : non pas des vidéos de manipulation robotique ou des simulations synthétiques, mais des milliards de clips de gameplay issus de Medal, une plateforme de partage de moments gaming que de Witte a également cofondée. Ces vidéos sont accompagnées de labels d'action embarqués, qui enregistrent précisément quelle touche le joueur appuie et à quel instant, offrant une supervision dense sur la relation perception-décision-action. L'intérêt de cette approche pour l'IA physique tient à une hypothèse centrale : les modèles entraînés sur du texte décrivent la réalité, ils ne la modélisent pas. Le jeu vidéo, lui, capture un humain qui perçoit un environnement tridimensionnel, anticipe des dynamiques et agit en conséquence, dans des milliers de configurations différentes. Si l'hypothèse tient à l'échelle, cela représenterait un raccourci significatif pour le sim-to-real gap qui plombe la généralisation des politiques robotiques : plutôt que de collecter des téléopérations coûteuses ou de concevoir des environnements simulés ad hoc, General Intuition récupère de la diversité environnementale pour presque rien. La question non résolue reste la transférabilité effective de ces représentations vers des corps physiques avec des dynamiques mécaniques réelles, un point que la société n'a pas encore documenté publiquement avec des benchmarks tiers. General Intuition évolue dans un espace de plus en plus encombré. Des acteurs comme DeepMind avec RT-2 et ses successeurs, Physical Intelligence (pi) avec Pi-0, ou encore Covariant avec RFM-1 misent également sur des fondations visuelles générales pour l'apprentissage de politiques robotiques. La différence revendiquée est l'échelle et la labellisation des données gaming, un corpus que la concurrence ne possède pas. L'entreprise prévoit de rendre son API accessible publiquement à l'été 2026 et d'utiliser le financement pour augmenter sa capacité de calcul et entraîner la prochaine version de son modèle de préentraînement. Aucune annonce de partenariat industriel ou de déploiement sur plateforme robotique physique n'a été communiquée à ce stade : il s'agit d'une phase de précommercialisation axée infrastructure et modèle.

IA physiqueOpinion

1 source

3arXiv cs.RO

IA généralisable par ancrage de représentation et alignement langage-action pour les modèles VLA

Le laboratoire à l'origine de ce travail publie Anchor-Align, une méthode de finetuning pour les politiques vision-langage-action (VLA), décrite dans un article arXiv (2607.13429, juillet 2026, projet en ligne sur anchoralignvla.github.io). Le problème ciblé est concret : quand un modèle vision-langage préentraîné est affiné sur des démonstrations robotiques par clonage comportemental (behavior cloning), il perd progressivement les représentations qui lui permettaient de généraliser visuellement et sémantiquement. Le co-entraînement sur des données web texte-image, remède habituel, ne corrige pas le vrai défaut : les pertes de langage et d'action portent sur des observations différentes, ce qui laisse un désalignement langage-action invisible aux benchmarks de manipulation classiques. Anchor-Align ajoute deux objectifs d'entraînement, l'un qui distille les représentations couche par couche d'une copie figée du VLM d'origine, l'autre qui convertit chaque action cible en étiquette discrète de direction de mouvement pour entraîner conjointement langage et action sur la même observation robotique. Sur un bras robotique physique xArm7, avec deux architectures VLA largement utilisées, les taux de réussite passent de 28% à 54% pour l'une et de 37% à 60% pour l'autre. L'enjeu dépasse la seule courbe de performance : c'est une remise en cause d'un présupposé du secteur des VLA, celui du "plus de données de co-entraînement suffit" pour éviter l'oubli catastrophique. En montrant qu'il existe un désalignement structurel que les benchmarks de manipulation standards ne détectent pas, les auteurs pointent un angle mort méthodologique qui concerne tous les laboratoires construisant des politiques de type RT-2, OpenVLA, Pi-0 ou GR00T. Pour les équipes qui finetunent des VLA pour des tâches industrielles, le message est que préserver les représentations préentraînées et apprendre correctement l'action ne sont pas des objectifs contradictoires, contrairement à l'hypothèse implicite du compromis généralisation-performance. Il faut toutefois noter que la majorité des gains rapportés (LIBERO-PRO, LIBERO-Plus, CALVIN) proviennent de simulation, avec seulement deux architectures testées en conditions réelles sur un unique bras robotique, ce qui limite la portée immédiate pour un déploiement industriel à grande échelle. Le contexte est celui d'une course intense autour des modèles VLA depuis l'émergence de RT-2 puis des systèmes open source comme OpenVLA, où le clonage comportemental sur démonstrations téléopérées est devenu la recette standard malgré ses limites connues de généralisation. Anchor-Align se positionne comme une brique méthodologique plutôt qu'un produit ou un robot, sans annonce de partenariat industriel ni de calendrier de déploiement pour l'instant. La suite logique serait une validation sur davantage d'architectures et de plateformes physiques, ainsi qu'une comparaison directe avec les techniques de co-entraînement existantes utilisées par les acteurs commerciaux du secteur, pour voir si le gain se maintient à l'échelle des flottes industrielles réelles.

IA physiqueActu

1 source

4arXiv cs.RO

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA

Une équipe de chercheurs a publié le 1er mai 2026 (arXiv:2605.00321) un travail introduisant deux outils de diagnostic pour les politiques de type Vision-Langage-Action (VLA) : l'Interventional Significance Score (ISS) et le Nuisance Mass Ratio (NMR). L'ISS est une procédure de masquage interventionnel qui estime l'influence causale de régions visuelles spécifiques sur les prédictions d'action d'un agent robotique. Le NMR est une métrique scalaire qui quantifie dans quelle mesure un modèle s'appuie sur des caractéristiques visuelles non pertinentes pour la tâche plutôt que sur des causes réelles. La méthode reformule l'attribution visuelle comme un problème d'estimation interventionnelle, au sens de la causalité de Pearl, et non comme une simple corrélation statistique. Des expériences sur des tâches de manipulation variées confirment que le NMR prédit le comportement de généralisation, et que l'ISS produit des attributions plus fidèles que les méthodes d'interprétabilité existantes. À noter : le preprint ne publie ni code ni benchmark public, et les métriques de performance sur tâches spécifiques restent peu détaillées dans l'abstract. L'enjeu est direct pour les intégrateurs et les décideurs industriels : les modèles VLA actuellement déployés, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Sanctuary AI, échouent régulièrement hors de leur distribution d'entraînement. Jusqu'ici, identifier pourquoi restait largement empirique. ISS et NMR offrent un test diagnostique pré-déploiement : un NMR élevé signale que le modèle prend ses décisions sur la base de corrélations visuelles parasites (couleur de fond, éclairage, texture du sol) plutôt que sur la structure causale de la tâche. C'est une avancée concrète vers l'analyse formelle du sim-to-real gap, l'un des verrous les plus cités par les équipes d'intégration robotique industrielle, et cela ouvre la voie à des critères de certification hors-distribution avant mise en production. Le problème de l'interprétabilité des politiques robotiques apprises restait largement ouvert. Les méthodes existantes, cartes de saillance par gradient ou rollout d'attention, reposent sur des observations corrélationnelles et ont tendance à surestimer l'importance de features visuelles non causales. Ce travail se positionne explicitement contre ces approches en adoptant un cadre interventionnel rigoureux. Aucune affiliation institutionnelle n'est mentionnée dans le preprint. Les suites naturelles incluent l'application systématique de ces métriques sur des architectures établies comme OpenVLA, Octo ou RoboVLMs, et potentiellement leur intégration comme signal de régularisation pendant l'entraînement. Le papier arrive au moment où Figure AI, 1X Technologies et Agility Robotics intensifient leurs déploiements en environnements industriels réels, rendant la robustesse hors-distribution critique pour la crédibilité commerciale du secteur.

UECes outils de diagnostic pourraient aider les intégrateurs industriels européens à évaluer la robustesse hors-distribution des modèles VLA avant déploiement, et à terme nourrir des critères de certification conformes à l'AI Act.

IA physiquePaper

1 source