Les modèles de fondation visent à doter les systèmes robotiques de connaissances étendues et de capacités de généralisation, afin de s’adapter à une grande diversité de tâches, d’environnements et d’interactions. Inspirés par le succès des modèles de langage et de vision, la communauté robotique explore activement leur utilisation et leur adaptation à des fonctions variées.

Applications concrètes et premiers succès
Les chercheurs explorent déjà des applications prometteuses :
VLM (Vision-Language Models) : ces modèles associent les images et le langage, permettant aux robots de relier ce qu’ils voient à des descriptions ou des consignes.
LLM (Large Language Models) : ces modèles de langage aident les robots à raisonner sur les étapes d’une tâche et à organiser leurs actions.
Cas marquant : Boston Dynamics et Toyota Research Institute (TRI) ont présenté un Large Behavior Model (LBM) appliqué au robot Atlas. Celui-ci réalise des séquences continues mêlant manipulation d’objets et locomotion, illustrant le potentiel des modèles de fondation pour dépasser les limites actuelles.
La recherche actuelle se concentre à la fois sur la compréhension des capacités et limites de ces modèles et sur l’amélioration de leur conception et de leur adaptation afin de les rendre pleinement opérationnels en robotique.
Sources : Boston Dynamics, IEEE Spectrum , arXiv, LinkedIn, IEEE T-RO