Principaux renseignements
- Google DeepMind a dévoilé deux nouveaux modèles d’IA conçus pour doter les robots de capacités améliorées dans des environnements réels.
- Le premier modèle, Gemini Robotics, est construit sur la base de Gemini 2.0, le dernier grand modèle de langage de Google.
- Gemini Robotics intègre la conscience spatiale, l’interaction et la dextérité dans un seul modèle.
Google DeepMind a dévoilé deux nouveaux modèles d’IA conçus pour doter les robots de capacités améliorées dans des environnements réels. Le premier modèle, Gemini Robotics, repose sur Gemini 2.0, le dernier grand modèle de langage de Google. Cette architecture innovante permet à Gemini Robotics de comprendre diverses situations, même celles qui ne font pas partie de ses données d’entraînement.
Carolina Parada, responsable de la robotique chez Google DeepMind, souligne que Gemini Robotics utilise la compréhension multimodale de Gemini 2.0. Cela permet de traduire ces connaissances en actions tangibles dans le monde physique. Le modèle présente des avancées significatives dans trois domaines cruciaux: la conscience spatiale, l’interaction et la dextérité. Au-delà de l’interprétation de nouveaux scénarios, Gemini Robotics excelle dans l’interaction avec les humains et son environnement. Il peut également exécuter des tâches physiques précises, comme plier du papier ou ouvrir une bouteille.
Gemini Robotics-ER
Parada souligne que les progrès précédents de la robotique se concentraient sur des aspects individuels, tels que la compréhension spatiale. L’interaction ou la dextérité faisaient également partie de ces progrès. Cependant, en intégrant ces capacités, Gemini Robotics crée un modèle unique. Cette approche holistique permet de créer des robots plus capables, réactifs et résistants.
Gemini Robotics est complété par Gemini Robotics-ER, un modèle de langage visuel avancé conçu pour comprendre les complexités de notre monde dynamique. Ce modèle est conçu pour gérer des tâches telles que l’emballage d’une boîte à lunch, qui nécessite de comprendre l’emplacement des objets, les mécanismes d’ouverture et le placement des objets. Parada explique que Gemini Robotics-ER vise à faciliter ce type de raisonnement complexe pour les robots.
Développer une nouvelle génération de robots humanoïdes
Pour améliorer les applications dans le monde réel, Google DeepMind s’est associé à Apptronik pour développer la prochaine génération de robots humanoïdes. L’entreprise a également donné accès à son modèle Gemini Robotics-ER à des testeurs de confiance, notamment Agile Robots, Boston Dynamics et Enchanted Tools.
Pour répondre aux problèmes de sécurité liés aux modèles d’IA capables d’actions physiques autonomes, Google DeepMind a mis en œuvre une approche à plusieurs niveaux. Vikas Sindhwani, chercheur chez Google DeepMind, explique que les modèles Gemini Robotics-ER évaluent la sécurité des actions potentielles dans des contextes spécifiques. L’entreprise encourage également activement la recherche sur la sécurité dans l’industrie de l’IA par le biais de nouvelles références et initiatives. L’année dernière, elle a présenté la « Constitution des robots », un ensemble de principes directeurs pour le comportement des robots.
Si vous souhaitez accéder à tous les articles, abonnez-vous ici!