Avec le lancement de Gemini, Google espère prendre la tête de la course à l'IA
Google va commencer le 6 décembre à déployer Gemini, son nouveau modèle d'intelligence artificielle (IA) censé lui permettre de mieux rivaliser avec OpenAI (le créateur de ChatGPT) et Microsoft, des applications pour le grand public aux capacités informatiques pour les entreprises. "C'est notre modèle d'IA le plus conséquent, le plus doué et aussi le plus général", a assuré Eli Collins, un vice-président de Google DeepMind, le laboratoire de recherche en IA du groupe californien, lors d'une présentation à la presse. Il a ensuite diffusé une vidéo où un utilisateur montre des objets, des dessins et des vidéos à Gemini.
Le système d'IA commente à l'oral ce qu'il "voit", identifie les objets, joue de la musique et répond à des questions requérant un certain degré d'analyse, en justifiant son "raisonnement". Par exemple, face à l'image d'un canard en plastique qui doit choisir entre deux chemins - celui de gauche menant vers un autre canard dessiné sur le papier et celui de droite vers un ours à l'air menaçant - Gemini suggère le chemin de gauche car "il vaut mieux se faire des amis plutôt que des ennemis". La vidéo démontre aussi que Gemini peut reconnaître des références avec très peu de contexte, comme une scène du film Matrix jouée par une personne qui fait semblant d'éviter des balles au ralenti.
Raisonnement
Le nouveau modèle est "multimédia dès sa création, il a des capacités de raisonnement sophistiquées et il peut coder à un niveau avancé", a détaillé Eli Collins. Selon lui, Gemini est le premier modèle d'IA à surpasser des experts humains à un test standard dans l'industrie, le "MMLU", qui sert à évaluer les capacités de ces programmes informatiques à raisonner dans différents domaines, des mathématiques à l'histoire et au droit. Google, leader de l'IA pris de court par le succès phénoménal de ChatGPT, a répondu notamment avec son propre chatbot, Bard. Mais tout se joue au niveau des modèles, les systèmes informatiques qui sous-tendent ces applications, d'abord gavés de textes récoltés en ligne, et désormais nourris avec toutes sortes de données pour traiter des requêtes contenant des images et discuter oralement avec ses utilisateurs. OpenAI avait indiqué en septembre qu'elle avait doté ChatGPT de la parole et de la vision pour le rendre "plus intuitif".
Gemini, "c'est une étape de plus vers notre vision: vous amener le meilleur collaborateur d'IA au monde", a de son côté souligné mercredi Sissie Hsiao, vice-présidente de Google chargée de Bard. Bard doit gagner en capacités dès mercredi, mais toujours avec des requêtes rédigées, et seulement en anglais. Il faudra attendre 2024 pour les autres fonctions et formats, comme l'aide avancée à la résolution de problèmes de maths. Moins connu que ChatGPT, Bard a l'occasion d'essayer de regagner du terrain sur son rival, victime de son succès: mi-novembre, débordé par la demande, OpenAI a en effet mis sur pause les abonnements à la version payante.
Une première version le 13 décembre
Google va aussi donner accès le 13 décembre à une première version de Gemini à ses clients dans le cloud (informatique à distance), dont les développeurs qui se servent de sa plateforme Vertex AI pour créer leurs propres applications d'IA. Sur ce terrain, le géant d'internet est en concurrence directe avec Microsoft, principal investisseur d'OpenAI et numéro 2 mondial du cloud, derrière Amazon. Les deux groupes américains ont passé l'année à ajouter des outils d'IA générative à leurs logiciels respectifs (moteur de recherche, logiciels de bureautique et productivité, plateforme de cloud, etc.) "Cette nouvelle ère de modèles représente l'un des plus grands efforts scientifiques et techniques que nous ayons entrepris en tant que société", a déclaré Sundar Pichai, le patron de Google, cité dans un communiqué.