Des rumeurs évoquaient depuis plusieurs jours un possible report du lancement de Gemini, la nouvelle IA générative de Google capable de surpasser Chat GPT. C’était sans compter sur les ambitions de son PDG Sundar Pichai de s’imposer comme le leader dans ce domaine. Selon lui, « cette nouvelle ère de modèles représente l’un des plus grands efforts en matière de science et d’ingénierie » que l’entreprise ait jamais réalisés.
Le 6 décembre, la filiale d’Alphabet a pris tout le monde de court en annonçant son nouveau modèle de langage (LLM) dénommé Gemini. Selon les chiffres annoncés par Google, son nouvel outil serait plus performant que ChatGPT dans presque tous les domaines. La firme de Mountain View présente son IA comme « le premier modèle à surpasser les experts humains sur la MMLU (compréhension massive du langage multitâche), l’une des méthodes les plus populaires pour tester les connaissances et les capacités de résolution de problèmes des modèles d’IA ». Gemini a obtenu un score de 90 % contre 89 % pour les experts humains (MMLU) et 84,4 % pour ChatGPT 4, la dernière itération de l’agent conversationnel d’Open AI.
Développé par diverses équipes de Google, y compris Google Research, Gemini est un modèle nativement multimodal, capable de traiter et combiner divers types d’informations, y compris le texte, le code, l’audio, l’image et la vidéo. Demis Hassabis, PDG et cofondateur de Google DeepMind, le qualifie de « modèle le plus performant et le plus avancé » jamais créé par Google.
Gemini se décline en trois versions :
Gemini Ultra : le modèle le plus puissant présenté à ce jour et qui surclasse ChatGPT selon les benchmarks.
Gemini Pro : le modèle le plus polyvalent, capable d’accomplir plusieurs tâches.
Gemini Nano : un modèle léger pouvant fonctionner localement sur un appareil sans connexion internet.
« Nous avons testé rigoureusement nos modèles Gemini et évalué leurs performances sur une grande variété de tâches. De la compréhension naturelle de l’image, de l’audio et de la vidéo au raisonnement mathématique, les performances de Gemini Ultra dépassent les résultats actuels de pointe sur 30 des 32 repères académiques largement utilisés dans la recherche et le développement de grands modèles langagiers (LLM) », a annoncé Google.
Pour l’instant, Gemini en version Pro est uniquement disponible en anglais dans 170 pays via Bard, l’outil conversationnel de Google. Mais, la firme promet d’étendre sa disponibilité à d’autres langues et pays « dans un proche avenir ».
Le Google Pixel 8 Pro sera le premier smartphone équipé de Gemini Nano, offrant des fonctionnalités telles que le résumé des notes vocales et des suggestions de réponses dans les conversations via l’application de clavier Gboard. Des fonctionnalités qui seront disponibles dans un premier temps sur WhatsApp et qui s’étendront à d’autres applications par la suite.
Quant à Gemini Ultra, Google indique qu’il est « actuellement en train d’effectuer des contrôles de confiance et de sécurité approfondis » et sera disponible « pour certains clients, développeurs, partenaires et experts en sécurité » pour « l’expérimentation et la rétroaction précoces avant de le déployer auprès des développeurs et des entreprises clientes » au début de l’année 2024. Pendant cette période, Google lancera également « Bard Advanced », une « nouvelle expérience d’IA de pointe » qui donnera accès à de « meilleurs modèles et capacités, en commençant par Gemini Ultra ».
Ce nouvel outil, selon Google, marque une étape clé dans le développement de l’IA et représente le début d’une nouvelle ère. Une annonce qui ne manquera pas de faire réagir OpenAI, la firme derrière ChatGPT, qui a récemment été secoué par l’affaire Sam Altman.