Avec Operator, OpenAI lance sa solution qui effectue des tâches en autonomie
OpenAI, le créateur de ChatGPT, a lancé Operator, un agent IA capable d'effectuer des tâches en ligne pour l'utilisateur, telles que planifier des vacances, réserver un restaurant ou faire des courses.
Operator "utilise son propre navigateur", il peut "regarder une page web, la faire défiler, cliquer sur les boutons" et "remplir les champs de texte comme les gens le font au quotidien", a indiqué l'entreprise californienne dans un communiqué. La nouvelle fonction n'est pour l'instant disponible que pour les abonnés professionnels de ChatGPT, afin de l'améliorer grâce aux retours. "Operator est l'un de nos premiers agents, c'est-à-dire des IA capables d'effectuer des tâches pour vous de manière autonome : vous lui confiez une tâche et il l'exécute", résume OpenAI. L'explosion de l'IA générative avec le succès de ChatGPT depuis fin 2022 a lancé une course effrénée aux assistants IA entre les géants des technologies, qui déploient rapidement des outils capables de rédiger des messages, de répondre à des questions, de générer des images, etc. Le Graal de la Silicon Valley, ce sont les agents IA, quand la machine devient une sorte de secrétaire omniscient, disponible à toute heure et capable d'exécuter de nombreuses tâches, des messages à envoyer aux courses sur internet. Sur ce terrain, OpenAI n'est pas le plus rapide, au moins en termes de déploiement. Operator ressemble à "Computer Use", une fonctionnalité lancée en octobre par Anthropic, une start-up rivale. Le communiqué d'OpenAI comprend une vidéo montrant le fonctionnement d'Operator. Un ingénieur lui demande de trouver une recette et d'ajouter les ingrédients nécessaires dans son panier sur un service de commande en ligne : l'agent IA va sur le site de cuisine, pose des questions complémentaires à l'utilisateur et lui demande de se connecter quand c'est nécessaire.
Computer Use permet en effet à Claude, l'interface d'IA générative d'Anthropic, d'utiliser les ordinateurs comme un humain, de la sélection des boutons à la saisie de texte et au maniement de différents logiciels. Google, qui a présenté en décembre Gemini 2.0, sa nouvelle famille de modèles d'IA générative, avance aussi sur des interactions plus complexes avec la technologie, pour que les agents IA naviguent sur internet de façon autonome, cherchent des informations complémentaires en ligne ou dans un document, etc. Toutes les sociétés précisent que les assistants IA agissent sous la supervision des humains : s'ils peuvent sélectionner des produits à acheter sur un site de e-commerce, ils ne peuvent pas (encore) cliquer sur le bouton de paiement.