L’IA en open source = une solution adaptative et sécurisée

Le 26 mars 2024 à 19:27

Par Raphaël Braud, directeur technique de Castor & Pollux

Un article du Monde nous alertait tous le 13/02 : les IA déraillent !

Ces IA qui ont suscité tant d’enthousiasme et d’excitation lors de leur sortie ne nécessiteraient elles pas désormais de prendre du recul ? Y’aurait -il des risques pour la confidentialité de nos données ? Pourrait-on sans crainte laisser une IA générer des contenus sur des sites ?

Revenons en novembre 2022 : les projecteurs se sont tournés vers ChatGPT et sa société éditrice OpenAI et nous avons joué avec les prompts, parfois par simple plaisir, tout comme nous “surfions” de site en site au début du Web, sans réellement savoir où ceci nous mènerait, juste pour l’ivresse de la découverte.

En un an, l’ivresse est un peu retombée et nous nous demandons maintenant à quoi ceci pourrait nous servir professionnellement, tellement il semble évident que l’IA transcende nos organisations et nos façons de faire, particulièrement au sein des agences de communication.

Mais chaque nouvelle application adossée à l’IA apporte son lot de questionnements :

En tant que professionnels, nous aurions besoin de transmettre à ChatGPT, ou plus généralement aux éditeurs d’outils IA, de nombreuses données métiers pour leur permettre d’apprendre nos concepts, nos savoir-faire, la phraséologie de nos mails, mais le risque de transmission de données confidentielles est grand, a fortiori hors Union Européenne.

Plutôt qu’une solution unique peu extensible ou customisable proposée par OpenAI, ne nous permettant pas d’être distingués de nos concurrents, l’avenir se dirige vers une IA privée, dédiée et optimisée pour chaque environnement métier mais développer une expertise est un investissement lourd en temps et en matériel pour un résultat qui reste incertain, sans omettre le fort impact écologique des GPUs qui font tourner nos modèles.

Remplacer le chatbot en place sur un site par un bot IA semble assez naturel : ChatGPT n’est-il pas déjà un chatbot ? C’en est effectivement un mais il ne s’appuie pas sur les mêmes principes technologiques que ses prédécesseurs : là où les “anciens” chatbots utilisaient essentiellement des arbres des décisions et parfois un soupçon d’analyse de langage naturel - ce qui permettait de garantir le respect d’une charte entreprise - les bots basés sur l’IA sont des boites noires qui peuvent “halluciner” en générant des contenus non adéquats dans le cadre d’une communication officielle.

Dans notre métier de conseil et d’experts IT, nous avons résolu ces contraintes et ceci nous a amené à avoir quelques convictions :

Les IA commerciales ne sont qu’une première pierre, elles ont permis l’appropriation des prompts et la création des services utiles et “sans danger”, tant que l’on n’utilise pas de données confidentielles et que l’on a un regard critique sur leurs résultats. Mais elles ont deux défauts majeurs pour les professionnels du digital que nous sommes : nous n’avons pas la maitrise de l’hébergement & nous ne savons pas ce qu’il y a dans la “boite noire”.

Les IA et en particulier les IA génératives, vont devenir progressivement des commodités - comme peuvent l’être des bases de données, des serveurs web ou des moteurs de recherches.

Et de la même façon qu’il n’y a pas qu’un seul moteur de base de données, un seul serveur web ou un seul moteur de recherche, il n’y aura pas qu’une IA.

OpenAI ne sera pas le seul acteur du marché, une vague de solutions OpenSource se profile et sa première force ne sera pas sa gratuité, mais sa richesse fonctionnelle sans limites.

Il y aura d’abord une concurrence directe sur le segment de ChatGPT : avec des LLMs (Large Language Models) OpenSource comme ceux de Meta (avec Llama2) et Mistral (avec Mixtral8x7B) qui, contrairement à ChatGPT, autoriseront des modifications des poids du modèle neuronal pré-entrainé, permettant via “fine-tuning” de créer des LLMs personnalisés.

Ces LLMS personnalisés, n’imposeront pas de contraintes sur l’hébergement : il sera possible de les héberger sur nos infrastructures existantes, on cloud ou on premise.

Mais surtout, en basculant sur des solutions OpenSource, nous, professionnels du digital, pourrons sortir du cadre fonctionnel figé de ChatGPT - qui s’est certes élargi suite au passage au multi-modal mais reste contraint - pour bénéficier de l’incroyable diversité des modèles OpenSource. Il suffit de regarder les différents types de modèles sur HuggingFace, la plateforme incontournable de partage de réseaux neuronaux, pour s’en convaincre.

Ma conviction est que l’avenir de l’IA dans l’industrie sera l’internalisation et l’hybridation de modèles fine-tunés, essentiellement Open Source, pour créer des services réellement personnalisés et sécurisés.

(Les tribunes publiées sont sous la responsabilité de leurs auteurs et n'engagent pas CB News).

Prompt is the new brief

« Les fake news déstabilisent la démocratie et la vérité scientifique » - Arnaud Caré (Ipsos)

Détaillants : 4 conseils pour réussir l’intégration de nouvelles marques