Qu'est-ce que l'intelligence artificielle générative ?
Une petite explication sur l'IA générative
Ceci est un post de mon ancienne veille privée datant de février 2024
ChatGPT par ci, ChatGPT par là : vous avez peut-être (beaucoup) entendu parler de l’intelligence artificielle dans les médias ou autour de vous en 2023. Il faut dire que l’année passée fut riche en progrès dans cette discipline qui est en passe de révolutionner le monde. En ce début 2024, je vous propose de faire le point ensemble sur cette technologie et ce qu’elle peut nous apporter dans un futur de plus en plus proche.
Petite histoire de l’IA
La quête de l’homme pour la création d’une intelligence artificielle remonte à la nuit des temps. 200 ans avant Jésus Christ, Philon de Byzance inventait déjà le premier automate humanoïde documenté : une statue d’une servante qui, lorsqu’on pose une coupe dans sa main gauche, verse automatiquement du vin puis de l’eau. Près de 2000 ans plus tard, en 1734, Jacques de Vaucanson subjugue l’Académie des Sciences en présentant son Canard Défécateur : un automate qui simule de manière réaliste les mouvements, la digestion et la défécation d’un canard.
Si l’intelligence artificielle est un champ de recherche vieux comme le monde, ses applications ont longtemps été limitées à concevoir des automates qui reproduisent mécaniquement une ou plusieurs tâches. Dans les années 70 puis 90, cette approche a été complètement révolutionnée par l’informatique et ses progrès. À mesure que les ordinateurs deviennent de plus en plus puissants, ils deviennent de plus en plus aptes à réaliser de très nombreux calculs complexes toujours plus rapidement, s’approchant progressivement de la puissance de calcul de nos cerveaux humains qui nous procure notre intelligence.
Dans les années 2000 puis 2010, le développement du web et du big data amènent à la création de nouvelles infrastructures et capacités de calcul qui permettent l’exploitation de données dans des volumes sans précédent. Les chercheurs parviennent à créer des réseaux de neurones artificiels inspirés des cerveaux humains pour traiter l’information toujours plus rapidement.
De nouvelles entreprises telles que OpenAI ou DeepMind apparaissent, avec le but assumé de créer une intelligence artificielle générale, c’est-à-dire un système capable d’effectuer ou d’apprendre pratiquement n’importe quelle tâche propre aux humains ou aux animaux.
Ces volumes toujours plus importants d’information contenus sur le web, couplés à ces nouvelles capacités de rapidité de calcul et d’interprétation, permettent aux scientifiques de repousser les limites connues des sciences du hasard. Cette branche bien particulière et universelle des mathématiques composée de la probabilité et la statistique vise à étudier et à comprendre la fréquence avec laquelle un certain événement se produit.
Les spécialistes en sont certains : le secret pour atteindre l’intelligence artificielle générale est de créer un algorithme maîtrisant totalement ces sciences du hasard, capable de calculer la probabilité de n’importe quelle information ou évènement, et donc théoriquement, de prédire le futur.
L’IA générative ou comment prédire le futur
Si on a tant entendu parler de l’intelligence artificielle en 2023, c’est parce que des entreprises comme OpenAI, Google ou Microsoft ont enfin sorti des logiciels basés sur l’IA destinés au grand public avec des applications utiles au quotidien. Ces logiciels tels que ChatGPT ou Midjourney sont l’aboutissement d’années de recherche dans le domaine de l’intelligence artificielle générative.
L’intelligence artificielle générative est un type d’IA permettant de générer du contenu, qu’il s’agisse de texte, d’image ou de créations plus complexes telles que des vidéos, des musiques ou même des odeurs et des molécules ! Ainsi, ChatGPT est un agent conversationnel : un logiciel dont le but est de reproduire une conversation humaine : vous envoyez un message au format texte, et le logiciel vous renvoie un nouveau message au format texte qu’il a généré automatiquement. On parle donc d’IA text-to-text (mode texte vers texte).
Le secret de ChatGPT repose sur toutes les technologies évoquées précédemment combinées ensemble pour créer un modèle de langage. Ses créateurs ont d’abord agrégé des milliards de données présentes sur le web qui ont ensuite été transformées sous forme de tokens.
Par exemple, la phrase suivante : "L'intelligence artificielle est fascinante." est “tokénisée” sous la forme suivante :
L'
intelligence
artificielle
est
fascinante
Puis ces tokens sont vectorisés, c’est-à-dire transformés en vecteurs, donc en nombres, pour faciliter leur traitement par un algorithme d’apprentissage automatique. La phrase est ainsi transformée :
[0 0 0 0 0 0 0 0 0]
[0 0 0 0 0 0 0 0 1]
[0 0 1 0 0 0 0 0 0]
[0 1 0 0 0 0 0 0 0]
[0 0 0 0 0 1 0 0 0]
[0 0 0 0 0 0 1 0 0]
[1 0 0 0 0 0 0 0 0]
[0 0 0 0 0 0 0 1 0]
[0 0 0 0 1 0 0 0 0]
[0 0 0 1 0 0 0 0 0]
[0 0 0 0 0 0 0 0 0]
Cette phrase rejoint toutes les autres informations extraites du web (articles de presse, livres, conversations etc.) et vectorisées sous cette forme dans une gigantesque base de données. Ces données sont appelées les données d’entraînement car un algorithme d’apprentissage automatique va être entraîné sur celles-ci. Pour résumer : on va poser une question au modèle, par exemple : “Qui est le président de la France ?”. Si l’algorithme répond “Jeanne d’Arcq” ou “4684561654”, les ingénieurs modifient les différents paramètres jusqu’à ce que les calculs de l’algorithme soient corrects et qu’il donne la bonne réponse. Grâce à l’apprentissage automatique, les modèles sont aujourd’hui capables de se corriger eux-mêmes et peuvent donc faire des milliers de “séances d’entraînement” chaque seconde et obtenir in fine de très bonnes performances. GPT-4, le modèle de langage derrière ChatGPT, dispose de 1760 milliards de paramètres.
La magie de ChatGPT repose donc sur des calculs de probabilité visant à déduire le token le plus probable après une suite de tokens. Après “Qui est le président de la République française”, la suite de tokens la plus probable est “Le président de la République française est Emmanuel Macron”. C’est donc celle-ci qui sera générée par le modèle GPT et répondue par ChatGPT si vous lui posez la question.
Lorsque l’on applique le même principe à des images et non plus à des mots, on obtient une IA générative d’image telle que Midjourney ou DALL-E. Grâce à un mode “text-to-image”, une telle IA est capable de déduire la suite de pixels la plus probable pour générer une image selon l’instruction donnée.
Ces derniers mois, on a vu une nouvelle amélioration sur le marché : l’arrivée des IA multimodales, c’est-à-dire supportant différents modes de communication. ChatGPT peut ainsi désormais analyser une photo ou un message vocal qu’on lui envoie, mais aussi générer des images directement à l’intérieur d’une conversation grâce au modèle DALL-E.
Si les IA sont si impressionnantes et si justes c’est donc grâce à leur capacité à prédire. En y insérant suffisamment de paramètres lui permettant de comprendre la totalité des facteurs entrant en jeu, une Intelligence Artificielle Générale serait donc à terme théoriquement capable de prédire n’importe quel événement futur grâce à une maîtrise inédite des sciences du hasard. Certaines IA sont d’ailleurs déjà capables de prédire des comportements délictueux ou criminels en analysant des images de vidéosurveillance, et sont d’ores et déjà utilisées pour identifier et réprimander automatiquement ces comportements, comme par exemple en Chine. Cela pousse aujourd’hui les plus grands esprits de notre monde à se questionner sur les considérations éthiques de ces progrès technologiques.
Une technologie encore balbutiante
Si nous avons pu voir des résultats concrets déjà très prometteurs, comme les réponses très intelligentes des chatbots comme ChatGPT, ou les images très réalistes générées par Midjourney, la technologie de l’IA générative reste encore aujourd’hui balbutiante. Il est par exemple encore très courant de voir un chatbot produire des hallucinations.
Les hallucinations sont le terme utilisé pour décrire un LLM (modèle permettant à l’IA de comprendre et d’utiliser le langage naturel humain) qui génère des résultats qui paraissent totalement erronés pour nos cerveaux humains.
En Partie 1 de ce dossier, je vous expliquais que ces modèles d’IA générative se basent sur les sciences de la prédiction pour estimer quelle est la réponse la plus probable à une question. Les hallucinations que peuvent générer ces modèles sont en fait de bêtes erreurs de probabilités. Voici un exemple d’hallucination de ChatGPT :
Evidemment, Harry Potter n’a jamais fait équipe avec “Brocilus le brocoli magicien”. N’ayant pas pu calculer avec précision la réponse exacte à la question posée volontairement pour induire de la confusion, ChatGPT a tout bonnement décidé d’être créatif et d’inventer totalement une réponse. Cette réponse reste probable, et quelqu’un qui ne connaît pas Harry Potter pourrait tout à fait s’y méprendre.
C’est pourquoi, pour le moment, les modèles d’IA générative ne sont pas tout à fait fiables et leurs résultats doivent systématiquement être vérifiés par un humain avec un vrai cerveau.
Et nous dans tout ça ?
D’habitude, quand une nouvelle technologie révolutionnaire commence à se démocratiser, elle s’étend d’abord dans le monde des entreprises pour toucher ensuite les particuliers. Grâce à leurs importants financements, les entreprises comme OpenAI ont réussi l’exploit inverse de conquérir d’abord le cœur du grand public grâce à des applications comme ChatGPT.
En tant qu’agent conversationnel généraliste, ChatGPT (ou ses équivalents) peut vous aider dans toutes vos tâches du quotidien : rédiger un email, trouver des recettes selon ce qu’il reste dans votre frigo, des idées de jeux en voiture pour occuper les enfants, vous assister dans la planification de vos vacances ou de vos dépenses etc.
Plutôt attirés, curieux, réticents, inquiets sur l’IA ? Je ne peux que vous conseiller de vous faire une idée en testant par vous-même cette technologie. Posez-lui n’importe quelle question, demandez-lui n’importe quoi, voyez comment vous pouvez tirer personnellement profit de cette technologie pour vous assister dans votre vie quotidienne. Pour essayer, voici la façon la plus simple de procéder actuellement (et c’est 100% gratuit) :
Grâce à un partenariat, Microsoft a intégré les fonctionnalités de ChatGPT dans l’application Microsoft Copilot, que vous pouvez télécharger gratuitement dans le Google Play Store (sur Android) et dans l’App Store (sur iOS). Une fois téléchargée, vous n’avez besoin que d’un compte Microsoft pour vous connecter, et vous pouvez ensuite poser n’importe quelle question et même générer des images à l’infini.