Comment fonctionnent les chatbot IA ?

5 février 2026 à 03:39

Dépiction populaire d’une IA : un robot écrivant assis à un bureau.
Depuis quelques années, sont apparus un bon nombre de « chatbox » IA. On peut citer ChatGPT, qui a initialement lancé tout ça, mais on peut en citer plein désormais :

Claude, de chez Anthropic ;
Gork, de chez X/Twitter ;
Meta AI, de Meta/Facebook
Bing AI / Copilot, de Microsoft ;
Gemini, de Google ;
Le Chat, de Mistral.

On les appelle des « IA », pour intelligence artificielle, mais cette dénomination est débattable. Il n’y a pas de conscience, ni d’intelligence capable de comprendre ou de réfléchir derrière tout ça comme le ferait un être humain, ou même un animal. L’ensemble reste purement calculatoire et logique. Le terme, d’intelligence artificielle, reste toutefois bien ancrée pour les désigner.

Le principe de ces chatbox IA est de leur poser une question en langage naturel (c’est-à-dire directement en français ou dans n’importe quelle langue), et l’IA répond avec un texte entièrement construit. Le texte est lui aussi en français (ou dans la langue que l’on a choisie), comme si c’était rédigé par un humain.

Créer un texte sans avoir un mécanisme bien précis pour le faire, ça reviendrait à donner un clavier à un singe : le résultat sera au mieux dissonant, et au pire le clavier finirait arraché du PC puis jeté du haut d’un arbre. Pour produire des textes, il faut au minimum une certaine logique, une certaine mécanique, autrement dit des algorithmes.
Et ça, mêmes dénués d’intelligence et de conscience, les ordinateurs savent très bien le faire !

Essayons de comprendre comment on peut faire produire des textes entiers par un ordinateur.

Génération stochastique, ou aléatoire

Imaginons qu’on veuille créer un mot à partir des lettres de l’alphabet. Une première approche pourrait être de tirer des lettres au hasard, comme les lettres à des Chiffres et des Lettres, ou encore les mots au jeu du cadavre exquis.

Tirons donc 10 lettres au hasard :

QFAWJHMPRZ

Ceci n’est pas fameux, question « mot », n’est-ce pas ? On ne saurait même pas comment le prononcer. Une des raisons à ça est la surreprésentation des consonnes par rapport à ce que l’on a l’habitude de voir. Pourtant c’est tout à fait normal : l’alphabet contient 20 consonnes et seulement 6 voyelles. En tirant des lettres au hasard, on a donc bien plus de chances de se retrouver avec une consonne qu’avec une voyelle.

Or, dans la plupart des langues, certaines plus que d’autres, on note une (relative) alternance entre voyelles et consonnes. Faisons donc comme dans le jeu des Chiffres et des Lettres, et tirons plus ou moins alternativement des consonnes et des voyelles :

ULTODAPSEI

Nous voici avec quelque chose de déjà un peu plus prononçable, même si ça ne ressemble pas encore à un mot bien français.

Pourquoi ?

Parce que les lettres ici sont toujours tirées sans prendre en compte ce qui se trouve avant. En effet, les mots d’une langue donnée ne se forment pas comme ça. Ils sont construits, portent une histoire, une syntaxe. Certains préfixes ou suffixes se retrouvent ainsi sur plein de mots différents. Certaines séquences de lettres sont aussi plus probables que d’autres.

Il faut donc utiliser un système qui tiennent compte de ces probabilités qui existent déjà dans les mots de la langue française.

Les chaînes de Markov

Si l’on analyse les mots de la langue français, on peut calculer les probabilités de tirer une lettre connaissant la précédente. Par exemple, la lettre « Q » est pratiquement toujours suivie par un « U ». De même, la séquence « DE », ou « ON » est relativement courantes. D’autres séquences comme « KW » ou « UO » sont très rares, voire inconnues dans nos mots.

On peut représenter cela sous la forme d’une table, qui montre la probabilité de trouver une lettre en suivant une autre :

Carte représentant la probabilité de trouver une lettre donnée après une autre.

Avec cette carte, on sait quelles sont les suites de lettres les plus probables : ainsi, un « Q » a 99,739 % de chances d’être suivi par un « U » !

Si l’on veut faire des mots qui suivent les probabilités et la phonétique du reste des mots français, il faut utiliser cette carte et tirer des lettres au sort en prenant en compte ces probabilités. On parle ici d’une chaîne de Markov : l’on tire une lettre en tenant compte de la lettre précédente (ou, des N lettres précédentes).

C’est un système puissant qui donne de bien meilleurs résultats, comme les mots suivants :

ESVEMERNER
LÉONANTÈLE
SATIQUARER

Ce sont des mots inventés qui n’ont pas de sens, mais on y retrouve une consonance bien française. Quelqu’un ne connaissant pas le français ne saura pas forcément distinguer de vrais mots de faux. Pour nous en convaincre, essayons de voir un ensemble de mots dans une langue que nous ne connaissons pas, comme le suédois :

Steja pädora vente ta prådager pro bönök oätt fön in a la sköng. I väks rahi promkre misek up paringst restöter by tsökar er. Toninahl år skroffa i mantska sallartöd.

Alla människor är födda fria och har lika värde och rättigheter. De är utrustade med förnuft och samvete och bör handla gentemot varandra i en anda av broderskap.

Une de ces deux lignes et une vraie phrase en suédois (c’est l’article premier de la déclaration universelle des droits de l’Homme). L’autre est totalement inventée en utilisant les cartes de probabilités pour la langue suédoise. Vous savez reconnaître laquelle est la vraie (en supposant que vous ne lisez pas le suédois) ?

Tout ceci est toujours basé sur du hasard, mais il est affiné : on choisit les éléments parmi lesquelles on tire au hasard en fonction des résultats précédents.

Chaque langue étant différente, elles ont toutes leurs cartes de probabilité : la chaîne de Markov va dépendre de la langue. Aussi, il faut donc un ensemble de mots bien représentatifs de la langue donnée pour produire ces cartes.

Le fonctionnement se fait donc en deux étapes :

l’apprentissage : où l’on étudie des mots pour constituer la probabilité des séquences de lettres ;
l’inférence : où l’on utilise les probabilités que l’on vient de calculer pour tirer des lettres et constituer un mot.

On peut utiliser le même principe sur des mots, et non des lettres. Dans ce cas, il faut une base de données de textes réels pour la phase d’apprentissage, et on peut ensuite produire des suites de mots qui utilisent les statistiques repérées dans les textes réels.
Certains exemples existent comme ça, et le résultat est plus ou moins réussi. Toujours est-il que les textes sont dénués de sens profonds, de sémantique, et surtout peuvent avoir des structures foireuses.

Dans ces chaînes, comme je l’ai dit, l’on utilise la lettre ou le mot précédent, parfois deux ou trois, mais pas vraiment d’avantage. L’on ne tient pas compte de toute la séquence pour tirer l’élément suivant. On dit alors que le modèle n’a pas de mémoire, et tout ce qui a été sorti avant n’importe plus.

Comme on va le voir ci-dessous, les LLM utilisent le principe de prédiction qu’ils empruntent aux chaînes de Markov, mais le font d’une façon bien plus évoluée, avec plusieurs méthodes supplémentaires pour produire des mots, phrases, ou textes toujours plus pertinents.

Les limites des chaînes de Markov

Les chaînes de Markov décrites ci-dessus sont limitées.

Par définition, elles n’ont pas de mémoire : elles prennent donc, pour leurs prédictions, un certain nombre de maillons de la chaîne seulement, mais pas toutes, et encore moins ne tiennent compte par exemple, de s’il s’agit d’un début de chaîne, ou d’une fin de chaîne, ce qui peut avoir son importance dans la conception de phrases ou de textes plus longs.

Un autre élément qui manque et un mécanisme qui permet de repérer les maillons de la chaîne qui sont « plus importants » que d’autres. Dans une phrase, par exemple, le sujet et le verbe sont très importants, beaucoup plus que les déterminants ou des pronoms. Pourtant, le pronom peut parfois remplacer un nom. Dans la phrase « le chat dort, il ronronne », le terme « chat » réfère à la même chose que « il », pourtant ils ne sont pas interchangeables.
Mettre tout ça dans un programme est plus difficile que de ne repérer que les noms communs et les verbes (qui peuvent être facilement appris), car un pronom peut référer à un nom précédent, et devra en hériter le poids.

Si l’on cherche à prédire une suite à cette phrase, il faut que le système garde en mémoire le fait que « le chat » est le sujet principal dans tout le texte, même si les termes souris ou chiens, ou oiseaux peuvent aussi apparaître. Le mécanisme construit pour arriver à cette fin a été nommé « le principe d’attention ». Ce système donne un poids à chaque mot. Dans notre exemple, il donnerait un poids important à « chat ». Ce poids des mots ne dépend pas des données d’apprentissage, mais plutôt des requêtes que l’on fait (où un mot donné peut changer de sens en fonction du contexte.

Pour constituer des textes qui soient pertinents et moins mécaniques, on devrait aussi pouvoir prédire des mots au sens proche d’un autre, c’est-à-dire utiliser le champ lexical entourant un terme. Par exemple, le terme « clé » peut désigner différentes choses pour un serrurier, un mécanicien ou même un musicien (la « clé de sol » par exemple) ou un cryptographe. De plus, pour des textes tout à fait inédits, il faut pouvoir utiliser des synonymes et rendre le texte plus naturel : remplacer « le chat » par « félin » ou « boule de poils », pour éviter les répétitions.

Les LLM actuels ont des mécanismes qui permettent tout ceci. Dans l’ensemble ils utilisent toujours de la prédiction statistique de mots, mais cela utilise des algorithmes beaucoup plus évolués que de simples probabilités issues d’une séquence finie de mots, et ils viennent ensuite affiner tout ça ensuite. Les LLM ne comprennent toujours pas la signification d’une phrase, mais arrivent à en produire une parce qu’ils savent reproduire l’architecture grammaticale, sémantique et lexicale d’un texte – architecture elle-même déjà apprise auparavant.

Cet usage généralise grandement les possibilités de génération de contenus, parce qu’ils ne sont pas limités par les données d’apprentissage (qui ne sont pas infinis).

Les réseaux de neurones

L’ensemble des LLM est bâtie sur une architecture en réseau neuronal (ou réseau de neurones).

Un système de réseaux de neurones artificiels (neural network) miment le fonctionnement des neurones dans le vivant. Chaque « neurone » y est une unité de calcul, sous la forme d’un algorithme. Les neurones sont reliés aux autres de façon à ce que les algorithmes fonctionnent ensemble, formant un programme complexe. Typiquement, le réseau de neurones fonctionne sous forme de couche, où chaque couche sert à faire une action avec ses propres neurones.

Par exemple, une couche décode la requête, une autre pondère chaque mot, chaque lettre, une autre produire une séquence de lettres, une autre produit les remplacements pour éviter les répétitions, ou bien vérifie la grammaire ou l’orthographe. Pour l’analyse ou la génération des images, il y aurait la couche destinée à ouvrir l’image, une pour déceler les bords (analyse des gradients de luminosité entre les pixels), une autre pour constituer les formes, une pour simplifier les calculs, etc.

Les réseaux de neurones sont utilisés pour l’apprentissage profond (deep learning), notamment pour déceler des schémas (patterns) dans un ensemble de donnée d’entrée. Ainsi, pour détecter un chat dans une image. On entraîne le réseau de neurones sur un très grand nombre de photos de chats. Le système, en analysant la juxtaposition des différents pixels dans l’image, finit par détecter ce qui est un chat. Après cette phase d’apprentissage, le système connaît donc les suites de pixels qui correspondent à un chat, et on peut lui dire d’utiliser ce qu’il sait pour produire à son tour une image d’un chat.

Le fonctionnement peut être auto-correctif : si l’on demande une image d’un chat, et que le programme en produit une, on lui fait comparer la photo de sortie avec les données en entrée. La différence entre les deux correspond donc à une « erreur », qu’il faut corriger.
Ou alors, on utilise une image existante dans laquelle on masque une partie et le système doit combler la partie cachée. L’on lui fait ensuite comparer l’image originale avec le ce qu’il a produit ; et de même, en cas de différence, le réseau de neurones modifie ses paramètres internes en conséquence, de façon à ce que la prochaine prédiction soit plus proche de ce que l’on recherche.
Lorsque l’on estime que l’image produite est suffisamment proche d’une vraie photo de chat, alors le générateur est utilisable : il peut pondre tout un tas d’images de chat plus vraies que nature… ou presque.

En dehors des photos de chats, les machines à réseau de neurones excellent dans l’analyse de grandes quantités de données (big data), bien plus que des humains. Il suffit alors de programmer un ordinateur pour le faire rechercher des choses dans ces données, et elle le fera bien plus vite qu’un humain. L’apprentissage profond sur des sommes monstrueuses de données est utilisé sur les données en provenance des sondes spatiales, des stations météo, des données obtenues par les capteurs sismiques, ou même dans les IRM des hôpitaux.

Attention : ce programme n’est toujours pas intelligent. Il ne fait toujours que traiter des données de façon mathématique et purement mécanique et statistique. Le système ne sait pas — à ce stade — ce qu’il cherche, trouve, ou crée réellement. Il ne sait d’ailleurs pas grand-chose en vérité. Il peut juste calculer des choses et vous donner un résultat..

Aussi, les données de sortie ne sont toujours aussi bonnes que les données que l’on envoie en entrée. Si, à notre IA qui produit des images de chats, on donne des images de tous les animaux, il ne saura pas lequel est le chat, pas sans lui avoir dit préalablement en tout cas.

Pourquoi les LLM semblent intelligents ? Le sont-ils réellement ?

Comme j’ai mis plus haut, puisque les LLM fonctionnent en apprenant des informations (tant sur le fond du contenu que sur la forme du langage) issues de données d’entrée, il ne peut qu’en reproduire les qualités et les défauts.

Si les données d’apprentissage sont pleines de fautes, le chatbot ne pourra pas les corriger. Même en lui donnant les règles de grammaire, cela ne fonctionnera pas : il ne sait pas ce que ça signifie. De même, si les données sources sont biaisées, la sortie sera biaisée également.
Par exemple, les écrits, y compris les textes de droit notamment, de l’époque coloniale, sont notablement racistes et pourraient être très choquant à quelqu’un qui n’a eu aucun enseignement en Histoire. Une LLM entraîné exclusivement sur ces données produira des textes également racistes. Ce n’est pas la faute du système lui-même : ce qu’il produit n’est qu’un reflet de ce qu’il a lu. À noter : ceci n’est pas différent d’un être humain qui grandirait dans un tel environnement : il ne saurait pas que ce qu’il conçoit comme « normal » ne l’est pas, ou plus, pour ses contemporains.

Le système étant dénué de bon-sens et de morale, ne saura pas faire la différence entre des propos racistes et des propos considérés plus en phase avec son époque.

Il est difficile de définir l’intelligence au sens large. Il y a plein de facettes qui entrent en ligne de compte, pas uniquement les maths ou la logique pure. Faire des calculs, tous nos ordinateurs savent le faire, depuis le tout début des ordinateurs (c’est même leur fonction première et l’origine du nom lui-même).
Toutefois, les ordinateurs ne savent pas ce qu’ils font : ils ne sont pas conscients. En ce sens, il n’est pas possible de dire qu’ils sont intelligents.

S’ils semblent intelligents, c’est seulement parce que nous nous donnons — à nous-mêmes — ce caractère, et que la machine a réussi à imiter cela au travers de la production de textes, d’images, d’audio, tout du moins dans la forme. L’on pense alors qu’ils sont intelligents, mais ce n’est qu’une illusion malgré tout.

Quant au fond, comme je l’ai dit, la machine ne fait que répéter ce qu’ils trouvent dans les données d’entrée. Si on lui demande une information qui n’existe pas dans les données d’entrer, elle ne saura pas la réponse. Il ne s’agit donc pas non plus d’une entité possédant une connaissance universelle.
Dans ce cas précis, la machine pourrait nous dire qu’elle ne sait pas, mais les chatbots commerciaux actuels préfèrent plutôt inventer des données de façon à satisfaire l’utilisateur.

Notes et références

Mon exemple avec la langue suédoise ci-dessous est là pour montrer que dans certains cas, l’on peut nous baratiner des choses, si l’on n’est pas expert dans le domaine, l’on ne saura pas différentier le vrai du faux. Le baratin en question nous semblera crédible, même s’il ne l’est pas du tout.

Un autre exemple pour nous convaincre que les LLM font essentiellement semblant d’être intelligents est visible ici : prenez un acteur, faites lui jouer un rôle de chirurgien avec un texte tout fait, et il vous semblera compétant. Mettez le devant un vrai patient, et ce dernier mourra. Les LLM / IA actuelles sont pareil.

Image d’en-tête produite par l’IA Google Gemini

Vue normale