Qu'est-ce qu'un LLM (Large Language Models)
Série d’articles sur l’IA
Voici le deuxième article d’une série de quatre :
Imaginez un champ de fleurs sauvages s’étendant à perte de vue, au milieu duquel s’active un essaim d’abeilles d’une taille démesurée. Elles bourdonnent, virevoltent et récoltent le pollen de chaque fleur pour en faire un miel d’une incroyable complexité. Ce miel, c’est le langage. Et ces abeilles, ce sont les LLM (Large Language Models), ces Grands Modèles de Langage qui s’affairent à transformer d’immenses quantités de données textuelles en quelque chose de structuré, de cohérent, et parfois même de très créatif.
Dans cet article, nous allons explorer en profondeur la ruche bourdonnante des LLM : comprendre comment ces abeilles géantes construisent et peaufinent leurs rayons (leur architecture), quels types de pollens elles collectent (les données), comment elles se coordonnent pour fabriquer le miel (la génération de texte), et enfin comment on peut guider et apprivoiser ces essaims pour qu’ils produisent un nectar savoureux plutôt qu’une substance hasardeuse.
Nous aborderons plusieurs points essentiels :
- Les origines et la définition d’un LLM
- Les techniques d’entraînement et le rôle de l’attention
- Les usages concrets et les limitations
- Les défis éthiques, énergétiques et techniques
- Le prompt engineering pour obtenir le meilleur d’un LLM
- Les options de déploiement et la maintenance
Nous irons loin dans la comparaison entre nos amies ailées et ces modèles de langage géants. Vous verrez que, si l’image de l’abeille vous semble douce et inoffensive, un essaim mal géré peut aussi causer son lot de piqûres. Mais avant de prendre la fumée pour calmer tout ce petit monde, plongeons-nous dans la structure même d’un LLM, qui n’aura plus grand-chose de mystérieux à la fin de cet article.
Pour commencer, voici un schéma simplifié (sans commentaire superflu) du trajet que parcourt un texte dans un LLM, depuis l’entrée jusqu’à la sortie, en passant par toutes les étapes clés :
1. Qu’est-ce qu’un LLM ? L’essaim qui bourdonnait plus fort que les autres
1.1. Origine et concept
Depuis plusieurs années, la recherche en Intelligence Artificielle s’est intéressée au langage naturel : comment faire en sorte qu’un modèle puisse comprendre et générer du texte de façon pertinente ? On a longtemps utilisé des techniques de NLP (Natural Language Processing) à base de règles ou de statistiques basiques. Puis, est arrivée une étape cruciale : l’avènement du Deep Learning et des réseaux de neurones.
Les Large Language Models sont le fruit de cette révolution. Ils sont appelés “larges” (ou “grands”) parce qu’ils ont des dizaines, voire des centaines de milliards de paramètres. Un paramètre, c’est un peu comme la “position d’une infime parcelle” dans l’organisation complexe de la ruche. Chaque paramètre “apprend” à pondérer, à ajuster un signal pour mieux prédire le token suivant dans une séquence donnée.
1.2. Une ruche construite sur d’immenses quantités de données
Pour bâtir leur ruche, les LLM ont besoin d’énormément de “pollen” : le texte. Ils ingèrent des quantités phénoménales de contenu, allant des livres numérisés aux articles de presse, en passant par les forums ou les réseaux sociaux. À force d’accumuler toutes ces données, la structure interne du modèle se façonne pour capturer et refléter les régularités du langage.
Ainsi, ces abeilles artificielles finissent par savoir que, dans un contexte donné, certains mots ont plus de chances de survenir que d’autres. Elles ne mémorisent pas ligne par ligne tout le texte qu’elles ont lu, mais elles apprennent à “statistiquement reproduire” les tournures, les syntaxes, les associations d’idées que l’on retrouve dans le langage.
2. Pénétrer dans la ruche : un aperçu du fonctionnement
2.1. La tokenisation : récolter le pollen, morceau par morceau
La première étape, c’est la tokenisation. On prend le texte brut et on le découpe en tokens. Imaginez un champ rempli de fleurs : chaque fleur représente un mot, ou un morceau de mot, que l’abeille va prélever. Un “token” peut être un mot entier (“maison”), une partie de mot (“mais-”, “-on”) ou parfois même un signe de ponctuation.
Ce découpage dépend d’un vocabulaire propre au modèle : plus il y a de tokens possibles, plus la segmentation peut être fine. Cette tokenisation est cruciale, car le modèle va ensuite manipuler ces tokens plutôt que du texte brut. C’est comme si l’abeille prélevait précisément le pollen et non la fleur entière.
2.2. Les embeddings : le pollen se transforme en vecteur
Une fois le pollen récolté, il faut le transformer en un format exploitable par le modèle : c’est l’étape de l’embedding. Chaque token est converti en un vecteur (une liste de nombres) qui encode des informations sémantiques et contextuelles.
Pensez-y comme la “couleur” ou la “saveur” du pollen : deux mots aux sens proches auront des vecteurs proches, de la même façon que deux fleurs apparentées produisent un pollen similaire. C’est un passage indispensable, car le réseau de neurones ne comprend que des nombres.
2.3. Les couches de “Transformers” : la danse des abeilles
Dans la ruche, les abeilles communiquent via la “danse des abeilles”, un ballet complexe qui indique où se trouve le pollen le plus riche. Dans un LLM, cette coordination se fait via le mécanisme d’attention (le fameux “Attention is all you need” introduit en 2017).
Chaque couche de Transformer va appliquer une Self-Attention : pour chaque token, le modèle évalue son degré de pertinence par rapport aux autres tokens de la séquence. C’est un échange d’informations simultané, un peu comme si chaque abeille disait “Voici le type de pollen que j’ai, de quel pollen as-tu besoin ?”.
En empilant plusieurs couches de Transformers, le modèle devient capable de capturer des relations complexes : il peut apprendre que, dans une phrase, le mot “reine” fait référence à un concept pouvant être relié à “abeilles” ou “ruche”, et non à “monarchie” dans d’autres contextes, par exemple.
2.4. La production du miel : prédire le token suivant
Enfin, la ruche produit son miel, c’est-à-dire le texte généré. Après avoir analysé le contexte, le modèle doit répondre à une question simple : “Quel est le token suivant le plus probable ?”. Cette prédiction se fait en observant les poids ajustés dans le réseau.
Selon les hyperparamètres (température, top-k, top-p, etc.), ce processus peut être plus ou moins aléatoire ou déterministe. Une température faible équivaut à une abeille très disciplinée, qui produira un miel très prévisible. Une température élevée, c’est une abeille plus excentrique, capable de butiner plus librement et de donner un miel plus créatif, au risque d’être parfois peu cohérent.