Qu'est-ce qu'un LLM (Large Language Models)
Série d’articles sur l’IA
Voici le deuxième article d’une série de quatre :
Imaginez un champ de fleurs sauvages s’étendant à perte de vue, au milieu duquel s’active un essaim d’abeilles d’une taille démesurée. Elles bourdonnent, virevoltent et récoltent le pollen de chaque fleur pour en faire un miel d’une incroyable complexité. Ce miel, c’est le langage. Et ces abeilles, ce sont les LLM (Large Language Models), ces Grands Modèles de Langage qui s’affairent à transformer d’immenses quantités de données textuelles en quelque chose de structuré, de cohérent, et parfois même de très créatif.
Dans cet article, nous allons explorer en profondeur la ruche bourdonnante des LLM : comprendre comment ces abeilles géantes construisent et peaufinent leurs rayons (leur architecture), quels types de pollens elles collectent (les données), comment elles se coordonnent pour fabriquer le miel (la génération de texte), et enfin comment on peut guider et apprivoiser ces essaims pour qu’ils produisent un nectar savoureux plutôt qu’une substance hasardeuse.
Nous aborderons plusieurs points essentiels :
- Les origines et la définition d’un LLM
- Les techniques d’entraînement et le rôle de l’attention
- Les usages concrets et les limitations
- Les défis éthiques, énergétiques et techniques
- Le prompt engineering pour obtenir le meilleur d’un LLM
- Les options de déploiement et la maintenance
Nous irons loin dans la comparaison entre nos amies ailées et ces modèles de langage géants. Vous verrez que, si l’image de l’abeille vous semble douce et inoffensive, un essaim mal géré peut aussi causer son lot de piqûres. Mais avant de prendre la fumée pour calmer tout ce petit monde, plongeons-nous dans la structure même d’un LLM, qui n’aura plus grand-chose de mystérieux à la fin de cet article.
Pour commencer, voici un schéma simplifié (sans commentaire superflu) du trajet que parcourt un texte dans un LLM, depuis l’entrée jusqu’à la sortie, en passant par toutes les étapes clés :
1. Qu’est-ce qu’un LLM ? L’essaim qui bourdonnait plus fort que les autres
1.1. Origine et concept
Depuis plusieurs années, la recherche en Intelligence Artificielle s’est intéressée au langage naturel : comment faire en sorte qu’un modèle puisse comprendre et générer du texte de façon pertinente ? On a longtemps utilisé des techniques de NLP (Natural Language Processing) à base de règles ou de statistiques basiques. Puis, est arrivée une étape cruciale : l’avènement du Deep Learning et des réseaux de neurones.
Les Large Language Models sont le fruit de cette révolution. Ils sont appelés “larges” (ou “grands”) parce qu’ils ont des dizaines, voire des centaines de milliards de paramètres. Un paramètre, c’est un peu comme la “position d’une infime parcelle” dans l’organisation complexe de la ruche. Chaque paramètre “apprend” à pondérer, à ajuster un signal pour mieux prédire le token suivant dans une séquence donnée.