Le NLP : l’orchestre discret du langage
Série d’articles sur l’IA
Voici le premier article d’une série de quatre :
- Les LLM : comprendre ce qu’ils sont et comment ils fonctionnent.
- Le NLP : plongée dans les briques fondamentales du traitement du langage naturel (présent article).
- Les Agents IA : découverte des intelligences artificielles autonomes.
- Comparatif et positionnement de AI Smarttalk : synthèse et mise en perspective.
Si le langage était une symphonie, la partition en serait infiniment complexe : tantôt grandiose, tantôt intime, rythmée par la diversité des langues, des contextes et des nuances culturelles. Au cœur de cette symphonie se trouve un orchestre discret mais ô combien essentiel : le NLP (Natural Language Processing), ou traitement automatique du langage naturel.
Dans le premier article, nous avons comparé les LLM (Large Language Models) à de gigantesques essaims d’abeilles produisant un miel textuel. Ici, nous allons revenir à des briques plus fondamentales, souvent plus discrètes, qui constituent pourtant l’armature même de la compréhension et de la génération de texte dans le monde de l’IA. Cette exploration vous permettra de saisir :
- Les racines historiques du NLP
- Les principales méthodes et techniques (statistiques, symboliques, neuronales)
- Les étapes clés d’un pipeline NLP (tokenisation, stemming, lemmatisation, etc.)
- Les champs d’application multiples (analyse sémantique, traduction, résumé automatique...)
- Les défis éthiques, culturels et technologiques
- Comment le NLP classique coexiste avec les LLM et ce qui distingue l’un de l’autre
Nous verrons que le NLP peut être considéré comme un ensemble de musiciens jouant chacun une partition : la tokenisation est la flûte subtile, l’analyse morphologique la clarinette réfléchie, la dépendance syntaxique le violoncelle qui ancre la mélodie, etc. Et de cette harmonie naît une compréhension (ou au moins une manipulation) du langage naturel.
Prêts à accorder vos instruments ? Plongeons dans le NLP, ce discret chef d’orchestre du langage.
1. Définition et histoire : quand le langage devint (aussi) affaire de machines
1.1. Premiers pas : linguistique informatique et approches symboliques
Le NLP remonte à plusieurs décennies, bien avant l’avènement des puissants LLM. Dès les années 1950-60, des chercheurs se demandent comment faire traiter le langage par une machine. Les premières approches sont souvent symboliques : on tente de coder à la main des règles grammaticales, des listes de mots, des ontologies (représentant les concepts du monde), etc.
Ces méthodes, dites aussi “basées sur la connaissance”, s’appuient sur une hypothèse : si l’on fournit au système suffisamment de règles linguistiques, il pourra analyser et générer du texte de façon correcte. Malheureusement, le langage humain se révèle d’une complexité telle qu’il est quasi impossible de tout formaliser en règles fixes.
Exemple de complexité linguistique
En français, la règle du genre pour les noms communs a pléthore d’exceptions (le poêle / la poêle, le mousse / la mousse…). Chaque règle appelle des contre-exemples, et la liste de cas particuliers ne cesse de croître.
1.2. L’ère statistique : quand on laissa parler les chiffres
À mesure que l’informatique progresse, l’approche statistique du NLP émerge : plutôt que de coder des règles à la main, on laisse une machine inférer des tendances à partir de données annotées.
Par exemple, on constitue un corpus de textes traduits, et on apprend un modèle probabiliste qui calcule la probabilité qu’un mot dans la langue source corresponde à un mot (ou groupe de mots) dans la langue cible. C’est ainsi qu’au début des années 2000, la traduction automatique (type Google Translate) décolle, s’appuyant principalement sur des méthodes statistiques comme les Modèles de Markov cachés ou les phrases alignées.
Petit à petit, la simple utilisation de comptages (occurrences de mots) et d’analytiques (n-grammes, TF-IDF, etc.) s’avère très efficace pour des tâches de classification ou de détection de mots-clés. On découvre que le langage, en grande partie, suit des lois statistiques, même si celles-ci sont loin de tout expliquer.
1.3. L’âge des réseaux de neurones : RNN, LSTM et Transformers
Les années 2010 marquent l’arrivée des modèles neuronaux à grande échelle, d’abord via les RNN (réseaux de neurones récurrents), les LSTM (Long Short-Term Memory) et les GRU (Gated Recurrent Units). Ces architectures permettent de prendre en compte l’ordre des mots et le contexte dans une phrase, mieux que les approches purement statistiques.
Puis, en 2017, une publication intitulée “Attention is all you need” introduit les Transformers, amorçant la vague qui aboutira aux LLM (GPT, BERT, etc.). Or, même avec cette avancée spectaculaire, les briques fondamentales du NLP restent pertinentes : on continue de parler de tokenisation, de lemmatisation, d’analyse syntaxique, etc., même si elles sont parfois intégrées de façon implicite dans ces gros modèles.
2. Les étapes clés d’un pipeline NLP : l’orchestre en action
Pour mieux saisir la richesse du NLP, imaginons un pipeline classique, où un texte va passer par différentes étapes (différents “musiciens”) :
2.1. Tokenisation : la flûte qui donne les notes de base
La tokenisation consiste à découper le texte en unités élémentaires, appelées tokens. En français, cela coïncide souvent avec les mots séparés par des espaces ou la ponctuation, mais ce n’est pas toujours trivial (contractions, ponctuation intégrée, etc.).
C’est la première étape incontournable de tout pipeline NLP, car la machine ne “comprend” pas les chaînes de caractères brutes. Une bonne tokenisation permet de manipuler plus aisément ces unités de sens.
2.2. Normalisation, élimination du bruit
Une fois découpé, on peut normaliser (tout mettre en minuscules, par exemple), enlever les ponctuations inutiles ou les stop words (mots vides comme “le”, “la”, “de”, “et” qui n’apportent pas toujours de sens).
C’est aussi à cette étape qu’on peut traiter les spécificités linguistiques : en français, on peut vouloir gérer les accents, en chinois, on peut segmenter les caractères, etc. Cette phase est parfois comparée à la clarinette qui clarifie la mélodie en supprimant les parasites sonores.
2.3. Stemming vs Lemmatisation : l’alto et le violon de l’analyse morphologique
- Stemming : on ramène les mots à une forme “radicale” en enlevant les suffixes. Par exemple, “manger”, “manges”, “mangeons” deviennent “mang”. C’est rapide, mais approximatif, car le radical n’est pas forcément un mot existant.
- Lemmatisation : on identifie la forme canonique du mot (son lemme), par exemple “manger”. C’est plus précis, mais nécessite un lexique ou des règles linguistiques plus élaborées.
Ces deux procédés aident à réduire la variabilité lexicale et à regrouper les mots qui partagent une même racine sémantique. C’est un peu comme l’accord de l’alto et du violon : ils affinent les notes pour qu’elles puissent s’assembler dans une harmonie commune.
2.4. Analyse syntaxique (parsing), étiquetage morphosyntaxique (POS tagging)
L’analyse syntaxique consiste à identifier la structure d’une phrase, par exemple qui est le sujet, le verbe, l’objet, quels sont les compléments circonstanciels, etc. Cette étape, souvent appelée “parsing”, peut se faire via des algorithmes systèmes de dépendances ou arbres de constituants.
Le POS tagging (Part-of-Speech tagging) associe à chaque token une catégorie grammaticale (nom, verbe, adjectif, etc.). C’est crucial pour la compréhension ultérieure : savoir que “banc” est un nom (le banc pour s’asseoir) ou un verbe (banc… pas très courant en français, mais imaginons un contexte), influence la façon dont la phrase est interprétée.
2.5. Analyse sémantique, reconnaissance d’entités nommées
L’analyse sémantique vise à comprendre le sens des mots et des phrases. Cela peut inclure l’analyse de sentiments (“texte positif, négatif, neutre ?”), la reconnaissance d’entités nommées (personnes, lieux, organisations), la résolution de coréférences (savoir quel pronom renvoie à quel nom), etc.
C’est l’orchestre qui commence vraiment à jouer en harmonie : chaque instrument (chaque étape) fournit des indices sur ce que le texte “veut dire” et comment ses éléments se relient.