Embeddings : comment l’IA transforme les mots en sens

DossierPar la rédaction14 min

Une machine ne lit pas. Elle calcule. Pour qu’une IA « comprenne » que chat et félin sont proches, ou que Paris est à la France ce que Tokyo est au Japon, il a fallu inventer un moyen de transformer le langage en quelque chose de mathématique. Ce moyen, c’est l’embedding. C’est la brique qui se cache sous la recherche sémantique, les systèmes RAG, les recommandations et, indirectement, sous chaque réponse de ChatGPT.

Ce dossier décortique le mécanisme sans le diluer : ce qu’est un vecteur, comment le sens devient de la géométrie, pourquoi roi − homme + femme ≈ reine fonctionne (et où cet exemple ment un peu), et comment on est passé des vecteurs figés de 2013 aux embeddings contextuels des transformers.

Un embedding, c’est quoi exactement ?

Un embedding est une représentation d’un mot, d’une phrase ou d’un document sous forme de vecteur de nombres réels, dont la position dans l’espace encode le sens. Concrètement : le mot « voiture » devient une liste de plusieurs centaines de nombres, par exemple [0,21 ; −0,47 ; 0,08 ; …]. Cette liste n’a aucun sens prise isolément. Sa valeur vient des distances qu’elle entretient avec les autres vecteurs.

L’idée tient en une phrase, formulée par le linguiste J.R. Firth en 1957 : « You shall know a word by the company it keeps », soit : on connaît un mot à la compagnie qu’il fréquente. Deux mots qui apparaissent dans des contextes similaires (« le chien aboie », « le chat miaule ») reçoivent des vecteurs proches. Le sens n’est jamais défini en dur : il émerge des statistiques de co-occurrence sur des milliards de mots.

Embedding, les ordres de grandeur :

  • 300 dimensions / vecteur word2vec Google News (modèle de référence 2013)
  • 1 536 dimensions / vecteur OpenAI text-embedding-3-small
  • 3 072 dimensions / vecteur OpenAI text-embedding-3-large
  • 3 millions de mots et expressions / vocabulaire word2vec Google News

Sources : Mikolov et al., Efficient Estimation of Word Representations in Vector Space, arXiv:1301.3781, 2013 ; OpenAI, documentation API Embeddings, 2024.

Pourquoi des centaines de dimensions et pas deux ou trois ? Parce que le sens d’un mot n’a pas trois facettes, mais des centaines : son registre, son champ lexical, sa connotation, son genre grammatical, son rapport au temps, à l’espace, à l’émotion. Chaque dimension capte une nuance, la plupart non interprétables individuellement par un humain. C’est le prix de la richesse : on ne peut pas dessiner un espace à 1 536 dimensions, mais on peut y calculer des distances.

De l’espace vectoriel à la similarité : le mécanisme

Un espace vectoriel d’embeddings est un espace géométrique à plusieurs centaines de dimensions où chaque mot occupe un point, et où la proximité entre deux points mesure la proximité de sens. Voici comment on mesure cette proximité, étape par étape.

La similarité cosinus, pas la distance

Pour comparer deux embeddings, on ne mesure pas la distance « à vol d’oiseau » (distance euclidienne) mais l’angle entre les deux vecteurs. C’est la similarité cosinus. Le raisonnement : ce qui porte le sens, c’est la direction du vecteur, pas sa longueur.

La formule revient au cosinus de l’angle θ entre les deux vecteurs A et B :

cos(θ) = (A · B) / (‖A‖ × ‖B‖)

Le résultat se lit simplement.

Similarité cosinus, comment lire le score :

  • 1,0 = même direction / sens quasi identique (« voiture » et « automobile »)
  • 0,0 = vecteurs orthogonaux / aucun rapport (« voiture » et « brocoli »)
  • −1,0 = directions opposées / cas rare en pratique sur du texte

Note : les embeddings OpenAI sont normalisés à une longueur de 1, ce qui rend la similarité cosinus calculable par un simple produit scalaire et donne le même classement que la distance euclidienne. Source : OpenAI, documentation API Embeddings, 2024.

En pratique, sur des modèles modernes, deux phrases de sens proche affichent souvent un cosinus entre 0,7 et 0,95, rarement 1,0 exactement. C’est ce seuil flou qui rend la recherche sémantique à la fois puissante et imparfaite : il faut décider, pour chaque cas d’usage, à partir de quel score deux contenus sont « assez proches ».

Quand le sens devient une opération géométrique

L’exemple devenu célèbre vient directement du papier de Mikolov : si l’on prend le vecteur de roi, qu’on lui soustrait homme et qu’on lui ajoute femme, le vecteur résultant tombe tout près de reine.

vec("roi") − vec("homme") + vec("femme") ≈ vec("reine")

Ce que cela révèle mérite qu’on s’y arrête : la notion abstraite de « royauté » et celle de « genre » sont devenues des directions dans l’espace. La différence roi − homme isole le vecteur « royauté » ; on le ré-applique à « femme » et on retombe sur « reine ». Le sens s’est transformé en arithmétique. Mikolov et ses coauteurs montrent que la même mécanique fonctionne pour les capitales (Paris − France + Japon ≈ Tokyo) ou les conjugaisons.

Mais attention : c’est là que la plupart des vulgarisations s’arrêtent trop tôt. L’exemple roi/reine est un cas favorable, pas la règle. Une étude présentée à la conférence COLING 2016 par Gladkova, Drozd et Matsuoka (Beyond king − man + woman = queen) a montré que la précision de ces analogies par soustraction de vecteurs varie énormément selon le type de relation testée : excellente sur le couple masculin/féminin, médiocre sur la sémantique lexicale fine. Les analogies de genre sont un outlier : l’exception qu’on cite parce qu’elle marche, pas une preuve générale. Levy et Goldberg (2014) ont d’ailleurs proposé une méthode alternative, 3CosMul, plus robuste que la simple addition de vecteurs.

La leçon d’expert : l’espace vectoriel encode des régularités sémantiques, mais l’arithmétique linéaire ne les capture que partiellement. L’exemple roi/reine, aussi élégant soit-il, cache une réalité plus nuancée.

word2vec : l’acte fondateur (2013)

word2vec est l’algorithme publié par Tomas Mikolov et ses collègues de Google en 2013, qui a rendu les embeddings rapides à entraîner et utilisables à grande échelle. Avant lui, on savait déjà représenter les mots par des vecteurs, mais les méthodes étaient lourdes. word2vec a levé ce verrou par son efficacité.

Le papier propose deux architectures complémentaires, toutes deux entraînées à partir d’un réseau de neurones très simple :

Le génie de la méthode : on n’utilise jamais le résultat de la prédiction. Ce qu’on garde, ce sont les poids internes du réseau, qui forment justement les vecteurs. Le réseau apprend à prédire ; en chemin, il construit une géométrie du sens.

word2vec Google News, fiche technique :

  • ~100 milliards de mots / corpus d’entraînement (Google News)
  • 300 dimensions / vecteur
  • 3 millions de mots et expressions / vocabulaire couvert
  • 2 architectures / CBOW et Skip-gram

Source : Mikolov, Chen, Corrado, Dean, Efficient Estimation of Word Representations in Vector Space, arXiv:1301.3781, 2013. Corpus et vocabulaire : vecteurs pré-entraînés Google News.

Un an plus tard, en 2014, Pennington, Socher et Manning (Stanford) publiaient GloVe (Global Vectors) à la conférence EMNLP : une approche concurrente qui s’appuie sur les statistiques globales de co-occurrence du corpus entier plutôt que sur des fenêtres locales. Résultats comparables, philosophie différente. Ces deux familles ont dominé le traitement du langage jusqu’à 2018.

La limite de word2vec : un mot, un seul vecteur

word2vec et GloVe produisent des embeddings statiques : un mot reçoit un seul vecteur, figé, quel que soit le contexte. Et c’est un vrai problème.

Prenez le mot « avocat ». Dans « j’ai mangé un avocat » et « mon avocat plaide demain », le sens n’a rien à voir. Pourtant, word2vec leur attribue exactement le même vecteur, une moyenne floue entre le fruit et le juriste. Le même travers touche « bank » en anglais (la rive ou la banque), exemple canonique de la littérature. Ce phénomène porte un nom : la polysémie. Les embeddings statiques ne savent pas la gérer.

C’est cette limite qui a déclenché la génération suivante.

Les embeddings contextuels : ELMo, BERT et les transformers

Un embedding contextuel est un vecteur calculé dynamiquement pour un mot en fonction de la phrase entière qui l’entoure, de sorte que le même mot reçoit des vecteurs différents selon son sens. La rupture date de 2018.

ELMo (Peters et al., 2018) franchit le premier pas : construit sur un réseau récurrent bidirectionnel (LSTM), il produit un vecteur différent pour « avocat » selon qu’on parle de droit ou de salade. Le contexte entre enfin dans l’équation.

BERT (Devlin et al., Google, 2019) généralise l’idée en remplaçant les réseaux récurrents par un transformer et son mécanisme d’attention. L’attention permet à chaque mot de « regarder » tous les autres mots de la phrase simultanément, en parallèle, pour ajuster son vecteur. C’est plus rapide, plus profond, et c’est l’architecture qui propulse aujourd’hui les grands modèles de langage.

Critère Embeddings statiques (word2vec, GloVe) Embeddings contextuels (BERT, modèles 2024)
Vecteur par mot 1 seul, figé 1 par contexte d’apparition
Gestion de la polysémie Non Oui
Architecture Réseau peu profond Transformer / attention
Année de référence 2013-2014 2018-2019 et après
Unité encodée Le mot isolé Le mot, la phrase, le document

Les modèles d’embeddings d’aujourd’hui (text-embedding-3 d’OpenAI, les modèles open source de la famille E5 ou BGE) descendent directement de cette lignée. Ils ne se contentent plus d’encoder des mots : ils encodent des phrases et des documents entiers en un seul vecteur, ce qui ouvre la porte aux usages concrets ci-dessous.

À quoi servent les embeddings, concrètement

La théorie est élégante, mais c’est l’usage qui compte. Trois applications dominent.

La recherche sémantique

La recherche sémantique cherche par le sens et non par les mots-clés exacts : une requête et les documents sont transformés en vecteurs, puis on retourne les documents dont le vecteur est le plus proche de celui de la requête. Tapez « comment réduire ma facture d’électricité » et le système remonte un article intitulé « 10 astuces pour consommer moins d’énergie », alors qu’aucun mot ne correspond. La correspondance se fait sur le sens, pas sur la lettre.

Le RAG (génération augmentée par la récupération)

Le RAG est l’application qui a fait exploser l’usage des embeddings en entreprise. Le terme a été introduit par Patrick Lewis et ses coauteurs (Meta AI, alors Facebook AI Research) dans un papier de 2020 présenté à NeurIPS.

Le principe : avant de répondre, le modèle va chercher dans une base documentaire les passages pertinents (via une recherche par embeddings) et les injecte dans son contexte. Il répond donc à partir de vos documents, pas seulement de sa mémoire d’entraînement. C’est le mécanisme central des assistants IA branchés sur la base de connaissances d’une entreprise, et l’un des leviers les plus efficaces contre les hallucinations des LLM. C’est aussi le socle technique de la plupart des agents IA déployés en entreprise. Pour situer le RAG face aux autres façons de spécialiser un modèle, voyez notre comparatif RAG, fine-tuning ou prompting.

RAG, repères clés :

  • 2020 / introduction du terme par Lewis et al. (arXiv:2005.11401, NeurIPS)
  • Wikipédia / corpus de récupération utilisé dans le papier original
  • 3 benchmarks de question-réponse / état de l’art atteint à la publication

Source : Lewis et al., Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, arXiv:2005.11401, 2020.

La recommandation

Même logique appliquée aux produits, articles ou vidéos : on plonge utilisateurs et contenus dans un espace vectoriel commun, et on recommande ce qui est proche. « Les clients qui ont aimé ceci ont aussi aimé cela » est, sous le capot, une affaire de distance cosinus.

Comment retrouve-t-on un vecteur parmi des millions ?

Une base de connaissances réelle contient des millions de vecteurs. Comparer la requête à chacun, un par un, serait trop lent. C’est le rôle des bases de données vectorielles (Pinecone, Weaviate, Qdrant, pgvector) et des algorithmes de recherche du plus proche voisin approximatif (ANN, par exemple HNSW).

Le compromis assumé : ces algorithmes ne garantissent pas de trouver le voisin le plus proche, mais un voisin très proche, des dizaines de fois plus vite. Pour de la recherche sémantique, c’est largement suffisant : une réponse à 99 % de pertinence en quelques millisecondes vaut mieux qu’une réponse parfaite en plusieurs secondes. La rigueur exige de le dire : à l’échelle réelle, on troque un peu de précision contre beaucoup de vitesse.

FAQ

Quelle est la différence entre un embedding et un token ?
Un token est un morceau de texte (un mot ou une partie de mot) tel que le modèle le découpe. L’embedding est le vecteur de nombres qui représente ce token. Le token, c’est l’unité de texte ; l’embedding, c’est sa traduction en géométrie.

Pourquoi utiliser la similarité cosinus plutôt que la distance euclidienne ?
Parce que le sens est porté par la direction du vecteur, pas par sa longueur. La similarité cosinus mesure l’angle entre deux vecteurs et ignore leur magnitude. Sur des vecteurs normalisés à une longueur de 1, les deux mesures donnent d’ailleurs le même classement.

word2vec est-il encore utilisé en 2026 ?
Rarement en production sur des tâches de pointe, où les embeddings contextuels issus des transformers dominent. Mais word2vec reste un outil pédagogique majeur et conserve un intérêt là où la légèreté et la rapidité priment sur la finesse contextuelle.

Combien de dimensions doit avoir un bon embedding ?
Il n’y a pas de réponse unique. Les modèles courants vont de 384 à 3 072 dimensions. Plus de dimensions captent plus de nuances mais coûtent plus cher en stockage et en calcul. Certains modèles récents, comme text-embedding-3 d’OpenAI, permettent de raccourcir le vecteur pour arbitrer entre précision et coût.

Un embedding peut-il représenter autre chose que du texte ?
Oui. Le même principe s’applique aux images, au son, au code ou aux produits. Les modèles multimodaux plongent même texte et images dans un espace commun, ce qui permet de chercher une image à partir d’une description.

Ce qu’il faut retenir

Un embedding transforme le langage en géométrie : chaque mot, phrase ou document devient un vecteur de centaines de nombres, où la proximité encode le sens et où la similarité cosinus la mesure. De word2vec (2013) aux embeddings contextuels des transformers, la trajectoire a consisté à passer d’un sens figé à un sens qui dépend du contexte. C’est cette brique qui rend possibles la recherche sémantique, le RAG et la recommandation, autrement dit une bonne partie de l’IA appliquée d’aujourd’hui.

Reste la nuance d’expert, celle que les démonstrations grand public escamotent : l’arithmétique des vecteurs (roi − homme + femme) impressionne, mais ne capture qu’une partie des régularités du langage. Les embeddings sont un outil remarquable, pas une compréhension. Et c’est justement parce qu’on en maîtrise les mécanismes et les limites qu’on les déploie efficacement.

Vous voulez brancher un assistant IA sur votre propre base de connaissances, sans hallucination ni approximation ? C’est exactement le terrain de notre agence IA.

Sources primaires : Mikolov, Chen, Corrado, Dean, Efficient Estimation of Word Representations in Vector Space, arXiv:1301.3781, 2013 · Pennington, Socher, Manning, GloVe: Global Vectors for Word Representation, EMNLP 2014 · Drozd, Gladkova, Matsuoka, Word Embeddings, Analogies, and Machine Learning: Beyond king − man + woman = queen, COLING 2016 · Levy, Goldberg, Linguistic Regularities in Sparse and Explicit Word Representations, CoNLL 2014 · Peters et al., Deep Contextualized Word Representations (ELMo), NAACL 2018 · Devlin, Chang, Lee, Toutanova, BERT, NAACL 2019 · Lewis et al., Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, arXiv:2005.11401, NeurIPS 2020 · OpenAI, documentation API Embeddings, 2024. À jour au juin 2026.

Sources

  1. arXiv:1301.3781
  2. documentation API Embeddings
  3. vecteurs pré-entraînés Google News
  4. arXiv:2005.11401
  5. EMNLP 2014
  6. COLING 2016
  7. CoNLL 2014
  8. NAACL 2018
  9. NAACL 2019

Vous êtes une entreprise ?

Ordiama, c'est aussi une agence IA à Strasbourg : on crée votre site, on vous rend visible dans l'IA et on automatise vos tâches.

Découvrir l'agence →

À lire aussi