Vous êtes une entreprise ?
Ordiama, c'est aussi une agence IA à Strasbourg : on crée votre site, on vous rend visible dans l'IA et on automatise vos tâches.
On répète partout que les modèles de langage « inventent ». Le terme d’hallucination s’est imposé, jusque dans les avertissements affichés sous chaque chatbot. Mais l’explication courante, « l’IA se trompe parce qu’elle n’est pas encore assez puissante », est fausse. En septembre 2025, quatre chercheurs, dont trois d’OpenAI, ont publié un papier qui tranche la question avec une démonstration mathématique : une hallucination n’est pas un accident, c’est le résultat prévisible de la manière dont un LLM apprend et de la façon dont on le note. Ce dossier décortique le vrai mécanisme, cite les études primaires, et explique pourquoi on ne peut pas éliminer totalement le phénomène, seulement le réduire.
Réponse directe : un LLM hallucine parce qu’il ne prédit pas la vérité mais le prochain mot le plus probable, sans modèle interne du « vrai ». L’erreur est statistiquement inévitable dès l’entraînement (un fait vu une seule fois est presque impossible à restituer de façon fiable), et elle est encouragée par la phase d’évaluation : les benchmarks récompensent la réponse plutôt que l’abstention. On la réduit (RAG, calibration, autorisation de dire « je ne sais pas »), mais on ne la supprime pas.
Une hallucination est une production d’un modèle de langage qui est fluide, plausible et grammaticalement correcte, mais factuellement fausse ou non fondée sur les données fournies. Le mot prête à confusion : le modèle ne « voit » rien qui n’existe pas. Il génère simplement une suite de mots cohérente qui se trouve être inexacte.
La recherche distingue deux grandes familles, et cette distinction change tout pour le diagnostic.
Les deux types d’hallucination (taxonomie de référence) :
- Hallucination intrinsèque : la sortie contredit la source fournie au modèle. Exemple : un résumé qui déforme le texte d’origine.
- Hallucination extrinsèque : la sortie ne peut être vérifiée à partir de la source. Exemple : un fait inventé absent du document.
- Variante factualité : la sortie contredit le monde réel (contradiction ou fabrication pure).
- Variante fidélité : la sortie s’écarte de la consigne ou du contexte donné.
Source : Huang et al., « A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions », arXiv:2311.05232, 2023-2024.
Cette nuance compte. Une hallucination intrinsèque relève d’un défaut de fidélité au texte : le modèle avait l’information sous les yeux et l’a trahie. Une hallucination extrinsèque relève d’un défaut de connaissance : le modèle comble un trou avec une invention vraisemblable. Les leviers pour corriger l’une ou l’autre ne sont pas les mêmes, on y revient plus bas.
Pour comprendre l’hallucination, il faut d’abord comprendre ce qu’un LLM fait réellement. Et ce n’est pas « répondre à une question ».
Un grand modèle de langage est un système entraîné à prédire le prochain fragment de texte (token) le plus probable, étant donné les tokens précédents. Rien de plus. Il n’a pas de base de données de faits qu’il interrogerait, ni de mécanisme de vérification de vérité. Il dispose d’une immense distribution de probabilités apprise sur des milliers de milliards de mots.
Quand vous lui demandez la date de naissance de quelqu’un, il ne « cherche » pas cette date. Il calcule quelle suite de chiffres est la plus probable après votre question, compte tenu de tout ce qu’il a lu. Si la réponse exacte était massivement présente dans ses données, la probabilité penche du bon côté. Sinon, il produit quand même une date, parce que produire une date plausible est exactement ce pour quoi il a été optimisé.
C’est le cœur du problème : rien dans cet objectif ne distingue une affirmation vraie d’une affirmation fausse mais vraisemblable. Le modèle optimise la plausibilité, pas la véracité. Les deux coïncident souvent, mais pas toujours. Quand elles divergent, on appelle ça une hallucination. C’est la même mécanique de génération du probable qui pose la question de savoir si une IA peut vraiment être créative.
L’illustration la plus parlante vient du papier d’OpenAI lui-même. À la question « combien de D dans DEEPSEEK ? », le modèle DeepSeek-V3 (600 milliards de paramètres) a renvoyé « 2 » ou « 3 » sur dix essais indépendants ; d’autres modèles testés ont répondu jusqu’à « 6 » ou « 7 ». La bonne réponse est 3. Un système qui « comprendrait » compterait. Un système qui prédit des tokens produit le nombre statistiquement plausible, et se trompe.
Pourquoi un LLM hallucine, la chaîne causale :
- Objectif d’entraînement : prédire le token suivant le plus probable, pas vérifier un fait.
- Aucun modèle interne du « vrai » : la plausibilité remplace la véracité.
- Génération obligatoire : le modèle produit toujours une suite, il ne peut pas « ne rien dire » par défaut.
- Évaluation : les benchmarks notent la réponse, pas l’honnêteté de l’incertitude, donc deviner paie.
Source : Kalai, Nachum, Vempala & Zhang (OpenAI & Georgia Tech), « Why Language Models Hallucinate », arXiv:2509.04664, sept. 2025.
Le papier « Why Language Models Hallucinate » (Kalai, Nachum, Vempala et Zhang, septembre 2025) est la pièce centrale de ce dossier, parce qu’il ne se contente pas d’observer le phénomène : il le prouve. Son argument tient en deux temps. L’entraînement rend l’erreur inévitable, l’évaluation la rend permanente.
Les auteurs ramènent la génération à un problème de classification binaire qu’ils nomment Is-It-Valid (IIV) : « cette affirmation est-elle valide, oui ou non ? ». Ils démontrent que générer une réponse correcte est au moins aussi difficile que de classer correctement la validité d’une affirmation. Formellement, le taux d’erreur génératif est borné inférieurement par environ le double du taux d’erreur de ce classifieur.
L’inégalité centrale du papier (Corollaire 1) :
- (taux d’erreur génératif) ≳ 2 × (taux d’erreur de classification IIV)
- Conséquence : si un modèle ne peut pas distinguer le vrai du faux, il doit halluciner.
- Le résultat ne dépend pas de l’architecture : il découle de pressions statistiques.
Source : Kalai et al., arXiv:2509.04664, sept. 2025, Corollaire 1.
Autrement dit : tant qu’il existe des affirmations fausses indiscernables des vraies dans les données, un modèle pré-entraîné finira par en produire. Ce n’est pas une faiblesse passagère ; c’est une propriété de la tâche.
Le résultat le plus concret du papier concerne les faits rares. Les auteurs montrent que le taux d’hallucination d’un modèle de base, après pré-entraînement, est au moins égal à la proportion de faits qui n’apparaissent qu’une seule fois dans les données d’entraînement.
Le « singleton rate », un plancher d’hallucination :
- Si 20 % des dates de naissance n’apparaissent qu’une fois dans les données, le modèle hallucine sur 20 % au moins de ces dates.
- Cause : un fait vu une seule fois ne crée pas de régularité statistique exploitable.
- Vérification empirique : DeepSeek-V3 a donné trois dates fausses (« 03-07 », « 15-06 », « 01-01 ») pour l’anniversaire d’un des auteurs.
Source : Kalai et al., arXiv:2509.04664, sept. 2025, Théorème 2.
La logique est implacable et vulgarisable : pour qu’un modèle apprenne une régularité, il lui faut des répétitions. Un fait isolé, l’anniversaire d’un quasi-inconnu ou une référence juridique obscure, n’offre aucune répétition. Le modèle ne peut donc pas l’« apprendre » au sens statistique. Confronté à la question, il génère le plus plausible. Et le plus plausible n’est pas le vrai.
C’est la partie la plus contre-intuitive, et la plus importante en pratique. Même un modèle qui « sait » qu’il ne sait pas a intérêt à deviner, parce qu’on le note comme un examen à choix multiples.
Les auteurs analysent les grands benchmarks (MMLU-Pro, GPQA, SWE-bench, Omni-MATH, IFEval) et constatent que la quasi-totalité utilise une notation binaire : 1 point pour une bonne réponse, 0 pour une mauvaise et 0 pour un « je ne sais pas ». Dans ce système, l’abstention ne rapporte jamais rien.
Pourquoi deviner est toujours la stratégie gagnante (Observation 1) :
- Notation binaire : bonne réponse = 1, mauvaise = 0, abstention = 0.
- L’espérance de gain en devinant dépasse l’espérance en s’abstenant dès que la probabilité d’avoir juste est supérieure à zéro.
- Conséquence : un modèle optimisé pour ces tests apprend à bluffer plutôt qu’à reconnaître son ignorance.
- Analogie des auteurs : un étudiant qui devine à un QCM plutôt que de laisser blanc.
Source : Kalai et al., arXiv:2509.04664, sept. 2025, Observation 1 et Table 2.
Voilà le diagnostic complet. Le pré-entraînement crée une réserve d’erreurs inévitables. L’évaluation, en récompensant la confiance plutôt que l’honnêteté, transforme ces erreurs potentielles en hallucinations assumées. Le modèle n’est pas « cassé » : il fait exactement ce pour quoi on l’a noté.
Un terme revient dans toute cette littérature : la calibration. Un modèle est calibré quand les probabilités qu’il attribue correspondent aux fréquences réelles d’occurrence : quand il annonce 70 % de confiance, il a raison environ 70 % du temps.
Le point subtil, souligné par le papier d’OpenAI, c’est qu’être calibré est plus facile que d’être exact. Un modèle peut donc être bien calibré tout en se trompant : il « sait » qu’il hésite, mais le système d’évaluation l’incite à trancher quand même. La calibration mesure la qualité de l’incertitude ; l’exactitude mesure la qualité de la réponse. Les deux ne sont pas le même problème, et c’est précisément l’écart entre les deux que les hallucinations exploitent.
Conséquence pratique : un modèle qui exprimerait honnêtement son incertitude (« je ne suis pas sûr de cette date ») serait souvent moins bien classé sur les benchmarks actuels qu’un modèle qui devine avec aplomb. Tant que les classements valorisent la précision brute, les laboratoires sont incités à livrer des modèles sûrs d’eux, donc plus enclins à halluciner.
L’hallucination n’est pas une abstraction : on la chiffre. Deux jeux de données font référence, et leurs résultats donnent l’ordre de grandeur réel du problème.
Le classement Vectara mesure le taux d’hallucination en résumé ancré : le modèle reçoit un document et doit le résumer sans rien inventer. C’est le cas le plus favorable, puisque la source est fournie.
Taux d’hallucination en résumé ancré (Vectara HHEM) :
- Gemini 2.0 Flash : 0,7 %, le plus bas du classement.
- GPT-4o : 1,5 %.
- Claude Sonnet : 4,4 %.
- Claude Opus : 10,1 %.
Source : Vectara Hallucination Leaderboard (HHEM), benchmark de résumé ancré, jeu de données initial.
Sur une tâche aussi cadrée, les meilleurs modèles tombent sous 1 %. Mais ces chiffres s’effondrent dès que la tâche se complexifie. L’étude la plus marquante vient du domaine juridique, où l’enjeu de fiabilité est maximal.
Hallucinations des outils juridiques IA (étude Stanford RegLab) :
- Lexis+ AI : plus de 17 % de réponses hallucinées, pourtant fondé sur du RAG.
- Westlaw AI-Assisted Research : environ 33 % d’hallucinations, et 42 % de réponses exactes seulement.
- GPT-4 sans ancrage : environ 43 % d’hallucinations.
- Méthode : requêtes juridiques notées à la main par des juristes.
Source : Magesh, Surani, Dahl, Suzgun, Manning & Ho (Stanford RegLab), « Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools », arXiv:2405.20362 (préprint mai 2024) ; publié dans le Journal of Empirical Legal Studies, 2025.
Le contraste est l’enseignement principal. Un même type de modèle passe de moins de 1 % à plus de 30 % d’hallucination selon que la tâche est un résumé simple ou une recherche juridique ouverte. La fiabilité d’un LLM n’est pas une propriété fixe : elle dépend massivement de la difficulté de la requête et de la rareté des faits demandés. C’est exactement ce que prédit le « singleton rate » du papier OpenAI.
Si on ne peut pas l’éliminer, on peut la faire chuter. Les leviers efficaces visent soit à fournir la bonne information au modèle, soit à l’autoriser à reconnaître ses limites. Pour une entreprise qui déploie un assistant ou un agent IA en production, ces choix déterminent directement la fiabilité du système.
Le RAG (Retrieval-Augmented Generation, génération augmentée par récupération) est une technique qui, avant de répondre, va chercher des documents pertinents dans une base externe et les fournit au modèle comme contexte. Cette recherche s’appuie sur les embeddings, ces vecteurs qui transforment les mots en sens. L’idée : transformer une question de connaissance (où le modèle peut inventer) en une question de lecture (où il s’appuie sur un texte réel).
Le RAG réduit nettement les hallucinations extrinsèques, celles qui viennent d’un trou de connaissance. Mais il ne les supprime pas, et c’est documenté. Les outils juridiques de l’étude Stanford reposaient justement sur du RAG, et hallucinaient encore 17 à 33 % du temps. Les raisons : un passage récupéré peut être hors-sujet, plusieurs documents peuvent se contredire, et le modèle peut malgré tout s’écarter de la source pour extrapoler. Pour choisir entre cette approche et les autres, voyez notre dossier sur le RAG, le fine-tuning et le prompting.
Ce que le RAG corrige et ne corrige pas :
- Corrige : les inventions par manque de connaissance, puisque le modèle lit au lieu de deviner.
- Ne corrige pas : les hallucinations intrinsèques, car le modèle peut trahir la source fournie.
- Limite documentée : 17 à 33 % d’hallucinations persistantes sur des outils juridiques pourtant équipés de RAG.
- Risque connu : l’effet « perdu au milieu », quand le modèle néglige l’info au centre d’un long contexte.
Sources : Magesh et al. (Stanford), arXiv:2405.20362, 2024-2025 ; revue RAG, arXiv:2506.00054, 2025.
La documentation officielle d’Anthropic pour Claude formule trois leviers directement actionnables, qui découlent logiquement du diagnostic ci-dessus. Donner explicitement au modèle la permission de dire « je ne sais pas » réduit fortement les fausses affirmations : on défait l’incitation à deviner. Pour les longs documents (au-delà de 20 000 tokens), demander au modèle d’extraire d’abord des citations mot pour mot avant de répondre ancre la sortie dans le texte réel. Et exiger une source pour chaque affirmation rend la réponse auditable.
Leviers de réduction côté usage (recommandations Anthropic) :
- Autoriser explicitement « je ne sais pas » : on défait l’incitation à deviner.
- Demander des citations mot pour mot avant de répondre : on ancre la sortie dans la source.
- Exiger une source par affirmation : la réponse devient vérifiable.
- Demander un niveau de confiance : l’incertitude remonte à la surface (métacognition).
Source : Anthropic, documentation « Reduce hallucinations », Claude Docs.
La proposition de fond du papier OpenAI n’est pas technique, elle est socio-technique. Plutôt que d’ajouter de nouveaux tests d’hallucination, les auteurs proposent de modifier la notation des benchmarks existants : pénaliser plus fortement une erreur confiante qu’une abstention, et donner un crédit partiel à une expression honnête d’incertitude. Concrètement, fixer un seuil de confiance explicite dans la consigne (par exemple : ne réponds que si tu es sûr à 75 %, sinon abstiens-toi).
Tant que les classements publics récompensent le bluff, aucun laboratoire n’a intérêt à livrer un modèle plus prudent : il chuterait dans les comparatifs. C’est un problème d’incitations collectives, pas un problème d’ingénierie isolé. Et c’est pour ça qu’il faudra du temps avant qu’il bouge.
Réunissons les fils. L’hallucination résiste à l’élimination complète pour des raisons qui se cumulent, et qu’aucune mise à jour de modèle ne fera disparaître entièrement.
Les raisons de fond (résumé) :
- L’objectif lui-même : prédire un mot plausible n’équivaut pas à dire le vrai, faute de modèle interne de vérité.
- Plancher statistique : les faits rares (vus une fois) sont quasi impossibles à restituer fiablement.
- Borne mathématique : générer juste est plus dur que classer le juste (Corollaire 1, OpenAI 2025).
- Incitations : l’évaluation récompense la réponse, pas l’honnêteté, donc deviner restera payant tant que la notation ne change pas.
Sources : Kalai et al., arXiv:2509.04664, 2025 ; Huang et al., arXiv:2311.05232, 2024.
La bonne posture, pour un professionnel comme pour un curieux, n’est donc pas d’attendre le modèle qui n’hallucinera « plus jamais ». C’est de traiter chaque LLM comme un assistant brillant mais faillible : utile pour produire, dangereux pour affirmer sans vérifier. Le choix du modèle compte d’ailleurs, car les écarts de taux d’hallucination sont réels d’un système à l’autre, et nous les détaillons dans notre comparatif ChatGPT, Claude et Gemini.
C’est aussi le cœur de notre travail à l’agence Ordiama : concevoir des systèmes d’IA où la fiabilité est une contrainte de conception (ancrage, citations, garde-fous, validation humaine), et non un vœu pieux. Une IA qui dit « je ne sais pas » au bon moment vaut mieux qu’une IA qui répond toujours.
Une hallucination d’IA, c’est quoi exactement ?
C’est une réponse produite par un modèle de langage qui est fluide et plausible mais factuellement fausse ou non fondée sur les sources fournies. Le modèle n’invente pas par malice : il génère la suite de mots la plus probable, qui ne correspond pas toujours à la réalité.
Pourquoi un LLM préfère inventer plutôt que dire « je ne sais pas » ?
Parce qu’on l’a entraîné et noté ainsi. Les benchmarks attribuent 0 point à une mauvaise réponse comme à une abstention, donc deviner rapporte toujours plus que reconnaître son ignorance. Le modèle apprend à bluffer, exactement comme un étudiant à un QCM.
Peut-on supprimer complètement les hallucinations ?
Non. Le papier OpenAI 2025 démontre que l’erreur est statistiquement inévitable dès le pré-entraînement, notamment sur les faits rares. On peut la réduire fortement (RAG, citations, autorisation de douter), mais pas la ramener à zéro.
Le RAG résout-il le problème ?
En partie seulement. En fournissant des sources au modèle, le RAG réduit les inventions par manque de connaissance. Mais l’étude Stanford sur les outils juridiques, pourtant équipés de RAG, mesure encore 17 à 33 % d’hallucinations. Le modèle peut ignorer ou déformer la source fournie.
Quels modèles hallucinent le moins en 2026 ?
Sur la tâche de résumé ancré du classement Vectara, Gemini 2.0 Flash (0,7 %) et GPT-4o (1,5 %) sont en tête, devant Claude Sonnet (4,4 %). Mais ces taux explosent sur des questions ouvertes et des faits rares : aucun modèle n’est fiable à 100 %.
Comment réduire les hallucinations dans mes propres usages ?
Autorisez explicitement le modèle à dire « je ne sais pas », demandez-lui des citations mot pour mot de ses sources, exigez une source par affirmation, et faites-lui indiquer son niveau de confiance. Pour les usages sensibles, ajoutez une vérification humaine systématique.
Ordiama, c'est aussi une agence IA à Strasbourg : on crée votre site, on vous rend visible dans l'IA et on automatise vos tâches.