Guide des modèles d’IA (LLM) en 2026 : le panorama

DossierPar la rédaction14 min

En 2026, une dizaine de modèles d’IA se partagent le marché, et aucun ne gagne sur tous les terrains. ChatGPT reste le plus connu, mais sa part de marché vient de passer sous la barre des 50 %. Claude domine le code, Gemini joue la vitesse et le prix, et des modèles open source comme DeepSeek ou Mistral coûtent dix à vingt fois moins cher pour un résultat proche. Ce guide répond à trois questions : ce qu’est un LLM, qui propose quoi, et comment choisir sans se tromper.

À jour : juin 2026.

Réponse directe : un grand modèle de langage (LLM) est un système d’intelligence artificielle entraîné sur d’immenses corpus de texte pour comprendre et générer du langage. En 2026, les modèles de référence sont GPT-5.5 (OpenAI), Claude Opus 4.8 (Anthropic) et Gemini 3.1 Pro (Google) côté propriétaire ; DeepSeek, Llama 4 et Mistral 3 côté open source. Le bon choix dépend de votre usage, de votre budget et de vos contraintes de confidentialité, pas d’un classement unique.

Sommaire

Qu’est-ce qu’un LLM ? Définition et fonctionnement
Le panorama des modèles d’IA en 2026
Propriétaire ou open source : quelle différence ?
Comment comparer deux modèles : raisonnement, contexte, prix
Comment choisir le bon modèle selon votre cas
Le marché en chiffres : qui utilise quoi
Questions fréquentes

Qu’est-ce qu’un LLM ? Définition et fonctionnement

Un grand modèle de langage, ou LLM (de l’anglais large language model), est un réseau de neurones profond entraîné sur d’énormes volumes de texte pour prédire le mot suivant dans une suite de mots. C’est cette mécanique, répétée des milliards de fois, qui lui permet de rédiger, traduire, résumer ou coder.

Le mot « large » n’est pas décoratif. Il renvoie à deux grandeurs : la taille du corpus d’entraînement (des téraoctets de texte) et le nombre de paramètres du modèle, ces valeurs internes que l’entraînement ajuste. GPT-3 en comptait 175 milliards en 2020. Les modèles de 2026 dépassent largement le millier de milliards, le plus souvent via une architecture qui n’en active qu’une fraction à la fois.

Le transformeur, la brique de base

Le transformeur est l’architecture de réseau de neurones, introduite par Google en 2017, sur laquelle reposent tous les LLM modernes. Son innovation centrale s’appelle l’attention (self-attention) : le modèle pèse l’importance de chaque mot par rapport aux autres, y compris ceux éloignés dans le texte, pour saisir le contexte.

Concrètement, quand vous écrivez « la banque était au bord de la rivière », le mécanisme d’attention relie « banque » à « rivière » pour comprendre qu’on parle de la berge, pas d’un établissement financier. C’est cette capacité à lier des mots distants qui rend le texte généré cohérent sur plusieurs paragraphes.

Anatomie d’un LLM, repères 2026 :

2017 / année d’invention de l’architecture transformeur (Google)

175 milliards / paramètres de GPT-3 en 2020, devenu la référence historique

1 000+ milliards / paramètres totaux des modèles de pointe en 2026

1 token / unité de découpage du texte (≈ 0,75 mot en français)

Sources : Google for Developers, cours Machine Learning ; IBM Think, « What Are Large Language Models » ; Cloudflare Learning.

Quelques termes à connaître

Trois mots reviennent sans cesse dans les fiches techniques. Autant les décoder une fois pour toutes.

Le token est l’unité de base que manipule un LLM : un fragment de mot, un mot court ou un signe de ponctuation. En français, comptez environ 0,75 mot par token. Tout se facture et se mesure en tokens, pas en mots.

La fenêtre de contexte est la quantité maximale de texte qu’un modèle peut garder « en tête » dans une même conversation, exprimée en tokens. Une fenêtre d’un million de tokens représente environ 750 000 mots, soit plusieurs livres.

Le MoE (mixture of experts, ou mélange d’experts) est une architecture qui découpe le modèle en sous-réseaux spécialisés et n’en active qu’une poignée par requête. Résultat : un modèle peut totaliser 1 000 milliards de paramètres mais n’en mobiliser que 40 milliards à chaque réponse, ce qui le rend beaucoup moins coûteux à faire tourner. La plupart des modèles open source de 2026 (Mistral 3, Llama 4, DeepSeek) reposent dessus.

Le panorama des modèles d’IA en 2026

Le marché se structure autour de sept familles de modèles, portées par sept éditeurs aux philosophies différentes. Trois Américains dominent le segment propriétaire, et un bloc open source mené par la Chine et l’Europe rattrape l’écart à grande vitesse.

Le tableau ci-dessous donne la photo complète, à jour de juin 2026. Les modèles cités sont les versions phares de chaque famille.

Modèle phare	Éditeur	Type	Contexte (entrée)	Prix API (entrée / sortie, par M tokens)	Point fort
GPT-5.5	OpenAI (États-Unis)	Propriétaire	1 M tokens	5 $ / 30 $	Polyvalence, écosystème
Claude Opus 4.8	Anthropic (États-Unis)	Propriétaire	1 M tokens	5 $ / 25 $	Code, écriture, fiabilité
Gemini 3.1 Pro	Google (États-Unis)	Propriétaire	1 M tokens	2 $ / 12 $	Vitesse, multimodal, prix
Grok 4.3	xAI (États-Unis)	Propriétaire	1 M tokens	1,25 $ / 2,50 $	Vitesse, accès temps réel à X
Mistral 3 (Large)	Mistral AI (France)	Open source	256 K tokens	0,50 $ / 1,50 $	Souveraineté, poids ouverts
Llama 4 (Maverick)	Meta (États-Unis)	Open source	jusqu’à 10 M tokens	auto-hébergeable	Très long contexte, gratuit
DeepSeek V3.2	DeepSeek (Chine)	Open source	128 K tokens	0,23 $ / 0,34 $	Coût imbattable, raisonnement

Prix API des modèles propriétaires (entrée, par million de tokens, juin 2026) :

1,25 $ / Grok 4.3, le moins cher des modèles propriétaires de pointe

2 $ / Gemini 3.1 Pro (4 $ au-delà de 200 K tokens)

5 $ / Claude Opus 4.8 et GPT-5.5, alignés au même tarif d’entrée

30 $ / GPT-5.5 en sortie, le plus cher du trio de tête

Sources : pages tarifaires officielles OpenAI, Anthropic, Google et xAI (juin 2026) ; OpenRouter, fiches modèles.

ChatGPT / GPT (OpenAI)

GPT est la famille de modèles qui a popularisé l’IA générative auprès du grand public via ChatGPT, lancé fin 2022. Le modèle phare de 2026, GPT-5.5, reste le couteau suisse du secteur : texte, image, vidéo via Sora, recherche, code, le tout adossé au plus large catalogue d’intégrations du marché.

Son tarif API est de 5 $ en entrée et 30 $ en sortie par million de tokens, avec une fenêtre d’un million de tokens. C’est le modèle qui en fait le plus, rarement le meilleur sur un critère isolé. Pour départager ChatGPT, Claude et Gemini sur un usage précis, nous avons publié un comparatif détaillé ChatGPT, Claude ou Gemini.

Claude (Anthropic)

Claude est le modèle de référence pour écrire et coder en 2026. La version Opus 4.8, sortie le 28 mai 2026, obtient 88,6 % au SWE-bench Verified, le test qui mesure la résolution de vrais tickets de développement sur GitHub. Sur l’écriture, la plupart des comparatifs lui reconnaissent une prose plus naturelle et un meilleur respect des consignes de ton, un point que nous avons creusé dans notre comparatif de la meilleure IA pour écrire en français.

Anthropic mise sur la fiabilité et la sécurité. Opus 4.8 introduit un mode rapide trois fois moins cher que la génération précédente, tout en gardant le tarif standard de 5 $ en entrée et 25 $ en sortie par million de tokens, avec un contexte d’un million de tokens.

Gemini (Google)

Gemini est le modèle le plus rapide et le mieux intégré à un environnement de travail, en l’occurrence Google Workspace (Gmail, Docs, Sheets, Meet). Gemini 3.1 Pro, sorti le 19 février 2026, a dominé 13 benchmarks sur 16 à son lancement, dont un record de 94,3 % au GPQA Diamond, le test de raisonnement scientifique le plus exigeant.

Son prix API démarre à 2 $ en entrée et 12 $ en sortie par million de tokens, qui doublent au-delà de 200 000 tokens. À ce tarif, c’est le meilleur rapport performance-prix du segment propriétaire de pointe.

Grok (xAI)

Grok est le modèle de xAI, l’entreprise d’Elon Musk, adossé au réseau social X pour un accès à l’information en temps réel. Grok 4.3, sorti le 30 avril 2026, se distingue par sa vitesse (177 tokens par seconde en sortie) et un tarif agressif : 1,25 $ en entrée et 2,50 $ en sortie par million de tokens, le moins cher des modèles propriétaires de pointe.

À ne pas confondre avec Groq (avec un q), qui n’est pas un chatbot mais une société de puces pour faire tourner l’IA très vite, désormais en partie absorbée par Nvidia. On démêle les deux dans Groq ou Grok.

Mistral (Mistral AI)

Mistral AI est le champion européen de l’IA, basé à Paris, qui publie ses modèles en open source. Mistral 3, son modèle le plus capable, est un MoE de 675 milliards de paramètres totaux (41 milliards actifs) distribué sous licence Apache 2.0. Vous pouvez le télécharger, l’auto-héberger, ou y accéder via API à 0,50 $ en entrée et 1,50 $ en sortie par million de tokens.

Son argument va au-delà de la technique : la souveraineté. Pour une entreprise ou une administration européenne soucieuse de garder ses données sur le continent, Mistral coche une case que les modèles américains ne peuvent pas cocher. La société a levé 830 millions de dollars en dette en mars 2026 pour équiper son propre datacenter près de Paris.

Llama (Meta)

Llama est la famille de modèles open source de Meta, longtemps la référence du logiciel libre en IA. Llama 4 adopte une architecture MoE et se décline en trois variantes : Scout (109 milliards de paramètres totaux, contexte de 10 millions de tokens), Maverick (400 milliards) et Behemoth (un modèle géant non distribué, servant à entraîner les autres). Sa fenêtre de contexte de 10 millions de tokens sur Scout est la plus large du marché.

DeepSeek (DeepSeek)

DeepSeek est l’éditeur chinois qui a bousculé le marché début 2025 en publiant des modèles de raisonnement quasi au niveau des meilleurs, sous licence MIT, pour une fraction du coût. DeepSeek V3.2 affiche 79,9 % au GPQA Diamond et coûte 0,23 $ en entrée et 0,34 $ en sortie par million de tokens via API, soit dix à vingt fois moins que GPT-5.5. L’entreprise revendique un coût d’entraînement de 6 millions de dollars pour son modèle V3, contre des centaines de millions pour ses concurrents américains.

Propriétaire ou open source : quelle différence ?

Un modèle propriétaire est un LLM dont les poids restent fermés et qu’on utilise uniquement via l’API ou l’application de son éditeur. Un modèle open source (plus exactement « à poids ouverts ») publie ses paramètres, ce qui permet de le télécharger, l’auto-héberger et le modifier.

La distinction n’est pas qu’idéologique. Elle change tout en matière de coût, de confidentialité et de contrôle. Le tableau ci-dessous pose les vrais critères de décision.

Critère	Modèle propriétaire	Modèle open source
Exemples (2026)	GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro	Llama 4, Mistral 3, DeepSeek V3.2
Accès au modèle	API ou app uniquement	Téléchargement des poids possible
Auto-hébergement	Impossible	Possible (sur vos serveurs)
Confidentialité des données	Données envoyées à l’éditeur	Données gardées en interne si auto-hébergé
Coût d’usage	Au token, généralement plus élevé	Faible API ou coût d’infrastructure
Performance de pointe	Souvent en tête des benchmarks	À 2-5 % des meilleurs, l’écart se réduit
Maintenance	Gérée par l’éditeur	À votre charge si auto-hébergé

Longtemps, l’open source accusait un retard net. Ce n’est plus vrai en 2026. Llama 4 se situe à moins de 2 % des meilleurs modèles propriétaires sur les tâches de RAG (recherche augmentée), et DeepSeek talonne les leaders sur le raisonnement. L’écart de performance s’est resserré au point que, pour beaucoup d’usages courants, il ne justifie plus l’écart de prix.

L’écart propriétaire vs open source en 2026 :

< 2 % / écart de Llama 4 face aux meilleurs modèles propriétaires sur le RAG

79,9 % / GPQA Diamond de DeepSeek V3.2, contre 94,3 % pour Gemini 3.1 Pro

0,23 $ / coût d’entrée de DeepSeek par M tokens, vs 5 $ pour GPT-5.5

20x / facteur de prix entre DeepSeek et les modèles propriétaires de tête

Sources : Meta AI, fiche Llama 4 ; llm-stats.com et OpenRouter (benchmarks DeepSeek V3.2, juin 2026) ; pages tarifaires officielles.

Mon conseil après avoir testé les deux camps : ne partez pas du principe qu’il vous faut le modèle le plus puissant. Pour résumer des documents, classer des e-mails ou alimenter un agent interne, un modèle open source auto-hébergé fait le travail à un coût marginal et garde vos données chez vous. Gardez les modèles propriétaires de pointe pour les tâches où la qualité absolue compte vraiment : code complexe, rédaction soignée, raisonnement difficile.

Comment comparer deux modèles : raisonnement, contexte, prix

Comparer des LLM ne se résume pas à lire un score global. Trois familles de critères comptent : la qualité de raisonnement, la taille du contexte et le prix. Reste à les lire sans se faire avoir par le marketing.

Le raisonnement : lire les benchmarks sans naïveté

Les benchmarks sont des tests standardisés qui notent un modèle sur des tâches précises. Quatre reviennent constamment en 2026, et chacun mesure une chose différente.

Benchmark	Ce qu’il mesure	Meilleur score 2026
SWE-bench Verified	Résolution de vrais tickets de code GitHub	Claude Opus 4.8 (88,6 %)
GPQA Diamond	Raisonnement scientifique de niveau doctorat	Gemini 3.1 Pro (94,3 %)
ARC-AGI-2	Raisonnement abstrait et généralisation	Gemini 3.1 Pro (77,1 %)
AIME 2025	Mathématiques de compétition	DeepSeek V3.2 (89,3 %)

Une mise en garde, parce que la plupart des articles ne vous la donneront pas : un benchmark ne mesure que ce qu’il mesure. Un modèle qui gagne sur SWE-bench n’est pas forcément le meilleur sur votre projet précis. Les scores se rapprochent au sommet (un ou deux points d’écart), bougent à chaque nouvelle version, et certains modèles sont entraînés en visant explicitement ces tests. Servez-vous-en pour dégrossir, jamais pour trancher seul.

Le contexte : combien de texte le modèle encaisse

La fenêtre de contexte détermine la quantité de texte que le modèle peut traiter en une fois. En 2026, le standard du haut de gamme est le million de tokens, soit environ 750 000 mots ou 1 500 pages. Llama 4 Scout pousse jusqu’à 10 millions de tokens.

Tailles de contexte en 2026 (en tokens d’entrée) :

128 K / DeepSeek V3.2, suffisant pour un long document

256 K / Mistral 3

1 M / standard du haut de gamme (GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro)

10 M / Llama 4 Scout, le plus large du marché

Sources : fiches modèles officielles des éditeurs ; OpenRouter et llm-stats.com, juin 2026.

Attention au piège : un grand contexte affiché ne garantit pas que le modèle exploite bien tout ce qu’on lui donne. Certains modèles « perdent » des informations situées au milieu d’un long document. Sur ce point précis, Claude et Gemini se montrent plus fiables que la moyenne dans nos essais.

Le prix : raisonner par million de tokens

Le prix d’un LLM se compte au million de tokens, séparément pour l’entrée (votre requête) et la sortie (sa réponse). La sortie coûte presque toujours plus cher que l’entrée. C’est le critère qui sépare le plus radicalement les modèles : du simple au vingtuple.

Coût de sortie, par million de tokens (juin 2026) :

0,34 $ / DeepSeek V3.2, le plancher du marché

1,50 $ / Mistral 3 Large

2,50 $ / Grok 4.3

25 $ / Claude Opus 4.8

30 $ / GPT-5.5, le plus cher du panorama

Sources : pages tarifaires officielles OpenAI, Anthropic, Google, xAI, Mistral et DeepSeek (juin 2026).

Deux leviers réduisent fortement la facture côté propriétaire : le prompt caching (mise en cache des parties répétées d’une requête, jusqu’à 90 % d’économie) et le traitement par lots (batch, environ 50 % de remise). Combinés, ils peuvent diviser le coût par vingt sur un usage industriel.

Comment choisir le bon modèle selon votre cas

Il n’existe pas de meilleur modèle universel en 2026. Il existe un meilleur modèle par usage. Repérez le vôtre dans cette grille de décision, pensée pour les usages les plus fréquents.

Écrire au quotidien (articles, e-mails, contenus) : Claude Opus 4.8. Prose la plus naturelle, meilleur respect du ton.
Développer du logiciel : Claude Opus 4.8 (88,6 % au SWE-bench), avec GPT-5.5 comme alternative polyvalente.
Un seul outil pour tout faire : ChatGPT (GPT-5.5). Le plus polyvalent et le mieux outillé pour le grand public.
Petit budget ou gros volumes : Gemini 3.1 Pro côté propriétaire, DeepSeek V3.2 côté open source.
Confidentialité ou souveraineté des données : Mistral 3 ou Llama 4 auto-hébergés. Vos données ne quittent pas vos serveurs.
Raisonnement scientifique ou mathématique : Gemini 3.1 Pro (94,3 % au GPQA Diamond).
Très longs documents : Llama 4 Scout (10 M tokens) ou un modèle propriétaire à 1 M tokens.

Si vous équipez une entreprise, un seul protocole ne ment pas : testez deux ou trois modèles une semaine sur vos vrais cas, avec vos vrais documents. L’écart se joue sur vos usages réels, pas sur un classement. C’est exactement ce qu’on fait avant de recommander un modèle à un client.

Et gardez une chose en tête : cette hiérarchie de juin 2026 n’est pas gravée dans le marbre. Les modèles évoluent parfois chaque mois. Choisissez sur des critères stables (écosystème, confidentialité, budget) plutôt que sur un score de benchmark qui sera périmé au prochain trimestre.

Le marché en chiffres : qui utilise quoi

Au-delà des fiches techniques, l’adoption raconte une bascule. ChatGPT reste le plus utilisé, mais sa domination s’effrite à mesure que Gemini, Claude et Grok grignotent du terrain.

Adoption des assistants IA (premier semestre 2026) :

900 M / utilisateurs actifs hebdomadaires de ChatGPT (février 2026)

662 M / utilisateurs mensuels de Gemini

245 M / utilisateurs mensuels de Claude

2,5 milliards / requêtes envoyées chaque jour sur ChatGPT

Sources : Demandsage, « ChatGPT Statistics » (juin 2026) ; TechCrunch, « ChatGPT’s market share slips below 50% » (16 juin 2026), d’après le rapport Sensor Tower 2026.

Le fait marquant du printemps 2026 : la part de marché de ChatGPT dans le trafic web de l’IA générative est passée de 77,4 % début 2025 à 56,7 % en mars 2026, et sa part d’usage globale est tombée sous les 50 % pour la première fois. Côté applications mobiles américaines, la part de Grok est passée de 1,6 % en janvier 2025 à 15,2 % en janvier 2026 (données Apptopia), avant un premier repli au printemps. Le marché se diversifie vite.

Questions fréquentes

Qu’est-ce qu’un LLM en termes simples ?
Un LLM (grand modèle de langage) est une intelligence artificielle entraînée sur d’immenses quantités de texte pour comprendre et générer du langage. Il fonctionne en prédisant le mot suivant le plus probable, ce qui lui permet de rédiger, traduire, résumer ou coder. ChatGPT, Claude et Gemini sont des LLM.

Quel est le meilleur modèle d’IA en 2026 ?
Il n’y a pas de gagnant unique. Claude Opus 4.8 domine le code et l’écriture, GPT-5.5 est le plus polyvalent, Gemini 3.1 Pro le plus rapide et le meilleur en science, DeepSeek le moins cher. Le bon choix dépend de votre usage principal et de votre budget.

Quelle différence entre un modèle propriétaire et open source ?
Un modèle propriétaire (GPT-5.5, Claude, Gemini) ne s’utilise que via l’API ou l’app de son éditeur, qui reçoit vos données. Un modèle open source (Llama 4, Mistral 3, DeepSeek) publie ses poids : on peut le télécharger, l’héberger soi-même et garder ses données en interne, souvent pour bien moins cher.

Quel modèle d’IA est le moins cher ?
Côté API, DeepSeek V3.2 est le moins cher à 0,23 $ en entrée et 0,34 $ en sortie par million de tokens, soit dix à vingt fois moins que GPT-5.5. Les modèles open source comme Llama 4 et Mistral 3 sont gratuits si vous les auto-hébergez, hors coût d’infrastructure.

Qu’est-ce que la fenêtre de contexte d’un LLM ?
C’est la quantité maximale de texte qu’un modèle peut garder en mémoire dans une même conversation, mesurée en tokens. En 2026, le standard du haut de gamme est d’un million de tokens (environ 750 000 mots). Llama 4 Scout monte jusqu’à 10 millions de tokens.

Faut-il payer pour utiliser ces modèles ?
Non, pas forcément. ChatGPT, Claude et Gemini proposent une version gratuite avec des limites. Les modèles open source (Llama 4, Mistral, DeepSeek) sont gratuits à télécharger. Les offres payantes lèvent les plafonds et donnent accès aux versions les plus performantes.

Vous voulez intégrer le bon modèle d’IA dans votre entreprise sans vous tromper de choix ni de méthode ? L’agence Ordiama vous accompagne du conseil jusqu’à la mise en production. Pour départager les trois grands assistants sur un usage précis, lisez notre comparatif ChatGPT, Claude ou Gemini.

Sources : pages tarifaires et fiches modèles officielles d’OpenAI, Anthropic, Google, xAI, Mistral AI, Meta et DeepSeek (juin 2026) ; benchmarks SWE-bench Verified, GPQA Diamond, ARC-AGI-2 et AIME 2025 relevés sur llm-stats.com, OpenRouter et Artificial Analysis (juin 2026) ; IBM Think, Cloudflare Learning et Google for Developers pour les définitions ; Demandsage et TechCrunch pour les données d’adoption. Prix indiqués hors taxes, susceptibles d’évoluer.

Sources

Vous êtes une entreprise ?

Ordiama, c'est aussi une agence IA à Strasbourg : on crée votre site, on vous rend visible dans l'IA et on automatise vos tâches.

Découvrir l'agence →