Une IA peut-elle être créative ? Ce que dit la science

DossierPar la rédaction15 min

« L’IA est-elle créative ? » La question revient à chaque image générée, à chaque texte écrit par un chatbot, à chaque mélodie composée par un modèle. Et les réponses tranchées abondent : « oui, regardez ce qu’elle produit » d’un côté, « non, ce n’est qu’un perroquet statistique » de l’autre. Les deux camps ont tort de trancher si vite. La question n’est pas binaire, parce que la créativité elle-même n’est pas une chose unique. Les psychologues la décomposent depuis quarante ans, et des dizaines d’études récentes ont fait passer aux modèles d’IA les mêmes tests qu’aux humains. Ce dossier confronte les définitions scientifiques de la créativité aux mécanismes réels des modèles, cite les travaux primaires, et explique pourquoi la bonne réponse est « ça dépend de quelle créativité on parle ».

Réponse directe : une IA peut être créative au sens faible (produire du nouveau et du pertinent), mais pas au sens fort. Sur les tests psychométriques de pensée divergente, GPT-4 égale ou dépasse les humains en fluidité et en originalité (Hubert et al., 2024 ; Guzik et al., 2023). Mais ces modèles réalisent une créativité dite combinatoire et exploratoire (recombiner et explorer ce qui existe), pas transformationnelle (changer les règles du jeu), selon le cadre de Margaret Boden. Et il leur manque ce que les chercheurs jugent décisif : l’intentionnalité. Ils produisent du neuf sans vouloir produire quoi que ce soit.

Qu’est-ce que la créativité, scientifiquement ?

La créativité est la capacité à produire quelque chose qui est à la fois nouveau et de valeur. Cette double condition fait consensus en psychologie depuis les années 1950 et structure la quasi-totalité de la recherche du domaine. Un produit purement nouveau mais inutile relève du bruit. Un produit utile mais déjà connu relève de la répétition. La créativité vit dans l’intersection des deux.

La définition standard de la créativité (psychologie) :

  • Nouveauté : le produit n’est pas une simple copie de ce qui existait.
  • Valeur : il est utile, pertinent, efficace ou approprié à la tâche (selon les formulations).
  • Les deux conditions sont nécessaires ensemble : l’une sans l’autre ne suffit pas.

Source : « Creativity », Stanford Encyclopedia of Philosophy, section « Standard definition », 2023.

Cette définition paraît simple, mais elle cache un piège que les débats sur l’IA oublient souvent : nouveau pour qui ? C’est précisément la distinction qu’a posée la chercheuse Margaret Boden, l’une des figures fondatrices de la créativité computationnelle.

P-créativité et H-créativité : nouveau pour qui ?

Margaret Boden distingue deux niveaux de nouveauté. La P-créativité (psychologique) désigne une idée nouvelle pour la personne qui la produit, même si quelqu’un d’autre y a déjà pensé avant. La H-créativité (historique) désigne une idée nouvelle dans toute l’histoire de l’humanité : personne ne l’avait jamais eue.

La P-créativité est la plus fondamentale des deux. Toute idée H-créative est forcément aussi P-créative pour son auteur, l’inverse n’étant pas vrai. Un adolescent qui redécouvre seul une démonstration mathématique connue fait preuve de P-créativité réelle, sans rien apporter à l’histoire. Cette distinction sera centrale pour juger l’IA : un modèle peut très bien produire quelque chose de nouveau pour lui (P-créatif) tout en restant incapable de produire quelque chose de réellement inédit dans l’histoire (H-créatif).

Les trois types de créativité de Boden

Le cadre le plus utilisé pour analyser la créativité d’une machine vient du livre de Margaret Boden, The Creative Mind: Myths and Mechanisms (1990, réédité en 2004). Boden y distingue trois mécanismes par lesquels naît une idée nouvelle. Chacun s’appuie sur la notion d’« espace conceptuel » : un ensemble structuré de règles qui à la fois permet et limite ce qu’on peut penser dans un domaine.

Les trois types de créativité selon Margaret Boden :

  • Combinatoire : associer des idées existantes de façon inédite. Exemple classique : ajouter des ailes à un cheval donne Pégase, une queue de poisson à une femme donne une sirène.
  • Exploratoire : explorer un espace conceptuel donné pour y trouver des possibilités encore inexploitées, mais déjà permises par ses règles.
  • Transformationnelle : modifier les règles mêmes de l’espace conceptuel, pour rendre pensable ce qui était auparavant littéralement inconcevable.

Source : Margaret A. Boden, The Creative Mind: Myths and Mechanisms (2e éd., 2004), résumé dans Stanford Encyclopedia of Philosophy.

Boden considère la créativité transformationnelle comme la plus marquante des trois, et la plus rare. C’est elle qui produit les ruptures : l’art abstrait, la musique atonale, la géométrie non euclidienne. Pas une nouvelle combinaison à l’intérieur des règles, mais une nouvelle règle. Gardez cette hiérarchie en tête : c’est la grille de lecture qui permet de répondre proprement à la question de l’IA.

Ce que font réellement les modèles d’IA

Un grand modèle de langage est un système entraîné à prédire le prochain fragment de texte le plus probable, étant donné les fragments précédents. Il n’a pas d’intention, pas de but, pas de représentation de ce qu’est « une bonne idée ». Il dispose d’une immense distribution de probabilités apprise sur des milliers de milliards de mots. Tout ce qu’on appelle sa « créativité » émerge de cette mécanique de prédiction. Pour comprendre la suite, il faut accepter cette base : le modèle ne crée pas au sens où nous l’entendons, il échantillonne.

Recombinaison statistique, pas étincelle

Concrètement, un modèle génératif produit du nouveau en échantillonnant dans l’espace des sorties possibles qu’il a appris. Quand vous lui demandez un poème sur un sujet inédit, il ne puise pas dans une expérience vécue : il combine des motifs statistiques (vocabulaire, structures, associations) observés dans son corpus d’entraînement. Le résultat peut être inédit comme suite de mots précise, sans être inédit comme idée.

C’est exactement la définition de la créativité combinatoire de Boden. Et c’est là que la nuance technique devient décisive : la nature autorégressive des LLM classiques, qui consiste à suivre la distribution des données d’entraînement, les rend peu susceptibles de produire des objets vraiment surprenants. En s’appuyant uniquement sur les distributions apprises, un LLM peut au mieux exprimer une créativité combinatoire ou exploratoire, jamais transformationnelle. Le raisonnement est posé par Giorgio Franceschelli et Mirco Musolesi dans une analyse de référence sur le sujet.

LLM et créativité, l’analyse de Franceschelli et Musolesi (2023-2024) :

  • Les LLM atteignent la créativité combinatoire et exploratoire, mais pas transformationnelle.
  • Ils atteignent la nouveauté psychologique (P), pas la nouveauté historique (H) : ils imitent plutôt qu’ils n’innovent.
  • Le « problème difficile » de la créativité machine est l’absence d’intentionnalité : pas de motivation, pas de but propre, pas d’auto-évaluation.

Source : Giorgio Franceschelli, Mirco Musolesi, « On the Creativity of Large Language Models », arXiv:2304.00008, 2023-2024 (publié dans AI & Society).

Le piège de la « température »

On entend souvent qu’il suffit d’augmenter la « température » d’un modèle (le paramètre qui contrôle l’aléa de l’échantillonnage) pour le rendre plus créatif. C’est une demi-vérité qui mérite d’être corrigée. Monter la température élargit l’éventail des sorties probables, donc augmente la diversité apparente. Mais ça ne change pas l’espace exploré : on tire des points plus variés dans le même territoire, on ne crée pas de territoire nouveau. À température élevée, le modèle ne devient pas transformationnel, il devient juste moins prévisible, parfois jusqu’à l’incohérence. La créativité au sens fort n’est pas un curseur de hasard.

Ce que disent les études : l’IA passe les tests de créativité

Voici le fait qui dérange : sur les tests psychométriques standardisés de créativité, les modèles récents ne font pas illusion, ils performent réellement. Ces tests, conçus pour les humains, mesurent surtout la pensée divergente, c’est-à-dire la capacité à générer de nombreuses solutions originales à un problème ouvert.

Le test de Torrance : GPT-4 dans le top 1 %

Le Torrance Test of Creative Thinking (TTCT) est le test de créativité le plus utilisé au monde depuis les années 1960. Il évalue quatre dimensions : la fluidité (nombre d’idées), la flexibilité (variété des catégories d’idées), l’originalité (rareté des idées) et l’élaboration (richesse du détail). En 2023, une équipe a fait passer ce test à GPT-4, en comparant ses scores à des normes humaines établies.

GPT-4 au Torrance Test (Guzik et al., 2023) :

  • GPT-4 testé 8 fois, scores comparés à une norme de 2 700 étudiants américains.
  • Top 1 % national pour la fluidité sur les 8 passations.
  • Top 1 % national pour l’originalité sur les 8 passations.
  • Performances de pointe sur les tâches « Poser des questions » et « Imaginez que… ».

Source : Erik Guzik, Christian Byrge, Christian Gilde, « The Originality of Machines: AI Takes the Torrance Test », Journal of Creativity, vol. 33, n° 3, 2023, DOI 10.1016/j.yjoc.2023.100065.

Un score dans le top 1 % n’est pas un détail. Il signifie que sur ces dimensions précises, GPT-4 produit plus d’idées, et des idées statistiquement plus rares, que 99 % des étudiants de la norme. Ce résultat seul suffit à disqualifier le « ce n’est qu’un perroquet » comme réponse définitive.

Pensée divergente : plus original que 151 humains

Un résultat ponctuel ne fait pas une science. Une étude publiée dans Scientific Reports (groupe Nature) en 2024 a confronté directement GPT-4 à un échantillon humain, sur trois tâches classiques de pensée divergente, en contrôlant la fluidité pour éviter que le modèle ne gagne juste en produisant plus.

GPT-4 vs humains en pensée divergente (Hubert et al., 2024) :

  • 151 participants humains comparés à GPT-4.
  • Trois tâches : Usages alternatifs, Conséquences, Associations divergentes.
  • GPT-4 plus original et plus élaboré que les humains sur chacune des trois tâches.
  • Avantage maintenu même en contrôlant la fluidité des réponses.

Source : Kent F. Hubert, Kim N. Awa, Darya L. Zabelina, « The current state of artificial intelligence generative language models is more creative than humans on divergent thinking tasks », Scientific Reports 14, 3440, 2024, Nature.

Sur la pensée divergente mesurée par ces protocoles, le débat est tranché : les modèles actuels tiennent la comparaison avec les humains, et souvent la dépassent. Si la question était « une IA peut-elle générer beaucoup d’idées originales et variées ? », la réponse scientifique serait un oui net.

Les limites : là où la créativité de l’IA s’effondre

Sauf que la question n’est pas seulement celle-là. Et c’est ici que le tableau se renverse. Les mêmes modèles qui brillent en pensée divergente trébuchent dès qu’on évalue un produit créatif complet, jugé par des experts, plutôt qu’une liste d’idées notée mécaniquement.

L’écriture créative : 3 à 10 fois moins bien qu’un pro

Une étude présentée à la conférence CHI 2024 a construit un test inspiré de Torrance mais appliqué à un produit fini : le Torrance Test of Creative Writing (TTCW). Quatorze critères binaires, évalués par dix écrivains professionnels, sur 48 nouvelles écrites soit par des auteurs publiés, soit par des LLM. Le verdict est sans appel.

Écriture créative, LLM vs professionnels (Chakrabarty et al., 2024) :

  • Les nouvelles générées par LLM passent 3 à 10 fois moins de critères TTCW que celles d’auteurs professionnels.
  • Évaluation par 10 écrivains experts sur 48 nouvelles.
  • Faiblesses repérées : fins narratives, maîtrise de la langue, figures de style, complexité rhétorique, syntaxe inhabituelle.
  • Aucun LLM utilisé comme évaluateur ne corrèle positivement avec le jugement des experts.

Source : Tuhin Chakrabarty et al., « Art or Artifice? Large Language Models and the False Promise of Creativity », Proceedings of CHI 2024, arXiv:2309.14556.

Le contraste est l’enseignement central de tout ce dossier. Le même type de modèle est top 1 % quand on lui demande de lister des usages originaux d’une brique, et 3 à 10 fois en dessous d’un pro quand on lui demande d’écrire une vraie nouvelle. Pourquoi ? Parce que lister des idées rares est une tâche de pensée divergente, où la recombinaison statistique excelle. Tandis qu’écrire une nouvelle réussie exige une cohérence longue, une intention narrative et des ruptures maîtrisées, soit précisément ce qui manque à une machine à prédire le mot suivant.

La barrière transformationnelle

Il y a une limite plus profonde encore que la qualité d’exécution : la nature même de ce qu’un LLM peut produire. Entraîné à reproduire la distribution de ses données, un modèle autorégressif reste, par construction, à l’intérieur de l’espace conceptuel qu’il a appris. Il peut recombiner ce qui existe (combinatoire) et explorer les recoins de cet espace (exploratoire). Mais changer les règles de l’espace lui-même, la créativité transformationnelle de Boden, suppose de sortir de la distribution apprise. Or sortir de sa distribution, c’est exactement ce qu’un modèle est entraîné à ne pas faire.

Des travaux récents soulignent d’ailleurs un point que les démonstrations enthousiastes oublient : si les LLM rivalisent avec les experts sur la nouveauté des idées, ils peinent souvent sur le second pilier de la définition, la valeur, c’est-à-dire l’utilité réelle et la faisabilité de ce qu’ils proposent. Une idée nouvelle mais inapplicable coche la première case de la créativité et rate la seconde.

Le problème de l’intentionnalité

Reste l’objection que beaucoup de chercheurs jugent dirimante. Un LLM ne veut rien. Il n’a pas de motivation intrinsèque, ne se fixe pas de but, ne ressent pas l’insatisfaction qui pousse un artiste à recommencer, et n’évalue pas ses propres productions au regard d’une vision. Franceschelli et Musolesi nomment cette absence le « problème difficile » de la créativité machine. Quand un humain juge un texte d’IA « créatif », il attribue souvent une créativité au regard du spectateur, une nouveauté perçue par lui, et non une créativité réellement exercée par le système.

Faut-il pour autant balayer la question ? Non. C’est là qu’il faut résister à la facilité. On peut soutenir que l’intentionnalité est une condition de la créativité humaine sans qu’elle soit une condition de tout résultat créatif. Un processus aveugle peut produire des objets que nous reconnaissons comme créatifs, exactement comme l’évolution a « conçu » l’œil sans intention. La vraie question n’est peut-être pas « la machine est-elle créative ? » mais « la créativité exige-t-elle un sujet, ou seulement un produit ? ». La science ne tranche pas ce point, et c’est honnête de le dire.

Tableau de synthèse : ce que l’IA sait et ne sait pas faire

Dimension de créativité Capacité des LLM actuels Appui scientifique
Pensée divergente (fluidité, originalité) Égale ou dépasse l’humain Hubert 2024 ; Guzik 2023
Créativité combinatoire (recombiner l’existant) Oui, c’est son mode natif Franceschelli & Musolesi 2023
Créativité exploratoire (explorer un espace donné) Oui, dans les limites du corpus Franceschelli & Musolesi 2023
Créativité transformationnelle (changer les règles) Non, sortir de la distribution apprise Boden 2004 ; Franceschelli 2023
Produit créatif complet (nouvelle, récit long) 3 à 10 fois sous le niveau pro Chakrabarty 2024
Valeur (utilité, faisabilité des idées) Faiblesse fréquente Travaux 2024-2025 sur la créativité combinatoire
Intentionnalité (vouloir créer) Absente Franceschelli & Musolesi 2023

Ce tableau est la réponse honnête à la question du titre. Pas un « oui » de marketeur, pas un « non » de sceptique. Un partage net entre des capacités réelles et mesurées, et des limites tout aussi réelles et mesurées. Comprendre cette ligne de partage, c’est aussi mieux savoir quel modèle choisir selon l’usage, un sujet que nous détaillons dans notre guide des modèles d’IA et LLM en 2026.

Pourquoi cette question compte au-delà de la philosophie

On pourrait croire le débat purement académique. Il ne l’est pas. Savoir où s’arrête la créativité d’un modèle change la manière de l’utiliser concrètement. Un LLM est un formidable générateur d’options : il vous sort vingt angles pour un article, cinquante noms de produit, dix structures narratives. Sur cette pensée divergente, il vous bat. C’est exactement pour ça qu’il faut le traiter comme un partenaire d’idéation, pas comme un auteur final.

Mais lui déléguer le produit fini, la nouvelle publiable, la campagne signée, la rupture stratégique, c’est ignorer les données. Là, l’humain garde l’avantage sur la cohérence longue, la valeur réelle et l’intention. Le bon réflexe professionnel n’est donc pas « l’IA remplace le créatif » ni « l’IA ne sert à rien », mais « l’IA amplifie la phase divergente, l’humain garde la convergence et le jugement ». Cette mécanique de génération du « probable » plutôt que du « vrai » ou du « voulu » est la même qui explique pourquoi les LLM hallucinent : un modèle optimise la plausibilité, jamais l’intention.

C’est précisément cette frontière que nous travaillons à l’agence Ordiama : intégrer l’IA là où elle excelle vraiment (volume, variantes, exploration) tout en gardant l’humain sur ce qui fait la valeur, le sens et l’originalité réelle d’un contenu. Une IA bien employée ne crée pas à votre place. Elle élargit le champ des possibles que vous, vous saurez trancher.

FAQ : une IA peut-elle être créative ?

Une IA est-elle vraiment créative ou fait-elle semblant ?
Les deux, selon le niveau visé. Sur la pensée divergente mesurée par les tests psychométriques, GPT-4 est réellement original (top 1 % au test de Torrance, Guzik 2023). Mais il s’agit d’une créativité combinatoire : recombiner l’existant. Il ne crée pas de rupture transformationnelle et n’a aucune intention de créer.

Que dit le test de Torrance sur GPT-4 ?
Que GPT-4 se classe dans le top 1 % national pour la fluidité et l’originalité, comparé à une norme de 2 700 étudiants américains, sur huit passations. C’est un résultat solide sur la pensée divergente, mais ce test mesure la génération d’idées, pas la qualité d’une œuvre achevée.

Pourquoi l’IA écrit-elle moins bien que les écrivains professionnels ?
Parce qu’une nouvelle réussie exige cohérence longue, intention narrative et maîtrise des figures de style, ce qui dépasse la prédiction du mot suivant. L’étude Chakrabarty 2024 mesure que les textes de LLM passent 3 à 10 fois moins de critères de créativité experte que ceux d’auteurs professionnels.

Quelle est la différence entre créativité combinatoire et transformationnelle ?
La créativité combinatoire associe des idées existantes de façon inédite (un cheval ailé). La transformationnelle change les règles mêmes d’un domaine pour rendre pensable l’impensable (l’art abstrait, la géométrie non euclidienne). Les LLM réalisent la première, pas la seconde, selon le cadre de Margaret Boden.

L’intentionnalité est-elle nécessaire pour être créatif ?
C’est le débat ouvert. Beaucoup de chercheurs estiment qu’il manque aux LLM la motivation et le but propres à la créativité humaine. D’autres répondent qu’un processus sans intention peut quand même produire des objets créatifs. La science ne tranche pas définitivement ce point.

Augmenter la « température » rend-il une IA plus créative ?
Pas au sens fort. La température élargit la diversité des sorties, donc l’imprévisibilité, mais reste dans le même espace conceptuel appris. On obtient des résultats plus variés, pas une vraie rupture. Poussée trop loin, elle dégrade la cohérence sans ajouter d’originalité réelle.

Sources

  1. Stanford Encyclopedia of Philosophy
  2. arXiv:2304.00008
  3. 10.1016/j.yjoc.2023.100065
  4. Nature
  5. arXiv:2309.14556

Vous êtes une entreprise ?

Ordiama, c'est aussi une agence IA à Strasbourg : on crée votre site, on vous rend visible dans l'IA et on automatise vos tâches.

Découvrir l'agence →

À lire aussi