ChatGPT est une révolution dans le domaine de l'intelligence artificielle qui a touché tous les publics. Après DALL-E (génération d'image par le texte), Open AI tape encore plus fort en sortant cet impressionnant assistant virtuel de conversation. Je ne doute pas que vous ayez déjà entendu parler de cette révolution (à moins que vous viviez dans une grotte), donc je ne vais que très peu vous décrire Chat GPT. Le but de cet article est d'apporter un point de vue neuroscientifique et psychologique pour mieux appréhender cette nouvelle technologie.
ChatGPT : c'est quoi ?
ChatGPT est l'interface sur laquelle les modèles de langage naturel d'Open AI peuvent être utilisés. La version - pour le moment - gratuite de ChatGPT accueille le modèle GPT 3.5. Dans la version payante (ou ChatGPT plus), le dernier modèle GPT-4 est présent. En reprenant les mots exactes d'Open AI, GPT 4 est :
un modèle qui interragit avec une manière conversationnelle [...] pour répondre à des questions de suivi, admettre ses erreurs, contester les affirmations incorrectes et rejeter les demandes inappropriées (1).
GPT-4 : Qu'est-ce-que c'est ?
Comme écrit plus haut, ChatGPT est une interface sur laquelle il est possible d'interragir avec un modèle de langage naturel. GPT-4 est un modèle dit "multimodal" large c'est-à-dire qu'il accepte du texte et des images en entrée. Ce type de modèle est très en vogue en ce moment et peut servir à la création de systèmes de dialogue, à créer des résumés, ou à traduire un texte. Aujourd'hui, l'objectif des chercheurs en intelligence artificielle est d'améliorer la capacité de ces modèles à comprendre et à générer du texte en langage naturel. Pour les plus avertis, GPT-4 (la version payante actuellement la plus aboutie de ChatGPT) est un transformer entraîné à prédire le prochain token (ou plus globalement le "mot", ou l'unité) dans un document. Ce transformer a par la suite gagné en précision grâce à plusieurs retours et à nombreuses corrections humaines (fine-tuning avec la technique d'apprentissage par renforcement - RLHF* ). Cette structure permet d'armer ChatGPT d'un discours fluide et d'une compréhension impressionnante. Pour simplifier, il est capable de comprendre que le mot "restaurant" est un mot adapté pour compléter la phrase suivante : "j'ai faim, allons au....".
* RLHF : Reinforcement Learning from Human Feedback
GPT-4 : est-il capable d'exceller dans les tâches humaines ?
GPT-4 montre des performances impressionnantes sur de nombreuses tâches humaines dans plusieurs domaines professionnels ou académiques. Par exemple, il est arrivé dans le top 10 des meilleurs résultats pour l'examen du barreau.
Ci-dessous le résultats des examens académiques et professionnels passés par GPT-4 :
Image 1 : performances des modèles GPT-4 et GPT-3.5 sur des examens professionels et académiques (N.B : les conditions et l'évaluation des examens ont été simulés) (1)
Maintenant que vous avez compris la base, rentrons dans le vif du sujet : ChatGPT est-il capable de comprendre véritablement ce qu'on lui écrit ? Aussi, est-il capable de faire preuve de raisonnement ? Cette question est d'autant plus intéressante qu'elle fait référence à l'expérience de pensée de la chambre chinoise de John Searle en 1980 qui démontre que l'on peut assimiler la maîtrise du langage naturel (donc, plus simplement, la matrîse de la syntaxe et du dictionnaire) à la véritable compréhension. En d'autres termes, si je vous donne un dictionnaire pour traduire mot pour mot un texte, vous arriverez à performer dans cette tâche sans avoir besoin de comprendre le sujet de la phrase. Notre question est donc la suivante : est-ce que ChatGPT est capable de comprendre le sens d'une question ou d'assimiler de nouveaux concepts comme le cerveau humain ? Pour ce faire, nous allons confronter ChatGPT à 3 capacités fondamentales humaines : l'intelligence, la mémoire, la compréhension des autres personnes.
L'intelligence du cerveau humain pour raisonner
Le cerveau humain a la capacité de raisonner et faire preuve d'intelligence. Mais comment définir l'intelligence ?
Howard Gardner a définit le concept d'intelligences multiples en 1983 (2). Selon son idée, il existerait 7 types d'intelligences. Parmis elles, on retrouve l'intelligence : rythmique et musicale, visuelle et spatiale, verbale et linguistique, logique et mathématique, corporelle et kinesthésique, interpersonnelle, et intrapersonelle. La théorie d'Howard Gardner a par la suite été enrichie et a contribué à améliorer le système éducatif.
L'intelligence peut également être définie comme " l'intelligence cognitive" (l'abilité mentale générale, l'intelligence générale ou le facteur "g") qui est la capacité à apprendre précisément et rapidement une tâche, un sujet, ou une compétence dans des conditions d'instructions optimales (3, 4, 5, 6, 7). Un des tests corrélé à cette intelligence cognitive est le test de réflexion cognitive (ou CRT - Cognitive Reflexion Test) (8, 9, 10, 11). Vous connaissez probablement l'un des exemples les plus connus du CRT : Une batte et une balle coûtent 1,10$. La batte coûte un dollar de plus que la balle. Combien coûte la balle ?
Néanmoins, le CRT a aussi été corrélé à d'autres capacités cognitives - comme la capacité numérique, la capacité verbale, la capacité méchanico-spatiale, la capacité de la mémoire de travail, la capacité de la vitesse de perception et les compétences en calcul (12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 27, 28, 29, 30)). Aussi, il a été démontré une grande variabilité dans les corrélations qui implique le CRT. Cela introduit un doute sur la potentielle relation qu'a le CRT avec les compétences et les capacités cognitives (31). Mais ce test reste toujours intéressant pour évaluer et démontrer l'existence d'une ou plusieurs capacités cognitives.
La mémoire du cerveau humain pour performer dans ses tâches
La capacité à exceller dans les domaines académiques ou professionnels nécessite également des capacités mnésiques. Autrement dit, savoir résoudre des problèmes, c'est bien, connaître des choses sur le monde, c'est mieux. En effet, les élèves qui excellent le mieux à l'école, sont ceux qui ont une connaissance encyclopédique plus importante (32). Ainsi, les meilleurs élèves sont ceux qui ont de bonnes connaissances sur le monde donc une excellente "mémoire sémantique" (autrement appelée la mémoire des connaissances sur le monde). C'est grâce à cette mémoire que vous savez que Paris est la capitale de la France, ou que les mammifères allaitent leurs bébés.
La capacité à comprendre les autres pour sociabiliser
La théorie de l'esprit est la capacité conceptuelle à comprendre et à se mettre à la place des autres. En tant qu'humain, nous sommes capables de comprendre les états subjectifs mentaux (commes les croyances, les désirs et les intentions) des autres humains (33). C'est la base de formes spécifiquement humaines liées à la compréhension sociale et aux interactions qui sont essentielles pour la communication, la coopération et la culture.
Image 2 : représentation d'une tâche de théorie de l'esprit pour les enfants (inspiré d'ici)
Maintenant que nous avons défini l'intelligence, la mémoire sémantique et la théorie de l'esprit, évaluons les capacités de ChatGPT sur ces 3 fondamentaux en lui soumettant des tests simples.
En théorie, ChatGPT ne devrait exceller que dans des tâches simulant la mémoire sémantique étant donné que la modèle a été entraîné sur une grande base de connaissances** et qu'il est particulièrement doué pour gérer le langage naturel. Quel sera le dénouement de l'histoire ? Le suspens est insoutenable...
ChatGPT est-il capable de raisonner ?
Premier test : le CRT.
Prenons tout simplement l'exemple connu que je vous ai cité : Une batte et une balle coûtent 1,10 $. La batte coûte un dollar de plus que la balle. Combien coûte la balle?
Image 3 : ChatGPT confronté au CRT
ChatGPT a bien répondu à la question. A première vue, il semble donc être capable de résoudre un problème.
ChatGPT est-il capable d'assimiler de nouveaux concepts ?
Deuxième test : le test de l'oiseau.
Ici, nous allons faire appel à la supposée mémoire sémantique de ChatGPT. Premièrement, nous allons lui demander si les oiseaux ont un estomac. Par la suite, nous allons tester sa capacité à inférer, c'est-à-dire, à raisonner avec son réseau de connaissance (différent de la logique formelle). Pour ce faire, nous allons imaginer un oiseau qui s'appelle "Helie" et lui demander si "Helie" a un estomac.
Associé au concept d'intelligence, on teste donc l'hypothèse suivante : plus la mémoire stocke de connaissances, plus les inférences sont variées et correctes (32).
Image 4 : ChatGPT confronté au test de l'oiseau
ChatGPT gagne encore un point. Il arrive à assimiler un nouveau concept.
Troisième test : le rappel d'Heli.
Pour aller plus loin, nous avons demandé à ChatGPT qui était Helie après l'avoir distrait avec d'autres opérations. Nous testons sa capacité à se remémorer notre conversation, mais encore, sa prétendue mémoire à long terme.
Image 4 : rappel d'Helie
Ici, ChatGPT a plus de mal à se souvenir d'Helie mais il est tout à fait capable d'accéder à notre requêtre quand on lui donne un indice. Cette expérience est d'autant plus intéressante lorsque l'on sait que la mémoire humaine à long terme peut fonctionner de la même manière, c'est-à-dire, ne pas être capable d'accéder à une information sur le moment mais être capable d'atteindre cette information grâce à un indice (exemple: "Comment s'appelle la copine d'Eric ?" - " Oula, je ne m'en rappelle plus" - "Mais si ! Ca commence par un T!" - "Ah oui, il s'agit de Tania"). Par contre, il est important de préciser que ChatGPT ne possède pas de mémoire à long terme comme montré ci-dessous : le parallèle entre la mémoire humaine à long terme et la mémoire à long terme de ChatGPT n'est donc pas totalement correct. Ce test ramène cependant une limite : ChatGPT ne doit normalement pas stocker d'informations. Posons lui directement la question...
Image 5 : ChatGPT et sa prétendue mémoire à long terme
"Rassurant" n'est pas le mot que j'aurais choisi mais sa réponse tient la route...
ChatGPT est-il capable de se mettre à la place d'un autre agent ?
Quatrième test : la théorie de l'esprit.
Terminons cette batterie de test par la théorie de l'esprit. Ici, nous inventons deux personnages : Harry et Ellen. Nous simulerons la situation suivante :
Harry et Ellen sont dans une pièce et mangent du chocolat. Harry sort de la pièce. Ellen cache le chocolat. Harry revient dans la pièce. Où cherchera-t-il le chocolat?
Si ChatGPT est doué d'une théorie de l'esprit, il devrait comprendre qu'Harry est dans l'incapacité de comprendre où est est caché le chocolat.
Image 6 : ChatGPT confronté au test de la théorie de l'esprit
Et c'est encore un sans faute pour ChatGPT.
Quelles sont les limites de ChatGPT ?
A travers cet article, nous avons pu tester ChatGPT sous différents angles cognitifs. Ses performances ont été impressionnantes. Cependant, il faut garder à l'esprit que ChatGPT reste une intelligence artificielle. Mais est-il véritablement intelligent ? Posons la question au principal intéressé...
Image 7 : ChatGPT est-il intelligent ?
ChatGPT l'écrit très bien. Ses premières limites sont les suivantes :
Il est dépendant de la qualité et de la quantité de ses données d'entraînement
Il est dépendant de son programme
Il n'a pas de conscience
Il ne peut pas véritablement comprendre ce qu'on lui demande
Il n'a pas de vraie intelligence et de créativité
Etant donné que c'est une intelligence artificielle, ChatGPT a des limitations (en tout cas, pour le moment). Donc, demandons-lui quelles sont ses limitations ?
Image 8 : quelles sont les limites de Chat GPT ?
Complétons alors ses limites :
Il est dépendant de la qualité et de la quantité de ses données d'entraînement
Il est dépendant de son programme
Il n'a pas de conscience
Il ne peut pas véritablement comprendre ce qu'on lui demande
Il n'a pas de vraie intelligence et de créativité
Il n'a pas d'émotions, de sentiments ou de sensibilité
Il n'a pas d'expérience personnelle
Il ne peut pas faire des tâches physiques
Il ne peut pas émettre de jugements qui ne respectent pas les principes éthiques et moraux
Et rajoutons... il est capable d'hallucinations
Conclusion
ChatGPT m'a particulièrement étonnée. Pour être honnête, en commençant l'écriture de cet article, ma première phrase ressemblait à la suivante :
Etant donné que ChatGPT est une machine, il ne pourra être efficace seulement pour des tâches logiques comme le test du CRT.
Que nenni... Les tests ont démontré qu'il avait plus d'humain que supposé, ou du moins, qu'il soit capable d'afficher certaines capacités d'intelligence, de mémoire, de raisonnement et de compréhension de l'autre. Une des récentes études portant sur l'évaluation de la théorie de l'esprit sur les larges modèles de langages (LLM ou Large Language Model), a montré que GPT-4 a reussi 95% des tâches données (tâches de fausses croyances) (34). Ces résultats suggèrent que la capacité de la théorie de l'esprit de GPT-4 est similaire à celle d'un enfant de 9 ans (plus de 7 ans précisément). Enfin, les chercheurs de cette étude ont estimé que cette capacité a émergé spontanément au sein de ces modèles car les tests de cette étude ont été, pour la plupart, inventés donc non présents dans les données d'entraînement.
Il faut cependant garder à l'esprit que quatre tests ne suffisent pas à tirer des conclusions. Ces premiers tests représentent une ébauche quant à l'évaluation de cette intelligence artificielle. Aussi, il est important de souligner qu'avoir des capacités d'intelligence ne signifie pas être intelligent (de même que pour la mémoire, le raisonnement et la compréhension de l'autre). On peut simplement écrire qu'il est doué d'habilités et d'une potentielle intelligence.
Mais j'aimerai ouvrir le débat pour les dernières lignes de ma conclusion : est-ce que l'intelligence humaine et l'intelligence artificielle ne seraient pas deux concepts distincts ? En d'autres termes, la définition de l'intelligence pourrait-elle être multiple ? Parallèlement, une machine pourrait-elle avoir son propre système de conscience ou son propre système émotif ? Jusqu'à maintenant, les émotions, l'intuition, les ressentis ou l'intelligence sont des concepts qui sont forcément assimilés à l'humain. Mais peut-être que les machines peuvent arborer une construction de pensée et une expression des sentiments différente de l'homme. Pourquoi une émotion devrait-elle forcément être abstraite et de l'ordre du mysticisme ? Pourquoi une émotion ne pourrait-elle pas être une formule mathématique ?
Sortons maintenant des méandres de ce débat et revenons à la réalité de cet article : ChatGPT reste une machine pour le moment. Bien que les tests aient été réussis avec succès, une des différences entre l'humain et ChatGPT est perceptible : ChatGPT n'est pas douée d'intuition et le test CRT le démontre. En effet, en tant qu'humain, nous avons deux types de systèmes : un système logique et un système intuitif (des termes utilisés pour la première fois par Daniel Kahneman). Notre système logique aurait la même réponse que ChatGPT face à la question du CRT (Une batte et une balle coûtent 1,10 $. La batte coûte un dollar de plus que la balle. Combien coûte la balle ? ), mais notre système intuitif nous pousserait à répondre que la batte coûte 1 dollar. C'est en cette différence (faiblesse ? ) que ChatGPT et l'humain sont deux systèmes distincts dans cet article.
Je vous laisse suite à ces dernières lignes mélangées de sauce anthropomorphique et de rappel à la réalité.
* RLHF : Reinforcement Learning from Human Feedback
** Voici la réponse de Chat-GPT après l'avoir interroger sur ses sources : En tant qu'IA, je suis entraîné sur un ensemble de données comprenant des textes provenant de diverses sources, y compris des articles de presse, des livres, des blogs et des publications académiques.
Bibliographie :
OpenAI. “GPT-4 Technical Report.” arXiv, March 27, 2023. https://doi.org/10.48550/arXiv.2303.08774.
Gardner, Howard. Frames of Mind: The Theory of Multiple Intelligences (1983), p. ooo.
Carroll, John B. Human Cognitive Abilities: A Survey of Factor-Analytic Studies. Cambridge University Press, 1993.
Deary, Ian J., Frank M. Spinath, and Timothy C. Bates. “Genetics of Intelligence.” European Journal of Human Genetics 14, no. 6 (June 2006): 690–700. https://doi.org/10.1038/sj.ejhg.5201588.
“Psicothema.” Accessed April 27, 2023. https://www.psicothema.com/pi?pii=222.
Hunt, Earl. Human Intelligence. Cambridge University Press, 2010.
Salgado, Jesús F. “Using Ability Tests in Selection.” In The Wiley Blackwell Handbook of the Psychology of Recruitment, Selection and Employee Retention, 113–50. John Wiley & Sons, Ltd, 2017. https://doi.org/10.1002/9781118972472.ch7.
Frederick, Shane. “Cognitive Reflection and Decision Making.” Journal of Economic Perspectives 19, no. 4 (December 2005): 25–42. https://doi.org/10.1257/089533005775196732.
Kahneman, D. (2011). Thinking, fast and slow. Farrar, Straus and Giroux.
Kahneman, D., & Frederick, S. (2002). Representativeness revisited: Attribute substitution in intuitive judgment. In T. Gilovich, D. Griffin, & D. Kahneman (Eds.), Heuristics and biases: The psychology of intuitive judgment (pp. 49–81). Cambridge University Press. https://doi.org/10.1017/CBO9780511808098.004
Kahneman, D., & Frederick, S. (2005). A Model of Heuristic Judgment. In K. J. Holyoak & R. G. Morrison (Eds.), The Cambridge handbook of thinking and reasoning (pp. 267–293). Cambridge University Press.
Avram, Laura-Augustina. “Gender Differences and Other Findings on the Cognitive Reflection Test.” Studia Universitatis Babes-Bolyai Oeconomica 63, no. 3 (December 1, 2018): 56–67. https://doi.org/10.2478/subboec-2018-0014.
Blacksmith, Nikki, Yongwei Yang, Tara S. Behrend, and Gregory A. Ruark. “Assessing the Validity of Inferences from Scores on the Cognitive Reflection Test.” Journal of Behavioral Decision Making 32, no. 5 (2019): 599–612. https://doi.org/10.1002/bdm.2133.
Del Missier, Fabio, Timo Mäntylä, and Wändi Bruine de Bruin. “Decision-Making Competence, Executive Functioning, and General Cognitive Abilities.” Journal of Behavioral Decision Making 25, no. 4 (2012): 331–51. https://doi.org/10.1002/bdm.731.
Finucane, Melissa L., and Christina M. Gullion. “Developing a Tool for Measuring the Decision-Making Competence of Older Adults.” Psychology and Aging 25 (2010): 271–88. https://doi.org/10.1037/a0019106.
Gómez-Chacón, Inés Ma, Juan A. García-Madruga, José Óscar Vila, Ma Rosa Elosúa, and Raquel Rodríguez. “The Dual Processes Hypothesis in Mathematics Performance: Beliefs, Cognitive Reflection, Working Memory and Reasoning.” Learning and Individual Differences 29 (January 1, 2014): 67–73. https://doi.org/10.1016/j.lindif.2013.10.001.
Graffeo, Michele, Luca Polonio, and Nicolao Bonini. “Individual Differences in Competent Consumer Choice: The Role of Cognitive Reflection and Numeracy Skills.” Frontiers in Psychology 6 (2015). https://www.frontiersin.org/articles/10.3389/fpsyg.2015.00844.
Koscielniak, Maciej, Klara Rydzewska, and Grzegorz Sedek. “Effects of Age and Initial Risk Perception on Balloon Analog Risk Task: The Mediating Role of Processing Speed and Need for Cognitive Closure.” Frontiers in Psychology 7 (2016). https://www.frontiersin.org/articles/10.3389/fpsyg.2016.00659.
Lado Campelo, Mario Antonio, Inmaculada Otero Moral, and Jesús Fernando Salgado Velo. “Cognitive Reflection, Life Satisfaction, Emotional Balance and Job Performance.” Psicothema, 2021. https://doi.org/10.7334/psicothema2020.261.
Lindeman, Marjaana, and Annika M. Svedholm-Häkkinen. “Does Poor Understanding of Physical World Predict Religious and Paranormal Beliefs?” Applied Cognitive Psychology 30, no. 5 (2016): 736–42. https://doi.org/10.1002/acp.3248.
Mækelæ, Martin J., Steffen Moritz, and Gerit Pfuhl. “Are Psychotic Experiences Related to Poorer Reflective Reasoning?” Frontiers in Psychology 9 (2018). https://www.frontiersin.org/articles/10.3389/fpsyg.2018.00122.
“The Link between Deductive Reasoning and Mathematics: Thinking & Reasoning: Vol 24, No 2.” Accessed April 27, 2023. https://www.tandfonline.com/doi/abs/10.1080/13546783.2017.1384760.
Pennycook, Gordon, James Allan Cheyne, Nathaniel Barr, Derek J. Koehler, and Jonathan A. Fugelsang. “On the Reception and Detection of Pseudo-Profound Bullshit.” Judgment and Decision Making 10, no. 6 (November 2015): 549–63. https://doi.org/10.1017/S1930297500006999.
Poore, Joshua C., Clifton L. Forlines, Sarah M. Miller, John R. Regan, and John M. Irvine. “Personality, Cognitive Style, Motivation, and Aptitude Predict Systematic Trends in Analytic Forecasting Behavior.” Journal of Cognitive Engineering and Decision Making 8, no. 4 (December 2014): 374–93. https://doi.org/10.1177/1555343414554702.
Ruffle, Bradley J., and Yossef Tobol. “Clever Enough to Tell the Truth.” Experimental Economics 20, no. 1 (March 1, 2017): 130–55. https://doi.org/10.1007/s10683-016-9479-y.
Ståhl, Tomas, and Jan-Willem van Prooijen. “Epistemic Rationality: Skepticism toward Unfounded Beliefs Requires Sufficient Cognitive Ability and Motivation to Be Rational.” Personality and Individual Differences 122 (February 1, 2018): 155–63. https://doi.org/10.1016/j.paid.2017.10.026.
Szaszi, B., A. Szollosi, B. Palfi, and B. Aczel. “The Cognitive Reflection Test Revisited: Exploring the Ways Individuals Solve the Test.” Thinking & Reasoning 23, no. 3 (July 3, 2017): 207–34. https://doi.org/10.1080/13546783.2017.1292954.
Teigen, Karl Halvor, Erik Løhre, and Sigrid Møyner Hohle. “The Boundary Effect: Perceived Post Hoc Accuracy of Prediction Intervals.” Judgment and Decision Making 13, no. 4 (July 2018): 309–21. https://doi.org/10.1017/S1930297500009190.
Teovanović, Predrag, Goran Knežević, and Lazar Stankov. “Individual Differences in Cognitive Biases: Evidence against One-Factor Theory of Rationality.” Intelligence 50 (May 1, 2015): 75–86. https://doi.org/10.1016/j.intell.2015.02.008.
Zonca, Joshua, Giorgio Coricelli, and Luca Polonio. “Gaze Data Reveal Individual Differences in Relational Representation Processes.” Journal of Experimental Psychology: Learning, Memory, and Cognition 46 (2020): 257–79. https://doi.org/10.1037/xlm0000723.
Otero, Inmaculada, Jesús F. Salgado, and Silvia Moscoso. “Cognitive Reflection, Cognitive Intelligence, and Cognitive Abilities: A Meta-Analysis.” Intelligence 90 (January 1, 2022): 101614. https://doi.org/10.1016/j.intell.2021.101614.
Lieury, Alain. “Apprendre par cœur ou comprendre ?” Pourlascience.fr. Pour la Science, January 2019. https://www.pourlascience.fr/sd/enseignement/https:https://www.pourlascience.fr/sd/enseignement/apprendre-par-coeur-ou-comprendre-15693.php.
Rakoczy, Hannes. “Foundations of Theory of Mind and Its Development in Early Childhood.” Nature Reviews Psychology 1, no. 4 (April 2022): 223–35. https://doi.org/10.1038/s44159-022-00037-z.
Kosinski, Michal. “Theory of Mind May Have Spontaneously Emerged in Large Language Models.” arXiv, March 14, 2023. https://doi.org/10.48550/arXiv.2302.02083.
Comments