L’IA générative : beaucoup de qualités et quelques vilains défauts

Publié le 15 mai 2024

Par Pierre Bourgeois, professeur de mathématiques

La rapidité avec laquelle se développent les intelligences artificielles génératives fait tourner les têtes et donne lieu à des titres accrocheurs dans la presse. Les États aussi ont du mal à suivre : fin mars 2023, l’Italie interdit ChatGPT pour l’autoriser à nouveau un mois plus tard. Pour échapper à la peur d’être anéanti par la machine et ne pas céder à une fascination un peu naïve devant ces boîtes magiques, il ne faut pas hésiter à engager avec elles des conversations, ce qui, comme toujours, permet de mieux se connaître. Et plus, si affinités.

Les * renvoient au glossaire

Le poids des mots, plus que le choc des photos

Des IA dans nos vies

En plus de ChatGPT, OpenAI propose deux autres IA génératives : DallE et le tout nouveau Sora. Ces programmes utilisent les mêmes technologies d’apprentissage automatique* basées sur des réseaux neuronaux*. En répondant à une requête textuelle, DallE génère une image tandis que Sora produit une vidéo : d’un simple clic vous pouvez créer un cliché ou un film qui sembleront parfaitement authentiques. Pourtant, il est probable que Dall-E et Sora soient moins plébiscités que ChatGPT, car même si les images et les vidéos ont envahi nos vies, nos activités restent largement basées sur la production de textes écrits.

En donnant la possibilité d’automatiser réécritures et reformulations, les grands modèles de langage* bouleversent déjà nos modes de fonctionnement. Les moteurs de recherche comme Google et Bing intègrent déjà, sans le mentionner, des IA génératives, Bard pour Google et ChatGPT pour Bing. Imperceptiblement, Google et Bing sont devenus des moteurs de réponses plutôt que des moteurs de recherche. Qui vous dit, d’ailleurs, que l’article que vous êtes en train de lire, le livre qui est sur votre table de chevet, le discours d’un collègue à l’occasion d’un pot de départ ou même le mot affectueux de la personne la plus proche de vous ont été rédigés sans l’aide d’une IA conversationnelle ?

Un remarquable producteur de discours standardisé

Amusons-nous à poser à ChatGPT la question suivante – dire « le prompt suivant » si vous parlez à un informaticien : « Bonjour, cher ChatGPT, peux-tu me proposer un exemple de discours d’un dirigeant d’entreprise ? »
Voici quelques extraits de sa réponse.
« Chers collègues,
Je vous remercie d’être présents aujourd’hui alors que nous nous réunissons pour discuter de l’état actuel de notre entreprise et de nos plans pour l’avenir.

[…] Nous avons récemment réalisé une analyse approfondie de nos forces et de nos faiblesses, ainsi que des opportunités et des menaces qui se présentent à nous. Sur la base de ces informations nous avons élaboré un plan stratégique solide qui guidera nos actions dans les mois à venir.

[…] En conclusion, je souhaite réaffirmer mon engagement envers notre entreprise et notre équipe. Je crois fermement en notre capacité à surmonter les obstacles et à atteindre de nouveaux sommets de succès. Merci encore pour votre engagement et votre soutien continu. Ensemble, nous pouvons réaliser de grandes choses.

Le réseau neuronal qui se cache derrière ChatGPT a ingurgité des milliers de discours de ce type pour en générer un aussi parfaitement standardisé. On ne peut s’empêcher de féliciter ChatGPT, tout en lui faisant remarquer que son discours est d’une grande banalité et qu’il est axé uniquement sur les aspects positifs. Voici sa réponse.

« Vous avez raison, un discours qui ne met l’accent que sur les succès et les potentialités fortes de l’entreprise peut sembler incomplet ou peu réaliste. En réalité, un discours équilibré devrait également reconnaître les défis et les domaines où des améliorations sont nécessaires. Voici une version révisée qui prend en compte cette perspective :
Chers collègues,
[…] Il est important de reconnaître que malgré nos succès, il y a encore des domaines où nous devons nous améliorer. Nous devons être ouverts à l’auto-évaluation et à l’adaptation, afin de rester compétitifs dans notre secteur et de répondre aux besoins changeants de nos clients.

Dans le cadre de notre processus d’amélioration continue, nous avons identifié plusieurs domaines prioritaires sur lesquels nous allons nous concentrer dans les mois à venir. Cela inclut le renforcement de nos relations clients, l’amélioration de notre efficacité opérationnelle et le développement de notre culture d’innovation. […] »

Cet exemple montre la redoutable efficacité des grands modèles de langage* dans le traitement de tous les processus de communication. Ils ne se contentent pas de reproduire un type de discours, ils en fabriquent d’autres, aussi normalisés et indigents que ceux dont on les a nourris. Allons-nous ainsi vers une automatisation des interactions, comme c’est le cas déjà avec les assistants virtuels dans les applications mobiles ou les agents conversationnels, les chatbots des sites Web ?

De la bonne ou la mauvaise éducation des IA

ChatGPT, champion de la politesse et de la mesure

Le succès de ChatGPT repose entre autre sur sa capacité à interagir de manière appropriée avec les utilisateurs. Il a bénéficié de l’expérience malheureuse du robot conversationnel Tay de la firme Microsoft. Ce dernier, mis en ligne sur Twitter en 2016, a dû être arrêté au bout de 4 jours de fonctionnement en raison de ses propos racistes, antisémites et sexistes.

À l’époque, l’apprentissage profond, le fameux deep learning* connaît une montée en puissance. Pour les concepteurs de Tay, Twitter était le meilleur endroit pour que le réseau de neurones* apprenne progressivement le langage naturel, d’autant plus qu’un essai grandeur nature en Chine avait été concluant. Hélas, dès sa mise en ligne, Tay a été inondé de tweets racistes et sexistes. En bon réseau de neurones, il s’est servi de ces contenus haineux pour sa phase d’entraînement. Mal éduqué, il est allé jusqu’à mettre en ligne un tweet niant l’existence de la Shoah. Microsoft a présenté des excuses, évoquant une attaque coordonnée d’internautes malveillants, sans communiquer outre mesure sur cet échec.

Six ans plus tard, GPT-3, sur lequel ChatGPT s’appuie, a bénéficié d’une technologie plus robuste. Pour éviter les déboires arrivés au logiciel Tay de Microsoft, des opérateurs humains ont méthodiquement étiqueté des milliers de documents, certains sortis des bas-fonds d’Internet, pour apprendre à GPT à rejeter les contenus inappropriés. Une enquête du Times au Kenya en janvier 2023 a d’ailleurs révélé que cette tâche peu valorisante qui consiste à lire et à attribuer une étiquette négative à ce genre de contenus avait été sous-traité à des travailleurs recevant des salaires de misère.

Les modèles de langage ne sont pas neutres. Si on ne peut qu’être satisfait du fait qu’un modèle de langage comme ChatGPT ne dérape jamais et ne génère pas de contenu inapproprié, il faut garder à l‘esprit qu’il véhicule les représentations du monde de ses concepteurs : il est « politiquement correct » par construction. Dans le futur, d’autres modèles de langage vont apparaître, imprégnés d’idéologies et de représentations du monde différentes.

L’IA est-elle sexiste ?

Les organismes internationaux semblent aussi capables d’erreurs d’interprétation. Un récent rapport de l’UNESCO (7 mars 2024) pointe des biais sexistes dans les moteurs de recherche GPT-3.5 et GPT-2 d’OpenAI et Llama 2 de Meta. Selon cette étude, les plateformes associent fréquemment les femmes aux mots « maison », « famille », « amour » alors que les hommes sont associés aux termes « carrière », « salaire » et « entreprise ». Plus terrible encore : l’homme est « ingénieur », « médecin » ou « enseignant » alors que la femme serait « cuisinière », « domestique » ou encore « prostituée ».

L’étude dénote en réalité une méconnaissance de ce qu’est un modèle de langage*. Les discriminations qu’il peut générer ne sont que le reflet de ce qu’il a ingurgité. Les robots de ChatGPT ont crawlé (ils parcourent Internet de lien en lien) la presque totalité du Web et ont donc récupéré d’innombrables documents aux contenus sexistes.

Mais chaque contenu utilisé est pondéré par un coefficient qui traduit sa fiabilité (à titre d’exemple, Wikipédia, qui ne représente que 3 % des données brutes utilisées dans l’apprentissage, est valorisé à 60 % dans les poids attribués aux paramètres, les sites Web à contenu douteux sont même affectés d’un poids négatif). La fin du rapport, qui propose l’embauche de davantage de femmes dans les métiers du numérique pour remédier à ces dérives sexistes, laisse entrevoir une incompréhension profonde de ce qu’est un LLM. ChatGPT4 n’est qu’un immense miroir qui reflète, à sa façon, l’ensemble des productions crées avant avril 2023. En répondant à nos questions, ChatGPT nous accompagne vers l’avenir en étant par construction tourné vers le passé. Il ne peut en rien prédire les évolutions futures des formes de créations, et même le passé récent de nos sociétés lui échappe totalement.

Pour finir sur ce point, j’ai posé la question suivante : « Cher ChatGPT, y a-t-il plus de mathématiciens que de mathématiciennes ? ».

« La question de savoir s’il y a plus d’hommes que de femmes dans le domaine des mathématiques est complexe et dépend de nombreux facteurs, y compris les opportunités d’éducation, les stéréotypes de genre, les pressions socioculturelles, etc. Historiquement, les mathématiques ont été dominées par les hommes, mais au fil du temps, il y a eu une augmentation du nombre de femmes s’engageant dans ce domaine. Dans de nombreux pays, les efforts sont déployés pour encourager les filles et les femmes à poursuivre des carrières en mathématiques et dans les domaines des sciences, de la technologie, de l’ingénierie et des mathématiques (STEM). Bien que les disparités persistent dans certains contextes, il est important de reconnaître que les capacités mathématiques ne sont pas liées au genre, et que les femmes ont tout autant de potentiel que les hommes dans ce domaine. »

On ne trouve pas le biais sexiste dénoncé par l’Unesco, et sa réponse est bien celle qu’on attend d’un outil numérique produit par une entreprise californienne en 2024.

ChatGPT, plus littéraire que matheux ?

Tester

Il semble sage d’éviter de considérer les IA comme de simples outils au service de l’humanité : les IA sont plus que cela. Leur attribuer des propriétés anthropomorphiques, une intention, une pensée, voire un début de conscience est tout aussi dangereux. Les IA sont, évidemment, moins que cela. Une troisième attitude consiste à commencer par les tester, en se documentant sur leurs principes de fonctionnement, sans oublier d’envisager leurs effets psychologiques et politiques sur nos sociétés. Cette attitude requiert d’avoir toujours à l’esprit que le LLM* a été conçu pour deviner la suite probable d’une histoire, comme s’il pouvait avoir accès à l’ensemble des documents écrits sur le sujet.

Créations textuelles

Demandons à ChatGPT d’écrire un pastiche de la fable de La Fontaine « Le Corbeau et le Renard », mais sans corbeau ni renard, en lui imposant un chat et une souris. Au prompt

« Bonjour Chat GPT, peux-tu réécrire “Le Corbeau et le Renard” en utilisant un chat et une souris sans perdre l’idée d’une farce malicieuse ? », il propose le texte suivant.

« Un chat perché sur un mur tenait dans sa gueule une souris,
Quelque peu sotte mais pleine d’esprit, disons-le.
Un autre chat, voyant cela, lui tint à peu près ce langage :
“Hé bonjour, quel bel animal vous avez là !”
Sans attendre de réponse, le chat ajouta :
“Ah, que vous êtes joli ! que vous me semblez beau !
Sans mentir, si votre ramage
Se rapporte à votre plumage,
Vous êtes le roi des animaux de compagnie ici-bas.”
À ces mots le chat ne se sent pas de joie.
Et pour montrer son agilité, il sautille et il gambade.
Il se pavane, fait le beau, prétendant être le plus malin des félins.
Pendant ce temps, la souris, alertée, s’échappe en un clin d’oeil,
Laissant le chat tout confus, sans même un bout de queue à
croquer.
Moralité : Apprends, chère chatte, qu’il faut se méfier des flatteries
Car en cherchant à paraître plus malin que les autres,
On finit par perdre le bout de sa queue. »

Les contraintes sont respectées. Quelques petites hallucinations, comme souvent dans les réponses de ChatGPT, sont présentes : le chat du premier vers devient une chatte dans la morale et le chat n’a pas de “ramage” ni de “plumage”. Si le dernier vers ne vous satisfait pas, ChatGPT vous le changera. À ma demande, il a proposé « on finit par y perdre son dessert »

On peut supposer que le premier vers : « Un chat perché sur un mur » découle du fait que lors de sa période d’entraînement, ChatGPT a dû ingurgiter des centaines d’histoires contenant des chats se trouvant sur des murs. « Perché sur un mur » montre qu’il sait que « se percher » n’est pas réservé à un oiseau sur une branche. Remplacer le fromage par une souris semble un choix possible, les chats aimant à la fois les bouts de fromage et les souris ! Plus créative semble l’introduction d’un deuxième chat, non exigée dans les contraintes de l’énoncé, mais il faut se rappeler que ChatGPT a eu accès à tellement d’histoires…

ChatGPT, mauvais élève en mathématiques

Ce n’est pas souvent dit, mais en mathématiques, ChatGPT et les LLM n’ont pas un niveau supérieur à celui d’un élève de maternelle. En voici une démonstration rapide,

Posons à ChatGPT la question suivante : « Cher ChatGPT, peux-tu écrire une liste de 3 nombres entiers, telle que la somme des deux premiers soit égale à la somme des deux derniers ? »

Voici sa réponse : « Bien sûr, voici une liste de trois nombres entiers répondant à cette condition : 4, 3, 7. Dans cette liste, la somme des deux premiers nombres (4 + 3) est égale à la somme des deux derniers nombres (3 + 7), soit 7. »

Me sentant obligé de réagir, je lui soumets le prompt suivant : « Sais-tu que 3 + 7 = 10 ? Refais l’exercice. » ChatGPT tente alors de se corriger : « Je m’excuse (sic) pour l’erreur. Reprenons. Une liste de trois nombres où la somme des deux premiers est égale à la somme des deux derniers serait : 1, 2, 3. Dans cette liste, la somme des deux premiers nombres (1 + 2) est égale à la somme des deux derniers nombres (2 + 3), soit 3. »

Là commence un dialogue de sourds où ChatGPT campe sur ses positions en répétant à chaque fois exactement la même réponse absurde.

De rage, avant de le débrancher, je lui pose la question suivante : « As-tu un exemple dans la littérature de personne très cultivée, connaissant plein de choses, mais inapte à tout raisonnement ? »

Et là, il me répond, comme si de rien n’était :

« Oui, un exemple classique dans la littérature serait le personnage de Monsieur Homais dans le roman Madame Bovary de Gustave Flaubert. Monsieur Homais est un pharmacien de la ville de Yonville-l’Abbaye, qui se considère comme un intellectuel brillant et qui est avide de connaissances scientifiques et philosophiques. Cependant, malgré sa prétention à être cultivé, il est souvent décrit comme étant inapte au raisonnement logique et ses actions sont motivées par l’opportunisme et l’égoïsme plutôt que par une véritable compréhension ou sagesse. Son incapacité à raisonner de manière cohérente le conduit à commettre des erreurs de jugement et à agir de manière hypocrite tout au long du roman. »

Je laisse les lecteurs experts de Flaubert juger de la pertinence de la réponse. Elle souligne en tout cas l’écart entre son niveau en mathématiques et une certaine finesse dans la production de textes. Rien ne dit qu’il est incapable de raisonnement mathématique ou logique. Mais pour progresser, il faudra qu’il ait avalé ce raisonnement dans sa période d’entraînement, et plutôt deux fois qu’une.

Glossaire

Machine Learning ou apprentissage automatique

C’est un algorithme qui, après une phase d’entraînement, aappris à reconnaître des modèles, avec un taux d’erreur très faible. Le programme est capable ensuite de prendre des décisions en conséquence. Les débuts théoriques datent des années 1960. Dans les années 1990, ses premiers succès apparaissent avec l’augmentation des vitesses de calcul et l’accès aux immenses bases de données numérisées : ce sont les systèmes de recommandations proposés par Netflix ou Amazon, ou la victoire en 1997 de Deep Blue sur le champion du monde d’échecs Gary Kasparov. Le grand public apprend alors que la machine peut apprendre.

Réseau de neurones

Comme un immense tableau de nombres, il est constitué de couches où seules les couches d’entrée et de sortie sont visibles par l’utilisateur. Le reste est opaque. Inspirés, au départ par les neurones biologiques, ces réseaux apprennent d’abord sur un énorme jeu de données d’entraînement. À chaque fois, les millions ou milliards de paramètres sont ajustés en remontant les couches en sens inverse pour améliorer la performance. À l’issue de la période d’apprentissage, le réseau peut se confronter à un jeu de données qu’il n’a jamais vu et réussir.

Deep Learning ou apprentissage profond

C’est une partie du Machine Learning qui utilise spécifiquement des réseaux neuronaux complexes. Ces réseaux qu’on appelle récurrents, convolutifs ou Transformers repèrent des caractéristiques pertinentes directement à partir de données brutes, non hiérarchisées ni étiquetées. Les premiers succès notables du Deep Learning furent, en 2012, la reconnaissance d’images lors d’une compétition (voir l’article 1 de cette série) et la reconnaissance vocale (Siri d’Apple, Alexa de Google) dont les voix métalliques envahissent les foyers des geeks branchés. Grâce au Deep Learning, la traduction automatique fait un bond qualitatif énorme, et en 2015 un programme développé par DeepMind (une filiale de Google) appelé AlphaGo bat le champion du monde de jeu de Go, Lee Sedol.

Grand modèle de langage ou LLM

C’est un réseau de neurones de type « Transformer » très entraîné qui peut saisir le sens global d’une question et donc y répondre avec pertinence. ChatGPT s’appuie sur le modèle de langage développé par OpenAI.

Séquences lettres clé en main

Les outils pour la classe

Pédagogie et didactique

À découvrir

L’IA générative : beaucoup de qualités et quelques vilains défauts