Les créateurs de ChatGPT ont essayé de rendre le système explicite.
Ils ont constaté que même s’ils avaient un certain succès, ils rencontraient certains problèmes, notamment le fait que l’intelligence artificielle peut utiliser des concepts que les humains n’ont pas de nom ou de compréhension.
Les chercheurs d’OpenAI, qui ont développé ChatGPT, ont utilisé la version la plus récente de leur modèle connue sous le nom de GPT-4 pour tenter d’expliquer le comportement de GPT-2, une version plus ancienne.
Il s’agit d’une tentative de surmonter le soi-disant problème de la boîte noire avec de grands modèles de langage comme GPT. Bien que nous comprenions relativement bien ce qui entre et sort de ces systèmes, le travail réel qui s’y déroule reste en grande partie un mystère.
Ce n’est pas seulement un problème parce que cela rend les choses difficiles pour les chercheurs. Cela signifie également qu’il y a peu de moyens de savoir quels préjugés pourraient être impliqués dans le système, ou si vous fournissez de fausses informations aux personnes qui l’utilisent, car il n’y a aucun moyen de savoir comment vous êtes arrivé aux conclusions que vous avez tirées.
Les ingénieurs et les scientifiques ont entrepris de résoudre ce problème avec la “recherche d’interprétabilité”, qui cherche à trouver des moyens de regarder à l’intérieur du modèle lui-même et de mieux comprendre ce qui se passe. Cela a souvent nécessité d’examiner les “neutrons” qui composent un tel modèle : tout comme le cerveau humain, un système d’IA est composé d’un grand nombre de soi-disant neutrons qui représentent des éléments de données qu’il utilise.
Cependant, les trouver est difficile, car les humains ont dû examiner les neurones et les inspecter manuellement pour comprendre ce qu’ils représentent. Mais certains systèmes ont des centaines de milliards de paramètres, il est donc vraiment impossible de tous les analyser avec des gens.
Maintenant, les chercheurs d’OpenAI ont cherché à utiliser GPT-4 pour automatiser ce processus, dans le but de détecter plus rapidement le comportement. Ils l’ont fait en essayant de créer un processus automatisé qui permettrait au système de fournir des explications en langage naturel du comportement du neurone et de l’appliquer à un autre modèle de langage antérieur.
Cela a fonctionné en trois étapes : regarder le neurone dans GPT-2 et demander à GPT-4 d’essayer de l’expliquer, puis simuler ce que ferait ce neurone, et enfin qualifier cette explication en comparant le fonctionnement du tir simulé au tir réel.
La plupart de ces explications ont mal tourné et GPT-4 a obtenu de mauvais résultats. Mais les chercheurs ont dit qu’ils espéraient que l’expérience montrerait qu’il serait possible d’utiliser la technologie de l’IA pour s’expliquer, avec plus de travail.
Les créateurs se sont heurtés à un certain nombre de “limitations”, cependant, cela signifie que le système tel qu’il existe actuellement n’est pas aussi bon que les humains pour expliquer le comportement. Une partie du problème peut être qu’il est impossible d’expliquer comment le système fonctionne dans un langage normal, car le système peut utiliser des concepts individuels que les humains ne peuvent pas nommer.
“Nous nous concentrons sur de courtes explications en langage naturel, mais les neurones peuvent avoir un comportement très complexe qu’il est impossible de décrire succinctement”, écrivent les auteurs. “Par exemple, les neurones pourraient être hautement polysémantiques (représentant de nombreux concepts différents) ou ils pourraient représenter des concepts uniques que les humains ne comprennent pas ou pour lesquels ils n’ont pas de mots.”
Il a également des problèmes car il se concentre spécifiquement sur ce que fait chaque neurone individuel, et non sur la façon dont cela pourrait affecter les choses plus tard dans le texte. De même, vous pouvez expliquer un comportement spécifique, mais pas quel mécanisme produit ce comportement, vous pouvez donc détecter
Le système utilise également beaucoup de puissance de calcul, notent les chercheurs.
“Introverti. Amateur de bière extrême. Organisateur subtilement charmant. Explorateur d’une humilité exaspérante. Écrivain indépendant.”