Comment fonctionne Chat GPT ?

Tout le monde parle de Chat GPT, mais rares sont ceux qui savent comment ça fonctionne.

J’ai donc fait des recherches approfondies pour comprendre.

Comment fonctionne Chat GPT ?

J’y répond dans cette réflexion avec notamment l’exemple des oranges.

Commençons par la définition où on ne comprend rien…

Accroche toi, il y a de quoi se tirer les cheveux et grimacer de dégoût :

ChatGPT est un transformateur génératif pré-formé (GPT) (atchoum).

Ensuite a été fine-tuned (une approche de l’apprentissage par transfert) en plus de GPT-3.5 en utilisant l’apprentissage supervisé ainsi que l’apprentissage par renforcement.

Comme moi, t’as rien compris.

C’est normal.

Expliquons simplement, point par point cette définition.

Que veut dire transformateur génératif pré-formé (GPT) ?

Rappel : Chat GPT est un chat bot où au lieu de tenir une conversation avec un humain derrière, tu parles avec une intelligence artificielle.

Maintenant : kesako GPT ?

GPT est un modèle de langage, c’est-à-dire un programme qui sait utiliser les mots pour parler ou écrire comme un humain.

Il apprend à faire cela en lisant beaucoup de textes sur internet.

Il peut générer du texte, c’est-à-dire créer des phrases ou des histoires, en se basant sur ce qu’il a lu et sur ce qu’on lui demande.

Par exemple, si on lui demande de raconter une histoire sur un chat qui parle, il va essayer de le faire en utilisant des mots et des idées qu’il a trouvés dans les textes qu’il a lus.

Chat GPT a utilisé la méthode d’apprentissage par transfert appelé fine-tuning ou affinage en français.

Qu’est ce que le fine-tuning ?

ChatGPT est un chatbot, c’est-à-dire un programme qui sait parler avec les humains.

ChatGPT utilise GPT 3.5 comme modèle de langage, mais il a été entraîné davantage sur une tâche spécifique : la conversation.

Il a fait cela en utilisant une méthode appelée « Fine-tuning », qui veut dire « affinage ».

Cela consiste à changer un peu le modèle de base pour qu’il soit plus adapté à la nouvelle tâche (ici la conversation)

Par exemple, si tu as un vélo et que tu veux l’utiliser pour faire du cross, tu peux changer les pneus ou le guidon pour qu’il soit plus performant.

C’est ce que ChatGPT a fait avec GPT : il a changé les parties les plus importantes du modèle pour qu’il soit meilleur en conversation.

Reprenons encore le fil de notre dissection de l’ignoble définition du début : ChatGPT a été développé en utilisant l’apprentissage supervisé ainsi que l’apprentissage par renforcement, deux méthodes d’entraînement des intelligences artificielles.

Qu’est ce que l’apprentissage supervisé ?

L’apprentissage supervisé, c’est quand tu apprends quelque chose en regardant des exemples avec des réponses.

Par exemple, si tu veux apprendre à compter, tu peux regarder des images avec des fruits et des nombres.

Sur chaque image, il y a une étiquette qui te dit combien il y a de fruits.

L’étiquette, c’est la réponse correcte.

Tu peux apprendre à compter en regardant les images et les étiquettes.

ChatGPT a fait la même chose pour apprendre à parler avec les humains.

Il a regardé beaucoup de conversations avec des étiquettes qui disaient si la conversation était réussie ou échouée.

Une conversation réussie, c’est quand le chatbot donne une réponse qui plaît à l’humain.

Une conversation échouée, c’est quand le chatbot donne une réponse qui ne plaît pas ou qui n’a pas de sens.

ChatGPT a appris à donner des réponses appropriées en regardant les étiquettes.

En plus, ChatGPT a regardé des conversations où les humains jouaient le rôle du chatbot et de l’utilisateur.

Il a appris à deviner ce que l’utilisateur voulait dire ou demander en regardant ce que le chatbot répondait.

Cela lui a permis d’améliorer sa compréhension du langage humain.

Je pense que tu dois commencer à mieux comprendre de quoi ça parle.

Maintenant, qu’est ce que l’apprentissage par renforcement ?

L’apprentissage par renforcement, c’est quand tu apprends quelque chose en essayant différentes actions et en voyant ce qui marche le mieux.

Par exemple, si tu veux apprendre à jouer aux échecs, tu peux essayer de bouger les pièces et voir si tu gagnes ou si tu perds.

Si tu gagnes, tu reçois une récompense.

Si tu perds, tu reçois une pénalité.

Tu peux apprendre à jouer mieux en cherchant à maximiser tes récompenses et à minimiser tes pénalités.

ChatGPT a fait la même chose pour apprendre à parler mieux avec les humains.

Chat GPT a donné différentes réponses aux humains et il a observé comment ils réagissent.

Les humains ont classé les réponses de ChatGPT selon leur qualité.

Par exemple, ils ont donné une note de 1 à 5 étoiles.

Les notes ont servi de récompenses ou de pénalités pour ChatGPT.

ChatGPT a appris à donner des réponses qui reçoivent des notes plus élevées en utilisant une méthode appelée “PPO2”. C’est une méthode qui permet au chatbot de choisir la meilleure action possible dans chaque situation.

Pour résumer : comment fonctionne Chat GPT ?

Chat GPT a été développé en apprenant à partir des données textuelles provenant d’internet, comme des articles, des livres, des blogs, des réseaux sociaux, etc.

Il utilise un modèle de base appelé GPT-3.5, qui est un modèle de langage pré-entraîné sur ces données.

Ensuite, il utilise un processus appelé fine-tuning, qui consiste à ajuster le modèle de base sur un ensemble de données spécifique au domaine du dialogue.

Enfin, il utilise une méthode d’apprentissage supervisé et une méthode d’apprentissage par renforcement novatrice appelée Reinforcement Learning from Human Feedback (RLHF), qui consiste à améliorer le modèle en fonction des retours d’utilisateurs humains.

Pour conclure, j’aimerais vous donner une nouvelle perspective :

Qu’est-ce qui a fait le succès de Chat GPT par rapport aux autres modèles d’IA ?

Il y aurait au moins 3 raisons d’après mes recherches :

Il imite la conversation humaine de manière réaliste et nuancée, grâce à son grand nombre de paramètres et à sa capacité à s’adapter au contexte
Il est construit sur le modèle GPT-3, qui est le modèle de langage le plus avancé au monde, développé par OpenAI, et qui peut effectuer diverses tâches de traitement du langage naturel avec peu d’ajustement nécessaire pour chaque tâche.
Il a des applications et des bénéfices variés, comme la génération de texte, la traduction, l’analyse des sentiments, le service clientèle, l’éducation, etc.

J’espère que tu as apprécié cette article de blog

Je te dis à très vite,

Que veut dire transformateur génératif pré-formé (GPT) ?

Qu’est ce que le fine-tuning ?

Qu’est ce que l’apprentissage supervisé ?

Maintenant, qu’est ce que l’apprentissage par renforcement ?

Pour résumer : comment fonctionne Chat GPT ?

Qu’est-ce qui a fait le succès de Chat GPT par rapport aux autres modèles d’IA ?

Jean-Baptiste

Jean-Baptiste Berthoux

Que veut dire transformateur génératif pré-formé (GPT) ?

Qu’est ce que le fine-tuning ?

Qu’est ce que l’apprentissage supervisé ?

Maintenant, qu’est ce que l’apprentissage par renforcement ?

Pour résumer : comment fonctionne Chat GPT ?

Qu’est-ce qui a fait le succès de Chat GPT par rapport aux autres modèles d’IA ?

Newsletter

Merci de ton inscription !

Jean-Baptiste

Related Posts

Runway Gen 3 : le guide étape par étape pour maîtriser la création de vidéo IA

Avantage de l’IA : un outil d’émancipation de l’individu

Comment travailler avec l’IA ? 4 principes intemporels