ChatGPT, un modèle d'IA incroyable mais avec une limite... Le problème du Clonage de Comportement.

ChatGPT, un modèle d'IA incroyable mais avec une limite... Le problème du Clonage de Comportement.

Tags
IA
News
ChatGPT
Published
Author
Anis AYARI
Vous avez sans doute beaucoup entendu parlé de #ChatGPT 🤖
, mais est ce que vous savez vraiment comment ca fonctionne ? Et le plus gros problème de ce type d'approche d'#IA ? 🔥
Mettons nous d'accord oui, #chatGPT est incroyable et à des performances impressionnante mais...
Je vais vous introduire la principale révolution de ce type d'approche, ce qu'on appelle le "Behavior Cloning", - Clonage de comportement en FR-. (Et non pas, comme on pourrait s'y attendre des conversations privés🤡 -miam miam le RGPD-)
notion image
 
Ce type de machine est entrainée en utilisant, en partie, des algorithmes de "Reinforcement Learning", grosso modo l'ordinateur s'entraine dans des simulations pour savoir comment résoudre le problème donné.
notion image
Un des exemples les plus populaires est le fait d'apprendre à un robot à marcher par exemple. 🏃 ♂️
 
 
Mais dans le cadre de modèle tel que #ChatGPT , ça va plus loin que ça. Déjà, dans l'entrainement on ne va pas seulement savoir si ca marche ou pas. Mais surtout choisir parmis plusieurs propositions quelles solutions marchent le mieux en demandant à un humain de juger. (Comme l'explique bien cette article de #openAI  de 2017 , https://openai.com/blog/deep-reinforcement-learning-from-human-preferences/  ... 2017... et oui il faut plusieurs années pour arriver à des performances incroyable comme #chatGPT ) .
 
Il y a tellement de choses à dire sur ces méthodes d'apprentissage, surtout que ChatGPT implique tout un tas d'autres mécanismes. Mais arrétons-nous 2 secondes sur le principal problème du Behavior Cloning. Le probléme, -ou pas- c'est que l'humain a plus de sens commun qu'une machine. ET OUI.
 
 
 
Le sens commun est la capacité que nous avons nous humain à comprendre le monde qui nous entoure, souvent par des liens implicites (un loup ca ressemble à un husky, tout le monde est ok pour dire ca, mais si on commence à comparer pourquoi, la liste va être longue, et on va pas être tous forcément d'accord, étrange paradoxe du sens commun n'est ce pas?)
 
notion image
 
C'est à dire que d'un coté , l'humain va "préférer" une solution basée sur des informations souvent implicites et non connues de la machine, alors que la machine va tenter de comprendre les jugements de l'humain à partir de sa base de données sur l'objet concerné.
 
notion image
 
➡️Exemple : Si on propose deux fruits , une pomme 🍎 et une poire🍐, l'humain va dire la pomme c'est plus bon que la poire (et oui déso j'aime pas les poires). L'humain va faire ce choix en se basant sur plein d'infos cachées à la machine (peut être que ma grand mère me faisait de superbe tartes aux pommes et c'est pour ca que je préfère les pommes) . En clonant ce comportement, la machine va svoir uniquement que la pomme est rouge, et que la poire jaune, et donc va apprendre, pour super simplifié, SI "rouge" -> ALORS = "bon".
 
notion image
 
Maintenant présentons une tarte au citron🍋, et un extincteur 🧯. En se basant sur l'exemple précédent, la machine va dire miam maim l'extincteur c'est BON. 👅
pour aller plus loin sur cette aspect, un super article qui explique bien le problème de calibration ici : https://www.alignmentforum.org/posts/BgoKdAzogxmgkuuAt/behavior-cloning-is-miscalibrated-
 
Bien sûr pour résoudre ces problèmes il faut apprendre un tas d'informations multi modales (son , image, texte...) avec beaucoup BEAUCOUP BEAUCOUUUUUP de data, pour espérer avoir une représentation la plus objective possible du monde - ce qui est quasiment impossible, mais qui reste possible ou du moins on peut s'en approcher facilement avec une loi 80-20...-
notion image
 
Bref on est à l'aube de tout un tas de révolution en IA, #chatGPT, à des performance de fou et c'est formidable, je suis tellement content de vivre cette époque. Et vous ?