OpenAssistant

assistent basat en codi obert d'intel·ligència artificial From Wikipedia, the free encyclopedia

OpenAssistant
Remove ads

OpenAssistant és un assistent basat en xat de codi obert d'intel·ligència artificial que comprèn tasques, pot interactuar amb sistemes de tercers i recuperar informació dinàmicament per a fer-ho.[1][2] El projecte està desenvolupat per un grup de voluntaris en col·laboració amb LAION. Un dels objectius de desenvolupament inclou l'accés gratuït a models grans de llenguatge que es poden executar localment en maquinari de consum.[1]

El projecte està sostingut per un esforç mundial de col·laboració oberta distribuïda que involucra a més de 13.500 voluntaris que han creat 600.000 punts de dades generades per humans.[2][3][4][5]

Remove ads

Desenvolupament

Els desenvolupadors d'OpenAssistant intentaven obtenir un producte viable mínim inicial seguint els tres passos descrits en el document d'InstructGPT.[6]

  1. Recopilació de mostres de compliment d'instruccions d'alta qualitat generades per humans (missatge + resposta), amb l'objectiu d'aconseguir més de 50.000 mostres d'aquest tipus. Després, dissenyar un procés col·laboratiu per a recopilar i revisar les indicacions. Per a evitar capacitacions sobre inundació de xarxa, temes tòxics, spam, escombraries (junk data), dades d'informació personal, els desenvolupadors tenen una taula de classificació per a motivar a la comunitat de voluntaris, que mostra el progrés i els usuaris més actius.
  2. Mostreig de múltiples finalitzacions per a cadascuna de les indicacions recopilades. Es mostra després aleatòriament als usuaris la finalització d'un avís (prompt) per a classificar-los de millor a pitjor. S'han de recopilar múltiples vots d'usuaris independents per a mesurar l'acord general. Les dades de classificació recopilades s'utilitzaran per a entrenar un model de recompensa.
  3. Seguiment de la fase d'entrenament RLHF basada en les indicacions i el model de recompensa.[N 1]

A continuació, s'obtindrà el model resultant i es continuarà amb el pas de mostreig complet, és a dir, el segon pas anterior per a la següent iteració.[1]

Estat del desenvolupament

El 10 de març de 2023, els primers models d'OpenAssistant van començar a generar respostes a les indicacions de capacitació en el lloc web d'OpenAssistant. Aquestes respostes estaven obertes per a la classificació del pas dos del document InstructGPT anterior. Aquestes dades s'introduiran en la base de dades d'entrenament. Els models són específicament iteracions de models decuplicats de pythia-6.9B.[7][8]

OpenAssistant es va fer públic el 15 d'abril de 2023.[3]

A partir de l'11 de maig de 2023, Open Assistant secunda 40 idiomes, inclosos el català, el bavarès, l'esperanto i el basc.

Remove ads

Notes

  1. En l'aprenentatge automàtic, l'aprenentatge per reforç a partir de la retroalimentació humana (RLHF) o l'aprenentatge per reforç a partir de les preferències humanes és una tècnica que entrena un "model de recompensa" directament a partir de la retroalimentació humana i l'utilitza com una funció de recompensa per a optimitzar la política d'un agent mitjançant l'aprenentatge per reforç (RL) a través d'un algorisme d'optimització.
Remove ads

Referències

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads