Modelos de linguagem de grande escala

Modelos de linguagem de grande escala (em inglês: Large Language Model ou LLM)^[1]^[2] são modelos de linguagem compostos por uma rede neural com muitos parâmetros (tipicamente bilhões ou possivelmente mais^[3]). São treinados com grandes quantidades de textos não rotulado usando aprendizado de máquina não-supervisionado.^[4]^[5] Os LLM surgiram por volta de 2018,^[6] com o modelo BERT.^[6] Estes têm bom desempenho em uma ampla variedade de tarefas. Isso mudou o foco da pesquisa em processamento de linguagem natural, afastando-se do paradigma anterior de treinar modelos supervisionados especializados para tarefas específicas.

[1]

[2]

[3]

[4]

[5]

[6]