Top Qs
Linha do tempo
Chat
Contexto

LLaMA

grande modelo de linguagem LLM da meta al Da Wikipédia, a enciclopédia livre

Remove ads

LLaMA (em inglês: Large Language Model Meta AI) é uma família de modelos grandes de linguagem (LLM - Large Language Model) lançado pela Meta AI em fevereiro de 2023.

O modelo ganhou notoriedade devido aos seus índices de desempenho. Segundo os desenvolvedores do LLaMA, a variante de 13 bilhões de parâmetros superou o GPT-3 (de 175 bilhões de parâmetros) na maioria dos benchmarks de processamento de linguagem natural (NLP, do inglês Natural Language Processing).[1] Além disso, o modelo de maior escala demonstrou competitividade frente a sistemas de última geração, como o PaLM e o Chinchilla. Diferente de LLMs mais robustas, que costumam ser restritas a interfaces de programação de aplicações (APIs) limitadas, a Meta disponibilizou os pesos do LLaMA à comunidade de pesquisa sob uma licença não comercial.[2] Contudo, uma semana após o anúncio, os parâmetros do modelo foram vazados ao público via BitTorrent no fórum 4chan.

Em 18 de julho de 2023, em colaboração com a Microsoft, a Meta anunciou o Llama 2. Esta segunda geração foi treinada e publicada em três dimensões distintas, variando de 7 bilhões a 70 bilhões de parâmetros.[3]

Remove ads

Arquitetura

A LLaMA usa a arquitetura transformadora, a arquitetura padrão para modelagem de idiomas desde 2018.

Existem pequenas diferenças arquitetônicas. Comparado com GPT-3 LLaMA:

  • Usa a função de ativação SwiGLU[4] em vez de ReLU.
  • Usa incorporações posicionais rotativas[5] em vez de incorporações posicionais absolutas.
  • Usa a normalização da camada quadrática média[6] em vez da normalização da camada padrão.[7]
Remove ads

Conjunto de dados de treinamento

Os desenvolvedores do LLaMA concentraram seus esforços em dimensionar o desempenho do modelo aumentando o volume de dados de treinamento, em vez do número de parâmetros, argumentando que o custo dominante para LLMs é fazer inferência no modelo treinado em vez do custo computacional do processo de treinamento.

O LLaMA foi treinado em 1,4 trilhão de tokens, extraídos de fontes de dados publicamente disponíveis, incluindo:

  • Páginas da Web raspadas por CommonCrawl.
  • Repositórios de código-fonte aberto de código-fonte do GitHub.
  • Wikipédia em 20 línguas diferentes.
  • Livros de domínio público do Projeto Gutenberg.
  • O código-fonte LaTeX para artigos científicos carregados no ArXiv.
  • Perguntas e respostas dos sites do Stack Exchange.
Remove ads

Lançamento

Resumir
Perspectiva

O LLaMA foi anunciado em 23 de fevereiro de 2023, por meio de uma postagem no blog e um artigo descrevendo o treinamento, a arquitetura e o desempenho do modelo. O código usado para treinar o modelo foi divulgado publicamente sob a licença GPL 3 de código aberto. O acesso aos pesos do modelo foi gerenciado por um processo de inscrição, com acesso a ser concedido "caso a caso a pesquisadores acadêmicos; aqueles afiliados a organizações governamentais, da sociedade civil e acadêmica; e laboratórios de pesquisa da indústria em todo o mundo".

Em 2 de março de 2023,[8] um torrent contendo os pesos do LLaMA foi carregado, com um link para o torrent compartilhado no quadro de imagens do 4chan e posteriormente se espalhando pelas comunidades online de IA. Nesse mesmo dia, foi aberto um pull request no repositório principal do LLaMA, solicitando a inclusão do link magnético na documentação oficial.[9][10] Em 4 de março, uma solicitação pull foi aberta para adicionar links aos repositórios HuggingFace contendo o modelo.[11][9] Em 6 de março, a Meta entrou com pedidos de remoção para remover os repositórios HuggingFace vinculados na solicitação pull, caracterizando-o como "distribuição não autorizada" do modelo. HuggingFace atendeu aos pedidos.[12] Em 20 de março, a Meta entrou com uma solicitação de remoção do DMCA por violação de direitos autorais contra um repositório contendo um script que baixava o LLaMA de um espelho, e o GitHub atendeu no dia seguinte. Desde 25 de março, o Facebook não respondeu à solicitação pull contendo o link magnético.[10]

As reações ao vazamento variaram. Alguns especularam que o modelo seria usado para fins maliciosos, como spam mais sofisticado. Alguns celebraram a acessibilidade do modelo, bem como o fato de que versões menores do modelo podem ser executadas de forma relativamente barata, sugerindo que isso promoverá o florescimento de desenvolvimentos de pesquisa adicionais. Vários comentaristas, como Simon Willison, compararam o LLaMA ao Stable Diffusion, um modelo de texto para imagem que, ao contrário dos modelos comparativamente sofisticados que o precederam, foi distribuído abertamente, levando a uma rápida proliferação de ferramentas, técnicas e software associados.

Remove ads

Reprodução do conjunto de dados

Em 17 de abril de 2023, a Together lançou um projeto chamado RedPajama para reproduzir e distribuir uma versão de código aberto do conjunto de dados LLaMA. O conjunto de dados tem aproximadamente 1,2 trilhão de tokens e está disponível publicamente para download.

Formulários

O Centro de Pesquisa em Modelos Fundamentais (CRFM) da Universidade Stanford Institute for Human-Centered Artificial Intelligence (HAI) lançou o Alpaca, uma receita de treinamento baseada no modelo LLaMA 7B que usa o método "Self-Instruct" de ajuste de instrução para adquirir capacidades comparáveis ao modelo text-davinci-003 da série OpenAI GPT-3 a um custo modesto.[13][14] Vários projetos de código aberto continuam esse trabalho de ajuste fino do LLaMA com o conjunto de dados Alpaca.

Remove ads

Referências

  1. Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample. (27 de fevereiro de 2023). «LLaMA: Open and Efficient Foundation Language Models». arXiv:2302.13971Acessível livremente. Consultado em 22 de dezembro de 2025
  2. Bastian, Matthias (25 de fevereiro de 2023). «Metas "LLaMA" language model shows that parameters are not everything». Consultado em 22 de dezembro de 2025
  3. «Meta e Microsoft apresentam a próxima geração de lhamas». Meta. 18 de julho de 2023. Consultado em 21 de julho de 2023
  4. Shazeer, Noam (1 de fevereiro de 2020). «GLU Variants Improve Transformer». arXiv:2104.09864Acessível livremente [cs.CL]
  5. Su, Jianlin; Lu, Yu (1 de abril de 2021). «RoFormer: Enhanced Transformer with Rotary Position Embedding». arXiv:2104.09864Acessível livremente [cs.CL]
  6. Zhang, Biao; Sennrich, Rico (1 de outubro de 2019). «Root Mean Square Layer Normalization». arXiv:1910.07467Acessível livremente [cs.LG]
  7. Lei Ba, Jimmy; Kiros, Jamie Ryan (1 de julho de 2016). «Layer Normalization». arXiv:1607.06450Acessível livremente [stat.ML]
  8. VK, Anirudh (6 de março de 2023). «LLaMA do Meta vazou para o público, graças ao 4chan». Analytics India Magazine. Consultado em 17 de março de 2023
  9. Cox, Joseph (7 de março de 2023). «O poderoso modelo de linguagem grande do Facebook vaza online». vício (em inglês). Consultado em 17 de março de 2023
  10. Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 de março de 2023). «Alpaca: um modelo forte e replicável de acompanhamento de instruções». Stanford Center for Research on Foundation Models
  11. Wang, Yizhong; Kordi, Yeganeh. «Self-Instruct: Aligning Language Models with Self-Generated Instructions». arXiv:2212.10560Acessível livremente [cs.CL]
Remove ads
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads