Top Qs
Linha do tempo
Chat
Contexto
LLaMA
grande modelo de linguagem LLM da meta al Da Wikipédia, a enciclopédia livre
Remove ads
LLaMA (em inglês: Large Language Model Meta AI) é uma família de modelos grandes de linguagem (LLM - Large Language Model) lançado pela Meta AI em fevereiro de 2023.
O modelo ganhou notoriedade devido aos seus índices de desempenho. Segundo os desenvolvedores do LLaMA, a variante de 13 bilhões de parâmetros superou o GPT-3 (de 175 bilhões de parâmetros) na maioria dos benchmarks de processamento de linguagem natural (NLP, do inglês Natural Language Processing).[1] Além disso, o modelo de maior escala demonstrou competitividade frente a sistemas de última geração, como o PaLM e o Chinchilla. Diferente de LLMs mais robustas, que costumam ser restritas a interfaces de programação de aplicações (APIs) limitadas, a Meta disponibilizou os pesos do LLaMA à comunidade de pesquisa sob uma licença não comercial.[2] Contudo, uma semana após o anúncio, os parâmetros do modelo foram vazados ao público via BitTorrent no fórum 4chan.
Em 18 de julho de 2023, em colaboração com a Microsoft, a Meta anunciou o Llama 2. Esta segunda geração foi treinada e publicada em três dimensões distintas, variando de 7 bilhões a 70 bilhões de parâmetros.[3]
Remove ads
Arquitetura
A LLaMA usa a arquitetura transformadora, a arquitetura padrão para modelagem de idiomas desde 2018.
Existem pequenas diferenças arquitetônicas. Comparado com GPT-3 LLaMA:
Remove ads
Conjunto de dados de treinamento
Os desenvolvedores do LLaMA concentraram seus esforços em dimensionar o desempenho do modelo aumentando o volume de dados de treinamento, em vez do número de parâmetros, argumentando que o custo dominante para LLMs é fazer inferência no modelo treinado em vez do custo computacional do processo de treinamento.
O LLaMA foi treinado em 1,4 trilhão de tokens, extraídos de fontes de dados publicamente disponíveis, incluindo:
- Páginas da Web raspadas por CommonCrawl.
- Repositórios de código-fonte aberto de código-fonte do GitHub.
- Wikipédia em 20 línguas diferentes.
- Livros de domínio público do Projeto Gutenberg.
- O código-fonte LaTeX para artigos científicos carregados no ArXiv.
- Perguntas e respostas dos sites do Stack Exchange.
Remove ads
Lançamento
Resumir
Perspectiva
O LLaMA foi anunciado em 23 de fevereiro de 2023, por meio de uma postagem no blog e um artigo descrevendo o treinamento, a arquitetura e o desempenho do modelo. O código usado para treinar o modelo foi divulgado publicamente sob a licença GPL 3 de código aberto. O acesso aos pesos do modelo foi gerenciado por um processo de inscrição, com acesso a ser concedido "caso a caso a pesquisadores acadêmicos; aqueles afiliados a organizações governamentais, da sociedade civil e acadêmica; e laboratórios de pesquisa da indústria em todo o mundo".
Em 2 de março de 2023,[8] um torrent contendo os pesos do LLaMA foi carregado, com um link para o torrent compartilhado no quadro de imagens do 4chan e posteriormente se espalhando pelas comunidades online de IA. Nesse mesmo dia, foi aberto um pull request no repositório principal do LLaMA, solicitando a inclusão do link magnético na documentação oficial.[9][10] Em 4 de março, uma solicitação pull foi aberta para adicionar links aos repositórios HuggingFace contendo o modelo.[11][9] Em 6 de março, a Meta entrou com pedidos de remoção para remover os repositórios HuggingFace vinculados na solicitação pull, caracterizando-o como "distribuição não autorizada" do modelo. HuggingFace atendeu aos pedidos.[12] Em 20 de março, a Meta entrou com uma solicitação de remoção do DMCA por violação de direitos autorais contra um repositório contendo um script que baixava o LLaMA de um espelho, e o GitHub atendeu no dia seguinte. Desde 25 de março, o Facebook não respondeu à solicitação pull contendo o link magnético.[10]
As reações ao vazamento variaram. Alguns especularam que o modelo seria usado para fins maliciosos, como spam mais sofisticado. Alguns celebraram a acessibilidade do modelo, bem como o fato de que versões menores do modelo podem ser executadas de forma relativamente barata, sugerindo que isso promoverá o florescimento de desenvolvimentos de pesquisa adicionais. Vários comentaristas, como Simon Willison, compararam o LLaMA ao Stable Diffusion, um modelo de texto para imagem que, ao contrário dos modelos comparativamente sofisticados que o precederam, foi distribuído abertamente, levando a uma rápida proliferação de ferramentas, técnicas e software associados.
Remove ads
Reprodução do conjunto de dados
Em 17 de abril de 2023, a Together lançou um projeto chamado RedPajama para reproduzir e distribuir uma versão de código aberto do conjunto de dados LLaMA. O conjunto de dados tem aproximadamente 1,2 trilhão de tokens e está disponível publicamente para download.
Formulários
O Centro de Pesquisa em Modelos Fundamentais (CRFM) da Universidade Stanford Institute for Human-Centered Artificial Intelligence (HAI) lançou o Alpaca, uma receita de treinamento baseada no modelo LLaMA 7B que usa o método "Self-Instruct" de ajuste de instrução para adquirir capacidades comparáveis ao modelo text-davinci-003 da série OpenAI GPT-3 a um custo modesto.[13][14] Vários projetos de código aberto continuam esse trabalho de ajuste fino do LLaMA com o conjunto de dados Alpaca.
Remove ads
Referências
- Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample. (27 de fevereiro de 2023). «LLaMA: Open and Efficient Foundation Language Models». arXiv:2302.13971
. Consultado em 22 de dezembro de 2025 - Bastian, Matthias (25 de fevereiro de 2023). «Metas "LLaMA" language model shows that parameters are not everything». Consultado em 22 de dezembro de 2025
- «Meta e Microsoft apresentam a próxima geração de lhamas». Meta. 18 de julho de 2023. Consultado em 21 de julho de 2023
- Shazeer, Noam (1 de fevereiro de 2020). «GLU Variants Improve Transformer». arXiv:2104.09864
[cs.CL] - Su, Jianlin; Lu, Yu (1 de abril de 2021). «RoFormer: Enhanced Transformer with Rotary Position Embedding». arXiv:2104.09864
[cs.CL] - Zhang, Biao; Sennrich, Rico (1 de outubro de 2019). «Root Mean Square Layer Normalization». arXiv:1910.07467
[cs.LG] - Lei Ba, Jimmy; Kiros, Jamie Ryan (1 de julho de 2016). «Layer Normalization». arXiv:1607.06450
[stat.ML] - «/g/ - /aicg/ - AI Chatbot General - Technology - 4chan». 5 de março de 2023
- VK, Anirudh (6 de março de 2023). «LLaMA do Meta vazou para o público, graças ao 4chan». Analytics India Magazine. Consultado em 17 de março de 2023
- «Economize largura de banda usando um torrent para distribuir com mais eficiência por ChristopherKing42 · Pull Request #73 · facebookresearch/llama». GitHub (em inglês). Consultado em 25 de março de 2023
- «Faça o download de pesos de huggingface para nos ajudar a economizar largura de banda por Jainam 213 · Pull Request #109 · facebookresearch/llama». GitHub (em inglês). Consultado em 17 de março de 2023
- Cox, Joseph (7 de março de 2023). «O poderoso modelo de linguagem grande do Facebook vaza online». vício (em inglês). Consultado em 17 de março de 2023
- Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 de março de 2023). «Alpaca: um modelo forte e replicável de acompanhamento de instruções». Stanford Center for Research on Foundation Models
- Wang, Yizhong; Kordi, Yeganeh. «Self-Instruct: Aligning Language Models with Self-Generated Instructions». arXiv:2212.10560
[cs.CL]
Remove ads
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads