Top-Fragen
Zeitleiste
Chat
Kontext

LLaMA-Sprachmodell

Aus Wikipedia, der freien Enzyklopädie

Remove ads

Das LLaMA (Large Language Model Meta AI) von Meta ist ein sogenanntes Großes Sprachmodell, das von Meta AI am 24. Februar 2023 veröffentlicht wurde.[1] Es ist ein generatives Sprachmodell, das in der Lage ist, menschenähnlichen Text zu erzeugen, Sprachen zu übersetzen, verschiedene Arten kreativer Inhalte zu schreiben und Fragen informativ zu beantworten.[2][3][4]

Veröffentlichung

LLaMA wurde am 23. Februar 2023 in einem Blogbeitrag und einem wissenschaftlichen Papier angekündigt, in dem das Training, die Architektur und die Leistung des Modells beschrieben wurden.[2] Der Programmcode, der zur Ausführung des Modells verwendet wird, wurde unter der Open-Source-Lizenz GPL 3 veröffentlicht und kann via Github abgerufen werden.[5] Der Zugang zu dem Modell wird von Fall zu Fall akademischen Forschern, Mitarbeitern von staatlichen, zivilgesellschaftlichen und akademischen Organisationen sowie Forschungslabors der Industrie in aller Welt gewährt.[6]

Remove ads

Details

Zusammenfassung
Kontext

Für die erste Version von LLaMA wurden vier Modellgrößen trainiert: 7, 13, 33 und 65 Milliarden Parameter.[7] Die LLaMA-Entwickler berichteten, dass die Leistung des 13B-Parameter-Modells bei den meisten NLP-Benchmarks die Leistung des viel größeren GPT-3 (mit 175 Mrd. Parametern) übertraf und dass das größte Modell mit aktuellen Modellen wie PaLM und Chinchilla, einem von Google im März 2022 vorgestelltem großem Sprachmodell, konkurrenzfähig war.[3][7]

Das LLaMA Modell wurde auf einem Datensatz mit 1,4 Billionen sogenannten Token trainiert, die aus öffentlich zugänglichen Datenquellen stammten, darunter:[3]

  • Von Common Crawl gescrapte Webseiten
  • Open-Source-Repositories mit Quellcode von GitHub
  • Wikipedia in 20 verschiedenen Sprachen
  • Gemeinfreie Bücher von Project Gutenberg
  • Der LaTeX-Quellcode für wissenschaftliche Arbeiten, die auf ArXiv hochgeladen wurden
  • Fragen und Antworten von Stack-Exchange-Webseiten

LLaMa Version 2 wurde am 19. Juli 2023 durch Meta gemeinsam mit Microsoft vorgestellt.[8] Eigenen Angaben zufolge wurden 40 Prozent mehr Daten für das Training eingesetzt und dabei doppelt so viel Kontext einbezogen. LLaMA 2 liegt in drei unterschiedlich großen Varianten vor: mit sieben Milliarden, 13 Milliarden sowie 70 Milliarden Parametern.

Am 23. Juli 2024 publizierte Meta das Modell Llama 3.1 mit 8, 70 oder 405 Milliarden Parametern als frei zugängliche Version.[9] Das im September 2024 veröffentlichte neueste Modell Llama 3.2 ist in Europa noch nicht frei zugänglich.[10]

Remove ads

Einzelnachweise

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads