Велика мовна модель

Велика мовна модель або велика модель мови (ВММ або LLM від англ. large language model) — це модель мови, що складається з нейронної мережі з багатьма параметрами (від десятків мільйонів до мільярдів), навчених на великій кількості немаркованого тексту за допомогою самокерованого або напівкерованого навчання^[1]. LLM з'явилися приблизно у 2018 році та добре справляються з різноманітними завданнями. Це змістило фокус досліджень обробки природної мови з попередньої парадигми підготовки спеціалізованих керованих моделей для конкретних завдань.

Хоча термін «велика мовна модель» не має формального визначення, він часто відноситься до моделей глибокого навчання з мільйонами або навіть мільярдами параметрів, які були «попередньо навчені» на великому корпусі. LLM — це моделі загального призначення, які відмінно справляються з широким спектром завдань, на відміну від навчання для одного конкретного завдання (наприклад, аналіз настроїв, розпізнавання іменованих об'єктів або математичне міркування)^[2]. Діапазон і майстерність, з якою вони можуть виконувати завдання, як правило, є функцією кількості ресурсів (даних, розміру параметрів, обчислювальної потужності), виділених для них^[3].

[1]

[2]

[3]

Велика мовна модель

Архітектура

Токенізація

Навчання

Див. також

Примітки

Wikiwand - on