Темп навчання

У машинному навчанні те́мп навча́ння (англ. learning rate) або коефіціє́нт шви́дкості навча́ння — це гіперпараметр алгоритму оптимізації, який задає розмір кроку на кожній ітерації пошуку мінімуму функції втрат.^[1] Оскільки він визначає те, якою мірою нова отримана інформація замінює попередню інформацію, він образно представляє швидкість, з якою модель машинного навчання «навчається». У літературі з адаптивного керування швидкість навчання зазвичай називають коефіціє́нтом підси́лення (англ. gain).^[2]

При встановленні темпу навчання існує проблема компромісу між швидкістю збіжності та перестрибуванням мінімуму. В той час як напрямок спуску^[en] зазвичай отримується з градієнта функції втрат, коефіцієнт швидкості навчання визначає, наскільки великий крок буде зроблено в цьому напрямку. Занадто високий темп навчання змусить алгоритм перестрибнути через мінімум, а навчання з занадто низьким коефіцієнтом або займе занадто багато часу, або застрягне у небажаному локальному мінімумі.^[3]

Щоб досягти швидшої збіжності, запобігти гойданню і застряганню в небажаних локальних мінімумах, темп навчання часто змінюється під час навчання або відповідно до графіка темпу навчання, або за допомогою алгоритмів адаптивного темпу навчання.^[4] Коефіцієнт швидкості навчання та його підбір може відрізнятися для різних параметрів моделі, і в такому випадку отримуємо діагональну матрицю, яку можна розглядати як наближення оберненої матриці Гесе, що використовується в методі Ньютона^[5]. Темп навчання подібен до довжини кроку, отримуваної неточним лінійним пошуком у квазіньютонових методах і відповідних алгоритмах оптимізації.^[6]^[7]

Мініпакетна підвибірка (МППВ, англ. mini-batch sub-sampling, MBSS) під час лінійного пошуку торкається характеристик функцій втрат, за якими необхідно визначати темп навчання.^[8] Статична МППВ утримує мініпакет незмінним уздовж напрямку пошуку, що призводить до плавності функції втрат уздовж напрямку пошуку. Динамічна МППВ уточнює мініпакет на кожному обчисленні функції, що призводить до поточкової розривності функції втрат уздовж напрямку пошуку. До видів лінійного пошуку, які адаптивно встановлюють темп навчання для функцій втрат статичної МППВ, належить параболічно наближувальний лінійний (ПНЛ, англ. parabolic approximation line, PAL) пошук.^[9] До видів лінійного пошуку, які адаптивно встановлюють темп навчання для функцій втрат динамічної МППВ, належать імовірнісні види лінійного пошуку,^[10] виключно градієнтні види лінійного пошуку (англ. gradient-only line searches, GOLS)^[11] та квадратичні наближення.^[12]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Темп навчання

Графік темпу навчання

Адаптивний темп навчання

Див. також

Примітки

Література

Посилання

Wikiwand - on