F-міра - Wikiwand

В статистичнім аналізі бінарної класифікації, F-міра (англ. F-score, F-measure) — це одна з мір точності тесту. Її обчислюють через влучність та повноту тесту, де влучність є числом правильно визначених позитивних результатів, поділеним на число всіх позитивних результатів, включно з визначеними неправильно, а повнота є числом правильно визначених позитивних результатів, поділеним на число всіх зразків, які повинно було бути визначено як позитивні^[1].

Міра F₁ є середнім гармонійним цих влучності та повноти^[2]. Загальніша міра F_β застосовує додаткові ваги, оцінюючи або влучність, або повноту вище за іншу.

Найвищим можливим значенням F-міри є 1, що вказує на ідеальні влучність та повноту, а найнижчим можливим значенням є 0, якщо або влучність, або повнота є нульовими. Міра F₁ є також відомою як індекс Соренсена, та коефіцієнт подібності Дайса (англ. Dice similarity coefficient, DSC).^{[джерело?]}

Remove ads

Етимологія

Вважають, що назву F-міри вона отримала на честь іншої F-функції з книги ван Рійсберґена, коли її було представлено та четвертій Конференції з розуміння повідомлень^[en] (англ. Fourth Message Understanding Conference, MUC-4, 1992)^[3].

Визначення

Цей розділ потребує додаткових посилань на джерела для поліпшення його перевірності. (жовтень 2020)

Традиційна F-міра, або збалансована F-оцінка (міра F₁) є середнім гармонійним влучності та повноти:

F₁ = 2повнота^-1 + влучність^-1 = 2 · влучність · повнотавлучність + повнота = ІПІП + 12(ХП + ХН).

F_β

Загальнішою F-мірою, F_β, що використовує додатний дійснозначний коефіцієнт β, де β обирають так, що повноту вважають у β разів важливішою за влучність, є

F_β = (1 + β²) · влучність · повнота(β² · влучність) + повнота

В термінах помилок першого і другого роду це стає:

F_β = (1 + β²) · істинно позитивні(1 + β²) · істинно позитивні + β² · хибно негативні + хибно позитивні

Двома широко вживаними значеннями β є 2, яке надає повноті більшої ваги, ніж влучності, та 0,5, яке надає повноті меншої ваги, ніж влучності.

F-міру було виведено таким чином, що F_β «вимірює ефективність пошуку з урахуванням користувача, який надає в β разів вищої важливості повноті, ніж влучності»^[4]. Вона ґрунтується на мірі ефективності ван Рійсберґена^[en]

E = 1 − (αв + 1 − αп)⁻¹

Вони є взаємопов'язаними як F_β = 1 − E, де α = 1/1 + β².

Remove ads

Діагностичне дослідження

Узагальнити

Перспектива

Воно пов'язане з галуззю бінарної класифікації, де повноту часто називають «чутливістю».

		Справжній стан
	загальна сукупність	позитивний стан	негативний стан	поширеність = Σ позитивних станів/Σ загальної сукупності	точність = Σ істинно позитивних + Σ істинно негативних/Σ загальної сукупності
Прогнозований стан	позитивний прогнозований стан	істинно позитивний	хибно позитивний, помилка I роду	прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивних/Σ позитивних прогнозованих станів	рівень хибного виявляння^[en] (РХВ) = Σ хибно позитивних/Σ позитивних прогнозованих станів
	негативний прогнозований стан	хибно негативний, помилка II роду	істинно негативний	рівень хибного пропускання (РХП) = Σ хибно негативних/Σ негативних прогнозованих станів	прогностична значущість негативного результату (ПЗ-) = Σ істинно негативних/Σ негативних прогнозованих станів
		істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивних/Σ позитивних станів	хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивних/Σ негативних станів	співвідношення правдоподібності позитивного результату (СП+) = ІПР/ХПР	діагностичне співвідношення шансів (ДСШ) = СП+/СП−	міра F₁ = 2 · влучність · повнота/влучність + повнота
		хибнонегативний рівень (ХНР), коефіцієнт невлучання = Σ хибно негативних/Σ позитивних станів	специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативних/Σ негативних станів	співвідношення правдоподібності негативного результату (СП-) = ХНР/ІНР

Застосування

F-міру часто використовують в галузі інформаційного пошуку для вимірювання продуктивності пошуку, класифікації документів, та класифікації запитів^[en]^[5]. Ранні праці зосереджувалися переважно на мірі F₁, але з поширенням великомасштабних пошукових рушіїв цілі продуктивності змінилися на акцентування більшої уваги або на влучності, або на повноті^[6], тож F_β помітно у широкому вжитку.

F-міру також використовують у машиннім навчанні^[7]. Проте, F-міри не беруть до уваги істинно негативних, тож для оцінювання продуктивності бінарного класифікатора можуть віддавати перевагу коефіцієнтові кореляції Меттьюза^[en] чи каппі Коена^[en]^[8].

F-міра знайшла широкий вжиток в літературі з обробки природних мов^[9], наприклад, при оцінюванні розпізнавання іменованих сутностей та поділу на слова^[en].

Remove ads

Критика

Девід Генд^[en] та інші критикують широке використання міри F₁, оскільки вона надає однакової важливості влучності та повноті. На практиці, різні типи помилкової класифікації призводять до різних втрат. Іншими словами, відносна важливість влучності та повноти є одним із аспектів задачі^[10].

Згідно Давіде Чікко та Джузеппе Журмана, міра F₁ є менш правдивою та інформативною для класифікації бінарного оцінювання, ніж коефіцієнт кореляції Меттьюза^[en] (ККМ, англ. Matthews correlation coefficient, MCC)^[11].

Девід Пауерс вказав, що F₁ ігнорує істинно негативні, й відтак є оманливою для незбалансованих класів, тоді як міри каппа та кореляції є симетричними, й оцінюють обидва напрямки передбачуваності — класифікатор, що передбачує істинний клас, та істинний клас, що передбачує передбачення класифікатора, пропонуючи окремі багатокласові міри поінформованості^[en] та маркованості^[en] для цих двох напрямків, зазначаючи, що їхнє середнє геометричне є кореляцією^[12].

Remove ads

Відмінність від індексу Фаулкса — Меттьюза

В той час як F-міра є середнім гармонійним повноти та влучності, індекс Фаулкса — Меттьюза^[en] є їхнім середнім геометричним^[13].

Розширення до багатокласової класифікації

F-міру також використовують для оцінювання задач із понад двома класами (багатокласова класифікація^[en]). В цій постановці остаточну міру отримують мікроусереднюванням (з упередженням за частотою класів) або макроусереднюванням (беручи всі класи однаково важливими). Для макроусереднювання застосовувачі використовувати дві різні формули: F-міру (арифметичних) середніх влучності та повноти по всіх класах, та арифметичне середнє F-мір по всіх класах, серед яких крайня виявляє бажаніші властивості^[14].

Remove ads

Див. також

Матриця невідповідностей
METEOR
BLEU^[en]
NIST (метрика)^[en]
Робоча характеристика приймача
ROUGE (метрика)^[en]
Коефіцієнт невизначеності^[en], відомий також як вправність (англ. proficiency)
Частота помилкових слів^[en]

Примітки

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Етимологія

Визначення

Fβ

Діагностичне дослідження

Застосування

Критика

Відмінність від індексу Фаулкса&nbsp;— Меттьюза

Розширення до багатокласової класифікації

Див. також

Примітки

F_β

Відмінність від індексу Фаулкса — Меттьюза