Топ питань
Часова шкала
Чат
Перспективи
F-міра
статистична міра точності тесту З Вікіпедії, вільної енциклопедії
Remove ads
В статистичнім аналізі бінарної класифікації, F-міра (англ. F-score, F-measure) — це одна з мір точності тесту. Її обчислюють через влучність та повноту тесту, де влучність є числом правильно визначених позитивних результатів, поділеним на число всіх позитивних результатів, включно з визначеними неправильно, а повнота є числом правильно визначених позитивних результатів, поділеним на число всіх зразків, які повинно було бути визначено як позитивні[1].

Міра F1 є середнім гармонійним цих влучності та повноти[2]. Загальніша міра Fβ застосовує додаткові ваги, оцінюючи або влучність, або повноту вище за іншу.
Найвищим можливим значенням F-міри є 1, що вказує на ідеальні влучність та повноту, а найнижчим можливим значенням є 0, якщо або влучність, або повнота є нульовими. Міра F1 є також відомою як індекс Соренсена, та коефіцієнт подібності Дайса (англ. Dice similarity coefficient, DSC).[джерело?]
Remove ads
Етимологія
Вважають, що назву F-міри вона отримала на честь іншої F-функції з книги ван Рійсберґена, коли її було представлено та четвертій Конференції з розуміння повідомлень[en] (англ. Fourth Message Understanding Conference, MUC-4, 1992)[3].
Визначення
![]() |
Традиційна F-міра, або збалансована F-оцінка (міра F1) є середнім гармонійним влучності та повноти:
- F1 = 2/повнота-1 + влучність-1 = 2 · влучність · повнота/влучність + повнота = ІП/ІП + 1/2(ХП + ХН).
Fβ
Загальнішою F-мірою, Fβ, що використовує додатний дійснозначний коефіцієнт β, де β обирають так, що повноту вважають у β разів важливішою за влучність, є
- Fβ = (1 + β2) · влучність · повнота/(β2 · влучність) + повнота
В термінах помилок першого і другого роду це стає:
- Fβ = (1 + β2) · істинно позитивні/(1 + β2) · істинно позитивні + β2 · хибно негативні + хибно позитивні
Двома широко вживаними значеннями β є 2, яке надає повноті більшої ваги, ніж влучності, та 0,5, яке надає повноті меншої ваги, ніж влучності.
F-міру було виведено таким чином, що Fβ «вимірює ефективність пошуку з урахуванням користувача, який надає в β разів вищої важливості повноті, ніж влучності»[4]. Вона ґрунтується на мірі ефективності ван Рійсберґена[en]
- E = 1 − (α/в + 1 − α/п)−1
Вони є взаємопов'язаними як Fβ = 1 − E, де α = 1/1 + β2.
Remove ads
Діагностичне дослідження
Узагальнити
Перспектива
Воно пов'язане з галуззю бінарної класифікації, де повноту часто називають «чутливістю».
Справжній стан | ||||||
загальна сукупність | позитивний стан | негативний стан | поширеність = Σ позитивних станів/Σ загальної сукупності | точність = Σ істинно позитивних + Σ істинно негативних/Σ загальної сукупності | ||
Прогнозований стан |
позитивний прогнозований стан |
істинно позитивний | хибно позитивний, помилка I роду |
прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивних/Σ позитивних прогнозованих станів | рівень хибного виявляння[en] (РХВ) = Σ хибно позитивних/Σ позитивних прогнозованих станів | |
негативний прогнозований стан |
хибно негативний, помилка II роду |
істинно негативний | рівень хибного пропускання (РХП) = Σ хибно негативних/Σ негативних прогнозованих станів | прогностична значущість негативного результату (ПЗ-) = Σ істинно негативних/Σ негативних прогнозованих станів | ||
істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивних/Σ позитивних станів | хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивних/Σ негативних станів | співвідношення правдоподібності позитивного результату (СП+) = ІПР/ХПР | діагностичне співвідношення шансів (ДСШ) = СП+/СП− | міра F1 = 2 · влучність · повнота/влучність + повнота | ||
хибнонегативний рівень (ХНР), коефіцієнт невлучання = Σ хибно негативних/Σ позитивних станів | специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативних/Σ негативних станів | співвідношення правдоподібності негативного результату (СП-) = ХНР/ІНР |
Застосування
F-міру часто використовують в галузі інформаційного пошуку для вимірювання продуктивності пошуку, класифікації документів, та класифікації запитів[en][5]. Ранні праці зосереджувалися переважно на мірі F1, але з поширенням великомасштабних пошукових рушіїв цілі продуктивності змінилися на акцентування більшої уваги або на влучності, або на повноті[6], тож Fβ помітно у широкому вжитку.
F-міру також використовують у машиннім навчанні[7]. Проте, F-міри не беруть до уваги істинно негативних, тож для оцінювання продуктивності бінарного класифікатора можуть віддавати перевагу коефіцієнтові кореляції Меттьюза[en] чи каппі Коена[en][8].
F-міра знайшла широкий вжиток в літературі з обробки природних мов[9], наприклад, при оцінюванні розпізнавання іменованих сутностей та поділу на слова[en].
Remove ads
Критика
Девід Генд[en] та інші критикують широке використання міри F1, оскільки вона надає однакової важливості влучності та повноті. На практиці, різні типи помилкової класифікації призводять до різних втрат. Іншими словами, відносна важливість влучності та повноти є одним із аспектів задачі[10].
Згідно Давіде Чікко та Джузеппе Журмана, міра F1 є менш правдивою та інформативною для класифікації бінарного оцінювання, ніж коефіцієнт кореляції Меттьюза[en] (ККМ, англ. Matthews correlation coefficient, MCC)[11].
Девід Пауерс вказав, що F1 ігнорує істинно негативні, й відтак є оманливою для незбалансованих класів, тоді як міри каппа та кореляції є симетричними, й оцінюють обидва напрямки передбачуваності — класифікатор, що передбачує істинний клас, та істинний клас, що передбачує передбачення класифікатора, пропонуючи окремі багатокласові міри поінформованості[en] та маркованості[en] для цих двох напрямків, зазначаючи, що їхнє середнє геометричне є кореляцією[12].
Remove ads
Відмінність від індексу Фаулкса — Меттьюза
В той час як F-міра є середнім гармонійним повноти та влучності, індекс Фаулкса — Меттьюза[en] є їхнім середнім геометричним[13].
Розширення до багатокласової класифікації
F-міру також використовують для оцінювання задач із понад двома класами (багатокласова класифікація[en]). В цій постановці остаточну міру отримують мікроусереднюванням (з упередженням за частотою класів) або макроусереднюванням (беручи всі класи однаково важливими). Для макроусереднювання застосовувачі використовувати дві різні формули: F-міру (арифметичних) середніх влучності та повноти по всіх класах, та арифметичне середнє F-мір по всіх класах, серед яких крайня виявляє бажаніші властивості[14].
Remove ads
Див. також
- Матриця невідповідностей
- METEOR
- BLEU[en]
- NIST (метрика)[en]
- Робоча характеристика приймача
- ROUGE (метрика)[en]
- Коефіцієнт невизначеності[en], відомий також як вправність (англ. proficiency)
- Частота помилкових слів[en]
Примітки
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads