Топ питань
Часова шкала
Чат
Перспективи
Розвідувальний аналіз
З Вікіпедії, вільної енциклопедії
Remove ads
Розвідувальний аналіз даних (англ. Exploratory data analysis, EDA) займається попереднім експрес-аналізом даних шляхом їх перетворення та/або представлення у зручному вигляді: графічному, табличному, схем, діаграм і т.д.
![]() | Було запропоновано приєднати статтю Розвідковий аналіз даних до цієї статті або розділу, але, можливо, це варто додатково обговорити. Пропозиція із серпня 2018. |
Спостереження за однією змінною
Узагальнити
Перспектива
Пробіт-графік
Будується таким чином: Нехай - клас розподілів типу зсув-масштабу, з базовою функцією . Спочатку по вибірці ,будується емпірична функція розподілу , а сама пробіт-функція:
а) Якщо пробіт-функція майже пряма, то гіпотеза про те, що функція спостерігається на даній величині типу зсув масштабу справедлива.
- ( В протилежному випадку гіпотеза несправедлива)
б) Якщо є кількість точок, що лежать осторонь усіх інших точок графіка, то спостерігаємо аномальне явище у вибірці.
Ймовірнісний графік
Ідея та ж сама, тільки зі спотвореною віссю y. Маємо множину , яку розтягують за правилом
Папір (декартова площина), де спотворюється масштаб, називають імовірнісним папером. Якщо за розподіл взяти нормальний розподіл, то такий папір називається нормальним імовірнісним папером.
Будуємо графік функції для спостереження величини .
Спотворений масштаб - смуга на , від 0 до 1. Розтягується на всю площину.
Отримуємо набір ймовірностей. Набір для класу розподілів
Звисні гістобари
Звисні гістобари - це один з графіків розвідувального аналізу, для перевірки гіпотези відповідності вибірки нормальному розподілу.
Нормальним розподілом найбільш узгодженим з даною вибіркою називається нормальний розподіл параметри (медіана та дисперсія) якого побудовані на базі вибірки.
Щоб побудувати графік висячих гістобар спочатку малюють нормальний розподіл найбільш узгоджений з даною вибіркою, потім проводять процедуру групування. Посередині кожного інтервалу за графік розподілу підвішують прямокутник, довжина якого пропорційна відносній частоті потрапляння значень в інтервал.
Якщо основи цих гістобар несуттєво відхиляється від осі OX, то гіпотеза про нормальність вибірки приймається. Інакше відхиляється.
Підвішена коренеграма
Для вибірки проводять групування, і для кожного інтервалу обчислюють величину
- ,
де - емпірична частота попадань в інтервал, а - теоретична частота обчислена згідно з узгодженим з вибіркою розподілом.
Нормальним розподілом найбільш узгодженим з даною вибіркою називається нормальний розподіл параметри (медіана та дисперсія) якого побудовані на базі вибірки.
Зображення «скринька з вусами»
![]() | Цей розділ потребує доповнення. (червень 2010) |
Зображення «стебло-листок»
![]() | Цей розділ потребує доповнення. (червень 2010) |
Remove ads
Випадок спостереження за двома змінними
Діаграма розсіювання
Всю площину розбивають на пікселі. І в залежності від того скільки значень потрапило всередину даного пікселя, кольору пікселя присвоюють яскравість чи насиченість.
Таблиця спряженості
Будується для двох випадкових змінних що приймають скінченне число значень. В першому рядку записують можливі значення першої змінної, в першому стовпцю - другої. І на перетині i-того рядка, та j-того стовпця записують скільки разів перша змінна прийняла і-те значення, одночасно з тим, як друга змінна прийняла j-те.
![]() |
Це незавершена стаття з математики. Ви можете допомогти проєкту, виправивши або дописавши її. |
Remove ads
Посилання
Ця стаття не містить посилань на джерела. (грудень 2016) |
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads