Топ питань
Часова шкала
Чат
Перспективи

Профілювання даних

процес вивчення даних, доступних з наявного джерела відомостей (наприклад, бази даних чи файлу), і збору статистичних даних або інформативн З Вікіпедії, вільної енциклопедії

Remove ads

Профілювання даних — це процес вивчення даних, доступних із існуючого джерела інформації і збору статистичних чи інформативних підсумків щодо цих даних.

Remove ads

Мета профілювання

Метою процесу може бути:

  • Потреба в інформації чи можна легко використати існуючі дані для інших цілей
  • Покращення можливостей пошуку даних, позначивши їх ключовими словами, описами або призначивши їх категорії
  • Оцінка якості даних, включно з тим, чи відповідають дані певним стандартам або шаблонам
  • Оцінка ризиків, пов'язані з інтеграцією даних у нові програми, включно з проблемами об'єднань
  • Відкриття для себе метаданих вихідної бази даних, включаючи шаблони значень і розподіли, кандидати на ключі, кандидати на зовнішні ключі та функціональні залежності
  • Можливість оцінки, чи відомі метадані точно описують фактичні значення у вихідній базі даних
  • Розуміння проблем з даними на ранній стадії будь-якого проєкту з інтенсивним використанням даних, щоб уникнути пізніх сюрпризів. Виявлення проблем із даними на пізньому етапі проєкту може призвести до затримок і перевитрат.
  • Отримання корпоративного перегляду усіх даних[1] для таких цілей, як керування основними даними, де потрібні ключові дані, або управління даними для покращення якості даних.
Remove ads

Особливості процесу профілювання

Профілювання даних відноситься до аналізу інформації для використання в сховищі даних, щоб прояснити структуру, зміст, взаємозв'язки та правила отримання даних. Профілювання допомагає не тільки зрозуміти аномалії та оцінити якість даних, але й виявити, зареєструвати та оцінити корпоративні метадані. Результат аналізу використовується для визначення придатності вихідних систем-кандидатів, що зазвичай дає основу для раннього прийняття/неприйняття рішення, а також для виявлення п рішення. Як проводиться профілювання даних Профілювання даних використовує методи описової статистики, такі як мінімум, максимум, середнє значення, мода, процентиль, стандартне відхилення, частота, варіація, агрегати, такі як підрахунок і сума, а також додаткову інформацію метаданих, отриману під час профілювання даних, таку як тип даних, довжина, дискретні значення, унікальність, поява нульових значень, типові шаблони рядків і розпізнавання абстрактних типів. Потім метадані можна використовувати для виявлення таких проблем, як недопустимі значення, орфографічні помилки, відсутні значення, різне представлення значення та дублікати.

Для різних структурних рівнів проводяться різні аналізи. Наприклад окремі стовпці можна профілювати окремо, щоб отримати розуміння частотного розподілу різних значень, типів і використання кожного стовпця. Залежності вбудованих значень можна виявити в аналізі між стовпцями. Нарешті, набори значень, що перекриваються, можливо, представляють відносини зовнішнього ключа між сутностями, можна досліджувати в міжтабличному аналізі. Складність обчислень зростає при переході від одного стовпця до однієї таблиці та міжтабличного структурного профілювання. Тому продуктивність є критерієм оцінки інструментів профілювання.

Remove ads

Застосування

Профілювання даних виконується кілька разів і з різною інтенсивністю протягом усього процесу розробки сховища. Полегшену оцінку профілювання проводять відразу після визначення вихідних систем-кандидатів і задоволення бізнес-вимог DW/BI (англ. Business Intelligence/Data Warehousing). Мета початкового аналізу полягає в тому, щоб з'ясувати, чи доступні правильні дані на відповідному рівні деталізації і чи можна усунути аномалії. Якщо це не так, проект може бути припинено. Пперед процесом розмірного моделювання виконується більш поглиблене профілювання, щоб оцінити, що потрібно для перетворення даних у розмірну модель. Детальне профілювання поширюється на процес проектування системи ETL, щоб визначити відповідні дані для вилучення та які фільтри застосувати до набору даних.

Крім того, профілювання даних може проводитися в процесі розробки сховища даних після того, як дані були завантажені в проміжну продукцію чи вітрини даних . Проведення даних на цих етапах допомагає переконатися, що очищення та перетворення даних виконано правильно та відповідно до вимог.

Переваги та приклади

Переваги профілювання даних полягають у покращенні якості даних, скороченні циклу реалізації великих проєктів і покращенні розуміння даних користувачами. Виявлення бізнес-знань, вбудованих у самі дані, є однією із значних переваг профілювання даних. Профілювання даних — це одна з найефективніших технологій для підвищення точності даних у корпоративних базах даних.[джерело?]

Див. також

Примітки

Література

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads