Loading AI tools
інформація без формальної моделі даних З Вікіпедії, вільної енциклопедії
Неструктуровані дані — дані, які не відповідають заздалегідь визначеній моделі даних, і, як правило, представлені у вигляді тексту з датами, цифрами, фактами, які розташовані в ньому в довільній формі[1][2]. Такі дані важко аналізувати, особливо з допомогою традиційних програм, призначених до роботи зі структурованими даними (анотованими або тими, що зберігаються у базах).
За оцінками Merrill Lynch 1998 року близько 80—90 % від усієї потенційно корисної ділової інформації було представлено в неструктурованій формі, проте це співставлення не ґрунтувалося на статистиці або кількісних дослідженнях, а було припущенням. Computerworld[en] оцінює обсяг неструктурованих даних в організаціях у 70—80 % від усіх даних.
Найраніші дослідження у сфері бізнес-аналітики зосереджувалися не на числових даних, а на неструктурованих текстових даних. Вже 1958 року такі дослідники у сфері інформаційних технологій, як Г. П. Лун[en], вивчали способи виділяння та класифікації даних у неструктурованому тексті.[3] Проте, лише з початку 2000-х років наявні технології наздогнали дослідницький інтерес. У 2004 році SAS Institute[en] розробив SAS[en] Text Miner, який використовує сингулярне розкладання, щоб зводити текстовий простір високої розмірності до меншої кількості вимірів для значного спрощення машинного аналізу[4][неавторитетне джерело]. Досягнення в галузі математики та технологій машинної обробки текстів стимулювали проведення досліджень комерційними організаціями в таких галузях, як аналіз тональності тексту (сентимент-аналіз), збирання та аналіз думок замовників[en], автоматизація центрів обробки викликів[5][неавторитетне джерело]. Поява технологій великих даних наприкінці 2000-х років стимулювала підвищений інтерес до програм для аналізу неструктурованих даних у сучасних областях, таких як прогнозування[en] та аналіз першопричин[6] .
Термін «неструктуровані дані» може вважатися неточним з кількох причин:
Такі техніки, як інтелектуальний аналіз даних (англ. data mining), обробка природної мови (англ. Natural Language Processing) та інтелектуальний аналіз тексту надають методи пошуку закономірностей з метою так чи інакше інтерпретувати неструктуровану інформацію.
Методи структурування тексту зазвичай включають ручне маркування (метадані) або розмітку частинами мови для подальшого структурування тексту. Архітектура управління неструктурованою інформацією[en] (англ. UIMA) забезпечує загальну основу для обробки цієї інформації для отримання значень і створення структурованих даних на основі неструктурованої інформації. Програмне забезпечення, що створює машинно-оброблювану структуру даних, використовує лінгвістичні, звукові та візуальні структури, що існують у всіх формах людського спілкування. Наприклад, спеціальні алгоритми можуть вивести структуру з тексту шляхом аналізу морфології, синтаксису речень, тощо. Потім можна провести розмітку неструктурованої інформації для уникнення неоднозначності, а для покращення пошуку використовуються методи оцінки релевантності.
Прикладом «неструктурованих даних» можуть бути книги, журнали, документи, метадані, медичні записи[en], аудіо, відео, аналогові дані, зображення, а також файли, що мають за основу неструктурований текст: повідомлення електронної пошти, вебсторінки, документи, створені за допомогою текстових процесорів . Неструктурована інформація може зберігатися у вигляді структурованих об'єктів (наприклад, у вигляді файлів чи документів), які в свою чергу мають структуру. При цьому поєднання структурованих та неструктурованих даних у сукупності також називається «неструктуровані дані». Наприклад, у вебсторінках HTML вже є розмітка, проте вона придатна лише для відображення. У ній не міститься інформація про значення або функції тих чи інших розмічених елементів у вигляді, придатному для автоматичної обробки. Розмітку засобами XHTML простіше обробляти автоматично, але, зазвичай, у ній не міститься семантичних значень виразів.
Оскільки неструктуровані дані зазвичай зберігаються у вигляді електронних документів, програми для аналізу змісту або управління документами надають перевагу класифікуванню цілих документів, ніж їхніх окремих частин. Таким чином, програми для обробки такого типу даних зазвичай являють собою засоби для створення колекцій документів з неструктурованою інформацією. Проте сьогодні існують також рішення, що працюють з атомарними елементами меншими, ніж цілий документ[7] .
Пошукові системи стали одним із популярних інструментів для індексації та пошуку в неструктурованих даних.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.