Top Qs
Timeline
Obrolan
Perspektif
Data tidak terstruktur
informasi tanpa model data formal Dari Wikipedia, ensiklopedia bebas
Remove ads
Data tak terstruktur (atau informasi tak terstruktur) adalah informasi yang tidak memiliki model data tertentu sebelumnya atau tidak terorganisir dengan cara yang telah ditentukan sebelumnya. Informasi yang tidak terstruktur umumnya bertipe data teks, tetapi dapat berisi tipe data lain seperti tanggal, angka, dan fakta. Hal ini mengakibatkan data memiliki sifat tidak teratur dan ambigu yang membuatnya sulit diinterpretasi menggunakan program tradisional jika dibandingkan dengan data yang disimpan dalam basis data yang terorganisir berdasarkan bagian (field) atau diberi anotasi (memiliki tag semantik) dalam bentuk dokumen.

Pada tahun 1998, Merrill Lynch menyatakan bahwa sebagian besar data dalam sebuah organisasi bersifat tidak terstruktur, dengan beberapa perkiraan menyebutkan bahwa jumlahnya dapat mencapai 80% dari keseluruhan data.[1] Meskipun asal-usul angka ini tidak jelas, banyak pihak yang menerimanya sebagai acuan.[2] Berbagai sumber lain juga melaporkan persentase data tidak terstruktur yang sebanding atau bahkan lebih tinggi.[3][4][5]
Hingga tahun 2012, IDC dan Dell EMC memperkirakan bahwa jumlah data akan tumbuh hingga 40 zettabyte pada tahun 2020, yang berarti mengalami pertumbuhan 50 kali lipat sejak awal tahun 2010.[6]
Lebih baru lagi, IDC dan Seagate memprediksi bahwa datasphere global akan meningkat hingga 163 zettabyte pada tahun 2025,[7] dengan sebagian besar data tersebut bersifat tidak terstruktur. Majalah Computer World menyatakan bahwa informasi tidak terstruktur mungkin mencakup lebih dari 70–80% dari seluruh data dalam organisasi.
Remove ads
Latar belakang
Penelitian awal mengenai inteligensi bisnis berfokus pada data tekstual yang tidak terstruktur, bukan data numerik.[8] Sejak tahun 1958, peneliti ilmu komputer seperti HP Luhn, memberikan perhatian kepada proses ekstraksi dan klasifikasi teks tidak terstruktur.[8] Akan tetapi, baru pada dekade 2000 teknologi tersebut mulai menarik minat penelitian. Pada tahun 2004, SAS Institute mengembangkan SAS Text Miner, yang menggunakan teknik penguraian nilai singular (Singular Value Decomposition; SVD) untuk mengurangi ruang teks dengan hiper-dimensi menjadi dimensi yang lebih kecil untuk analisis mesin yang jauh lebih efisien.[9] Kemajuan matematika dan teknologi yang dipicu oleh perkembangan analisis teks mesin mendorong sejumlah aplikasi penelitian untuk proses bisnis, yang mengarah pada pengembangan bidang seperti analisis sentimen, penambangan suara pelanggan, dan optimasi pusat panggilan.[10] Munculnya tema mahadata pada akhir tahun 2000-an menyebabkan meningkatnya minat terhadap aplikasi analitika data tidak terstruktur di bidang kontemporer seperti analisis prediktif dan analisis akar penyebab.[11]
Remove ads
Masalah dengan terminologi
Istilah data tidak terstruktur dipandang tidak tepat karena beberapa alasan:
- Struktur, meskipun tidak didefinisikan secara formal, masih dapat tersirat dalam kumpulan data.
- Data dengan bentuk struktur tertentu masih dapat dipandang sebagai data tidak terstruktur apabila strukturnya tidak membantu tugas pemrosesan yang sedang dilakukan.
- Informasi yang tidak terstruktur mungkin saja bisa memiliki beberapa struktur (semi-terstruktur) atau bahkan sangat terstruktur tetapi dengan cara yang tidak diantisipasi atau tidak diumumkan.
Remove ads
Berurusan dengan data tidak terstruktur
Ringkasan
Perspektif
Teknik seperti penambangan data, pengolahan bahasa alami (NLP), dan penambangan teks menyediakan ragam cara untuk menemukan pola dalam data dan melakukan interpretasi terhadap informasi. Teknik umum untuk memberikan struktur pada teks biasanya melibatkan pemberian tag dengan metadata atau penandaan kelas kata (part of speech) untuk penyusunan lebih lanjut berdasarkan penambangan teks. Standar Arsitektur Manajemen Informasi Tidak Terstruktur (The Unstructured Information Management Architecture; UIMA) menyediakan kerangka kerja umum untuk memproses informasi ini guna mengekstrak makna dan membuat data terstruktur tentang informasi tersebut.
Perangkat lunak yang menciptakan struktur yang dapat diproses oleh mesin dapat memanfaatkan struktur linguistik, pendengaran, dan visual yang ada dalam semua bentuk komunikasi manusia.[12] Algoritma dapat menyimpulkan struktur inheren ini dari teks, misalnya, dengan memeriksa morfologi kata, sintaksis kalimat, dan pola skala kecil dan besar lainnya. Informasi yang tidak terstruktur kemudian dapat diperkaya dan diberi tag untuk mengatasi ambiguitas dan teknik berbasis relevansi kemudian digunakan untuk memfasilitasi pencarian dan penemuan. Contoh "data tidak terstruktur" dapat mencakup buku, jurnal, dokumen, metadata, catatan kesehatan, audio, video, data analog, gambar, file, dan teks tidak terstruktur seperti isi pesan email, halaman Web, atau dokumen pengolah kata . Meskipun konten utama yang disampaikan tidak memiliki struktur yang pasti, konten tersebut biasanya dikemas dalam objek (misalnya dalam file atau dokumen) yang memiliki struktur dan merupakan campuran data terstruktur dan tidak terstruktur, namun secara kolektif hal ini masih disebut sebagai "data tidak terstruktur".[13] Misalnya, halaman web HTML diberi tag, tetapi markah HTML biasanya hanya berfungsi untuk ditampilkan. Ini tidak menangkap makna atau fungsi elemen yang ditandai dengan cara yang mendukung pemrosesan otomatis konten informasi halaman. Penandaan XHTML memungkinkan pemrosesan elemen oleh mesin, meskipun biasanya tidak menangkap atau menyampaikan makna semantik istilah yang diberi tag.
Karena data tidak terstruktur umumnya terdapat dalam dokumen elektronik, penggunaan sistem manajemen konten atau dokumen yang dapat mengkategorikan seluruh dokumen sering kali lebih disukai daripada transfer dan manipulasi data dari dalam dokumen. Dengan demikian, manajemen dokumen menyediakan sarana untuk menyampaikan struktur ke dalam koleksi dokumen.
Mesin pencari telah menjadi alat yang populer untuk mengindeks dan mencari melalui data tersebut, terutama teks.
Pendekatan dalam pemrosesan bahasa alami
Alur kerja komputasi khusus telah dikembangkan untuk memaksakan struktur pada data tidak terstruktur yang terkandung dalam dokumen teks. Alur kerja ini umumnya dirancang untuk menangani kumpulan ribuan atau bahkan jutaan dokumen, atau jauh lebih banyak daripada yang diizinkan oleh pendekatan anotasi manual. Beberapa pendekatan ini didasarkan pada konsep pemrosesan analitik daring, atau OLAP, dan mungkin didukung oleh model data seperti kubus teks.[14] Setelah metadata dokumen tersedia melalui model data, pembuatan ringkasan dari subset dokumen (misalnya, sel dalam kubus teks) dapat dilakukan dengan pendekatan berbasis frasa.[15]
Pendekatan dalam bidang kedokteran dan penelitian biomedis
Penelitian biomedis menghasilkan satu sumber utama data tidak terstruktur karena peneliti sering menerbitkan temuan mereka di jurnal ilmiah. Meskipun bahasa dalam dokumen-dokumen ini sulit untuk mendapatkan elemen-elemen strukturalnya (misalnya, karena kosakata teknis yang rumit yang terkandung di dalamnya dan pengetahuan domain yang dibutuhkan untuk sepenuhnya mengontekstualisasikan observasi), hasil dari kegiatan ini dapat menghasilkan hubungan antara studi teknis dan medis [16] dan petunjuk mengenai terapi penyakit baru.[17] Upaya terbaru untuk memberikan struktur pada dokumen biomedis mencakup pendekatan peta pengorganisasian mandiri untuk mengidentifikasi topik di antara dokumen,[18] pemelajaran tak terarah umum (general unsupervised learning),[19] dan aplikasi alur kerja CaseOLAP[15] untuk menentukan hubungan antara nama protein dan topik penyakit kardiovaskular dalam literatur.[20] CaseOLAP mendefinisikan hubungan frasa-kategori dengan cara yang akurat (mengidentifikasi hubungan), konsisten (sangat dapat direproduksi), dan efisien. Platform ini menawarkan aksesibilitas yang lebih baik dan memberdayakan komunitas biomedis dengan alat penambangan frasa untuk aplikasi penelitian biomedis yang luas.[20]
Remove ads
Penggunaan istilah “tidak terstruktur” dalam peraturan privasi data
Ringkasan
Perspektif
Di Swedia (Uni Eropa), sebelum tahun 2018, beberapa peraturan privasi data tidak berlaku jika data yang dimaksud dikonfirmasi sebagai "tidak terstruktur".[21] Terminologi ini, data tidak terstruktur, jarang digunakan di Uni Eropa setelah GDPR mulai berlaku pada tahun 2018. GDPR tidak menyebutkan atau mendefinisikan "data tidak terstruktur". Ia menggunakan kata "terstruktur" sebagai berikut (tanpa mendefinisikannya);
- Bagian dari Pertimbangan GDPR 15, "Perlindungan terhadap orang perseorangan harus berlaku untuk pemrosesan data pribadi ... jika ... terdapat dalam sistem pengarsipan."
- Pasal 4 GDPR, "'sistem pengarsipan' berarti setiap rangkaian data pribadi terstruktur yang dapat diakses menurut kriteria tertentu ..."
Yurisprudensi GDPR tentang definisi "sistem pengarsipan"; "kriteria khusus dan bentuk khusus yang digunakan untuk menyusun kumpulan data pribadi yang dikumpulkan oleh masing-masing anggota yang terlibat dalam pengkhotbah tidaklah relevan, selama kumpulan data tersebut memungkinkan data yang berkaitan dengan orang tertentu yang telah dihubungi untuk diambil dengan mudah, yang mana merupakan tugas pengadilan yang merujuk untuk memastikannya berdasarkan semua keadaan kasus dalam proses utama." ” ( CJEU, Todistajat v. Tietosuojavaltuutettu, Jehovan, Paragraf 61 ).
Jika data pribadi mudah diambil - maka itu adalah sistem pengarsipan dan - maka itu termasuk dalam cakupan GDPR terlepas dari apakah itu "terstruktur" atau "tidak terstruktur". Sebagian besar sistem elektronik saat ini, tergantung pada akses dan perangkat lunak yang diterapkan, dapat memungkinkan pengambilan data dengan mudah.
Remove ads
Lihat juga
Catatan
- ^ Today's Challenge in Government: What to do with Unstructured Information and Why Doing Nothing Isn't An Option, Noel Yuhanna, Principal Analyst, Forrester Research, Nov 2010
Referensi
Pranala luar
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads