Adatbányászat
From Wikipedia, the free encyclopedia
Az adatbányászat a nagy mennyiségű adatokban rejlő információk félautomatikus feltárása különféle algoritmusok alkalmazásával. Több definíciója is ismert és elfogadott. Magyarországon leggyakrabban adatbányászat alatt újszerű, érvényes, nem triviális, vélhetően hasznos és magyarázható összefüggések keresését értik nagy adathalmazban.[1]
|
Ez a szócikk vagy szakasz lektorálásra, tartalmi javításokra szorul. (2005 májusából) |
Ezt a szócikket át kellene olvasni, ellenőrizni a szöveg helyesírását és nyelvhelyességét, a tulajdonnevek átírását. Esetleges további megjegyzések a vitalapon. |
Az újszerűség azt foglalja magában, hogy jelenleg a területi szakértők által még nem ismert összefüggések feltárására törekszünk, meglévő tudás kinyerése, bizonyítása ugyan lehet mellékhatás, de sosem cél. Érvényesnek kell lennie a felmérésnek, azaz vizsgálni kell azt a kérdést is, hogy a kinyert összefüggés a valósággal összhangban van-e, más jelenségek is alátámasztják az összefüggést, nem csak az adatok valamilyen sajátos rendezése folytán jutottunk-e az adott következtetésre. Végezetül magyarázhatónak kell lenni az összefüggésnek, azaz fel kell tárni azt, hogy miért és hogyan jutottunk egy következtetésre.
Az adatbányászat egy olyan tudományos szakterület, amely a valós életben jól megfigyelhető (értsd egzakt, zárt alakban, egyértelműen leírható) jelenségek és a jól mérhető, numerikus adatok és adathalmazok közötti összefüggéseket keresi és elemzi. Fontos kiemelni, hogy az adatbányászat e megfogalmazásban (az összefüggések keresésével) eleve kizárja a statisztikai jellemzést, hiszen az lényegében csak egy állapot leírására szolgál. Statisztikai jellemzések sokaságát, illetve az abból levonható általánosabb következtetések sokaságát ugyanakkor nem zárja ki (nagyon helyesen). A megfigyelhetőség kritériuma a definícióban azért fontos, mert egyértelműen el kell tudnunk dönteni, illetve ellenőrizni kell tudnunk, hogy a következtetés adott esetben helytálló-e. Szubjektív vagy nem egyértelműen eldönthető, esetleg vitatható dolgokat az adatbányászati módszerek legfeljebb közelítéssel tudnak megoldani, de a közelítés pontossága, jósága sosem tárható fel; azaz használhatatlan eredményeket kapnánk. A megfogalmazás másik erőssége, hogy ebbe az adatbányászat számos ága belefér, így pl. szövegbányászat és a génkutatás is. Szűk értelemben azonban adatbányászat alatt a strukturált, adatbázisokban tárolható adatokon értelmezett összefüggés-kereső tevékenységeket értjük.
Az adatbányászat egyes elemeit több szempont alapján szokás osztályozni. Adattípusok alapján beszélhetünk:
- Strukturált adatok esetében
- strukturált adatbányászatról
- folyamjellegű (strukturált) adatbányászatáról (web kattintások, idősorok, gének, gráfok és hang – ami egy speciális idősor – tartozik jellemzően ide)
- Nem strukturált adatok esetében
- szövegbányászatról
- képanalízisről (kép alapú adatbányászatról)
- videó analitikáról (videó alapú adatbányászatról)
Éppennyire gyakori azonban a cél szerinti osztályozás is, amely értelemszerűen valamely adattípushoz inkább kötődik, de a sajátos feladat határozza meg az alkalmazható eljárások körét. Ilyen például – a teljesség igénye nélkül:
- (web-, kép-, videó-, név- stb.) keresés
- webbányászat
- ajánló rendszerek
- érzelemdetekció (szentiment elemzés)
- génkutatás
- gépi látás
- biometrikus azonosítás (aláírás, arcfelismerés, hangfelismerés, mozgásfelismerés stb.)