Hĺbková analýza dát

From Wikipedia, the free encyclopedia

Remove ads

Hĺbková analýza dát[1] (iné názvy: hĺbková analýza údajov[2], vyťažovanie údajov/dát[3][4], dolovanie údajov/dát[5][6], dolovanie v údajoch/dátach[7], data mining; angl. data mining) je proces analýzy dát z rôznych perspektív a ich sumarizácia na užitočné informácie. Spravidla ide o extrahovanie užitočných informácií z veľkých databáz, hľadanie korelácií alebo vzorov spomedzi tisícok polí v relačných databázach.

Využíva metódy štatistiky, matematiky (matematické modelovanie = klasifikačné pravidlá alebo stromy, regresia, zhluková analýza), umelej inteligencie (neuronové siete, rozpoznávanie, samoučiace sa algoritmy), nástroje OLAP (on-line analytické spracovanie)[8] a strojového učenia.

Remove ads

Typy modelov

  • Predikčné modely – cieľom je na základe historických dát predpovedať budúcnosť
  • Segmentačné modely – cieľom je roztriediť množstvo dát na zvládnuteľný počet homogénnych skupín

Aplikácia v praxi

  • Propensity to buy - cross-sell (predaj ďalších produktov existujúcim zákazníkom) a up-sell (zvýšenie spotreby daného produktu, doplnky)
  • Credit risk - modelovanie pravdepodobnosti nesplácania úveru
  • Fraud - identifikácia podvodov
  • Churn - identifikácia zákazníkov náchylných na prechod ku konkurencii
  • Segmentácia - zoskupovanie do homogénnych skupín
  • Market basket analysis - analýza nákupného koša
  • Diagnostické modely
  • Modely analýzy časových radov
  • Text mining
Remove ads

Delenie

Metodológie

  • CRISP DM (SPSS)
  • SEMMA (SAS)
  • Virtuos cycle of data mining (Berry & Linoff)

Typické oblasti využitia

Algoritmy

  • Lineárna regresia
  • Logistická regresia
  • Diskriminačná analýza
  • Faktorová analýza
  • Zhluková analýza
  • Neurónové siete
  • Support vector machines
  • Rozhodovacie stromy
  • Naivný Bayesov klasifikátor
  • Bayesove siete
  • Algoritmus k najbližších susedov (KNN)
  • Kohonenove mapy
  • Asociačné pravidlá
  • Analýza sekvencií
  • Analýza časových radov

Softvér

  • DOCKitIN
  • SAS
  • SPSS Clementine, SPSS
  • Statistica
  • SQL Server
  • Oracle Data miner
  • IBM DB2 Intelligent Miner
  • R (slobodný softvér)
  • Weka (slobodný softvér)
  • RapidMiner, pred 2007-05-27 pod menom YALE (slobodný softvér)
  • MATLAB
Remove ads

Referencie

Iné projekty

Externé odkazy

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads