Istraživanje podataka

From Wikipedia, the free encyclopedia

Remove ads
Remove ads

Istraživanje podataka (engl. Data Mining, koriste se i termini traženje podataka, prekopavanje podataka, rudarenje podataka, dejta majning) je proces otkrivanja šablona u velikim skupovima podataka, korišćenjem metoda mašinskog učenja, statistike i sistema baza podataka.[1] Istraživanje podataka predstavlja interdisciplinarnu podoblast informatike i statistike, čiji je opšti cilj izvlačenje informacija (korišćenjem inteligentnih metoda) iz skupova podataka i transformacija tih informacija u razumljivu strukturu radi dalje upotrebe.[1][2][3][4] Predstavlja korak analize u procesu "otkrivanja znanja u bazama podataka" (engl. knowledge discovery in databases, KDD).[5] Pored samog koraka analize, takođe uključuje i aspekte upravljanja podacima i bazama podataka, pretprocesiranja podataka, razmatranja statističkih modela i zaključaka, metrika zanimljivosti, razmatranja složenosti, postprocesiranja otkrivenih struktura, vizuelizacije i onlajn ažuriranja.[1] Razlika između analize i istraživanja podataka leži u tome što se analiza podataka koristi da bi se statistički modeli i hipoteze testirali na skupu podataka, npr. prilikom analize efikasnosti marketinške kampanje, nevezano od količine podataka. Za razliku od toga, istraživanje podataka koristi mašinsko učenje i statističke modele da otkrije tajne ili skrivene šablone u velikim količinama podataka.[6]

Termin "istraživanje podataka" je zapravo pogrešan, jer je cilj istraživanja izvlačenje šablona i znanja iz velikih količina podataka, a ne izvlačenje (rudarenje) samih podataka.[7] Takođe predstavlja žargonsku frazu[8] koja se često pripisuje bilo kom vidu obimne obrade podataka ili informacija (prikupljanju, izvlačenju, skladištenju, analizi i statistici) kao i bilo kojoj primeni računarskih sistema za podršku odlučivanju, uključujući i veštačku inteligenciju (npr. mašinsko učenje) i poslovnu inteligenciju. Knjiga Data mining: Practical machine learning tools and techniques with Java[9] (koja većinski pokriva teme mašinskog učenja) je prvenstveno trebalo da bude nazvana Practical machine learning, dok je termin istraživanje podataka (engl. data mining) dodat isključivo iz marketinških razloga.[10] Često su prikladniji opštiji termini (velikih razmera) kao što su analiza podataka i analitika ili, ukoliko se priča o stvarnim metodama, veštačka inteligencija i mašinsko učenje.

Stvaran zadatak istraživanja podataka jeste poluautomatska ili automatska analiza velike količine podataka kako bi se izvukli prethodno nepoznati, zanimljivi šabloni kao što su grupe zapisa podataka (analiza klastera), neobični zapisi (otkrivanje nepravilnosti) i zavisnosti (istraživanje pravilom asocijacije, istraživanje sekvencijalnih šablona). To obično uključuje korišćenje tehnika baza podataka kao što su prostorni indeksi. Ovi šabloni se onda mogu posmatrati kao vrsta kratkog pregleda ulaznih podataka i mogu se koristiti za dalju analizu ili, na primer, za mašinsko učenje i prediktivnu analitiku. Korak istraživanja podataka može, na primer, otkriti više grupa među podacima, koje se onda mogu koristiti kako bi se dobile preciznije prognoze rezultata korišćenjem sistema za podršku odlučivanju. Prikupljanje i priprema podataka, kao i tumačenje rezultata i izveštavanje, nisu deo koraka istraživanja podataka, ali kao dodatni koraci pripadaju KDD procesu.

Povezani pojmovi kopanje podataka, pecanje za podacima i njuškanje za podacima odnose se na primenu metoda istraživanja podataka da bi se uzorkovali delovi veće populacije skupova podataka koji su (ili bi mogli biti) premali da se na osnovu njih dođe do pouzdanih statističkih zaključaka o opravdanosti otkrivenih šablona. Ove metode se, ipak, mogu koristiti prilikom stvaranja novih hipoteza koje bi se koristile za testiranje na većim populacijama podataka.

Remove ads

Etimologija

Tokom 1960-ih, statističari i ekonomisti su koristili izraze poput pecanje podataka ili kopanje podataka koji su se odnosili na ono što su oni smatrali lošom praksom analiziranja podataka bez apriori hipoteze. Ekonomista Majkl Lovl (engl. Michael Lovell) izraz "istraživanje podataka" koristi na slično ključan način u članku objavljenom u Pregledu ekonomskih nauka (engl. Review of Economic Studies) 1983. Lovl ukazuje da se istraživanje podataka "skriva pod više različitih alijasa od "eksperimentisanje" (pozitivno) do "pecanje" ili pak "njuškanje"(negativno)."[11]

Izraz istraživanje podataka se pojavio oko 1990. u zajednici koja se bavila bazama podataka koje rade sa bazama podataka, uglavnom sa pozitivnom konotacijom. Kratkoročno tokom 1980-ih se koristio izraz "istraživanje baza podataka"™, ali nakon što ga je HNC, kompanija iz San Dijega, zaštitila kako bi predstavila Database Mining Workstation;[12] istraživači su se stoga okrenuli izrazu istraživanje podataka. Drugi korišćeni izrazi uključuju arheologija podataka, skupljanje informacija, otkrivanje informacija, izvlačenje znanja, itd. Gregori Pjatecki Šapiro (engl. Gregory Piatetsky-Shapiro) je osmislio izraz "otkrivanje znanja u bazama podataka" za prvu radionicu (KDD-1989) na istu temu i ovaj izraz je postao popularniji u zajednici veštačke inteligencije i mašinskog učenja. Međutim, izraz istraživanje podataka je postao popularniji u novinarskim i poslovnim zajednicama.[13] Trenutno, izrazi istraživanje podataka i otkrivanje znanja mogu da se koriste razmenljivo.

U akademskoj zajednici, glavni forumi za istraživanje su započeti 1995. kada je Prva internacionalna konferencija o istraživanju podataka i otkrivanju znanja (KDD-95) osnovana u Montrealu pod pokrićem AAAI. Koorganizatori su bili Usama Fajad i Ramsami Uturusami. Godinu dana kasnije, 1996. Usama Fajad je osnovao Kluverov časopis koji se zvao Istraživanje Podataka i Otkrivanje Znanja (engl. Data Mining and Knowledge Discovery) kao glavni urednik. Kasnije je pokrenuo SIGKDD pretplatu na časopis SIGKDD istraživanja (engl. SIGKDD Explorations) .[14] KDD Internacionalna konferencija je postala primarno najkvalitetnija konferencija u oblasti istraživanja podataka sa stopom prihvatanja predloga naučnih radova ispod 18%. Časopis Istraživanje podataka i otkrivanje znanja (engl. Data Mining and Knowledge Discovery) je primarni istraživački časopis u ovoj oblasti.

Remove ads

Istorija

Vekovima su se šabloni ručno izvlačili iz podataka. Rane metode prepoznavanja šablona u podacima uključuju Bajesovu teoremu (1700-te god.) i regresionu analizu (1800-te god.). Širenje, sveprisutnost i rastuća moć kompjuterske tehnologije je dramatično povećala prikupljanje podataka, skladišni prostor i mogućnost manipulacije njima. Pošto su skupovi podataka postali veći i kompleksniji, direktni analiza podataka je poboljšavana indirektnom, automatskom obradom podataka, uz pomoć drugih otkrića u informatici poput neuronske mreže, analize klastera, genetskih algoritama, (1950-te god.) stabla odlučivanja i pravila odlučivanja (1960.) i metode potpornih vektora (1990-te god.). Istraživanje podataka je proces primenjivanja ovih metoda sa namerom otkrivanja skrivenih šablona[15] u velikim skupovima podataka. Prevazilazi jaz između primenjene statistike i veštačke inteligencije (koja uglavnom pruža matematičku potporu) u upravljanju bazama podataka korišćenjem načina na koji se podaci skladište i indeksiraju u bazama podataka kako bi se algoritmi za učenje i otkrivanje izveli efikasnije, omogućavajući takvim metodama da budu primenjene na sve većim skupovima podataka.

Remove ads

Proces

Proces otkrivanja znanja u bazama podataka je obično definisan sledećim koracima:

  1. Selekcija
  2. Pretprocesiranje
  3. Transformacija
  4. Istraživanje podataka
  5. Interpretacija/procena[5]

Međutim, postoji mnogo varijacija ovog modela, kao što je Među-industrijski standardni proces za istraživanje podataka (engl. CRISP DM - Cross-industry standard process for data mining), koji definiše šest faza:

  1. Razumevanje poslovanja
  2. Razumevanje podataka
  3. Priprema podataka
  4. Modelovanje
  5. Procena
  6. Razvoj

ili pojednostavljen proces kao što je (1) pretprocesiranje, (2) istraživanje podataka i (3) potvrđivanje rezultata.

Ankete sprovedene u 2002, 2004, 2007. I 2014. godini, pokazuju da je CRISP-DM metodologija najkorišćenija među rudarima podataka.[16] SEMMA je bio jedini drugi standard istraživanja podataka u ovim anketama. Međutim, 3 do 4 puta više ljudi je reklo da koristi CRISP-DM metodologiju. Nekoliko timova istraživača je objavilo preglede modela procesa istraživanje podataka,[17][18] a Azvedo i Santos su sproveli poređenje CRISP-DM i SEMMA modela 2008. godine.[19]

Pretprocesiranje

Pre korišćenja algoritama za istraživanje podataka, mora se sastaviti ciljani skup podataka. Kako istraživanje podataka može da otkrije jedino šablone koji zapravo postoje u podacima, ciljani skup podataka mora da bude dovoljno veliki da sadrži te šablone, ali i da bude dovoljno mali da bi mogao da se istražuje u prihvatljivim vremenskim granicama. Čest izvor podataka jesu tržište podataka i skladište podataka. Pretprocesiranje je neophodno za analizu multivarijabilnih skupova podataka pre istraživanja podataka. Ciljani skup podataka se zatim sređuje. Sređivanje podataka uklanja sva posmatranja koja sadrže šum ili kojima nedostaju vrednosti.

Istraživanje podataka

Istraživanje podataka se sastoji iz šest čestih tipova zadataka:[5]

  • Otkrivanje nepravilnosti(atipičnih podataka/promena/odstupanja) - otkrivanje neobičnih zapisa podataka koji mogu biti zanimljivi ili grešaka u podacima koje zahtevaju dalje istraživanje.
  • Učenje pravilom asocijacije(modelovanje zavisnosti) - traganje za vezama između promenljivih. Na primer, supermarket može da skuplja podatke o kupovnim navikama kupaca. Korišćenjem učenja pravilom asocijacije, supermarket može da odredi koji proizvodi se često kupuju zajedno, a zatim da iskoristi tu informaciju za potrebe marketinga. Ovo se ponekad naziva analiza potrošačke korpe.
  • Klasterovanje - zadatak otkrivanja grupa i struktura u podacima koji su na neki način slični, bez korišćenja već poznatih struktura u podacima.
  • Klasifikacija - zadatak generalizacije poznatih struktura koje je potrebno primeniti nad novim podacima. Na primer, imejl program može da klasifikuje imejlove kao „legitimni」 ili kao „spem」.
  • Regresija - pokušava da pronađe funkciju koja oblikuje podatke sa najmanjom greškom, tj. Za procenu veza između podataka ili skupova podataka.
  • Sažimanje - pruža kompaktniji uvid u skup podataka, uključujući vizualizacije i generisanje izveštaja.

Potvrđivanje rezultata

Thumb
Primer podataka proizvedenih kopanjem podataka preko bota kojim je upravljao statističar Tajler Vigen, koji pokazuju usku vezu između reči koje su donele pobedu na „speling」 (eng. spelling bee) takmičenju i broja ljudi koji su umrli od ujeda otrovnih pauka u Sjedinjenim Američkim Državama. Sličnost u trendovima je očigledno slučajnost.

Istraživanje podataka se može nesvesno loše iskoristiti, što zatim dovodi do rezultata koji na prvi pogled deluju bitno; ali zapravo ne predviđaju buduće ponašanje niti mogu biti reprodukovani na novim uzorcima podataka, te nemaju nikakve koristi. Ovakvi rezultati su česti nakon istraživanja previše hipoteza i nakon lošeg statističkog testiranja hipoteza. Jednostavan oblik ovog problema u mašinskom učenju se zove preprilagođavanje modela. Kako se taj problem može pojaviti u različitim fazama procesa, to dovodi do toga da razdvajanje na trening i test skupove - kada je to uopšte moguće - nije dovoljno da spreči pojavu ovog problema.[20]


Poslednji korak u otkrivanju znanja iz podataka je potvrđivanje da šabloni koje su proizveli algoritmi istraživanja podataka, postoje u celom skupu podataka. Nisu svi šabloni koje su ti algoritmi pronašli nužno tačni. Često se dešava da algoritmi istraživanja podataka pronađu šablone u trening skupu koji ne postoje u celokupnom skupu podataka. Ovo se zove pretreniranje modela. Kako bi se ovaj problem prevazišao, u proceni se koristi test skup podataka na kojima algoritmi istraživanja nisu trenirani. Naučeni šabloni se primenjuju na tom test skupu, a krajnji rezultat se poredi sa traženim rezultatom.

Na primer, algoritam istraživanja podataka koji pokušava da razdvoji „spem」 i „legitimne」 imejlove, bio bi treniran na trening skupu imejl uzoraka. Po završetku treniranja, naučeni šabloni se primenjuju na test skupu imejlova na kom algoritam nije bio treniran. Preciznost šablona se zatim meri po tome koliko imejlova je tačno klasifikovano. Postoji veliki broj statističkih metoda za procenu algoritma, kao što su na primer ROC krive(engl. Receiver operating characteristic) .

Ili na primeru regresije, algoritam istraživanja bi bio takođe treniran na trening skupu, ali bi predviđao na primer temperaturu sledećeg dana. Zatim bi se taj naučeni šablon primenio na test skupu. Primer statističke metode za procenu regresionih modela je koren srednje kvadratne greške (eng. Root Mean Squared Error, RMSE).

Ako naučeni šabloni ne dostižu željene standarde, neophodno je da naknadno preispitamo i izmenimo korake pretprocesiranja i istraživanja podataka. Ako naučeni šabloni dostižu željene standarde, onda je poslednji korak da se protumače ti šabloni, a zatim i pretvore u znanje.

Remove ads

Istraživanje

Glavno telo u struci je Specijalna Interesna grupa (SIG) Udruženja za računarske mašine (engl. Association for Computing Machinery, ACM) za otkrivanje znanja i rudarenje podataka (SIGKDD)」.[21] [22]Od 1989. godine, ACM SIG domaćin je godišnje internacionalne konferencije i objavljuje svoj zapisnik[23], a od 1999. godine objavljuje svoj dvogodišnji akademski žurnal čije je ime SIGKDD Explorations.[24]

Konferencije za rudarenje podataka u informatici sadrže:

  • CIKM konferencija - ACM konferencija o upravljanju informacijama i podacima
  • Evropska konferencija o mašinskom učenju i principima i praksama otkrivanja znanja u bazama podataka
  • KDD konferencija - ACM SIGKDD konferencija o otkrivanju znanja i istraživanju podataka

Teme o istraživanju podataka su takođe prisutne na mnogim konferencijama o upravljanju podataka/bazama podataka kao što su ICDE konferencija, SIGMOD konferencija i Internacionalna konferencija o veoma velikim bazama podataka.

Remove ads

Standardi

Postojali su napori da se definišu standardi za proces istraživanja podataka, na primer evropski međuindustrijski standardni proces za istraživanje podataka (CRISP-DM 1.0) iz 1999. godine i standard za istraživanje podataka u Javi (JDM 1.0) iz 2004. godine. Razvoj naslednika ovim procesima (CRISP-DM 2.0 i JDM 2.0) bio je aktivan u 2006. ali je od tada zaustavljen. JDM 2.0 je povučen pre dostizanja krajnje verzije.

Za razmenu izvučenih modela - posebno za korišćenje u prediktivnoj analitici - ključni standard je PMML (eng. Predictive Model Markup Language), koji je jezik baziran na XML-u, razvijan od strane Grupe za istraživanje podataka (eng. Data Mining Group, DMG) i podržan kao format razmene od mnogih aplikacija za istraživanje podataka. Kao što ime kaže, pokriva samo prediktivne modele, poseban zadatak velike važnosti za poslovne aplikacije. Međutim, nastavci za podržavanje(na primer) klasterovanja potprostora bili su predloženi nezavisno od DMG.[25]

Remove ads

Značajne namene

Istraživanje podataka se koristi kad god ima dostupnih digitalnih podataka. Značajni primeri istraživanja podataka mogu se naći u poslovanju, medicini, nauci i nadzoru.

Pitanje privatnosti i etike

Dok termin "istraživanje podataka" nema etičkih implikacija, često se povezuje sa istraživanjem informacija povezanih sa ljudskim ponašanjem (etičkim ili ne).[26]

Način na koji se istraživanje podataka koristi može u određenom kontekstu ili slučajevima dovesti u pitanje privatnost, zakonitost i etiku.[27] Naročito, vlada za istraživanje podataka ili komercijalni skupovi podataka za potrebe nacionalne bezbednosti ili sprovođenja zakona, kao što je u Programu svesne informisanosti (engl. Total Information Awareness Program) ili u ADVISE-u, pokrenuli su pitanje o privatnosti.[28][29]

Istraživanje podataka zahteva njihovo pripremanje koje može otkriti informacije ili šablone koji mogu ugroziti obaveze poverljivosti i privatnosti. Uobičajen način da se to dogodi je agregacija podataka. Ona obuhvata kombinovanje podataka (eventualno sa različitih izvora) na način koji olakšava analizu (ali to takođe može učiniti identifikaciju privatnih ili podataka na individualnom nivou deduktivnim ili na drugi način vidljivim).[30]Ovo nije istraživanje podataka per se, već rezultat prethodnog pripremanja podataka - za potrebe - analize. Pretnja privatnosti pojedinca stupa na snagu kada podaci, kada se jednom kompajliraju, uzrokuju da rudar podataka, ili bilo ko ko ima pristup novosastavljenom skupu podataka, bude u mogućnosti da identifikuje određene pojedince, posebno kada su podaci bili izvorno anonimni.[31][32][33]

Preporučuje se da se pojedinac upozna sa sledećim pre prikupljanja podataka:[30]

  •  svrha prikupljanja podataka i svih (poznatih) projekata istraživanja podataka;
  • kako će podaci biti iskorišćeni;
  •  ko će moći da rudari podatke i koristi njih i njihove derivate;
  •  stanje bezbednosti koje obuhvata pristup podacima;
  •  kako se prikupljeni podaci mogu ažurirati.

Podaci se takođe mogu modifikovati tako da postanu anonimni, tako da se pojedinci ne mogu lako identifikovati.[30] Međutim, čak i "deidentifikovani"/"anonimizovani" skupovi podataka mogu potencijalno da sadrže dovoljno informacija koje omogućuju identifikaciju pojedinaca, kao što se dogodilo kada su novinari uspeli da pronađu nekoliko osoba na osnovu skupa istorije pretraživanja koje je nehotice objavio AOL.[34]

Nehotično otkrivanje ličnih informacija, koje vode do provajdera, krši Praksu poštene informacije. Ova nesmotrenost može prouzrokovati finansijske, emocionalne ili telesne povrede pojedincima. U jednom slučaju kršenja privatnosti, pokrovitelji Valgrinsa podneli su tužbu protiv kompanije 2011. godine zbog prodaje informacija o receptu kompanijama za istraživanje podataka, koje su zatim dostavljale te podatke farmaceutskim kompanijama.[35]

Situacija u Evropi

Evropa ima prilično jake zakone o privatnosti i u toku su napori za dalje jačanje prava potrošača. Međutim, Američko-Evropski "Principi sigurne luke" (engl. U.S.-E.U. Safe Harbor Principles) trenutno efektivno dozvoljavaju američkim kompanijama iskorišćavanje privatnosti evropskih korisnika. Kao posledica Razotkrivanja globalnog nadzora (engl. global surveillance disclosures) Edvarda Snuodena, došlo je do pojačane rasprave o opozivu ovog sporazuma, naročito zbog potpune izloženosti podataka Nacionalnoj sigurnosnoj agenciji, a pokušaji da se postigne sporazum su propali.[тражи се извор]

Situacija u Sjedinjenim Državama

U Sjedinjenim Američkim Državama, Kongres SAD se bavio pitanjima privatnosti usvajanjem regulatornih kontrola kao što je Zakon o prenosivosti i odgovornosti za zdravstveno osiguranje (engl. Health Insurance Portability and Accountability Act, HIPAA). HIPAA zahteva od pojedinaca da daju svoj "informisani pristanak" u vezi informacija koje pružaju i nameravanim sadašnjim i budućim upotrebama. Prema članku objavljenom u Biotech Business Week-u, " U praksi, HIPAA možda neće ponuditi veću zaštitu od dugogodišnjih propisa u oblasti istraživanja, " kaže AAHC. "Važnije, cilj pravila zaštite putem informisanog pristanka približava se nivou nerazumljivosti za prosečne pojedince.」 [36] Ovo naglašava potrebu za anonimnošću podataka u agregaciji podataka i rudarskim praksama.

Zakonodavstvo SAD-a o privatnosti informacija kao što je HIPAA i Zakon o porodičnim obrazovnim pravima i privatnosti (engl. Family Educational Rights and Privacy Act, FERPA), odnosi se samo na specifične oblasti na koje se odnosi svaki takav zakon. Korišćenje istraživanja podataka od strane većine preduzeća u SAD ne kontroliše nijedno zakonodavstvo.

Remove ads

Zakon o autorskim pravima

Situacija u Evropi

Zbog nedostatka fleksibilnosti u evropskom zakonu o autorskim pravima i bazama podataka, istraživanje radova sa autorskim pravima kao što je istraživanje internet sadržaja bez dozvole vlasnika autorskih prava nije legalno. Dok je u Evropi baza podataka koja je skup čistih podataka verovatno bez autorskih prava, ali prava baze podatka možda postoje, što znači da istraživanje podatka postaje predmet propisa Direktive baza podataka. Na predlog Hargrivsovog pregleda (engl. eng. Hargreaves review), ovo je uzrokovalo da vlada Ujedinjenog kraljevstva izmeni svoj zakon o autorskim pravima 2014. godine[37] da bi dozvolila istraživanje sadržaja kao ograničenje i izuzetak. Tek sledeća zemlja na svetu posle Japana, koja je uvela izuzetak 2009. godine za istraživanje podataka. Međutim, zbog restrikcija Direktive autorskih prava, izuzetak Ujedinjenog kraljevstva dozvoljava samo istraživanje za nekomercijalne svrhe. Zakon autorskih prava Ujedinjenog kraljevstva takođe ne dozvoljava promenu ove mere ugovornim uslovima. Evropska komisija olakšala je diskusiju zainteresovanim stranama o istraživanju teksta i podataka 2013. godine pod nazivom 「Licence za Evropu」 (eng. Licences for Europe).[38] Fokus na rešenje ovog pravnog pitanja koje su licence, a ne ograničenja i izuzeci dovelo je predstavnike univerziteta, istraživača, biblioteka, grupa civilnog društva i izdavače otvorenog pristupa da napuste dijalog zainteresovanih strana u maju 2013. godine.[39]

Situacija u Sjedinjenim državama

U kontrast Evropi, fleksibilna priroda američkog zakona o autorskim pravima, a posebno poštene upotrebe znači da istraživanje sadržaja u Americi, kao i ostalim državama sa sličnim zakonom kao što su Izrael, Tajvan, Južna Koreja smatra se legalnim. Pošto je istraživanje sadržaja transformativno, što znači da ne zamenjuje originalno delo, smatra se da je zakonito pod poštenom upotrebom. Na primer, kao deo u nagodbi Gugl knjiga, predsedavajući sudija na slučaju presudio je da je Guglov projekat digitalizacije knjiga sa autorskim pravima zakonit, delom zbog transformativnog korišćenja koji je projekat prikazivao - jedan od kojih je istraživanje teksta i podatka.[40]

Remove ads

Softver

Besplatni softver otvorenog koda i aplikacije za istraživanje podataka

Sledeće aplikacije su dostupne uz besplatne ili licence otvorenog koda. Takođe je dozvoljen javni pristup izvršnom kodu aplikacija.

  • Carrot2 : okvir za klasterovanje teksta i rezultata pretrage.
  • Chemicalize.org: "rudar" hemijskih struktura i veb pretraživač
  • ELKI: Univerzitetski istraživački projekat za naprednu analizu klastera i sa metodama otkrivanja autlajera, napisan u Java programskom jeziku.
  • GATE: alat za obradu prirodnih jezika (engl. Natural language processing, NLP) i inženjering jezika.
  • KNIME: rudar Konstanc informacija (engl. 「The Konstanz Information Miner」), lak za korišćenje i razumljiv okvir za detaljnu analizu podataka.
  • Masivna onlajn analiza (engl. Massive Online Analysis, MOA): Proces istraživanja velikog skupa podataka u realnom vremenu sa alatima za neočekivane promene, napisan u Java programskom jeziku.
  • MEPX: višeplatformni alat za probleme regresije i klasifikacije zasnovan na varijanti genetskog programiranja.
  • ML-Flex: softverski paket koji omogućava korisnicima da integrišu pakete mašinskog učenja drugih korisnika napisanih u bilo kom jeziku, da izvrše analize klasifikacije paralelno preko više čvorova, i da naprave HTML izveštaje rezultata klasifikacije.
  • mlpack: kolekcija spremnih algoritama mašinskog učenja, napisana u C++ programskom jeziku.
  • NLTK (eng. Natural Language Toolkit): paket biblioteka i programa za simboličnu i statističku obradu prirodnih jezika za Python programski jezik.
  • OpenNN: otvorena biblioteka za neuronske mreže.
  • Orange: softverski paket za istraživanje podataka i mašinsko učenje na osnovu komponenti, napisan u Python programskom jeziku.
  • R: programski jezik i softversko okruženje za statističko računarstvo, istraživanje podataka i grafiku. On je deo GNU projekta.
  • scikit-learn: biblioteka za mašinsko učenje otvorenog koda za Python programski jezik.
  • Torch: biblioteka za duboko učenje otvorenog koda za Lua programski jezik i okvir za naučno računarstvo sa širokim rasponom podrške algoritama mašinskog učenja.
  • UIMA (eng. Unstructured Information Management Architecture): komponentni okvir za analizu nestrukturiranog sadržaja kao što su tekst, audio i video sadržaj - razvijen od strane IBM-a.
  • Veka (eng. Weka): paket softverskih aplikacija za mašinsko učenje napisan u Java programskom jeziku.

Vlasnički softveri i aplikacije za istraživanje podataka

Sledeće aplikacije su dostupne uz vlasničke licence:

  • Angoss KnowledgeSTUDIO: alat za istraživanje podataka.
  • Klarabridž (eng. Clarabridge): proizvod za analizu teksta.
  • KXEN Modeler: alat za istraživanje podataka proizveden od strane KXEN Inc..
  • LIONsolver: integrisana softverska aplikacija za istraživanje podataka, poslovnu inteligenciju, i modelovanje koje implementira LION (eng. Learning and Intelligent OptimizatioN) pristup.
  • Megaputer Intelligence: softver za istraživanje podataka i teksta se zove PolyAnalyst.
  • Majkrosoftove usluge analize (eng. Microsoft Analysis Services): softver za istraživanje podataka proizveden od strane Majkrosofta.
  • NetOwl: paket proizvoda za analitiku višejezičkog teksta i entiteta, koji omogućavaju istraživanje podataka.
  • OpenText Big Data Analytics: vizuelno istraživanje podataka i prediktivna analitika od Open Text korporacije.
  • Oracle Data Mining: softver za istraživanje podataka od Orakl korporacije.
  • PSeven: platforma za automatizaciju inženjeringa simulacija i analiza, višedisciplinarne optimizacije i istraživanja podataka od DATADVANCE-a.
  • Qlucore Omics Explorer: softver za istraživanje podataka.
  • RapidMiner: okruženje za eksperimente mašinskog učenja i istraživanja podataka.
  • SAS Enterprise Miner: softver za istraživanje podataka proizveden od strane SAS instituta.
  • SPSS Modeler: softver za istraživanje podataka proizveden od strane IBM-a.
  • STATISTICA Data Miner: softver za istraživanje podataka proizveden od strane StatSoft-a.
  • Tanagra: softver za vizuelno orijentisano istraživanje podataka, ali i podučavanje.
  • Vertica: softver za istraživanje podataka od Hjulet-Pakarda.

Ankete tržišta

Nekoliko istraživača i organizacija je sprovelo pregled alata za istraživanje podataka i anketiranje rudara podataka. Oni otkrivaju neke prednosti i mane softverskih paketa. Takođe obezbeđuju pregled ponašanja, preferencija i stavova rudara podataka. Neki od tih izveštaja sadrže:

  • Hurvicov indeks pobede (engl. Hurwitz Victory Index): Izveštaj za naprednu analitiku kao alat za procenu istraživanja tržišta, ističe i raznoliku upotrebu tehnologije za naprednu analitiku i prodavce koji proizvode te aplikacije. Skorašnje istraživanje.
  • Rekserova analitika anketa rudara podataka (2007—2015)[41]
  • 2011. Vajlijevi interdisciplinarni pregledi (engl. Wiley Interdisciplinary Reviews): istraživanje podataka i otkrivanje znanja.[42]
  • Foresterov izveštaj (engl. Forrester Research) istraživanja rešenja prediktivne analitike i istraživanje podataka 2010. godine.[43]
  • Gartnerov izveštaj „Magičnog kvadranta" 2008. godine.[44]
  • Robert A. Nizbetova serija od tri članka „Alat za istraživanje podataka: Koji je najbolji za marketing orijentisan kupcima?" 2006. godine.[45]
  • Hogton et alov (engl. Haughton et al), pregled softverskih paketa za istraživanje podataka u naučnom časopisu „The American Statistician」 2003. godine.[46]
  • Gebelova i Gruenvaldova „Anketa o softverskim alatima za istraživanje podataka i otkrivanje znanja" u SIGKDD istraživanjima 1999. godine.[47]

Reference

Dodatna literatura

Takođe pogledajte

Spoljašnje veze

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads