Najlepsze pytania
Chronologia
Czat
Perspektywa
Data science
dyscyplina na styku informatyki, matematyki i wiedzy dziedzinowej, skupiona na wydobyciu wartościowej informacji ze zbioru danych Z Wikipedii, wolnej encyklopedii
Remove ads
Data science (czasem tłumaczone jako danologia lub danetyka) – interdyscyplinarne pole na styku informatyki, matematyki i wiedzy dziedzinowej. Ukierunkowane na wydobycie wartościowej informacji ze zbioru danych.
Zdefiniowanie obszaru
Podsumowanie
Perspektywa

Data science znajduje się na styku trzech obszarów: informatyki, matematyki (w szczególności statystyki) i wiedzy dziedzinowej[1][2]. Nie ma konsensusu na temat dokładnej definicji data science[1][2][3]. Definicja może się różnić w zależności od kontekstu. Data science może być rozumiane między innymi jako specjalność naukowa, pewnego rodzaju paradygmat prowadzenia badań czy też jako zawód[2].
Głównym celem prac w obszarze data science jest wydobycie wartościowej informacji ze zbioru danych[2][4][5]. Rezultatem prac może być opracowanie automatycznych narzędzi umożliwiających, na podstawie zgromadzonych danych, rozwiązywanie takich problemów, jak prognozowanie, rekomendacja, klasyfikacja, optymalizacja, przetwarzanie danych do innej postaci i grupowanie[4][6]. W przypadku traktowania data science w kategorii nauki, jej cechą wyróżniającą jest traktowanie danych jako obiektu badań samego w sobie[2].
Pokrewnym terminem jest big data oznaczające przetwarzanie i analizę dużych zbiorów danych. Data science znajduje zastosowanie jednak także dla zbiorów powszechnie uważanych jako małe. Przykładowo, te same metody wizualizacji danych (jak np. wykres rozrzutu) można stosować do zbiorów o różnych rozmiarach[7].
Spośród języków programowana w data science najczęściej używane są języki skryptowe, takie jak Python czy R[8]. Specjaliści data science zazwyczaj nie tworzą jednak kompletnego oprogramowania nadającego się do użytku przez ludzi, którzy nie zajmują się programowaniem (prace w data science nie skupiają się np. na tworzeniu interfejsu graficznego)[9]. Działanie podstawowe w data science jest nakierowane wyłącznie na dane, a pisany kod służy do ich przetwarzania, analizy i modelowania[8].
Remove ads
Przepływ pracy

Typowy przepływ pracy w zadaniach data science obejmuje następujące etapy[2]:
- Import danych – załadowanie danych do środowiska programowania z bazy (wtedy dane mają już prawdopodobnie odpowiednią strukturę) lub z innego źródła[10].
- Czyszczenie danych (tzw. preprocesing) – doprowadzenie danych do stanu umożliwiającego przejście do kolejnych etapów. Konieczne może być np. połączenie danych z różnych źródeł czy ujednolicenie sposobu zapisu[10].
- Transformacje danych – dalsze organizowanie danych z wykorzystaniem bardziej zaawansowanych metod. Etap ten może obejmować między innymi[11]:
- podział danych na podzbiory według wybranego kryterium,
- usuwanie wartości błędnych, nietypowych lub odstających,
- selekcję zmiennych,
- tworzenie nowych zmiennych na podstawie już istniejących,
- podsumowanie danych w formie statystyk opisowych.
- Analiza i modelowanie danych – próba podsumowania relacji między zmiennymi[11], często z zastosowaniem uczenia maszynowego[12].
- Interpretacja i wizualizacja danych.
Etapy transformacji, modelowania i wizualizacji często są powtarzane iteracyjnie, gdyż uzyskane wyniki mogą prowadzić do kolejnych pomysłów[13].
Remove ads
Nazewnictwo
W języku polskim data science bywa tłumaczone jako danologia[14]. Określenie to jest jednak słabo rozpoznawalne[15]. Spotykany jest także neologizm danetyka[16].
Osoby zajmujące się data science zazwyczaj nazywane są z angielskiego data scientists. Termin ten bywa odmieniany zgodnie z regułami języka polskiego (np. kilku data scientistów). Zazwyczaj nie jest on tłumaczony na język polski, choć pojawiają się czasami takie określenia, jak inżynier danych czy mistrz danych[17].
Przypisy
Bibliografia
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads