Data science

Zdefiniowanie obszaru

Podsumowanie

Perspektywa

Data science znajduje się na styku trzech obszarów: informatyki, matematyki (w szczególności statystyki) i wiedzy dziedzinowej^[1]^[2]. Nie ma konsensusu na temat dokładnej definicji data science^[1]^[2]^[3]. Definicja może się różnić w zależności od kontekstu. Data science może być rozumiane między innymi jako specjalność naukowa, pewnego rodzaju paradygmat prowadzenia badań czy też jako zawód^[2].

Głównym celem prac w obszarze data science jest wydobycie wartościowej informacji ze zbioru danych^[2]^[4]^[5]. Rezultatem prac może być opracowanie automatycznych narzędzi umożliwiających, na podstawie zgromadzonych danych, rozwiązywanie takich problemów, jak prognozowanie, rekomendacja, klasyfikacja, optymalizacja, przetwarzanie danych do innej postaci i grupowanie^[4]^[6]. W przypadku traktowania data science w kategorii nauki, jej cechą wyróżniającą jest traktowanie danych jako obiektu badań samego w sobie^[2].

Pokrewnym terminem jest big data oznaczające przetwarzanie i analizę dużych zbiorów danych. Data science znajduje zastosowanie jednak także dla zbiorów powszechnie uważanych jako małe. Przykładowo, te same metody wizualizacji danych (jak np. wykres rozrzutu) można stosować do zbiorów o różnych rozmiarach^[7].

Spośród języków programowana w data science najczęściej używane są języki skryptowe, takie jak Python czy R^[8]. Specjaliści data science zazwyczaj nie tworzą jednak kompletnego oprogramowania nadającego się do użytku przez ludzi, którzy nie zajmują się programowaniem (prace w data science nie skupiają się np. na tworzeniu interfejsu graficznego)^[9]. Działanie podstawowe w data science jest nakierowane wyłącznie na dane, a pisany kod służy do ich przetwarzania, analizy i modelowania^[8].

Remove ads

Przepływ pracy

Typowy przepływ pracy w zadaniach data science obejmuje następujące etapy^[2]:

Import danych – załadowanie danych do środowiska programowania z bazy (wtedy dane mają już prawdopodobnie odpowiednią strukturę) lub z innego źródła^[10].
Czyszczenie danych (tzw. preprocesing) – doprowadzenie danych do stanu umożliwiającego przejście do kolejnych etapów. Konieczne może być np. połączenie danych z różnych źródeł czy ujednolicenie sposobu zapisu^[10].
Transformacje danych – dalsze organizowanie danych z wykorzystaniem bardziej zaawansowanych metod. Etap ten może obejmować między innymi^[11]:
- podział danych na podzbiory według wybranego kryterium,
- usuwanie wartości błędnych, nietypowych lub odstających,
- selekcję zmiennych,
- tworzenie nowych zmiennych na podstawie już istniejących,
- podsumowanie danych w formie statystyk opisowych.
Analiza i modelowanie danych – próba podsumowania relacji między zmiennymi^[11], często z zastosowaniem uczenia maszynowego^[12].
Interpretacja i wizualizacja danych.

Etapy transformacji, modelowania i wizualizacji często są powtarzane iteracyjnie, gdyż uzyskane wyniki mogą prowadzić do kolejnych pomysłów^[13].

Remove ads

Nazewnictwo

W języku polskim data science bywa tłumaczone jako danologia^[14]. Określenie to jest jednak słabo rozpoznawalne^[15]. Spotykany jest także neologizm danetyka^[16].

Osoby zajmujące się data science zazwyczaj nazywane są z angielskiego data scientists. Termin ten bywa odmieniany zgodnie z regułami języka polskiego (np. kilku data scientistów). Zazwyczaj nie jest on tłumaczony na język polski, choć pojawiają się czasami takie określenia, jak inżynier danych czy mistrz danych^[17].

Zdefiniowanie obszaru

Przepływ pracy

Nazewnictwo

Przypisy

Bibliografia

Wikiwand - on