Najlepsze pytania
Chronologia
Czat
Perspektywa

Data science

dyscyplina na styku informatyki, matematyki i wiedzy dziedzinowej, skupiona na wydobyciu wartościowej informacji ze zbioru danych Z Wikipedii, wolnej encyklopedii

Remove ads

Data science (czasem tłumaczone jako danologia lub danetyka) – interdyscyplinarne pole na styku informatyki, matematyki i wiedzy dziedzinowej. Ukierunkowane na wydobycie wartościowej informacji ze zbioru danych.

Zdefiniowanie obszaru

Podsumowanie
Perspektywa
Thumb
Diagram Venna pokazujący umiejscowienie data science na przecięciu informatyki, matematyki i wiedzy dziedzinowej

Data science znajduje się na styku trzech obszarów: informatyki, matematyki (w szczególności statystyki) i wiedzy dziedzinowej[1][2]. Nie ma konsensusu na temat dokładnej definicji data science[1][2][3]. Definicja może się różnić w zależności od kontekstu. Data science może być rozumiane między innymi jako specjalność naukowa, pewnego rodzaju paradygmat prowadzenia badań czy też jako zawód[2].

Głównym celem prac w obszarze data science jest wydobycie wartościowej informacji ze zbioru danych[2][4][5]. Rezultatem prac może być opracowanie automatycznych narzędzi umożliwiających, na podstawie zgromadzonych danych, rozwiązywanie takich problemów, jak prognozowanie, rekomendacja, klasyfikacja, optymalizacja, przetwarzanie danych do innej postaci i grupowanie[4][6]. W przypadku traktowania data science w kategorii nauki, jej cechą wyróżniającą jest traktowanie danych jako obiektu badań samego w sobie[2].

Pokrewnym terminem jest big data oznaczające przetwarzanie i analizę dużych zbiorów danych. Data science znajduje zastosowanie jednak także dla zbiorów powszechnie uważanych jako małe. Przykładowo, te same metody wizualizacji danych (jak np. wykres rozrzutu) można stosować do zbiorów o różnych rozmiarach[7].

Spośród języków programowana w data science najczęściej używane są języki skryptowe, takie jak Python czy R[8]. Specjaliści data science zazwyczaj nie tworzą jednak kompletnego oprogramowania nadającego się do użytku przez ludzi, którzy nie zajmują się programowaniem (prace w data science nie skupiają się np. na tworzeniu interfejsu graficznego)[9]. Działanie podstawowe w data science jest nakierowane wyłącznie na dane, a pisany kod służy do ich przetwarzania, analizy i modelowania[8].

Remove ads

Przepływ pracy

Thumb
Wykres rozrzutu – przykładowa metoda wizualizacji danych

Typowy przepływ pracy w zadaniach data science obejmuje następujące etapy[2]:

  • Import danych – załadowanie danych do środowiska programowania z bazy (wtedy dane mają już prawdopodobnie odpowiednią strukturę) lub z innego źródła[10].
  • Czyszczenie danych (tzw. preprocesing) – doprowadzenie danych do stanu umożliwiającego przejście do kolejnych etapów. Konieczne może być np. połączenie danych z różnych źródeł czy ujednolicenie sposobu zapisu[10].
  • Transformacje danych – dalsze organizowanie danych z wykorzystaniem bardziej zaawansowanych metod. Etap ten może obejmować między innymi[11]:
    • podział danych na podzbiory według wybranego kryterium,
    • usuwanie wartości błędnych, nietypowych lub odstających,
    • selekcję zmiennych,
    • tworzenie nowych zmiennych na podstawie już istniejących,
    • podsumowanie danych w formie statystyk opisowych.
  • Analiza i modelowanie danych – próba podsumowania relacji między zmiennymi[11], często z zastosowaniem uczenia maszynowego[12].
  • Interpretacja i wizualizacja danych.

Etapy transformacji, modelowania i wizualizacji często są powtarzane iteracyjnie, gdyż uzyskane wyniki mogą prowadzić do kolejnych pomysłów[13].

Remove ads

Nazewnictwo

W języku polskim data science bywa tłumaczone jako danologia[14]. Określenie to jest jednak słabo rozpoznawalne[15]. Spotykany jest także neologizm danetyka[16].

Osoby zajmujące się data science zazwyczaj nazywane są z angielskiego data scientists. Termin ten bywa odmieniany zgodnie z regułami języka polskiego (np. kilku data scientistów). Zazwyczaj nie jest on tłumaczony na język polski, choć pojawiają się czasami takie określenia, jak inżynier danych czy mistrz danych[17].

Przypisy

Bibliografia

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads