數據

From Wikipedia, the free encyclopedia

數據
Remove ads
  「資料」跳轉到呢度。假如你想揾嘅係其他用法,請睇「資料 (搞清楚)」。
  呢篇文章講嘅係描述事物嘅紀錄。假如你想揾嘅係電腦對符號串嘅處理,請睇「電腦數據」。

數據粵拼sou3 geoi3)係指描述事物嘅符號(多數係文字資訊記錄,透過量度得出。亦都有圖片資料同映片資料等。喺科學工程等嘅領域,做研究嘅人會用各種嘅數據嚟描述研究緊嘅現象,並且用統計等嘅方法對數據進行分析,從而得出結論。

Thumb
棒形圖可以用嚟展示數據。

數據呢個概念,日常粵語口語時常會英文嗌做 data粵拼粵化口語音dei1 taa4)而台灣就比較興嗌做資料

收集數據

睇埋:數據集

數據可以由唔同來源搜集返嚟,以下係幾種常見嘅數據來源:

  • 觀察:研究者可以親身觀察動物或者現象,例如記錄行人過馬路嘅行為、觀察學生上課嗰陣嘅反應等等。
  • 問卷調查:透過紙本或者網上表格,向用家、顧客或者研究對象收集佢哋嘅意見、偏好或者背景資料。
  • 實驗:喺控制環境下進行測試,例如心理實驗等,根據變項改變睇參與者反應。
  • 感應器:例如溫度感應器、GPS、心跳監測器、交通探測器,會自動輸出連續嘅數值。

... 等等[1]


Thumb
自由開源網絡應用程式 LimeSurvey 整嘅一份網上調查;呢份調查有條問題,受訪者可以喺問題下便嘅空間打自己嘅答案。


原始數據係指未經過處理、清洗或者分析嘅「第一手」數據。呢啲數據可以係嚟自觀察實驗問卷感應器等直接收集返嚟、未經過分析、整理嘅數據。例如問卷調查中每一位受訪者嘅回答、網站伺服器日誌中每一次點擊紀錄、溫度感應器每秒報告嘅數值... 等,都可以算係原始數據。由於原始數據通常包括錯誤、遺漏或者冗餘資訊,實際郁手做分析前,分析者通常要做一啲處理,先至可以令啲數據變得有用。原始數據喺科研統計分析同埋機器學習入面都係極之重要嘅起點[2]

Remove ads

分析數據

内文:數據分析

數據分析係指攞住搜集到嘅數據,運用統計學等嘅方法去理解背後嘅規律、趨勢同關係。

分析可以係純描述性質嘅,例如喺流行病學(會研究疾病嘅傳播)入面,研究者手上有一啲空間性質嘅數據,譬如而家爆發新嘅流感,研究者要睇粵港澳唔同地點嘅疾病個案數,研究者可以用純描述性質嘅分析去畫地圖、計每區嘅發病率,搵出疾病嘅分佈跟咩規律,可能發現隻新流感喺香港出現得特別多,就可以算係搵到有用嘅資訊[3]

自然科學社會科學上,研究者成日會用假說檢定嘅做法。假想研究者想知某隻新藥係咪能夠改善專注力(可能可以用嚟幫助過度活躍症嘅患者),噉就唔可以淨係用描述性質嘅分析。佢哋好可能會設計實驗,例如搵兩班人返嚟,一班人服新藥,一班人就做對照組,服食安慰劑,其後比較兩組喺專注力測試上嘅表現,得出兩組嘅平均值,攞住呢個平均值,佢哋可以做 t-測試,睇吓兩者之間係咪真係有顯著嘅差異。如果係嘅,佢哋就有信心可以話呢隻藥對專注力有幫助[4]

資訊科技都會用到各種數據。做電腦保安嘅專業人士會設計系統,紀錄用家或裝置嘅 IP 位址,以及係呢啲 IP 位址嘅相關資訊,好似係每次簽到嘅時間、來源地點、請求類型... 等嘅數據,方便做審查。例如某間銀行,佢嘅數據庫記低咗阿明呢位客戶嘅 IP 位址同埋簽到時間,而阿明不嬲係中午至挨晚登入嘅,假如某次活動發現佢個 IP 位址特別唔尋常(例如喺半夜三點登入)就可能表示呢次活動有景轟[註 1][5]


Thumb
英維有功能,可以封鎖某啲 IP 位址,假如某個位址硬係有異常活動,管理員可以封鎖佢哋。粵維都有噉嘅功能。


公共健康研究亦會用到數據,簡單嘅可以係分析邊啲人有健康方面嘅問題,例如下圖噉,幅圖反映二〇一六年世界各地嘅數據,描繪唔同地區分別有幾多 % 嘅大人身體活動量不足:

Thumb

唔同類嘅數據嘅性質好唔同,而分析者要視乎情況決定用咩分析先至適合。例子:人類行為相關嘅數據喺偏度等嘅統計特性上有一定嘅既定特性,唔跟常態分佈,而好似因素分析等嘅統計分析法假設咗變數呈常態,所以呢啲變數就唔可以就噉直接用因素分析嚟處理。

Remove ads

睇埋

註釋

  1. 可以睇吓異常檢測

引咗

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads