數據
From Wikipedia, the free encyclopedia
Remove ads
數據(粵拼:sou3 geoi3)係指描述事物嘅符號(多數係文字同數)資訊記錄,透過量度得出。亦都有圖片資料同映片資料等。喺科學同工程等嘅領域,做研究嘅人會用各種嘅數據嚟描述研究緊嘅現象,並且用統計等嘅方法對數據進行分析,從而得出結論。

收集數據
睇埋:數據集
數據可以由唔同來源搜集返嚟,以下係幾種常見嘅數據來源:
- 觀察:研究者可以親身觀察人、動物或者現象,例如記錄行人過馬路嘅行為、觀察學生上課嗰陣嘅反應等等。
- 問卷調查:透過紙本或者網上表格,向用家、顧客或者研究對象收集佢哋嘅意見、偏好或者背景資料。
- 實驗:喺控制環境下進行測試,例如心理實驗等,根據變項改變睇參與者反應。
- 感應器:例如溫度感應器、GPS、心跳監測器、交通探測器,會自動輸出連續嘅數值。
... 等等[1]。

原始數據係指未經過處理、清洗或者分析嘅「第一手」數據。呢啲數據可以係嚟自觀察、實驗、問卷、感應器等直接收集返嚟、未經過分析、整理嘅數據。例如問卷調查中每一位受訪者嘅回答、網站伺服器日誌中每一次點擊紀錄、溫度感應器每秒報告嘅數值... 等,都可以算係原始數據。由於原始數據通常包括錯誤、遺漏或者冗餘資訊,實際郁手做分析前,分析者通常要做一啲處理,先至可以令啲數據變得有用。原始數據喺科研、統計分析同埋機器學習入面都係極之重要嘅起點[2]。
Remove ads
分析數據
内文:數據分析
數據分析係指攞住搜集到嘅數據,運用統計學等嘅方法去理解背後嘅規律、趨勢同關係。
分析可以係純描述性質嘅,例如喺流行病學(會研究疾病嘅傳播)入面,研究者手上有一啲空間性質嘅數據,譬如而家爆發新嘅流感,研究者要睇粵港澳唔同地點嘅疾病個案數,研究者可以用純描述性質嘅分析去畫地圖、計每區嘅發病率,搵出疾病嘅分佈跟咩規律,可能發現隻新流感喺香港出現得特別多,就可以算係搵到有用嘅資訊[3]。
喺自然科學同社會科學上,研究者成日會用假說檢定嘅做法。假想研究者想知某隻新藥係咪能夠改善專注力(可能可以用嚟幫助過度活躍症嘅患者),噉就唔可以淨係用描述性質嘅分析。佢哋好可能會設計實驗,例如搵兩班人返嚟,一班人服新藥,一班人就做對照組,服食安慰劑,其後比較兩組喺專注力測試上嘅表現,得出兩組嘅平均值,攞住呢個平均值,佢哋可以做 t-測試,睇吓兩者之間係咪真係有顯著嘅差異。如果係嘅,佢哋就有信心可以話呢隻藥對專注力有幫助[4]。
資訊科技都會用到各種數據。做電腦保安嘅專業人士會設計系統,紀錄用家或裝置嘅 IP 位址,以及係呢啲 IP 位址嘅相關資訊,好似係每次簽到嘅時間、來源地點、請求類型... 等嘅數據,方便做審查。例如某間銀行,佢嘅數據庫記低咗阿明呢位客戶嘅 IP 位址同埋簽到時間,而阿明不嬲係中午至挨晚登入嘅,假如某次活動發現佢個 IP 位址特別唔尋常(例如喺半夜三點登入)就可能表示呢次活動有景轟[註 1][5]。

公共健康研究亦會用到數據,簡單嘅可以係分析邊啲人有健康方面嘅問題,例如下圖噉,幅圖反映二〇一六年世界各地嘅數據,描繪唔同地區分別有幾多 % 嘅大人身體活動量不足:

唔同類嘅數據嘅性質好唔同,而分析者要視乎情況決定用咩分析先至適合。例子:人類行為相關嘅數據喺偏度等嘅統計特性上有一定嘅既定特性,唔跟常態分佈,而好似因素分析等嘅統計分析法假設咗變數呈常態,所以呢啲變數就唔可以就噉直接用因素分析嚟處理。
Remove ads
睇埋
註釋
引咗
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads
