結合數據

From Wikipedia, the free encyclopedia

結合數據
Remove ads

結合數據(參照英文aggregate),香港有譯作集合數據[1],喺統計學上係講緊將幾個個體嘅數據以某啲方式結合,形成某啲綜合性質嘅數據。譬如依家有位經濟學家,佢想研究一間企業營業額同啲員工工作表現有咩關係,一個可能做法係,佢由每間企業度若干個員工(個體)量度每個員工嘅工作表現(個體嘅數據)然後同每間企業計返個員工表現平均值,再用統計分析嘅方法,睇吓每間企業嘅呢個值同其營業額之間有點樣嘅關係。當中平均值就係結合得出嘅綜合型數據。

Thumb
(英文) 呢幅圖描繪想像中將若干件數據結合埋一齊嘅情況。

喺各種統計應用上,集合數據都有價值。例如用嚟評估政策成效、識別程序入便嘅趨勢同模,或者評估現行措施以便作出策略計劃。呢種做法最有用之處在於佢能夠有效噉將可能好複雜嘅數據,總括成簡單(可能得嗰一兩個)嘅數值,令到分析易做啲。好似係社會學心理學以至經濟學等嘅社科,都成日會用到集合數據[2]

例子

睇埋:平均值

平均數係最常見嘅集合數據指標,用嚟反映某一組數值「整體上數值係乜」,

計算方法[3]

例如有一班學生考試成績係 60 70 75 80 90 咁高,噉佢哋嘅平均分就係:

喺呢個過程中,計數嘅人攞住多個個體嘅數據,結合得出一個單一數值。

中位數亦算係集合數據,指將所有數值由細至大排好之後,排喺正中間嗰個值,用嚟反映一組數值嘅「中間位置」。

計算方法:

  • 若果樣本數量係單數,中位數就係中間嗰個數;
  • 若果樣本數量係雙數,就取中間兩個數嘅平均。

例子:若某組數值係 55 60 65 70 100,因為有五個數,所以中位數係第三個,即:

如果數值係 55 60 65 70 80 100,噉就有六個數,中位數就係:

又係攞住多個個體嘅數據,結合得出一個單一數值。

集合數據嘅做法能夠簡化手上嘅分析:喺實際應用上,數據庫中嘅個案數量好多時閒閒哋數以千萬計;因此,做分析嘅人冇可能吓吓都睇住晒全部數據噉嚟做分析;將啲數據結合,就可以令到分析更易處理[註 1]

Remove ads

限制

内文:生態謬誤

將成個群組嘅數據做平均處理嗰陣,實會損失一定量嘅資訊,而呢啲資訊損失會增加錯誤推論出現嘅風險。之所以會噉,係因為集合數據做結合嗰時會忽略咗個體層面嘅差異,當正啲差異係統計雜音或者量度誤差噉嚟處理。事實亦表示,攞個體層面嘅數據嚟分析同攞集合數據嚟分析,推論結果出嘅可以完全唔同[3]

仲有一個問題叫做生態謬誤[4],呢個概念源自一九五〇年。佢大致上係話,個體層面嘅變異,往往同集合層面嘅變異唔一樣。即係話用集合數據講出嚟嘅現象,唔等於個體層面都用得著。想像有一份研究指出,平均收入較高嘅國家同地區,癌症發病率比較高;假如就噉推論話

「有錢人比較容易患癌。」

噉就屬於生態謬誤,因為搵到嘅統計規律只係喺國家地區層面(集合數據)嗰度觀察到,並唔一定適用於同一區內嘅個體層面。事實上,喺富裕嘅國家同地區入面,有錢人可能因為享有更好嘅醫療資源同預防措施,患癌機率更低。

除此之外,若果要分析某啲子群組嘅變化,集合數據就會較難處理。有時,研究人員最終都要返轉頭攞個體層面嘅數據做分析先至搞得掂[5]

Remove ads

睇埋

註釋

  1. 亦可以睇睇複雜度嘅應對方法。

引咗

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads