抽樣 - Wikiwand

理論基礎

睇埋：歸納

所有研究都係研究緊某啲總體。但研究嘅總體通常都太大，搞到研究佢哋嘅科學家好難由個總體入面嘅所有個體收集數據。

例如做醫學研究想睇啲人嘅血入面啲化合物嘅濃度。世界上有數以億計嘅人，要逐個逐個噉嚟研究太嘥時間，根本冇可能行得通，於是乎科學家喺做研究嗰陣往往要做抽樣－由研究緊個總體嗰度抽一小部份出嚟，而呢個部份就係所謂嘅樣本，希望透過研究呢一小部份嚟去了解嗮總體入面所有嘅個體。

例如係想研究黑洞嘅話，天體物理學家可以去搵 10 個特定嘅黑洞嚟研究，希望透過研究呢 10 個黑洞（呢 10 個黑洞只係全宇宙成千上萬個黑洞之中嘅一小部份）嚟了解埋其餘嘅黑洞^[2]。

做法步驟

睇埋：隨機抽樣同數據集

抽樣呢個程序係做科研好關鍵嘅一環，因為做抽樣嗰個科學家一定要確保到佢抽出嚟個樣本真係代表得到成個總體，噉先至可以說服到啲人話佢個研究得出嘅結果可以普遍化到去成個總體嗰度。例如係動物學家想研究狼噉，佢有至少兩個抽樣方法可以揀：

喺華南嗰度隨機噉攞 200 隻狼嚟研究；
喺全世界各個洲嗰度隨機噉抽（隨機抽樣）200 隻狼嚟研究。

一般認為，後者更加代表得到嗮個總體－「全世界嘅狼」－而前者就比較有以偏概全之嫌。好多時啲科學家詏話一份研究冇辦法將得出嘅結果普遍化，都係指控緊佢個樣本唔夠代表性。

抽樣做法都可以分好多種。譬如喺方法學上，隨機抽樣同方便抽樣就係兩種常見嘅抽樣方式，各有利弊：

隨機抽樣：指總體入便每一個成員都有相同機率被抽入去樣本度；呢種方法可以令樣本比較有代表性，減低抽樣偏差。
方便抽樣：指研究者為咗方便，就直接用容易接觸到嘅個體中揀樣本；呢種方法成本低、快捷，但樣本未必具有代表性，結果容易受偏差影響。

心理學等嘅社科領域，就時常會用方便抽樣。例如研究者要做反應時間測試，就直接搵自己所屬大學嘅學生參加；噉做係比較方便，但樣本可能只代表到本科生群體，未必可以概括到一般嘅成年人；同時若果要用隨機抽樣，研究者可能會由人口名冊中隨機抽人，再邀請參加，噉嘅樣本理論上會更具代表性，但會嘥多好多人力物力。^[3]

Remove ads

概念

樣本大細：指樣本嘅個體數量，通常以 $n$ 做符號代表；一般認為假設第啲因素不變，樣本最好就有咁大得咁大。
樣本代表性：指個樣本有幾代表到想研究嗰個總體，數學化啲講，係指個樣本喺研究緊嘅變數上嘅概率分佈有幾接近總體；例如家陣想研究嘅總體係「人類」，但個研究者貪方便淨係由大學生嗰度抽樣，搞到成個樣本得 19 至 26 歲嘅人類，代表唔到呢個年齡層以外嘅人類－樣本代表性不足。
抽樣模型（參照英文：sampling model）：由總體入便抽取多個樣本後，可以計出某啲統計量（例如平均值）而描述呢啲統計量嘅分佈，就係抽樣模型；抽樣模型有別於原始數據出嘅概率分佈，可以用嚟理解樣本結果點樣變動，容許研究者對總體作出推論^{[未記出處或冇根據]}。

文獻

歐美文獻：

Singh, G N, Jaiswal, A. K., and Pandey A. K. (2021), Improved Imputation Methods for Missing Data in Two-Occasion Successive Sampling, Communications in Statistics: Theory and Methods. DOI:10.1080/03610926.2021.1944211
Chambers, R L, and Skinner, C J (editors) (2003), Analysis of Survey Data, Wiley, ISBN 0-471-89987-9

抽樣

理論基礎

做法步驟

概念

睇埋

文獻

引述

拎

Wikiwand - on