混合物模型

From Wikipedia, the free encyclopedia

混合物模型
Remove ads
  提示:呢篇文講嘅唔係混合模型

統計學上,混合物模型粵拼wan6 hap6 mat6 mou4 jing4)係指一類嘅統計模型,最重要嘅特徵係設成[1][2]

  • 個群體入面有若干個子群體,當中
    • 每個子群體之間都有顯著嘅差異;
    • 每個子群體內部差異細;
  • 建立個統計模型嗰陣,唔使拃數據事先指定咗「每個個案屬邊個子群體」呢樣資訊[3]
Thumb
嚟自歐亞大陸多個唔同地區嘅人;佢哋可唔可以按某啲特性(好似膚色或者嘅形狀呀噉)分做幾「類」呢?

混合物模型個基本諗頭同聚類分析(cluster analysis)好似:混合物模型同聚類分析分別在於,混合物模型唔係建基於對相似度嘅考慮,而且同多數聚類分析做法唔同嘅係,混合物模型係基於模型嘅,會建立統計模型描述啲子群體,再衡量吓個模型有幾能夠解釋手上啲數據[4];除此之外,混合物模型分析結果係會「呢個呢個個案,屬呢組嘅機率係咁多咁多」-唔似得聚類分析噉,會同每個個案有個明確嘅「佢屬邊個聚類」宣稱[註 1][5]

混合物模型仲有得分幾種,最常見嘅係可以按啲可觀察變數嘅特性(詳情睇下面)分做兩類-潛在類別潛在輪廓模型。呢啲噉嘅模型响社會科學人機互動以至人工智能研究上都會用到,而有返咁上下專業知識嘅研究者,都會識得按自己嘅需要揀啱用嘅模型[6]:p. 2

篇文以下嘅內容,假設讀者已經識嗮基本嘅概率論統計學

Remove ads

基本諗頭

用日常用語講,混合物模型做嘅係[5]:p. 2

混合物模型係種統計分析,用嚟靠一個指標(indicator)搵出一個總體入面唔能夠直接觀察子群體

一場 LCA 會做到以下嘅嘢[7]

  • Input:攞一拃個案,每個個案都係拃睇得到嘅變數上有值;
  • Output:將拃個案分做若干個子群體,當中「屬邊個子群體」係個潛在(數值唔能夠直接睇到)嘅離散變數,每個子群體內部差異細。

舉例說明,想像家陣研究者要設計個網站嚟講解昆蟲相關嘅資訊,佢哋諗緊好唔好將個網站設計成「吓吓都會彈一個昆蟲物種拉丁文學名出嚟」,但佢哋諗諗吓又覺得噉做未必好-專研究昆蟲嘅人(昆蟲學家或者昆蟲學愛好者)可能會鍾意噉嘅做法,但第啲人就會覺得煩;於是班研究者就設定返個人工智能程式,個程式識得按每位用家嘅特性-例如「有冇喺搜尋器度打啲昆蟲嘅學名」(指標;研究者觀察得到嘅嘢)-將每位用家分類做[6]:p. 2

  • 專研究昆蟲嘅人
  • 唔係專研究昆蟲嘅人

-呢個類別就係「建立個混合物模型」呢個過程想搵出嘅潛在變數(潛在-研究者冇得直接觀察,淨係有得靠睇指標嚟判斷)。响混合物模型入面,潛在嗰個類別實係個離散變數,不過啲指標可以係離散又可以係連續

  • 如果啲指標係離散變數,噉個模型就屬潛在類別(latent class)模型;
  • 如果啲指標係連續變數,噉個模型就屬潛在輪廓(latent profile)模型。
Remove ads

數學定義

數學性啲噉諗,混合物模型個諗頭可以噉形容:想像家陣[5]:Q1 - Q2 [8]:Ch. 6

  • 個個案,每個個案有 咁多個特性 (指標)[註 2][9]
  • 啲個案背後有個離散變數 表示佢「屬於邊個子群體」(類別 個個案嘅 值), 係睇唔到嘅(潛在變數)並且有 咁多個可能值; 可以係研究者响建立模型前唔指定(探索性質分析),但研究者又可以係指定一個 值,再睇吓呢個 值之下建立嘅模型有幾「良好」(睇埋適合度[10]:Table 1
  • 混合物模型個模型最基本有兩個重要參數
    • 每個潛在子群體嘅大細(用 表示),由「隨機揀個個案,個個案屬嗰個群體嘅機率」反映,即係是但攞個個案嚟睇, 嘅數值;
    • 子群體之間互斥,即係一個個案唔准同時屬多過一個子群體,(啲 冚唪唥加埋嗮數值會係 1)。
  • 假設咗局部獨立(local independence;嗰啲指標之間係條件獨立嘅)[註 3]

噉想像以下嘅聯合概率分佈[5]:p. 6

表示個模型啲參數,反映咗 同啲 之間嘅關係。攞住數據,研究者可以由數據度用最大似然估計(MLE)[5]:Q7[11] 等嘅方法估計 嘅參數值,將 數值慢慢調較到令 有咁大得咁大。而如果個模型有咁上下理想(啲適合度值靚),佢哋就可以攞住個模型預測第時攞到嘅數據[12]

Remove ads

模型評估

一個混合物模型嘅適合度可以用以下呢啲指標衡量:

... 呀噉。

分析軟件

以下呢啲軟件喺 2020 年代都成日畀人攞嚟做混合物模型相關嘅分析[5]:Q6

... 呀噉。

應用例子

混合物模型响多門嘅社會科學-包括社會學心理學市場學管理學呀噉-上都有受到採用。呢啲領域嘅分析通常會攞人類做個體,並且透過佢哋嘅行為(一樣可以直接觀察嘅嘢)推斷佢哋可以點樣按心理變數分類(通常都冇得直接觀察嘅嘢)。

例:2021 年開餐行為研究

研究者係班社會學家,想理解啲人嘅開餐行為-因為「一日有冇定時食三餐」等嘅行為會對健康造成明顯影響。佢哋[13]

  • 網上社會調查,問咗 506 位家長,量度每個屋企嘅糧食安全(指屋企嘅成員係咪個個都能夠有足夠嘅嘢食保持住健康)同埋「每個禮拜有幾多次成家人一齊食飯」等嘅多個變數-啲變數描述佢哋飲食方面嘅行為。
  • 用呢啲有關飲食行為相關嘅變數,對攞到嘅數據行潛在輪廓模型,由 1 開始慢慢噉增加潛在類別嘅數量,增加到搵到「最靚」嗰個模型為止,途中用咗 BIC 等嘅多個指標衡量每個模型「有幾靚」,最後搵到嗰個模型係將啲屋企分做 3 大類嘅;
  • 跟住研究者仲用比較平均值嘅統計方法,睇吓嗰三組之間响人口統計特徵上有冇分別。

-於是班社會學家就搵到有用嘅資訊,解答「邊啲人群零舍容易食得唔健康」等嘅問題。

Remove ads

睇埋

文獻

Remove ads

註釋

  1. 呢點畀唔少人覺得係混合物模型同聚類分析比嘅主要缺點之一。亦有研究者指出,好多研究就噉當每位受試者嘅類別等同「佢最大機率屬嘅類別」,而噉做可能會扭曲分析結果。
  2. 啲指標可以係同一個變數响唔同時間點嘅值。可以睇吓縱向研究嘅概念。
  3. 技術性啲講,即係話「屬邊個子群體」解釋嗮啲指標之間嘅共同變異

引述

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads