分類數據 (Categorical Data)

機率統計

教學錄影

數學符號

數學基礎

排列組合

機率統計簡介

機率

機率公理

隨機變數

連續測度

單一分布

條件機率

聯合分布

貝氏定理

動差生成函數

特徵函數

機率法則匯總

離散分布

二項分布

多項分布

負二項分布

幾何分布

超幾何分布

布瓦松分布

連續分布

均勻分布

常態分布

Gamma 分布

指數分布

卡方分布

柯西分布

Weibull 分布

T 分布

F 分布

Beta 分布

多維分布

統計

抽樣

敘述統計

推論統計

中央極限定理

估計方法

單組樣本估計

兩組樣本估計

檢定方法

單組樣本檢定

兩組樣本檢定

平均値的推論

變異數的推論

無母數推論

迴歸分析

變異數分析

實驗設計

因子實驗

品質管制

時間序列

數據分類

統計定理匯總

統計情況分類

計算統計

蒙地卡羅法

最大似然法則

假說與學習

EM 算法

簡單貝氏分類

貝氏網路

隨機過程

馬可夫鏈

蒙地卡羅馬可夫

資源

範例

投影片

教學錄影

練習題

考題解答

訊息

相關網站

參考文獻

最新修改

簡體版

English

問題:數據集的觀察值被分類成許多彼此互斥類別中的一個。

檢定:(獨立性) 兩個用來分類數據的變數是否獨立。(Testing for independence)
檢定:(同源性) 某組觀察值是否來自某一個指定的機率分配。(Test of homogeneity)

多項分布

  • 多項試驗:$p_1 + p_2 + ... + p_k = 1$ ,實驗結果必然是 1..k 種可能中的一種,此種試驗稱為多項試驗。(請與二項白努力試驗比較)
  • 多項分布:進行一系列多項試驗得到樣本 $x_1, x_2, ...., x_n$,其統計結果的分布匯總為 $X_1, ...., X_k$,此種分布稱為多項分布。

卡方分布

  • 分布公式:$\frac{1}{2^{\gamma/2}\Gamma(\gamma/2)}\,x^{\gamma/2 - 1} e^{-x/2}$
  • R 函數:chisq(df, ncp)
  • 相當於:伽瑪分布 ($b=2, a=\gamma/2$)
  • 用途是:利用樣本推斷母體變異數

說明:(Gamma 函數) $\Gamma(k) = \int_{0}^{\infty} z^{k-1} e^{-z} dz$,其 R 函數為 gamma(shape, scale)

卡方自由度檢定

  • 定理:從多項分布 $X_1:p_1, ...., X_k:p_k$ 中取樣 n 個,如果 n 夠大,那麼隨機變數 $\sum_{i=1}^k \frac{(X_i-n p_i)^2}{n p_i}$ 大致服從自由度 k-1 的卡方分配。
  • 改寫:用 $O_i$ = (觀察到的次數) 取代 $X_i$ 且用 ($E_i = E[X_i]$=(期望的頻率) 取代 $np_i$,那麼上述算式可以改寫為
(1)
\begin{align} \sum_{i=1}^k \frac{(X_i-n p_i)^2}{n p_i} = \sum_{i=1}^k \frac{(O_i-E_i)^2}{E_i} = \sum_{i=1}^k \frac{(觀察到的頻率-期望的頻率)^2}{期望的頻率} \end{align}
  • 說明:(如果 n 夠大) 的意思,通常是指:(1) 期望頻率 > 1 ; 且 (2) 期望頻率 < 5 的個數不超過 20%。

2*2 的獨立性檢定

  • 問題:檢定兩種變數 X, Y 的獨立性,其中每個變數都有兩種可能的值。
  • 方法:用 2*2 列聯表 (Contingency Table) 進行檢定,
  • 2*2 列聯表 (計數)
X X'
Y n(X,Y) n(X',Y) n(X)
Y' n(X,Y') n(X',Y') n(X')
n(X) n(X') n
  • 檢定:
H0 X 與 Y 獨立
H1 X 與 Y 不獨立
  • 方法:計算 $E_{i j} = n p_{i j} = n \frac{n_{i,j}}{n}$$\hat{E}_{i j} = n p_{i j} = n \frac{n_i}{n} \frac{n_j}{n}$ 之間的比例差異,以便檢驗樣本所顯示的獨立性。
  • 對於大樣本而言,下列公式服從卡方分配
(2)
\begin{align} \sum_{i=1}^2 \sum_{j=1}^2 \frac{(O_{ij} - \hat{E}_{ij})^2}{\hat{E}_{ij}} = \sum_{i=1}^2 \sum_{j=1}^2 \frac{(n_{ij} - \hat{E}_{ij})^2}{\hat{E}_{ij}} \end{align}

因此只要查一查卡方分配自由度為 1 的表格,就知道上式計算後的數值,其機率大至介於哪兩個卡方值之間,就可以知道兩者互相獨立的檢定機率了。

r*c 的獨立性檢定

  • 問題:檢定兩種變數 X, Y 的獨立性,其中 X 有 c 種可能,Y 有 r 種可能。
  • 方法:用 r*c 列聯表 (計數) 進行檢定
X
Y 1 2 c ~
1 n(1,1) n(1,2) n(1,c) n(1,*)
2 n(2,1) n(2,2) n(2,c) n(2,*)
….
r n(r,1) n(r,2) n(r,c) n(r,*)
n(*,1) n(*,2) n(*,c) n
  • 檢定公式:
(3)
\begin{align} \sum_{i=1}^c \sum_{j=1}^r \frac{(O_{ij} - \hat{E}_{ij})^2}{\hat{E}_{ij}} = \sum_{i=1}^2 \sum_{j=1}^2 \frac{(n_{ij} - \hat{E}_{ij})^2}{\hat{E}_{ij}} \end{align}

其中 $\hat{E}_{ij} = \frac{ 第 i 列的邊際總和 * 第 j 列的邊際總和 }{樣本數}$

然後查詢自由度為 (r-1)(c-1) 的卡方分布,以便得到檢定的機率值,看看兩者獨立的機率有多少。

2*2 同質性檢定 (Test of homogeneity)

H0 具有特徵 A 的那群樣本中有特徵 B 的比例 = 不具特徵 A 的那群樣本中有特徵 B 的比例
H1 具有特徵 A 的那群樣本中有特徵 B 的比例 $\neq$ 不具特徵 A 的那群樣本中有特徵 B 的比例
  • 方法:用 2*2 列聯表 (Contingency Table) 進行檢定,公式與 2*2 獨立性檢定時使用的相同。

r*c 同質性檢定 (Test of homogeneity)

  • 問題:檢定看看是否有些行的機率不相同。
H0 $p_{1j} = p_{2j} = ... = p_{rj}$
H1 第 j 行的機率不完全相同
  • 方法:用 r*c 列聯表 (Contingency Table) 進行檢定,公式與 r*c 獨立性檢定時使用的相同。

Facebook

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License