單組樣本的估計

機率統計

教學錄影

數學符號

數學基礎

排列組合

機率統計簡介

機率

機率公理

隨機變數

連續測度

單一分布

條件機率

聯合分布

貝氏定理

動差生成函數

特徵函數

機率法則匯總

離散分布

二項分布

多項分布

負二項分布

幾何分布

超幾何分布

布瓦松分布

連續分布

均勻分布

常態分布

Gamma 分布

指數分布

卡方分布

柯西分布

Weibull 分布

T 分布

F 分布

Beta 分布

多維分布

統計

抽樣

敘述統計

推論統計

中央極限定理

估計方法

單組樣本估計

兩組樣本估計

檢定方法

單組樣本檢定

兩組樣本檢定

平均値的推論

變異數的推論

無母數推論

迴歸分析

變異數分析

實驗設計

因子實驗

品質管制

時間序列

數據分類

統計定理匯總

統計情況分類

計算統計

蒙地卡羅法

最大似然法則

假說與學習

EM 算法

簡單貝氏分類

貝氏網路

隨機過程

馬可夫鏈

蒙地卡羅馬可夫

資源

範例

投影片

教學錄影

練習題

考題解答

訊息

相關網站

參考文獻

最新修改

簡體版

English

估計的參數種類

根據單一母體所抽出的樣本,推論統計可以猜測母體中隨機變數 X 的下列特性:

  1. 可能屬於哪一類型的分布? (distribution, 二項、布瓦松、均等、常態、指數、卡方….)
  2. 其平均值的可能點預估? ($\mu$:mean 的點估計)
  3. 其變異數的可能點預估? ($\delta$:variance 的點估計)
  4. 機率 p 的可能點預估? (p 的點估計)
  5. 各種分布參數的可能點預估? (parameters, $\lambda , \delta , \alpha , \beta$)
  6. 平均數的可能範圍? ($\mu$:mean 的區間估計)
  7. 變異數的可能範圍? ($\delta$:variance 的區間估計)
  8. 機率 p 的可能範圍? (p 的區間估計)
  9. 各種分布參數的可能範圍預估? (parameters, $\lambda , \delta , \alpha , \beta$ 的區間估計)

平均值的估計

  • 定理:$\bar{X}$$E(X) = \mu$ 的不偏估計式。
  • 定理:$\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 服從標準常態分布。(條件是樣本數夠多,根據中央極限定理)

平均值的信賴區間

第一種情況:在變異數 $\sigma^2$ 已知的情況之下,應該用常態分配估計 $\mu$ 的信賴區間。

(1)
\begin{align} P[L1 \le Z \le L2] = 1-\alpha \end{align}

通常我們將區間的兩邊取平均,得到 $\alpha$ 的値

(2)
\begin{eqnarray} && P[L1 \le Z \le L2] &=& 1-\alpha && ; 常態分布的信賴區間 \\ && P[L1 \le \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \le L2] &=& 1-\alpha && ; 因為 \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} 服從常態分布 \\ && P[L1 \frac{\sigma}{\sqrt{n}} \le \bar{X}-\mu \le L2 \frac{\sigma}{\sqrt{n}}] &=& 1-\alpha && ; 乘以 \frac{\sigma}{\sqrt{n}} \\ && P[-\bar{X}+L1 \frac{\sigma}{\sqrt{n}} \le -\mu \le -\bar{X} + L2 \frac{\sigma}{\sqrt{n}}] &=& 1-\alpha && ; 減去 \bar{X} \\ && P[\bar{X}-L1 \frac{\sigma}{\sqrt{n}} \ge \mu \ge \bar{X} - L2 \frac{\sigma}{\sqrt{n}}] &=& 1-\alpha && ; 乘以 -1 並改 \le 為 \ge \\ && P[\bar{X}-L2 \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X} - L1 \frac{\sigma}{\sqrt{n}}] &=& 1-\alpha && ; 將整個算式反向寫出 \end{eqnarray}

結論:在變異數 $\sigma^2$ 已知的情況之下,$\mu$ 的信賴區間公式如下。

(3)
\begin{align} P[\bar{X}-Z_{1-\alpha/2} \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X} - Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}] = 1-\alpha \end{align}
  • 用法:L 是滿足 $P[-L \le Z \le L] = 1-\alpha$ 情況的 L 値,我們可以利用「累加常態分布表」查詢出 $P[Z\le z] = \frac{1-\alpha}{2}$ 的 z 値,該値即為滿足 $P[-L \le Z \le L] = 1-\alpha$ 的 L 値。然後將此 L 値代入上列最後一個算式,即可得到 $\mu$ 值的信賴區間。

第二種情況:在變異數 $\sigma^2$ 未知的情況之下,應該用 T 分配估計 $\mu$ 的信賴區間。

說明:因為變異數 $\sigma^2$ 未知,此時必須改用樣本變異數 $S^2$ 對變異數進行估計,因此引入了另一層的誤差,這是為何改用 T 分布的原因。

(4)
\begin{align} T = \frac{Z}{\sqrt{\chi_{\gamma}^2/{\gamma}}} \end{align}

結論:在變異數 $\sigma^2$ 未知的情況之下,$\mu$ 的信賴區間公式如下。

(5)
\begin{align} P[\bar{X} - T_{1-\alpha/2} \frac{S}{\sqrt{n}} \le \mu \le \bar{X} - T_{\alpha/2} \frac{S}{\sqrt{n}}] = 1-\alpha \end{align}

比例的估計

問題:假設 X 為某種 {0,1} 隨機變數,其中 $P[X=1] = p$,那麼我們如何根據樣本推估出 p 値呢?

(6)
\begin{align} \hat{p} = \frac{X}{n} = \frac{具有某特性的樣本數量}{所有樣本數量} \end{align}

說明:比例 $\hat{p} = \bar{X}$ 是一種 {0,1} 的特殊隨機變數之平均,因此根據中央極限定理 $\hat{p}$ 趨近於常態分配。

期望値:$E[X] = 1 * p + 0 (1-p) = p$

二級動差:$E[X^2] = 1^2 * p + 0^2 (1-p) = p$

變異數:$Var(X) = E[X^2] - E[X]^2 = p - p*p = p(1-p)$

比例的信賴區間

根據平均值的估計法,$\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 會趨近於標準常態分布 Z,套用到比例上後:$\mu = p$, $\sigma = \sqrt{p(1-p)}$,因此下列算式會趨近於 Z。

(7)
\begin{align} \frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \end{align}

變異數的估計

  • 定理:$Var(\bar{X}) = \frac{\sigma^2}{n}$
  • 定義:$\bar{X}$ 的標準差為 $\frac{\sigma}{\sqrt{n}}$,稱為平均標準誤。
  • 定義:(樣本變異數) $S^2$
(8)
\begin{align} S^2 = \sum_{i=1}^n \frac{(X_i - \bar{X})^2}{n-1} = \frac{n \sum_{i=1}^n X_i^2 - (\sum_{i=1}^n Xi)^2}{n (n-1)} \end{align}
  • 定理:$S^2$$\sigma^2$ 的不偏估計式。
  • 定理:以下算式服從自由度 n-1 的卡方分配。
(9)
\begin{align} \frac{(n-1) S^2}{\sigma^2} = \frac{\sum_{i=1}^n (X_i-\bar{X})^2 }{\sigma^2} \end{align}

變異數的信賴區間

$\sigma^2$ 的信賴區間為:

(10)
\begin{eqnarray} && P[\chi_{\alpha/2}^2 \le \frac{(n-1) S^2}{\sigma^2} \le \chi_{1-\alpha/2}^2] &=& 1-\alpha \\ \end{eqnarray}

也就是:

(11)
\begin{eqnarray} && P[\frac{(n-1) S^2}{\chi_{1-\alpha/2}^2} \le \sigma^2 \le \frac{(n-1) S^2}{\chi_{\alpha/2}^2}] &=& 1-\alpha \\ \end{eqnarray}

請注意:累積卡方分布通常有分為「右尾累積」與「左尾累積」,本公式中的 $\chi_{\alpha/2}$ 是根據「左尾累積」表所設計的。

如果按右尾累積表則公式應該改為:$P[\frac{(n-1) S^2}{\chi_{\alpha/2}^2} \le \sigma^2 \le \frac{(n-1) S^2}{\chi_{1-\alpha/2}^2}] = 1-\alpha$

R 程式範例

平均值的區間估計

範例一:母體的變異數已知的情況

mean.range = function(x, alpha=0.05, sigma) {
    n = length(x) # n = 樣本數
    mx = mean(x) # mx 即為平均值 mu 的點估計
    r1 = qnorm(alpha/2) # 信賴區間,下半截掉 alpha/2
    r2 = qnorm(1-alpha/2) # 信賴區間,上半截掉 alpha/2
    L1 = mx-r2*sigma/sqrt(n) # 信賴區間下限
    L2 = mx-r1*sigma/sqrt(n) # 信賴區間上限
    range = c(L1, mx, L2) # 信賴區間
}

以下的母體的標準差為 $\sigma=2$,也就是變異數 $\sigma^2 = 4$

# 常態分布 (標準差為 2, 變異數為 4)
> R = mean.range(rnorm(20, mean=3, sd=2), sigma=2)
> R
[1] 1.728047 2.604570 3.481093
> R = mean.range(rnorm(20, mean=3, sd=2), sigma=2)
> R
[1] 2.795340 3.671863 4.548385
> R = mean.range(rnorm(20, mean=3, sd=2), sigma=2)
> R
[1] 1.720384 2.596906 3.473429
> R = mean.range(rnorm(20, mean=3, sd=2), sigma=2)
> R
[1] 2.580179 3.456702 4.333224
> R = mean.range(rnorm(20, mean=3, sd=2), sigma=2)
> R
[1] 2.332650 3.209172 4.085695
>

範例二:母體的變異數未知的情況。

mean.range2 = function(x, alpha=0.05) {
    n = length(x) # n = 樣本數
    mx = mean(x) # mx 即為平均值 mu 的點估計
    S = sqrt(var(x)) # S 即為標準差的點估計
    r1 = qt(alpha/2, df=n-1) # 信賴區間,下半截掉 alpha/2
    r2 = qt(1-alpha/2, df=n-1) # 信賴區間,上半截掉 alpha/2
    L1 = mx-r2*S/sqrt(n) # 信賴區間下限
    L2 = mx-r1*S/sqrt(n) # 信賴區間上限
    range = c(L1, mx, L2)
}
> # 常態分布 (標準差為 2, 變異數為 4)
> R = mean.range2(rnorm(20, mean=3, sd=2))
> R
[1] 2.303155 3.239184 4.175213
> R = mean.range2(rnorm(20, mean=3, sd=2))
> R
[1] 2.210444 3.146473 4.082502
> R = mean.range2(rnorm(20, mean=3, sd=2))
> R
[1] 1.745906 2.681934 3.617963
> R = mean.range2(rnorm(20, mean=3, sd=2))
> R
[1] 1.950239 2.886268 3.822296
> R = mean.range2(rnorm(20, mean=3, sd=2))
> R
[1] 2.049205 2.985234 3.921263
> R = mean.range2(rnorm(20, mean=3, sd=2))
> R
[1] 2.313619 3.249648 4.185677
> 
> # 擲骰子
> R = mean.range2(sample(1:6, 10, replace=T))
> R
[1] 1.469286 2.900000 4.330714
> R = mean.range2(sample(1:6, 10, replace=T))
> R
[1] 1.569286 3.000000 4.430714
> R = mean.range2(sample(1:6, 10, replace=T))
> R
[1] 1.969286 3.400000 4.830714
> R = mean.range2(sample(1:6, 10, replace=T))
> R
[1] 2.269286 3.700000 5.130714
> R = mean.range2(sample(1:6, 10, replace=T))
> R
[1] 2.269286 3.700000 5.130714
> 
> # 丟銅板 10 次
> R = mean.range2(sample(0:1, 10, replace=T))
> R
[1] -0.9307138  0.5000000  1.9307138
> R = mean.range2(sample(0:1, 10, replace=T))
> R
[1] -0.8307138  0.6000000  2.0307138
> R = mean.range2(sample(0:1, 10, replace=T))
> R
[1] -0.9307138  0.5000000  1.9307138
> R = mean.range2(sample(0:1, 10, replace=T))
> R
[1] -1.030714  0.400000  1.830714
> R = mean.range2(sample(0:1, 10, replace=T))
> R
[1] -0.8307138  0.6000000  2.0307138
> 
> # 丟銅板 100 次
> R = mean.range2(sample(0:1, 100, replace=T))
> R
[1] 0.1131566 0.5100000 0.9068434
> R = mean.range2(sample(0:1, 100, replace=T))
> R
[1] 0.03315661 0.43000000 0.82684339
> R = mean.range2(sample(0:1, 100, replace=T))
> R
[1] 0.1631566 0.5600000 0.9568434
> R = mean.range2(sample(0:1, 100, replace=T))
> R
[1] 0.1231566 0.5200000 0.9168434
> R = mean.range2(sample(0:1, 100, replace=T))
> R
[1] 0.1631566 0.5600000 0.9568434
> R = mean.range2(sample(0:1, 100, replace=T))
> R
[1] -0.01684339  0.38000000  0.77684339
>

變異數的區間估計

var.range = function(x, alpha=0.05) {
    n  = length(x) # n = 樣本數
    r1 = qchisq(alpha/2, df=n-1) # 信賴區間,下半截掉 alpha/2
    r2 = qchisq(1-alpha/2, df=n-1) # 信賴區間,上半截掉 alpha/2
    S2  = var(x) # 樣本變異數
    L1 = (n-1)*S2/r2 # 信賴區間下限
    L2 = (n-1)*S2/r1 # 信賴區間上限
    range = c(L1, S2, L2) # 信賴區間
}
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1]  7.182354 12.418792 26.492630
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1]  3.783027  6.541118 13.953967
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1]  4.686703  8.103637 17.287242
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1]  3.758948  6.499484 13.865151
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1]  6.451399 11.154920 23.796450
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1]  5.710536  9.873916 21.063724
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1]  7.84639 13.56696 28.94197
# 擲骰子
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 1.607192 2.778947 5.928244
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 1.940502 3.355263 7.157681
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 2.319470 4.010526 8.555533
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 1.246487 2.155263 4.597757
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 1.637631 2.831579 6.040521
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 2.502106 4.326316 9.229198
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 1.059286 1.831579 3.907252
> # 丟銅板
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1524232 0.2500000 0.4838261
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1381971 0.2266667 0.4386690
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1564879 0.2566667 0.4967281
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1524232 0.2500000 0.4838261
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1463263 0.2400000 0.4644730
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1524232 0.2500000 0.4838261
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1524232 0.2500000 0.4838261

Facebook

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License