估計的參數種類
根據單一母體所抽出的樣本,推論統計可以猜測母體中隨機變數 X 的下列特性:
- 可能屬於哪一類型的分布? (distribution, 二項、布瓦松、均等、常態、指數、卡方….)
- 其平均值的可能點預估? ($\mu$:mean 的點估計)
- 其變異數的可能點預估? ($\delta$:variance 的點估計)
- 機率 p 的可能點預估? (p 的點估計)
- 各種分布參數的可能點預估? (parameters, $\lambda , \delta , \alpha , \beta$)
- 平均數的可能範圍? ($\mu$:mean 的區間估計)
- 變異數的可能範圍? ($\delta$:variance 的區間估計)
- 機率 p 的可能範圍? (p 的區間估計)
- 各種分布參數的可能範圍預估? (parameters, $\lambda , \delta , \alpha , \beta$ 的區間估計)
平均值的估計
- 定理:$\bar{X}$ 為 $E(X) = \mu$ 的不偏估計式。
- 定理:$\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 服從標準常態分布。(條件是樣本數夠多,根據中央極限定理)
平均值的信賴區間
第一種情況:在變異數 $\sigma^2$ 已知的情況之下,應該用常態分配估計 $\mu$ 的信賴區間。
(1)
\begin{align} P[L1 \le Z \le L2] = 1-\alpha \end{align}
通常我們將區間的兩邊取平均,得到 $\alpha$ 的値
(2)
\begin{eqnarray} && P[L1 \le Z \le L2] &=& 1-\alpha && ; 常態分布的信賴區間 \\ && P[L1 \le \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \le L2] &=& 1-\alpha && ; 因為 \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} 服從常態分布 \\ && P[L1 \frac{\sigma}{\sqrt{n}} \le \bar{X}-\mu \le L2 \frac{\sigma}{\sqrt{n}}] &=& 1-\alpha && ; 乘以 \frac{\sigma}{\sqrt{n}} \\ && P[-\bar{X}+L1 \frac{\sigma}{\sqrt{n}} \le -\mu \le -\bar{X} + L2 \frac{\sigma}{\sqrt{n}}] &=& 1-\alpha && ; 減去 \bar{X} \\ && P[\bar{X}-L1 \frac{\sigma}{\sqrt{n}} \ge \mu \ge \bar{X} - L2 \frac{\sigma}{\sqrt{n}}] &=& 1-\alpha && ; 乘以 -1 並改 \le 為 \ge \\ && P[\bar{X}-L2 \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X} - L1 \frac{\sigma}{\sqrt{n}}] &=& 1-\alpha && ; 將整個算式反向寫出 \end{eqnarray}
結論:在變異數 $\sigma^2$ 已知的情況之下,$\mu$ 的信賴區間公式如下。
(3)
\begin{align} P[\bar{X}-Z_{1-\alpha/2} \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X} - Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}] = 1-\alpha \end{align}
- 用法:L 是滿足 $P[-L \le Z \le L] = 1-\alpha$ 情況的 L 値,我們可以利用「累加常態分布表」查詢出 $P[Z\le z] = \frac{1-\alpha}{2}$ 的 z 値,該値即為滿足 $P[-L \le Z \le L] = 1-\alpha$ 的 L 値。然後將此 L 値代入上列最後一個算式,即可得到 $\mu$ 值的信賴區間。
第二種情況:在變異數 $\sigma^2$ 未知的情況之下,應該用 T 分配估計 $\mu$ 的信賴區間。
說明:因為變異數 $\sigma^2$ 未知,此時必須改用樣本變異數 $S^2$ 對變異數進行估計,因此引入了另一層的誤差,這是為何改用 T 分布的原因。
(4)
\begin{align} T = \frac{Z}{\sqrt{\chi_{\gamma}^2/{\gamma}}} \end{align}
結論:在變異數 $\sigma^2$ 未知的情況之下,$\mu$ 的信賴區間公式如下。
(5)
\begin{align} P[\bar{X} - T_{1-\alpha/2} \frac{S}{\sqrt{n}} \le \mu \le \bar{X} - T_{\alpha/2} \frac{S}{\sqrt{n}}] = 1-\alpha \end{align}
比例的估計
問題:假設 X 為某種 {0,1} 隨機變數,其中 $P[X=1] = p$,那麼我們如何根據樣本推估出 p 値呢?
(6)
\begin{align} \hat{p} = \frac{X}{n} = \frac{具有某特性的樣本數量}{所有樣本數量} \end{align}
說明:比例 $\hat{p} = \bar{X}$ 是一種 {0,1} 的特殊隨機變數之平均,因此根據中央極限定理 $\hat{p}$ 趨近於常態分配。
期望値:$E[X] = 1 * p + 0 (1-p) = p$
二級動差:$E[X^2] = 1^2 * p + 0^2 (1-p) = p$
變異數:$Var(X) = E[X^2] - E[X]^2 = p - p*p = p(1-p)$
比例的信賴區間
根據平均值的估計法,$\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 會趨近於標準常態分布 Z,套用到比例上後:$\mu = p$, $\sigma = \sqrt{p(1-p)}$,因此下列算式會趨近於 Z。
(7)
\begin{align} \frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \end{align}
變異數的估計
- 定理:$Var(\bar{X}) = \frac{\sigma^2}{n}$
- 定義:$\bar{X}$ 的標準差為 $\frac{\sigma}{\sqrt{n}}$,稱為平均標準誤。
(8)
\begin{align} S^2 = \sum_{i=1}^n \frac{(X_i - \bar{X})^2}{n-1} = \frac{n \sum_{i=1}^n X_i^2 - (\sum_{i=1}^n Xi)^2}{n (n-1)} \end{align}
- 定理:$S^2$ 是 $\sigma^2$ 的不偏估計式。
(9)
\begin{align} \frac{(n-1) S^2}{\sigma^2} = \frac{\sum_{i=1}^n (X_i-\bar{X})^2 }{\sigma^2} \end{align}
變異數的信賴區間
$\sigma^2$ 的信賴區間為:
(10)
\begin{eqnarray} && P[\chi_{\alpha/2}^2 \le \frac{(n-1) S^2}{\sigma^2} \le \chi_{1-\alpha/2}^2] &=& 1-\alpha \\ \end{eqnarray}
也就是:
(11)
\begin{eqnarray} && P[\frac{(n-1) S^2}{\chi_{1-\alpha/2}^2} \le \sigma^2 \le \frac{(n-1) S^2}{\chi_{\alpha/2}^2}] &=& 1-\alpha \\ \end{eqnarray}
請注意:累積卡方分布通常有分為「右尾累積」與「左尾累積」,本公式中的 $\chi_{\alpha/2}$ 是根據「左尾累積」表所設計的。
如果按右尾累積表則公式應該改為:$P[\frac{(n-1) S^2}{\chi_{\alpha/2}^2} \le \sigma^2 \le \frac{(n-1) S^2}{\chi_{1-\alpha/2}^2}] = 1-\alpha$
R 程式範例
平均值的區間估計
範例一:母體的變異數已知的情況
mean.range = function(x, alpha=0.05, sigma) {
n = length(x) # n = 樣本數
mx = mean(x) # mx 即為平均值 mu 的點估計
r1 = qnorm(alpha/2) # 信賴區間,下半截掉 alpha/2
r2 = qnorm(1-alpha/2) # 信賴區間,上半截掉 alpha/2
L1 = mx-r2*sigma/sqrt(n) # 信賴區間下限
L2 = mx-r1*sigma/sqrt(n) # 信賴區間上限
range = c(L1, mx, L2) # 信賴區間
}
以下的母體的標準差為 $\sigma=2$,也就是變異數 $\sigma^2 = 4$
# 常態分布 (標準差為 2, 變異數為 4)
> R = mean.range(rnorm(20, mean=3, sd=2), sigma=2)
> R
[1] 1.728047 2.604570 3.481093
> R = mean.range(rnorm(20, mean=3, sd=2), sigma=2)
> R
[1] 2.795340 3.671863 4.548385
> R = mean.range(rnorm(20, mean=3, sd=2), sigma=2)
> R
[1] 1.720384 2.596906 3.473429
> R = mean.range(rnorm(20, mean=3, sd=2), sigma=2)
> R
[1] 2.580179 3.456702 4.333224
> R = mean.range(rnorm(20, mean=3, sd=2), sigma=2)
> R
[1] 2.332650 3.209172 4.085695
>
範例二:母體的變異數未知的情況。
mean.range2 = function(x, alpha=0.05) {
n = length(x) # n = 樣本數
mx = mean(x) # mx 即為平均值 mu 的點估計
S = sqrt(var(x)) # S 即為標準差的點估計
r1 = qt(alpha/2, df=n-1) # 信賴區間,下半截掉 alpha/2
r2 = qt(1-alpha/2, df=n-1) # 信賴區間,上半截掉 alpha/2
L1 = mx-r2*S/sqrt(n) # 信賴區間下限
L2 = mx-r1*S/sqrt(n) # 信賴區間上限
range = c(L1, mx, L2)
}
> # 常態分布 (標準差為 2, 變異數為 4)
> R = mean.range2(rnorm(20, mean=3, sd=2))
> R
[1] 2.303155 3.239184 4.175213
> R = mean.range2(rnorm(20, mean=3, sd=2))
> R
[1] 2.210444 3.146473 4.082502
> R = mean.range2(rnorm(20, mean=3, sd=2))
> R
[1] 1.745906 2.681934 3.617963
> R = mean.range2(rnorm(20, mean=3, sd=2))
> R
[1] 1.950239 2.886268 3.822296
> R = mean.range2(rnorm(20, mean=3, sd=2))
> R
[1] 2.049205 2.985234 3.921263
> R = mean.range2(rnorm(20, mean=3, sd=2))
> R
[1] 2.313619 3.249648 4.185677
>
> # 擲骰子
> R = mean.range2(sample(1:6, 10, replace=T))
> R
[1] 1.469286 2.900000 4.330714
> R = mean.range2(sample(1:6, 10, replace=T))
> R
[1] 1.569286 3.000000 4.430714
> R = mean.range2(sample(1:6, 10, replace=T))
> R
[1] 1.969286 3.400000 4.830714
> R = mean.range2(sample(1:6, 10, replace=T))
> R
[1] 2.269286 3.700000 5.130714
> R = mean.range2(sample(1:6, 10, replace=T))
> R
[1] 2.269286 3.700000 5.130714
>
> # 丟銅板 10 次
> R = mean.range2(sample(0:1, 10, replace=T))
> R
[1] -0.9307138 0.5000000 1.9307138
> R = mean.range2(sample(0:1, 10, replace=T))
> R
[1] -0.8307138 0.6000000 2.0307138
> R = mean.range2(sample(0:1, 10, replace=T))
> R
[1] -0.9307138 0.5000000 1.9307138
> R = mean.range2(sample(0:1, 10, replace=T))
> R
[1] -1.030714 0.400000 1.830714
> R = mean.range2(sample(0:1, 10, replace=T))
> R
[1] -0.8307138 0.6000000 2.0307138
>
> # 丟銅板 100 次
> R = mean.range2(sample(0:1, 100, replace=T))
> R
[1] 0.1131566 0.5100000 0.9068434
> R = mean.range2(sample(0:1, 100, replace=T))
> R
[1] 0.03315661 0.43000000 0.82684339
> R = mean.range2(sample(0:1, 100, replace=T))
> R
[1] 0.1631566 0.5600000 0.9568434
> R = mean.range2(sample(0:1, 100, replace=T))
> R
[1] 0.1231566 0.5200000 0.9168434
> R = mean.range2(sample(0:1, 100, replace=T))
> R
[1] 0.1631566 0.5600000 0.9568434
> R = mean.range2(sample(0:1, 100, replace=T))
> R
[1] -0.01684339 0.38000000 0.77684339
>
變異數的區間估計
var.range = function(x, alpha=0.05) {
n = length(x) # n = 樣本數
r1 = qchisq(alpha/2, df=n-1) # 信賴區間,下半截掉 alpha/2
r2 = qchisq(1-alpha/2, df=n-1) # 信賴區間,上半截掉 alpha/2
S2 = var(x) # 樣本變異數
L1 = (n-1)*S2/r2 # 信賴區間下限
L2 = (n-1)*S2/r1 # 信賴區間上限
range = c(L1, S2, L2) # 信賴區間
}
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1] 7.182354 12.418792 26.492630
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1] 3.783027 6.541118 13.953967
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1] 4.686703 8.103637 17.287242
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1] 3.758948 6.499484 13.865151
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1] 6.451399 11.154920 23.796450
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1] 5.710536 9.873916 21.063724
> R=var.range(rnorm(20, mean=5, sd=3))
> R
[1] 7.84639 13.56696 28.94197
# 擲骰子
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 1.607192 2.778947 5.928244
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 1.940502 3.355263 7.157681
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 2.319470 4.010526 8.555533
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 1.246487 2.155263 4.597757
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 1.637631 2.831579 6.040521
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 2.502106 4.326316 9.229198
> R = var.range(sample(1:6, 20, replace=T))
> R
[1] 1.059286 1.831579 3.907252
> # 丟銅板
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1524232 0.2500000 0.4838261
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1381971 0.2266667 0.4386690
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1564879 0.2566667 0.4967281
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1524232 0.2500000 0.4838261
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1463263 0.2400000 0.4644730
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1524232 0.2500000 0.4838261
> R = var.range(sample(0:1, 25, replace=T))
> R
[1] 0.1524232 0.2500000 0.4838261
Facebook
Post preview:
Close preview