迴歸模型與分析

機率統計

教學錄影

數學符號

數學基礎

排列組合

機率統計簡介

機率

機率公理

隨機變數

連續測度

單一分布

條件機率

聯合分布

貝氏定理

動差生成函數

特徵函數

機率法則匯總

離散分布

二項分布

多項分布

負二項分布

幾何分布

超幾何分布

布瓦松分布

連續分布

均勻分布

常態分布

Gamma 分布

指數分布

卡方分布

柯西分布

Weibull 分布

T 分布

F 分布

Beta 分布

多維分布

統計

抽樣

敘述統計

推論統計

中央極限定理

估計方法

單組樣本估計

兩組樣本估計

檢定方法

單組樣本檢定

兩組樣本檢定

平均値的推論

變異數的推論

無母數推論

迴歸分析

變異數分析

實驗設計

因子實驗

品質管制

時間序列

數據分類

統計定理匯總

統計情況分類

計算統計

蒙地卡羅法

最大似然法則

假說與學習

EM 算法

簡單貝氏分類

貝氏網路

隨機過程

馬可夫鏈

蒙地卡羅馬可夫

資源

範例

投影片

教學錄影

練習題

考題解答

訊息

相關網站

參考文獻

最新修改

簡體版

English

迴歸

  • 假設:
    1. 自變數 X 不是一種隨機變數,而是一種數學變數。
    2. 依變數 Y 是一種條件隨機變數,記為 Y|x
    3. Y|x 的平均值 E(Y|x) 記為 $\mu_{Y|x}$
    4. $\mu_{Y|x}$ 所形成的曲線稱為 Y 對 X 的迴歸曲線 (curve of regression of Y on X)。
      • X 用來幫助預測 Y|x 的行為,被稱為獨力變數 (independent variable),預測變數 (predictor variable) 或迴歸變數 (regressor)。
      • Y 根據 X 值而改變,因此稱為依變數 (dependent variable) 或稱為反應變數 (response variable)。

簡單線性迴歸模型:(Simple Linear Regression Model)

  • Y 對 X 的線性迴歸曲線:$\mu_{Y|x} = \beta_0 + \beta_1 x$
  • 模型:$Y_i = \beta_0 + \beta_1 x_i + E_i$ ; 其中的 $\beta_0$ 代表截距 ; $\beta_1$ 代表斜率
  • 樣本:$y_i = \beta_0 + \beta_1 x_i + e_i$ ; 其中的 $e_i$ 稱為殘差誤差 (residual error)
  • 點估計:我們可以用最小平方估計值 $b_0, b_1$ 取代 $\beta_0, \beta_1$
(1)
\begin{eqnarray} b_1 &=& \frac{n \sum_{i=1}^n x_i y_i - \left( \sum_{i=1}^n x_i \right) \left( \sum_{i=1}^n y_i \right)}{n \sum_{i=1}^n x_i^2 - \left( \sum_{i=1}^n x_i \right)^2} \\ b_0 &=& \bar{y} - b_1 \bar{x} \end{eqnarray}
  • 最小平方估計式:
(2)
\begin{eqnarray} B_1 &=& \hat{\beta_1} = \frac{n \sum_{i=1}^n x_i Y_i - \left( \sum_{i=1}^n x_i \right) \left( \sum_{i=1}^n Y_i \right)}{n \sum_{i=1}^n x_i^2 - \left( \sum_{i=1}^n x_i \right)^2} \\ B_0 &=& \hat{\beta_0} = \bar{Y} - B_1 \bar{x} \end{eqnarray}
  • 誤差平方和 (error sum of squares):
(3)
\begin{align} SSE = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^n (y_i - b_0 - b_1 x_i)^2 \end{align}
  • 區間估計:用來檢定迴歸線有多符合樣本數據 (迴歸顯著嗎?)
    • 斜率 $B_1$ 的點估計、區間估計與檢定
    • 截距 $B_0$ 的點估計、區間估計與檢定
    • 估計式 $\hat{Y}|x =\hat{\mu}_{Y|x} = B_0 + B_1 x = \bar{Y} + B_1 (x-\bar{x})$ 的點估計、區間估計與檢定
    • 殘差分析:分析誤差的型態 (是否適合固定變異數,常態分布的條件等等)
    • 相關係數的點估計、區間估計與檢定
(4)
\begin{align} \hat{\rho} = R = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} = r = \frac{ n \sum xy - \sum x \sum y }{\sqrt{[n \sum x^2 - (\sum x)^2] [n \sum y^2 - (\sum y)^2] }} \end{align}

複線性迴歸模型:(Multiple Linear Regression Model)

  • 複線性迴歸模型:$\mu_{Y|x_1, x_2, ..., x_k} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n$
  • p 階多項式模型:$\mu_{Y|x} = \beta_0 + \beta_1 x + \beta_2 x^2 + ... + \beta_n x^n$
  • 矩陣公式:$\Bbb{ Y = X \beta + E }$ ; 其中的 E 為誤差部分,也就是殘差
    • 矩陣法可以解複線性迴規,也可以解 p 階多項式,是一般通用的線性方程式解法。
    • 最小平方估計式:$\hat{\beta} = \Bbb{ b = (X'X)^{-1} X' y }$ ; 其中的 E 為誤差部分,也就是殘差。
      • 變異數的算式: $Var(\hat{\beta}) = \Bbb{[(X'X)^{-1} X'] } Var(\hat{\Bbb{Y}}) \Bbb{[X (X'X)^{-1}] = \rho^2 (X'X)^{-1} }$
      • 變異數的估計式: $\hat{\rho}^2 = S^2 = SSE/(n-k-1)$
      • 區間估計:平均的信賴區間,單一預測反應值的預測區間
      • 檢定:單一預測變數的檢定,顯著回歸的檢定,預測變數子集合的檢定 (看是否能去掉一些變數仍然有足夠的預測能力)
      • 變數:加入屬性變數 (分類變數),考慮選擇變數的準則 (前進選擇法、後退消去法、逐步迴歸法、最大化 $R^2$ 法、$Mallow's C_k$ 統計量、PRESS 統計量)。
      • 變形:模型轉換 (指數模型 [線性轉球狀]、乘冪模型、倒數模型)。

範例:眼睛疾病與年齡的關係 (Silvey [1970] 提供的假想小範例)

年齡 (Age) 20 35 45 55 70
測試樣本數 50 50 50 50 50
眼睛失明數 6 17 26 37 44

想要知道:

  • 這組數據是否符合 Logistic 和 Probit 模型,並分別估計其 LD50 統計值。
    • 在此 LD50 代表一個男性居民盲眼的機率為 50% 時的年齡。

R 程式範例:

> weight = rnorm(100, 60, 10)
> height = rnorm(100, 170, 20)
> plot(weight, height)
>
weightHeightPlot.jpg
> lm(height~weight)

Call:
lm(formula = height ~ weight)

Coefficients:
(Intercept)       weight  
   166.8733       0.0531  

> summary(lm(height~weight))

Call:
lm(formula = height ~ weight)

Residuals:
    Min      1Q  Median      3Q     Max 
-47.165 -15.268   0.384  14.527  40.083 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 166.8733    13.4913  12.369   <2e-16 ***
weight        0.0531     0.2201   0.241     0.81    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 18.4 on 98 degrees of freedom
Multiple R-squared: 0.0005939,  Adjusted R-squared: -0.009604 
F-statistic: 0.05823 on 1 and 98 DF,  p-value: 0.8098 

>

參考文獻

  1. 《R导论》PDF 版本 — http://www.biosino.org/R/R-doc/files/R-intro_cn.pdf
    • Silvey [1970] 的範例的來源為:第 76 頁 (11.6 廣義線性模型)

Facebook

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License