機率統計教學錄影數學符號數學基礎排列組合機率統計簡介機率機率公理隨機變數連續測度單一分布條件機率聯合分布貝氏定理動差生成函數特徵函數機率法則匯總離散分布二項分布多項分布負二項分布幾何分布超幾何分布布瓦松分布連續分布均勻分布常態分布Gamma 分布指數分布卡方分布柯西分布Weibull 分布T 分布F 分布Beta 分布多維分布統計抽樣敘述統計推論統計中央極限定理估計方法單組樣本估計兩組樣本估計檢定方法單組樣本檢定兩組樣本檢定平均値的推論變異數的推論無母數推論迴歸分析變異數分析實驗設計因子實驗品質管制時間序列數據分類統計定理匯總統計情況分類計算統計蒙地卡羅法最大似然法則假說與學習EM 算法簡單貝氏分類貝氏網路隨機過程馬可夫鏈蒙地卡羅馬可夫資源範例投影片教學錄影練習題考題解答訊息相關網站參考文獻最新修改簡體版English |
簡介在機率理論中,所謂的機率模型,通常是指某種機率獨立性的假設。舉例而言,在簡單貝氏模型 (Naive Bayes Model) 當中,就假設所有的隨機變數 X1, X2,…, Xn 相對於某個前提 C 而言都是條件獨立的,因此可以寫成如下算式。 (1)\begin{equation} P(x_1, .., x_n | c) = P(x_1|c) ... P(x_n | c) \end{equation}
這種機率獨立性的假設,就是一種統計上的假說,我們必須驗證這樣的假說是否合理,如果驗證合理才能使用該公式,否則將會造成龐大的誤差。 計算統計學中的假說有時候,我們會將假說的概念 h 放入機率分布函數中,當成機率分布的參數之一,例如 P(x, h) 其實代表了由 h 假說所決定的一個機率特定機率分布 p,作用在樣本 x 上的結果 。 在具有假說 h 的情況之下,P(h) 代表由假說 h 所決定的一個機率分布,這是一個特定的機率分布,按照上述規則,原本應該用某個小寫的 p 所代表,但是由於引入了函數形式的關係,我們用 P(h) 代表該假說所決定的特定機率分布。 大寫的 P 符號通常則代表假說 $P(h_1), P(h_2), ... P(h_n)$ 所形成的機率分布集合,計算統計學的主要任務是找出最好的假說,以便用該假說的機率分布進行預測。這個尋找最佳假說的過程可用下列公式表達。 (2)\begin{eqnarray} && \arg\max_h P(h|x,y) \\ &=& \arg\max_h P(x,y|h) \frac{P(h)}{P(x,y)} &; by\,bayes\,theorem\\ \end{eqnarray}
計算統計學通常會用程式 (演算法) 尋找最符合訓練資料 $(x_1,y_1) (x_2,y_2) ...., (x_n,y_n)$ 的假說 P(h),這個過程稱為學習。當電腦完成學習的程序之後,就可以利用 P(h) 預測整個系統的下一個輸出之機率。 通常在預測進行時系統會取得某些輸入值 x,然後再利用該輸入值找到一個最可能的輸出值,也就是找到讓 P(y|x,h) 最大的輸出 y,因此整個預測程序仍然是一個最佳化的過程,如下列公式所示。 (3)\begin{align} \arg\max_y P(y|x,h) \end{align}
計算統計學中的學習要找出計算統計學中的最佳假說,通常採用最大似然法則作為最佳化的目標算式,但實際上最大似然法則與最大商法則乃是一體的兩面,因此也常採用最大商法則進行學習。 最大商法則 與 最大似然法則 (4)\begin{eqnarray} && \sum_z P(Z=z|x,h) L(x,Z=z|h) \\ &=& \sum_z \frac{P(x,Z=z,h)}{P(x,h)} \log P(x,Z=z|h) \\ &=& \frac{1}{P(x,h)} \sum_z P(x,Z=z,h) \log P(x,Z=z|h) \\ &=& \frac{1}{P(x,h)} H(x,Z|h) \\ \end{eqnarray}
|
計算統計學 -- 機率模型:假說與學習
page revision: 5, last edited: 25 Aug 2011 07:07
Post preview:
Close preview