機率統計教學錄影數學符號數學基礎排列組合機率統計簡介機率機率公理隨機變數連續測度單一分布條件機率聯合分布貝氏定理動差生成函數特徵函數機率法則匯總離散分布二項分布多項分布負二項分布幾何分布超幾何分布布瓦松分布連續分布均勻分布常態分布Gamma 分布指數分布卡方分布柯西分布Weibull 分布T 分布F 分布Beta 分布多維分布統計抽樣敘述統計推論統計中央極限定理估計方法單組樣本估計兩組樣本估計檢定方法單組樣本檢定兩組樣本檢定平均値的推論變異數的推論無母數推論迴歸分析變異數分析實驗設計因子實驗品質管制時間序列數據分類統計定理匯總統計情況分類計算統計蒙地卡羅法最大似然法則假說與學習EM 算法簡單貝氏分類貝氏網路隨機過程馬可夫鏈蒙地卡羅馬可夫資源範例投影片教學錄影練習題考題解答訊息相關網站參考文獻最新修改簡體版English |
熵的定義熵,又稱為亂度,其意義是整個系統的平均資訊量,通常我們使用 H(X) 符號代表隨機變數 X 的熵。 (1)\begin{align} H(X) = \operatorname{E}(I(X)). \end{align}
其中的 E 代表期望值函數, I(X) 代表資訊量所形成的隨機變數。 (2)\begin{align} H(X) = \sum_{i=1}^n {p(x_i)\,I(x_i)} = -\sum_{i=1}^n {p(x_i) \log p(x_i)} \end{align}
H(X) 乃是一個凸函數 (Convex Function),因此具有許多良好的數學特性,這些特性讓熵再數學上成為一個相當有價值的工具。圖一顯示了一個只有兩個可能性 $p(x=1), p(x=0)$ 的機率分布,您可以從中觀察到這個凸函數的特性。 圖一、只有兩個可能值的熵函數 因此,H(X, Y) 即為包含 X, Y 兩個隨機變數系統的聯合熵。其直覺意義是,我們平均需要使用 H(X,Y) 個位元才能表達其中的一個 (x,y) 元素。假如 x 為已知的情況之下,那麼我們需要再加入多少位元才能表達其中的 (x,y) 元素呢?這就是 H(Y|X)的 意義。 聯合熵的定義條件熵條件熵 (Concitional Entropy) 的定義如下。 (3)\begin{eqnarray} H(Y|X)\ &\equiv& \sum_{x\in\mathcal X}\,p(x)\,H(Y|X=x)\\ &=& -\sum_{x\in\mathcal X}p(x)\sum_{y\in\mathcal Y}\,p(y|x)\,\log\,p(y|x)\\ &=& -\sum_{x\in\mathcal X}\sum_{y\in\mathcal Y}\,p(y,x)\,\log\,p(y|x)\\ &=& -\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)\log\,p(y|x). \end{eqnarray}
條件熵 H(Y|X) 相當於聯合熵 H(Y,X) 減去單獨的熵 H(X),其數學式如下所示。 (4)\begin{align} H(Y|X)\,=\,H(Y,X)-H(X) \, . \end{align}
(5)
\begin{eqnarray} H(X,Y) &=& -\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)log\,p(x,y)\\ &=& -\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)log\left(p(y|x)p(x)\right)\\ &=& -\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)log\,p(y|x) - \sum_{x\in\mathcal X, y\in\mathcal Y} p(x,y) log\,p(x)\\ &=& H(Y|X)-\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)log\,p(x)\\ &=& H(Y|X)-\sum_{x\in\mathcal X}\sum_{y\in\mathcal Y}p(x,y)log\,p(x)\\ &=& H(Y|X)-\sum_{x\in\mathcal X}log\,p(x)\sum_{y\in\mathcal Y}p(x,y)\\ &=& H(Y|X)-\sum_{x\in\mathcal X}(log\,p(x))p(x)\\ &=& H(Y|X)-\sum_{x\in\mathcal X}p(x)log\,p(x)\\ &=& H(Y|X)+H(X)\\ &=& H(X)+H(Y|X)\\ \end{eqnarray}
互資訊針對兩個隨機變數 X, Y,假如其機率分布分別為 $p_1(x), p_2(y)$, 而其聯合機率分布為 p(x,y),則 X, Y 的互資訊 I(X;Y) 定義如下。 (6)\begin{align} I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log{ \left( \frac{p(x,y)}{p_1(x)\,p_2(y)} \right) }, \,\! \end{align}
假如隨機變數 X 與 Y 無關 (條件獨立),則其互資訊將會為 0,由下式可得證。 (7)\begin{align} \log{ \left( \frac{p(x,y)}{p_1(x)\,p_2(y)} \right) } = \log{1} = 0 \end{align}
互資訊 I(X;Y) 代表兩個隨機變數間共有的訊息位元數 (關聯性),相當於隨機變數 X 的熵 H(X) 與條件熵 H(X | Y) 之間的差,互資訊與熵之間的關係如下所示。 (8)\begin{eqnarray} I(X;Y) &=& H(X) - H(X|Y) \\ &=& H(Y) - H(Y|X) \\ &=& H(X) + H(Y) - H(X,Y) \\ &=& H(X,Y) - H(X|Y) - H(Y|X) \end{eqnarray}
由於互資訊代表兩者之間的關聯性,關聯性越強者互資訊越大,因此可用互資訊量度兩個隨機變數之間的距離,我們可以定義量度方式 d(X,Y),代表兩個隨機變數 X, Y 之間的距離。 (9)\begin{equation} d(X,Y) = H(X,Y)-I(X;Y) \end{equation}
或者將其正規化後,成為下列量度方式 D(X,Y), (10)\begin{align} D(X,Y) = d(X,Y)/H(X,Y) \le 1 \end{align}
條件互資訊條件互資訊的定義如下,代表 (11)\begin{align} I(X;Y|Z) & \equiv & \mathbb E_Z \big(I(X;Y)|Z\big) & = & \sum_{z\in Z} \sum_{y\in Y} \sum_{x\in X} p_Z(z) p_{X,Y|Z}(x,y|z) \log \frac{p_{X,Y|Z}(x,y|z)}{p_{X|Z}(x|z)p_{Y|Z}(y|z)} \end{align}
上列算式可以進一部簡化如下 (12)\begin{align} I(X;Y|Z) = \sum_{z\in Z} \sum_{y\in Y} \sum_{x\in X} p_{X,Y,Z}(x,y,z) \log \frac{p_Z(z)p_{X,Y,Z}(x,y,z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}. \end{align}
多變數的條件互資訊可以用遞回方法定義,其數學式如下所示。 (13)\begin{align} I(X_1;\,...\,;X_n) = I(X_1;\,...\,;X_{n-1}) - I(X_1;\,...\,;X_{n-1}|X_n) \end{align}
(14)
\begin{align} I(X_1;\,...\,;X_{n-1}|X_n) = \mathbb E_{X_n} \big(I(X_1;\,...\,;X_{n-1})|X_n\big) \end{align}
注意事項
參考文獻
# |
互資訊與條件熵 (Mutual Information and Condictional Entropy)
page revision: 15, last edited: 11 Sep 2010 00:24
Post preview:
Close preview