互資訊與條件熵 (Mutual Information and Condictional Entropy)

機率統計

教學錄影

數學符號

數學基礎

排列組合

機率統計簡介

機率

機率公理

隨機變數

連續測度

單一分布

條件機率

聯合分布

貝氏定理

動差生成函數

特徵函數

機率法則匯總

離散分布

二項分布

多項分布

負二項分布

幾何分布

超幾何分布

布瓦松分布

連續分布

均勻分布

常態分布

Gamma 分布

指數分布

卡方分布

柯西分布

Weibull 分布

T 分布

F 分布

Beta 分布

多維分布

統計

抽樣

敘述統計

推論統計

中央極限定理

估計方法

單組樣本估計

兩組樣本估計

檢定方法

單組樣本檢定

兩組樣本檢定

平均値的推論

變異數的推論

無母數推論

迴歸分析

變異數分析

實驗設計

因子實驗

品質管制

時間序列

數據分類

統計定理匯總

統計情況分類

計算統計

蒙地卡羅法

最大似然法則

假說與學習

EM 算法

簡單貝氏分類

貝氏網路

隨機過程

馬可夫鏈

蒙地卡羅馬可夫

資源

範例

投影片

教學錄影

練習題

考題解答

訊息

相關網站

參考文獻

最新修改

簡體版

English

熵的定義

熵,又稱為亂度,其意義是整個系統的平均資訊量,通常我們使用 H(X) 符號代表隨機變數 X 的熵。

(1)
\begin{align} H(X) = \operatorname{E}(I(X)). \end{align}

其中的 E 代表期望值函數, I(X) 代表資訊量所形成的隨機變數。

(2)
\begin{align} H(X) = \sum_{i=1}^n {p(x_i)\,I(x_i)} = -\sum_{i=1}^n {p(x_i) \log p(x_i)} \end{align}

H(X) 乃是一個凸函數 (Convex Function),因此具有許多良好的數學特性,這些特性讓熵再數學上成為一個相當有價值的工具。圖一顯示了一個只有兩個可能性 $p(x=1), p(x=0)$ 的機率分布,您可以從中觀察到這個凸函數的特性。

Binary_entropy_plot.svg

圖一、只有兩個可能值的熵函數

因此,H(X, Y) 即為包含 X, Y 兩個隨機變數系統的聯合熵。其直覺意義是,我們平均需要使用 H(X,Y) 個位元才能表達其中的一個 (x,y) 元素。假如 x 為已知的情況之下,那麼我們需要再加入多少位元才能表達其中的 (x,y) 元素呢?這就是 H(Y|X)的 意義。

聯合熵的定義

條件熵

條件熵 (Concitional Entropy) 的定義如下。

(3)
\begin{eqnarray} H(Y|X)\ &\equiv& \sum_{x\in\mathcal X}\,p(x)\,H(Y|X=x)\\ &=& -\sum_{x\in\mathcal X}p(x)\sum_{y\in\mathcal Y}\,p(y|x)\,\log\,p(y|x)\\ &=& -\sum_{x\in\mathcal X}\sum_{y\in\mathcal Y}\,p(y,x)\,\log\,p(y|x)\\ &=& -\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)\log\,p(y|x). \end{eqnarray}

條件熵 H(Y|X) 相當於聯合熵 H(Y,X) 減去單獨的熵 H(X),其數學式如下所示。

(4)
\begin{align} H(Y|X)\,=\,H(Y,X)-H(X) \, . \end{align}

公式 的證明過程如下所示。

(5)
\begin{eqnarray} H(X,Y) &=& -\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)log\,p(x,y)\\ &=& -\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)log\left(p(y|x)p(x)\right)\\ &=& -\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)log\,p(y|x) - \sum_{x\in\mathcal X, y\in\mathcal Y} p(x,y) log\,p(x)\\ &=& H(Y|X)-\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)log\,p(x)\\ &=& H(Y|X)-\sum_{x\in\mathcal X}\sum_{y\in\mathcal Y}p(x,y)log\,p(x)\\ &=& H(Y|X)-\sum_{x\in\mathcal X}log\,p(x)\sum_{y\in\mathcal Y}p(x,y)\\ &=& H(Y|X)-\sum_{x\in\mathcal X}(log\,p(x))p(x)\\ &=& H(Y|X)-\sum_{x\in\mathcal X}p(x)log\,p(x)\\ &=& H(Y|X)+H(X)\\ &=& H(X)+H(Y|X)\\ \end{eqnarray}

互資訊

針對兩個隨機變數 X, Y,假如其機率分布分別為 $p_1(x), p_2(y)$, 而其聯合機率分布為 p(x,y),則 X, Y 的互資訊 I(X;Y) 定義如下。

(6)
\begin{align} I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log{ \left( \frac{p(x,y)}{p_1(x)\,p_2(y)} \right) }, \,\! \end{align}

假如隨機變數 X 與 Y 無關 (條件獨立),則其互資訊將會為 0,由下式可得證。

(7)
\begin{align} \log{ \left( \frac{p(x,y)}{p_1(x)\,p_2(y)} \right) } = \log{1} = 0 \end{align}

互資訊 I(X;Y) 代表兩個隨機變數間共有的訊息位元數 (關聯性),相當於隨機變數 X 的熵 H(X) 與條件熵 H(X | Y) 之間的差,互資訊與熵之間的關係如下所示。

(8)
\begin{eqnarray} I(X;Y) &=& H(X) - H(X|Y) \\ &=& H(Y) - H(Y|X) \\ &=& H(X) + H(Y) - H(X,Y) \\ &=& H(X,Y) - H(X|Y) - H(Y|X) \end{eqnarray}

由於互資訊代表兩者之間的關聯性,關聯性越強者互資訊越大,因此可用互資訊量度兩個隨機變數之間的距離,我們可以定義量度方式 d(X,Y),代表兩個隨機變數 X, Y 之間的距離。

(9)
\begin{equation} d(X,Y) = H(X,Y)-I(X;Y) \end{equation}

或者將其正規化後,成為下列量度方式 D(X,Y),

(10)
\begin{align} D(X,Y) = d(X,Y)/H(X,Y) \le 1 \end{align}

條件互資訊

條件互資訊的定義如下,代表

(11)
\begin{align} I(X;Y|Z) & \equiv & \mathbb E_Z \big(I(X;Y)|Z\big) & = & \sum_{z\in Z} \sum_{y\in Y} \sum_{x\in X} p_Z(z) p_{X,Y|Z}(x,y|z) \log \frac{p_{X,Y|Z}(x,y|z)}{p_{X|Z}(x|z)p_{Y|Z}(y|z)} \end{align}

上列算式可以進一部簡化如下

(12)
\begin{align} I(X;Y|Z) = \sum_{z\in Z} \sum_{y\in Y} \sum_{x\in X} p_{X,Y,Z}(x,y,z) \log \frac{p_Z(z)p_{X,Y,Z}(x,y,z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}. \end{align}

多變數的條件互資訊可以用遞回方法定義,其數學式如下所示。

(13)
\begin{align} I(X_1;\,...\,;X_n) = I(X_1;\,...\,;X_{n-1}) - I(X_1;\,...\,;X_{n-1}|X_n) \end{align}
(14)
\begin{align} I(X_1;\,...\,;X_{n-1}|X_n) = \mathbb E_{X_n} \big(I(X_1;\,...\,;X_{n-1})|X_n\big) \end{align}

注意事項

  1. 本文由維基百科修改而來,修改使用時請遵照 Creative Commons Attribution-ShareAlike License 授權協議。

參考文獻

  1. Wikipedia contributors. Entropy (information theory). Wikipedia, The Free Encyclopedia. November 30, 2009, 18:28 UTC. Available at: http://en.wikipedia.org/w/index.php?title=Entropy_(information_theory)&oldid=328845498. Accessed December 3, 2009.
  2. Wikipedia contributors. Mutual information. Wikipedia, The Free Encyclopedia. November 30, 2009, 23:33 UTC. Available at: http://en.wikipedia.org/w/index.php?title=Mutual_information&oldid=328909860. Accessed December 3, 2009.

#

Facebook

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License