Information entropy(資訊熵)
以下為若無特別說明,皆討論離散隨機變數的性質。
資訊測度關係(離散隨機變數)
- Entropy(熵) : 隨機變數的資訊量。
- Joint etnropy(聯合熵) H(X,Y): 兩個隨機變數所含有的總資訊量。
- Mutual information*(互資訊) : 兩個隨機變數(分佈)的接近程度。
- Conditional entropy*(條件熵) or : 給定隨機變數之後,隨機變數的資訊量。
- Relative entropy*(相對熵) : 兩個隨機變數(分佈)的分散程度(此測度無交換性,不滿足metric space中distance function的定義,所以不應視為兩個隨機變數的距離)。
- 論文中較常用Kullback–Leibler(KL) divergence或information gain的名稱。
熵 (Entropy)
- .
- : (univariate) 離散隨機變數 的機率質量函數 (probability mass function).
- 熵是隨機變數的不確定性的平均度量數,隨機變數變異數越大,即隨機變數越"亂",則熵之值越大。
- 熵最大值發生在隨機變數為平均分佈(uniform distribution)時。
- 熵也可以解釋為使用binary編碼隨機變數時,平均的編碼長度。
- 是凹函數(concave function)(開口向下)。
Entropy properties
- If , the expected value of the random variable is .
- .
- .
- . .
Chain rule:
- .
.
.
可推廣至 .
Chain rule2:
.
.
聯合熵 (Joint entropy)
- 兩個隨機變數的熵,令為joint distribution。
- .
條件熵 (Conditional entropy)
- 條件熵無交換性,,因隨機變數與的資訊量不相同。
- . ** 可解釋為分佈的資訊量,減去給定的資訊量後資訊量,此時剩下的資訊為與共有的資訊,即.
- . ** 中,是隨機變數,而非定值。
互資訊 (Mutual information)
- 可解釋為聯合分配相對於兩變數為獨立分佈的分散程度。
- , then 即兩隨機變數獨立(indepedent),因為彼此之間沒有任何相關的訊息。
Mutual information properties
- .
- (Self information) .
相對熵 (Relative entropy), KL散度(Kullback-Leibler divergence)
- 此資訊測度非常重要,常用於給定的隨機變數(分佈)與資料的隨機變數(分佈)之間的最佳化。
- .
- Let , , .
- 通常為資料的分佈(未知),而為使用者給定的分佈(已知)。
- ,不滿足交換律,所以不符合distance function的定義。
條件互資訊(Conditional mutual information)
The uncertainty of due to the knowledge of when is given.
.
.