Information entropy(資訊熵)

以下為若無特別說明,皆討論離散隨機變數的性質。

資訊測度關係(離散隨機變數)

  • Entropy(熵) H(X)H(X): 隨機變數的資訊量。
  • Joint etnropy(聯合熵) H(X,Y): 兩個隨機變數所含有的總資訊量。
  • Mutual information*(互資訊) I(X;Y)I(X;Y): 兩個隨機變數(分佈)的接近程度。
  • Conditional entropy*(條件熵) H(XY)H(X|Y) or H(YX)H(Y|X) : 給定隨機變數XX之後,隨機變數YY的資訊量。
  • Relative entropy*(相對熵) D(PQ)D(P||Q): 兩個隨機變數(分佈)的分散程度(此測度無交換性,不滿足metric space中distance function的定義,所以不應視為兩個隨機變數的距離)。
    • 論文中較常用Kullback–Leibler(KL) divergenceinformation gain的名稱。

熵 (Entropy)

  • H(X)=xXp(x)log2(x)H(X) = -\sum_{x \in X} p(x) \log_2(x).
    • p(X)p(X): (univariate) 離散隨機變數 XX的機率質量函數 (probability mass function).
  • 熵是隨機變數的不確定性的平均度量數,隨機變數變異數越大,即隨機變數越"亂",則熵之值越大。
  • 熵最大值發生在隨機變數為平均分佈(uniform distribution)時。
  • 熵也可以解釋為使用binary編碼隨機變數時,平均的編碼長度。
  • H(X)H(X)是凹函數(concave function)(開口向下)。

Entropy properties

  • If XP(X)X \sim P(X), the expected value of the random variable g(X)g(X) is EP(g(X))=xXg(x)P(x)E_P(g(X))=\sum_{x\in X} g(x)P(x).
  • H(X)=xXP(x)logP(x)=EP(log1P(x))H(X) = -\sum_{x \in X} P(x)\log{P(x)} = E_P\left(\log{\frac{1}{P(x)}}\right).
  • H(X)0H(X) \geq 0. [0P(x)1log(1P(x))0]\left[ \because 0 \leq P(x) \leq 1 \Rightarrow \log{\left( \frac{1}{P(x)} \right)} \geq 0 \right]
  • Hb(X)=(logb(a))Ha(X)H_b(X) = \left( \log_b{(a)} \right) H_a(X). [logb(p)=logb(a)loga(p)]\left[ \because \log_b(p) = \log_b(a) \log_a(p) \right].
  • Chain rule:

    • H(X,Y)=H(X)+H(YX)=H(Y)+H(YX)H(X,Y) = H(X) + H(Y|X) = H(Y) + H(Y|X).
    • H(X,Y)=xXyYP(x,y)logP(x,y)=xXyYP(x,y)log(P(x)P(yx))=xinXyYP(x,y)logP(x)xXyYP(x,y)logP(yx)=xXP(x)logP(x)xXyYP(x,y)logP(yx)=H(X)+H(YX).\begin{array}{rcl} H(X,Y) & = & - \sum_{x \in X} \sum_{y \in Y} P(x,y) \log{P(x,y)} \\ & = & - \sum_{x \in X} \sum_{y \in Y} P(x,y) \log{(P(x) P(y|x))} \\ & = & - \sum_{ x in X} \sum_{y \in Y} P(x,y)\log{P(x)} - \sum_{x \in X} \sum_{y \in Y} P(x,y) \log{P(y|x)} \\ & = & - \sum_{x \in X} P(x)\log{P(x)} - \sum_{x \in X} \sum_{y \in Y} P(x,y) \log{P(y|x)} \\ & = & H(X) + H(Y|X). \end{array}.

      • logP(X,Y)=logP(X)+logP(YX) \log{P(X,Y)} =\log{P(X)} + \log{P(Y|X)} .

      • 可推廣至 H(X,YZ)=H(XZ)+H(XY,Z)=H(YZ)+H(YX,Z)H(X,Y|Z)=H(X|Z) + H(X|Y,Z)=H(Y|Z) + H(Y|X,Z).

  • Chain rule2:

    • H(X1,X2,Xn)=i=1nH(XiXi1,Xi2,,X1)H(X_1, X_2, \cdots X_n) = \sum_{i=1}^{n} H(X_i | X_{i-1}, X_{i-2}, \cdots, X_1)

      • H(X1,X2)=H(X1)+H(X2X1)H(X_1, X_2) = H(X_1) + H(X_2 | X_1).

      • H(X1,X2,X3)=H(X1)+H(X2,X3X1)=H(X1)+H(X2X1)+H(X3X1,X2)H(X_1, X_2, X_3) = H(X_1) + H(X_2, X_3 | X_1) = H(X_1) + H(X_2|X_1) + H(X_3|X_1, X_2).

聯合熵 (Joint entropy)

  • 兩個隨機變數的熵,令P(X,Y)P(X,Y)為joint distribution。
  • H(X,Y)=xXyYP(x,y)logP(x,y)=E(logP(x,y))H(X, Y) = -\sum_{x \in X} \sum_{y \in Y} P(x,y)\log{P(x,y)} = -E(\log{P(x,y)}).

條件熵 (Conditional entropy)

  • 條件熵無交換性,H(XY)H(YX)H(X|Y) \neq H(Y|X),因隨機變數XXYY的資訊量不相同。
  • H(X)H(XY)=H(Y)H(YX)=I(X;Y)H(X) - H(X|Y) = H(Y) - H(Y|X) = I(X;Y). ** H(X)H(XY)H(X) - H(X|Y)可解釋為分佈XX的資訊量,減去給定YY的資訊量後XX資訊量,此時剩下的資訊為XXYY共有的資訊,即I(X;Y)I(X;Y).
  • H(YX)=xXP(x)H(YX=x)=xXP(x)yYP(yx)logP(yx)=xXyYP(x,y)logP(yx)=E(logP(YX)). \begin{array}{rcl} H(Y|X) & = & -\sum_{x \in X} P(x)H(Y|X=x) \\ & = & - \sum_{x \in X} P(x) \sum_{y \in Y} P(y|x)\log{P(y|x)} \\ & = & - \sum_{x \in X} \sum_{y \in Y} P(x,y)\log{P(y|x)} \\ & = & -E(\log{P(Y|X)}). \end{array}. ** H(YX)H(Y|X)中,XX是隨機變數,而非定值。

互資訊 (Mutual information)

  • I(X;Y)=xXyYP(x,y)log(P(x,y)P(x)P(y))=D(P(x,y)P(x)P(y))=EP(logP(X,Y)P(X)P(Y)).\begin{array}{rcl} I(X;Y) & = & \sum_{x \in X} \sum_{y \in Y} P(x,y)\log{\left( \frac{P(x,y)}{P(x)P(y)} \right)} \\ & = & D(P(x,y) || P(x)P(y)) \\ & = & E_P\left( \log {\frac{P(X,Y)}{P(X)P(Y)}} \right). \end{array}
  • D(P(x,y)P(x)P(y))D(P(x,y) || P(x)P(y))可解釋為聯合分配相對於兩變數為獨立分佈的分散程度。
  • I(X;Y)=0logP(X,Y)P(X)P(Y)=0I(X;Y)=0 \Leftrightarrow \log {\frac{P(X,Y)}{P(X)P(Y)}} =0 , then P(X,Y)=P(X)P(Y)P(X,Y)=P(X)P(Y)即兩隨機變數獨立(indepedent),因為彼此之間沒有任何相關的訊息。

Mutual information properties

  • I(X;Y)=xX,yYP(x,y)log(P(x,y)P(x)P(y))=xX,yYP(x,y)log(P(xy)p(x))=xX,yYP(x,y)logP(x)+xX,yYP(x,y)logP(xy)=H(X)H(XY)=H(Y)H(YX).\begin{array}{rcl} I(X;Y) & = & \sum_{x \in X, y\in Y}P(x,y)\log{\left( \frac{P(x,y)}{P(x)P(y)} \right)} \\ & = & \sum_{x \in X, y \in Y} P(x,y) \log{\left( \frac{P(x|y)}{p(x)} \right)}\\ & = & -\sum_{x \in X, y \in Y} P(x,y) \log{P(x)} + \sum_{x \in X, y \in Y} P(x,y) \log{P(x|y)} \\ & = & H(X) - H(X|Y) \\ & = & H(Y) - H(Y|X). \end{array}
  • H(X,Y)=H(X)+H(XY)I(X;Y)=H(X)+H(Y)H(X,Y)H(X,Y) = H(X) + H(X|Y) \Rightarrow I(X;Y) = H(X) + H(Y) - H(X,Y).
  • (Self information) I(X;X)=H(X)H(XX)=H(X)I(X;X) = H(X) - H(X|X) = H(X).

相對熵 (Relative entropy), KL散度(Kullback-Leibler divergence)

  • 此資訊測度非常重要,常用於給定的隨機變數(分佈)與資料的隨機變數(分佈)之間的最佳化。
  • D(PQ)=xXP(x)log(P(x)Q(x))=EP(logP(x)Q(x))D(P||Q)=\sum_{x \in X} P(x)\log{\left( \frac{P(x)}{Q(x)} \right)} = E_P\left( \log{\frac{P(x)}{Q(x)}} \right).
    • Let 0log00=00 \log{\frac{0}{0}} = 0, 0log0Q=00 \log{\frac{0}{Q}}=0, PlogP0=P\log{\frac{P}{0}}=\infty .
    • 通常QQ為資料的分佈(未知),而PP為使用者給定的分佈(已知)。
  • D(PQ)D(QP)D(P||Q) \neq D(Q||P),不滿足交換律,所以不符合distance function的定義。
  • D(PQ)=0P=Q a.s.D(P||Q)=0 \Leftrightarrow P = Q \ a.s.

條件互資訊(Conditional mutual information)

  • The uncertainty of XX due to the knowledge of YY when ZZ is given.

  • I(X;YZ)=H(Z)H(XY,Z)=EP(X,Y,Z)(logP(X,YZ)P(XZ)P(YZ))I(X;Y|Z)=H(Z)-H(X|Y,Z)=E_{P(X,Y,Z)}\left( \log{\frac{P(X,Y|Z)}{P(X|Z)P(Y|Z)}} \right).

  • I(X1,X2,,Xn;Y)=i=1nI(Xi;YXi1,Xi2,,X1)I(X_1,X_2,\cdots,X_n;Y) = \sum_{i=1}^{n} I(X_i;Y|X_{i-1},X_{i-2},\cdots, X_1).

results matching ""

    No results matching ""