Akaike(赤池) information criterion (AIC)

  • 赤池信息量準則是評估統計模型的複雜度和衡量統計模型「擬合」資料之優良性(Goodness of Fit)的一種標準,由日本統計學家赤池弘次創立和發展的。赤池信息量準則建立在信息熵的概念基礎上。

  • 計算AIC必須已知目標資料分佈的封閉(解析)形式,以及獨立同分佈(i.i.d)的資料,但是分佈的參數未知。

  • 經由獨立同分佈的資料,可以算出log-likelihood values。
AIC與KL divergence與MLE間的關係。
  • KL divergence: D(PQ)xXP(x)logP(x)q(x)=EP(logP(x)Q(x))D(P || Q) \sum_{x \in \mathbb{X}} P(x) \log \frac{P(x)}{q(x)} = E_P(\log \frac{P(x)}{Q(x)}).
    • 通常PP為資料的未知分佈(pdf),而QQ為使用者猜測的分佈。

Kullback-Leibler divergence應用

  • D(PQ(xθ))=EX(logP(x)Q(Xθ))=ΩP(x)logP(x)Q(xθdx=ΩP(x)logP(x)dxΩP(x)log(Q(xθ)dx.\begin{array}{rcl} D(P||Q(x|\theta) ) & = & E_X \left( \log \frac{P(x)}{Q(X|\theta)} \right) \\ & = & \int_{\Omega} P(x) \log{\frac{P(x)}{Q(x|\theta}} dx \\ & = & \int_{\Omega} P(x) \log P(x) dx - \int_{\Omega}P(x)\log(Q(x|\theta)dx. \end{array}

    • PP為真實資料的機率分佈,通常只有收集的到資料樣本,但未知解析形式。
    • QQ為自訂模型所代表的機率分佈,而θ\theta為模型的參數。
    • 目標是讓自訂模型的分佈可以擬合真實的分佈,因KL-divergece之值為0時,表示兩分佈相同。
    • 而KL-divergence中ΩP(x)logP(x)dx\int_{\Omega} P(x) \log P(x) dx為資料的分佈,無法調整,因此實際應用中,目標如下式。
    • minD(PQ)minθΩP(x)log(Q(xθ)dx\min D(P||Q) \equiv \min_{\theta} \int_{\Omega}P(x)\log(Q(x|\theta)dx.
  • D(PQ)0 with D(PQ)==0P=Q a.e.D(P||Q) \geq 0 \text{ with } D(P||Q) ==0 \Leftrightarrow P=Q \text{ a.e.} .

  • D(PQ)D(QP)D(P||Q) \neq D(Q||P) 無交換性。

AIC概念

  • 真實的資料分佈PP未知。
  • 而模型的參數估計值θ^(Y)\hat{\theta}(Y)是由已觀測到的資料YY所得出。
  • 而觀測資料YY又是符合分佈P(X)P(X)的隨機資料XX之實現值。
  • 由於觀測到的資料每次均不相同,因此模型所得到的參數估計值θ^(Y)\hat{\theta}(Y)仍是隨機變數。
  • 所以KL-divergence D(PQ(Xθ^(Y))D(P || Q(X|\hat{\theta}(Y)) 也是隨機變數。
  • 因此必須考慮KL-divergence的期望值才可得到定值,即考慮EY[D(PQ(Xθ^(y)))]E_Y[D(P| Q(X|\hat{\theta}(y)))]
  • 為了使模型分佈逼近真實分佈,須最小化下式:

    • minQQEY[D(PQ(Xθ^(Y))]=ΩP(x)logP(x)dxΩP(y)[ΩP(x)log(Q(xθ^(y)))dx]dy. \begin{array}{rcl} \min_{Q \in \mathbb{Q}} & & E_Y[D(P || Q(X| \hat{\theta}(Y))] \\ & = & \int_{\Omega} P(x) \log{P(x)} dx - \\ & & \int_{\Omega}P(y)[\int_{\Omega}P(x)\log(Q(x| \hat{\theta}(y))) dx]dy. \end{array}
    • 其中Q\mathbb{Q} 為可行(admissible)的模型分佈集合。
    • θ^\hat{\theta}為模型QQ根據資料yy所得出的MLE值。
    • yy為由資料分佈P(x)P(x)所得到的隨機樣本。
  • 因此可得MELL minQQEY[D(PQ(Xθ^(Y))]maxQQEY[EX[log(Q(xθ^(y)))]]\min_{Q \in \mathbb{Q}} E_Y[D(P || Q(X| \hat{\theta}(Y))] \equiv \max_{Q \in \mathbb{Q}}E_Y[E_X[\log(Q(x | \hat{\theta}(y)))]].

  • Akaike的主要貢獻在於給出

    • MLE是MELL的偏差估計式。
    • 但是此偏差量會漸近(asymptotically)逼近kk,即模型的參數個數。
    • maxQQEY[EX[log(Q(xθ^(y)))]]\max_{Q \in \mathbb{Q}}E_Y[E_X[\log(Q(x | \hat{\theta}(y)))]]對於大樣本的不偏估計式為log(L(θ^y))k\log(L(\hat{\theta}|y))-k
    • LL為分佈QQ的likelihood function。

results matching ""

    No results matching ""