最大熵原理 ( Maximum entropy principle)

  • Shannon提出了information entropy(以下簡稱entropy)的概念來描述事件的不確定性,而藉由探討一事件本身具有entropy來求取在固定條件下事件最有可能的演化行為便是最大熵原理。
  • Jaynes認為在滿足所有(動差)限制下,具有最大嫡的值的此組分佈為我們真實觀測到的分佈,與熱力學第二定律結論相似。

熱力學熵

  • entropy為state function。
  • entropy對應到的是一宏觀系統中所包含的微觀態數量 (multiplicity), 因此Boltzmann定義entropy為 S=klnΩ S = k ln \Omega
  • 熱力學中,entropy是系統混亂的程度,因為multiplicity越多,表示系統越混亂,而給定所有條件下,系統自然會往最無序,也就是往entropy增加的方向演進。

訊息熵

  • information entropy的概念是訊息的數量,但是此定義太過抽象。
  • Shannon討論information entropy引入了不確定性做為訊息量的度量,當得知一個訊息所消除的事件不確定度,就代表了此訊息的訊息量。
  • 一事件的不確定度應只與該事件的結果數和各結果的可能性有關,依此定義information entropy Hn(p1,p2,,pn)H_n(p_1, p_2,\cdots, p_n),並要求$H_n$要有以下的性質(即數學上的公理假設)。
    • HnH_n應為連續函數,因一事件結果的發生機率微小的改變只會對entropy產生微小的改變。
    • HnH_n對事件發生的前後順序無關,即Hn(π1(p1,,pn))=Hn(π2(p1,,pn))H_n(\pi_1(p_1,\cdots,p_n))=H_n(\pi_2(p_1,\cdots,p_n)),其中π1,π2\pi_1, \pi_2分別為不同的排列組合。
    • HnH_n應和事件發生數量成正比,即事件數越多,訊息量越大,反之越小;而且當全部事件發生的機率一致時,HnH_n應最大,因要對事件做出預測最困難。
      • Hn(p1,,pn)Hn(1n,,1n)h(n)H_n(p_1, \cdots, p_n) \leq H_n(\frac{1}{n}, \cdots, \frac{1}{n}) \equiv h(n).
      • h(n)h(n+1)h(n) \leq h(n+1) , and h(1)=0h(1)= 0
      • 我們將一事件達到最大值的信息熵記為h(n)h(n),因所有結果的可能性均相同,此時信息熵只與結果數量nn有關。
    • HnH_n應有一致性(consistent),即若有多於一種以上的方法度量訊息量時,其結果應相同。
    • HnH_n應有疊加性(additivity)。假設一事件只有兩種結果,機率分別為p1p1q1=1p1q_1=1-p_1,此時entropy為H2(p1,q1)H_2(p_1, q_1)
    • 若是q1q_1可再拆成p2p_2p3p_3, 可得以下關係式:
    • H3(p1,p2,p3)=H2(p1,q1)+q1H2(p2q1,p3q1)H_3(p_1, p_2, p_3)= H_2(p_1,q_1) + q_1 H_2(\frac{p_2}{q_1}, \frac{p_3}{q_1})
    • 推廣後得:H(p1,,pn)=H(w1,,wr)+w1H(p1w1+pkw1)+w2H(pk+1w2,,pk+mp2)+H(p_1,\cdots, p_n) = H(w_1,\cdots ,w_r) + w_1H(\frac{p_1}{w_1}+\cdots \frac{p_k}{w_1})+w_2H(\frac{p_{k+1}}{w_2},\cdots,\frac{p_{k+m}}{p_2})+\cdots.
    • 其中i=1rwi=1\sum_{i=1}^{r}w_i = 1 and i=1kpi=w1\sum_{i=1}^{k}p_i = w_1, i=k+1k+mpi=w2\sum_{i=k+1}^{k+m} p_i=w_2, \cdots ,i=xnpi=wr\sum_{i=x}^{n}p_i = w_r.
    • 若假設p1=p2==pnp_1=p_2=\cdots=p_n,上式可改寫為 h(sumi=1npi=H(w1,,wn)+iwih(ni))h(sum_{i=1}^{n}p_i= H(w_1,\cdots ,w_n)+\sum_i w_i h(n_i)),其中n1=kn_1=k, n2=mn_2=m,\cdots, nr=nx+1n_r=n-x+1.
    • n1=n2,=nr=mn_1=n_2,\cdots =n_r=m, 可得h(mn)=h(m)+h(n)h(mn)=h(m)+h(n).即XXYY為獨立的隨機變數,分別有mm種與nn種可能,因此獨立性,所以訊息量為相加。
    • 符合以上性質解為h(n)=Klog(n)h(n)=K\log(n).
    • 最後可得唯一滿足所有條件對於不確定度量的函數為Hn(p1,,pn)=i=1npilogpiH_n(p_1,\cdots ,p_n)=-\sum_{i=1}^{n}p_i \log{p_i}

最大熵原理(Maximum entropy principle, MEP)

  • 在實驗的過程中,對某一個物理量(隨機變數)量測觀察後取平均值是最基本的方法。
  • 如果要研究隨機變數,如果只有平均值時,要如何求出其分佈?
    • e.g. 丟一顆骰子觀察其點數時,如何從點數的平均值求出點數的分佈?
  • 由於一個分佈函數可由其無限階動差所組成,因此只知道部份的動差值,無法唯一決定分佈函數。
  • 概念上最保守,不含主觀意見的方法,應該是挑選一組盡量延展(spread out)的分佈,可用最佳化方法求取。
  • 信息熵代表不確定度,當要選擇一個分佈最為最佳解時,最客觀的就是選擇具有最大信息熵的分佈。
    • 因為具有最大訊息熵的分佈代表該分佈的不確定性最高,若挑選了其它分佈,表示一定得知道其它訊息而降低了不確定性。
    • e.g. 丟一顆骰子觀察其點數時,再沒有其它資訊息,假設正反面出現機率一樣的平均分佈是MEP;若不是選擇平均分佈,表示一定有其它資訊使得平均分佈非MEP。
  • 由上面的MEP描述可知,一但獲得了新的資訊,即可使用MEP調整隨機變數的分佈,因此相當適用於time series加上Bayesian principle做為隨機變數的分佈。

results matching ""

    No results matching ""