最大熵原理 ( Maximum entropy principle)
- Shannon提出了information entropy(以下簡稱entropy)的概念來描述事件的不確定性,而藉由探討一事件本身具有entropy來求取在固定條件下事件最有可能的演化行為便是最大熵原理。
- Jaynes認為在滿足所有(動差)限制下,具有最大嫡的值的此組分佈為我們真實觀測到的分佈,與熱力學第二定律結論相似。
熱力學熵
- entropy為state function。
- entropy對應到的是一宏觀系統中所包含的微觀態數量 (multiplicity), 因此Boltzmann定義entropy為 S=klnΩ。
- 熱力學中,entropy是系統混亂的程度,因為multiplicity越多,表示系統越混亂,而給定所有條件下,系統自然會往最無序,也就是往entropy增加的方向演進。
訊息熵
- information entropy的概念是訊息的數量,但是此定義太過抽象。
- Shannon討論information entropy引入了不確定性做為訊息量的度量,當得知一個訊息所消除的事件不確定度,就代表了此訊息的訊息量。
- 一事件的不確定度應只與該事件的結果數和各結果的可能性有關,依此定義information entropy Hn(p1,p2,⋯,pn),並要求$H_n$要有以下的性質(即數學上的公理假設)。
- Hn應為連續函數,因一事件結果的發生機率微小的改變只會對entropy產生微小的改變。
- Hn對事件發生的前後順序無關,即Hn(π1(p1,⋯,pn))=Hn(π2(p1,⋯,pn)),其中π1,π2分別為不同的排列組合。
- Hn應和事件發生數量成正比,即事件數越多,訊息量越大,反之越小;而且當全部事件發生的機率一致時,Hn應最大,因要對事件做出預測最困難。
- Hn(p1,⋯,pn)≤Hn(n1,⋯,n1)≡h(n).
- h(n)≤h(n+1), and h(1)=0
- 我們將一事件達到最大值的信息熵記為h(n),因所有結果的可能性均相同,此時信息熵只與結果數量n有關。
- Hn應有一致性(consistent),即若有多於一種以上的方法度量訊息量時,其結果應相同。
- Hn應有疊加性(additivity)。假設一事件只有兩種結果,機率分別為p1與q1=1−p1,此時entropy為H2(p1,q1)。
- 若是q1可再拆成p2與p3, 可得以下關係式:
- H3(p1,p2,p3)=H2(p1,q1)+q1H2(q1p2,q1p3)
- 推廣後得:H(p1,⋯,pn)=H(w1,⋯,wr)+w1H(w1p1+⋯w1pk)+w2H(w2pk+1,⋯,p2pk+m)+⋯.
- 其中∑i=1rwi=1 and ∑i=1kpi=w1, ∑i=k+1k+mpi=w2, ⋯ ,∑i=xnpi=wr.
- 若假設p1=p2=⋯=pn,上式可改寫為 h(sumi=1npi=H(w1,⋯,wn)+∑iwih(ni)),其中n1=k, n2=m,⋯, nr=n−x+1.
- 若n1=n2,⋯=nr=m, 可得h(mn)=h(m)+h(n).即X與Y為獨立的隨機變數,分別有m種與n種可能,因此獨立性,所以訊息量為相加。
- 符合以上性質解為h(n)=Klog(n).
- 最後可得唯一滿足所有條件對於不確定度量的函數為Hn(p1,⋯,pn)=−∑i=1npilogpi
最大熵原理(Maximum entropy principle, MEP)
- 在實驗的過程中,對某一個物理量(隨機變數)量測觀察後取平均值是最基本的方法。
- 如果要研究隨機變數,如果只有平均值時,要如何求出其分佈?
- e.g. 丟一顆骰子觀察其點數時,如何從點數的平均值求出點數的分佈?
- 由於一個分佈函數可由其無限階動差所組成,因此只知道部份的動差值,無法唯一決定分佈函數。
- 概念上最保守,不含主觀意見的方法,應該是挑選一組盡量延展(spread out)的分佈,可用最佳化方法求取。
- 信息熵代表不確定度,當要選擇一個分佈最為最佳解時,最客觀的就是選擇具有最大信息熵的分佈。
- 因為具有最大訊息熵的分佈代表該分佈的不確定性最高,若挑選了其它分佈,表示一定得知道其它訊息而降低了不確定性。
- e.g. 丟一顆骰子觀察其點數時,再沒有其它資訊息,假設正反面出現機率一樣的平均分佈是MEP;若不是選擇平均分佈,表示一定有其它資訊使得平均分佈非MEP。
- 由上面的MEP描述可知,一但獲得了新的資訊,即可使用MEP調整隨機變數的分佈,因此相當適用於time series加上Bayesian principle做為隨機變數的分佈。