貝葉斯與卡爾曼濾波(1)--三大概率

2023-02-22 06:02:00

貝葉斯與卡爾曼濾波(1)--三大概率

貝葉斯濾波主要是通過概率統計的方法,主要是貝葉斯公式,對隨機訊號進行處理,減小不確定度

貝葉斯濾波處理的隨機變數主要是一個隨機過程。\(x_1, x_2, x_3 ...\),互不獨立

與之對應的就是一個確定過程,比如:自由落體\(v = g*t\),就是一個確定的過程

我們之前所學的大部分都是一些要求相對獨立的數學,比如大數定律,中心極限定理,數理統計三大分佈都需要獨立同分布。

隨機過程的難度相比於確定過程要高很多,最大的不同在於隨機過程無法做隨機試驗了。

那麼問題來了,隨機試驗是幹什麼的?隨機試驗最大的作用是為了給概率賦值的,比如拋硬幣。為啥那麼拋硬幣正反的概率都是0.5呢?這就涉及到兩種學說,主觀概率學說以及大數定律學說(隨機試驗為基礎)。

隨機試驗的條件:

  • 在相同條件下,實驗可以重複進行 (這其實就是隨機實驗之間的獨立性)
  • 一次實驗,結果不確定,所有可能的結果已知
  • 實驗之前,實驗結果預先未知

在拋硬幣這個實驗中,實驗可以多次重複進行,由大數定律,設\(n\)為試驗次數,\(\mu\)為正面朝上的次數

那麼根據大數定律,在\(n\)次獨立的實驗中,對於任意正數\(\varepsilon\),有

\[\lim_{n \to \infty} P(|\frac{\mu}{n} - P_1| < \varepsilon) = 1 \]

\(n \to \infty\)時, \(\frac{\mu}{n}\)依概率收斂於\(P_1\).

經過大量的實驗測試,這個概率在0.5上下波動,因此就定義為0.5

那麼問題來了,對於一個隨機過程來說,\(x_1, x_2, x_3 ...\)互不獨立,那麼如何給這個概率賦值呢?

舉個例子,股票。相對股票做隨機試驗,那麼必須會時光倒流,這顯示是不可能的。除了股票,像分子的擴散,氣溫的變化都是無法做隨機試驗的。一般來說與時間有關的東西,都是無法做隨機試驗的。

隨機過程,\(x_1, x_2, x_3 ...\)不獨立,那麼可以有以下推斷

\[x_k = f(x_{k-1}) \]

\[P(x_k) = f(P(x_{k-1})) \]

這就體現了不獨立性。那麼有了這個資訊,我們是否可以研究隨機過程呢?答案也是不可以的,因為你只找到了他們的關係,但是必須要給隨機過程的起點\(P(x_1)\)賦予初值,初值的選取是很重要的。

但是上面說過由於不獨立性,我們無法通過大數定律賦予\(P(x_1)\)初值。

實際上,有的初值是可以做隨機試驗的額,比如隨機遊走\(x_k = x_{k-1} +D\),$D $為位移

\[P(D=1) = 0.5 \]

\[P(D=-1) = 0.5 \]

初值\(P(x_0 = 0) = 1\)

但是更多情況下,初值是不可以做隨機試驗的,只能使用主觀概率,也就是猜一個概率出來。

以上面的例子來看,拋硬幣正面朝上的概率0.5這個事情來看,兩種說法,主觀概率與大數定律學說都存在不嚴謹的地方。主觀概率就不說了,肯定是不嚴謹了,但是大數定律看似嚴謹,實際上獨立性這個屬性是無法保證,同時也是無法證明這個獨立性的。一般來說判斷獨立性都是通過經驗的,因此大數定律也是存在一定的主觀性的。有人會說,證明獨立性只需要說明\(P(A)=P(B)\)就可以了,但是要證明這個等式,必須要對兩個概率賦值,而要對概率賦值,必須使用大數定律,這就成了一個雞生蛋還是蛋生雞的問題。因此在無法做隨機試驗的情況下,使用主觀概率也是比較科學的做法

這就是概率論的兩大學派,支援主觀概率的也叫貝葉斯學派,支援大數定律的也叫頻率學派,目前以頻率學派占主導地位。

回到主觀概率上,隨機過程\(x_1, x_2, x_3 ...\)互不獨立,那麼\(P(x_1)\)該如何給呢?對於一些比較簡單的隨機過程,比如拋硬幣,我們可以給一個0.5,但是對於一些比較複雜的過程,比如股票,每個人看法不一, 導致主觀概率的選取不通用,那麼不同的主觀概率會導致不同的結果,這顯示不是我們想要的。氣溫的變化,分子的擴散,本質上還是一個客觀的過程,我們希望儘可能削弱主觀的差異,那麼應該怎麼做呢,我們主要說貝葉斯濾波的方法。

我們需要引入外部觀測,比如對於股票來說,每個人對漲跌的看法都是不一樣,但是如果加上一個外部觀測,比如得到訊息,某公司老闆卷錢跑路了,那麼幾乎所有人都會下調對該股票的收益預期。

引入外部觀測,可以儘可能地減弱主觀概率的影響

flowchart LR A[主觀概率]-->B[外部觀測] B-->C[相對客觀的概率: 後驗概率]

主觀概率也叫做先驗概率,主觀概率和先驗概率是存在一定區別的,但是我們可以把兩者當作是一個東西,目前涉及的知識面,可以忽略兩者的區別。

先驗概率通過貝葉斯公式轉化為後驗概率。

先說一下符號

\(X, Y\),大寫為隨機變數,\(x, y\),小寫為隨機變數的取值,代表隨機試驗的一個可能的結果

離散變數:\(P(X=x) = P_x\), 例如:

\[P(X=k) = e^{-\lambda}\frac{\lambda^{k}}{k!} \]

連續變數:

\[P(X < x) = \int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt \]

條件概率:

  • 離散

\[P(X=x|Y=y) = \frac{P(X=x, Y=y)}{P(Y=y)} \]

  • 連續

\[P(X=x|Y=y) =\int_{-\infty}^{x} \frac{f(x, y)}{f(y)}dy \]

下面以一個溫度例子來學習貝葉斯濾波

首先,給出先驗概率分佈:此處以一個離散變數表示,如果是連續變數,那麼需要給出概率密度函數。

\[\begin{cases} P(T=10)=0.8\\ P(T=11)=0.2 \end{cases} \]

其次,給出溫度計的測量溫度\(T_m\)(m:measure,測量的意思)。問題來了,既然有了溫度計的值了,還要貝葉斯干什麼,還整這麼複雜幹什麼?問題在於,任何感測器都是有誤差的。溫度計測量到的溫度,不一定是準確的。假設$T_m = 10.3 $

最後,使用貝葉斯公式,求得後驗概率分佈

\[P(T=10|T_m=10.3)=\frac{P(T_m=10.3|T=10)P(T=10)}{P(T_m=10.3)} \]

\[P(T=11|T_m=10.3)=\frac{P(T_m=10.3|T=11)P(T=11)}{P(T_m=10.3)} \]

其中:

  • \(P(T=10|T_m=10.3)\)就是後驗概率
  • \(P(T_m=10.3)\)就是先驗概率
  • \(P(T_m=10.3|T=10)\)就是似然概率

似然概率:代表觀測的準確度

\(P(T_m=10.3|T=10)\)當真實溫度為10的時候,溫度計測的溫度為10.3的概率,代表感測器的精度。

問題來了,先驗概率分佈需要給出所有可能的分佈,概率和必須為1。那麼似然概率需不需要寫成一個概率分佈,概率和為1呢?答案是不需要的。\(P(T_m=10.3|T=10)\)\(P(T_m=10.3|T=11)\)是對兩個不同的真實值下的測量概率,可以說是兩個隨機試驗,他們兩個的概率沒有任何關係。似然概率是用來衡量感測器的不確定性的,不確定性不受測量的真實值的影響的。比如感測器的精度是±1,那麼測量一個冰水與沸水,感測器的誤差都是±1,它是感測器本身的性質。

後驗概率的概率和為1。

那麼還有一個概率,\(P(T_m=10.3)\)是什麼呢?

很多教材裡面,直接說\(P(T_m=10.3)\)與T無關,所以\(P(T=10|T_m=10.3) = \eta P(T_m=10.3|T=10)P(T=10)\)

那麼,為什麼\(P(T_m=10.3)\)與T無關呢?很多人都會有一個困惑,\(T_m = 10.3\)是一個已經發生的事件,所以\(P(T_m=10.3)=1\)。這就是搞混了隨機變數的取值與隨機變數的概率,這兩者是完全不同的概念。比如拋硬幣,一次隨機試驗中發生了正面朝上,那麼正面朝上的概率依然是0.5,本次結果為正面朝上並不影響正面朝上的概率。\(T_m=10.3\)只是一次隨機試驗的結果而已,不能只看到一次結果,就把這個事件發生的概率定為1。隨機試驗的結果不影響分佈律。

根據全概率公式:

\[P(T_m=10.3)=P(T_m=10.3|T=10)P(T=10)+P(T_m=10.3|T=11)P(T=11) \]

可以看到,\(P(T_m=10.3)\)與T有關的,那為什麼很多教材上說\(P(T_m=10.3)\)與T無關呢?因為**\(P(T_m=10.3)\)**與T的取值無關,與T的分佈律是有關的。

在上面的公式中可以看到,\(P(T_m=10.3|T=10)\)是似然概率,\(P(T=10)\)是先驗概率。而似然概率是感測器本身的性質,因此在某種長度上,也可以說**\(P(T_m=10.3)\)**與T的取值無關。

繼續進行計算:

\[P(T=10|T_m=10.3)=\frac{P(T_m=10.3|T=10)P(T=10)}{P(T_m=10.3)}=\eta P(T_m=10.3|T=10)P(T=10) \]

\[P(T=11|T_m=10.3)=\frac{P(T_m=10.3|T=11)P(T=11)}{P(T_m=10.3)}=\eta P(T_m=10.3|T=11)P(T=11) \]

可以近似於:

\[後驗概率=\eta×似然概率×先驗概率 \]

那麼\(\eta\)怎麼計算呢?其實很簡單,因為所有的後驗概率相加為1,所以

\[\sum 後驗概率 = \eta \sum 似然概率 × 先驗概率 \]

\[\eta = \frac{1}{ \sum 似然概率 × 先驗概率} \]

為什麼叫似然概率呢?

似然:likelihood,可能性。源於最大似然估計。他表示那個原因最有可能導致了結果。

比如A班有99男1女,B班有1男99女。那麼亂數抽取一個班,再隨機抽一個人進行觀測,結果是女,那麼最有可能是從B班抽出來的。

\[P(狀態|觀測)=\eta P(觀測|狀態)P(狀態) \]

狀態為因,觀測為果。後驗概率為由果推因,似然概率是由因推果

如果兩個隨機變數存在一定的函數關係,他們是不是一定不獨立?
答:不一定。

等價命題:如果兩個隨機變數相互獨立,他們是不是一定沒有函數關係?
答:不一定。

獨立未必沒有函數關係,雖然聽起來匪夷所思,但這是事實。

舉個例子,一個必然事件,\(Y = X+1\)\(P(X=1)=1\),\(P(Y=2)=1\),\(P(X=1, Y=2)=1\),兩者有函數關係,但是他們是獨立的。

這個例子看起來沒有太多說服力,那麼說一個非必然事件的例子

設有一個正態概率分佈\(N(\mu, \sigma^2)\)\((\mu, \sigma)\)未知,從此分佈中,抽取\(n\)個獨立的樣本,\(X_1, X_2,X_3,...,X_n\)獨立同分布,則下面兩個隨機變數相互獨立。

\[\overline{X}=\frac{X_1+X_2+...+X_n}{n} \]

\[S^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline X)^2 \]

均值和方差相互獨立只有再正態分佈中才有。顯然,他們兩個是存在函數關係的。

關於樣本均值與樣本方差的獨立性證明,可以參考這個視訊