貝葉斯與卡爾曼濾波(1)--三大概率

貝葉斯濾波主要是通過概率統計的方法，主要是貝葉斯公式，對隨機訊號進行處理，減小不確定度

貝葉斯濾波處理的隨機變數主要是一個隨機過程。$x_1, x_2, x_3 ...$,互不獨立

與之對應的就是一個確定過程，比如：自由落體$v = g*t$，就是一個確定的過程

我們之前所學的大部分都是一些要求相對獨立的數學，比如大數定律，中心極限定理，數理統計三大分佈都需要獨立同分布。

隨機過程的難度相比於確定過程要高很多，最大的不同在於隨機過程無法做隨機試驗了。

那麼問題來了，隨機試驗是幹什麼的？隨機試驗最大的作用是為了給概率賦值的，比如拋硬幣。為啥那麼拋硬幣正反的概率都是0.5呢？這就涉及到兩種學說，主觀概率學說以及大數定律學說（隨機試驗為基礎）。

隨機試驗的條件：

在相同條件下，實驗可以重複進行（這其實就是隨機實驗之間的獨立性）
一次實驗，結果不確定，所有可能的結果已知
實驗之前，實驗結果預先未知

在拋硬幣這個實驗中，實驗可以多次重複進行，由大數定律，設$n$為試驗次數，$\mu$為正面朝上的次數

那麼根據大數定律，在$n$次獨立的實驗中，對於任意正數$\varepsilon$，有

\[\lim_{n \to \infty} P(|\frac{\mu}{n} - P_1| < \varepsilon) = 1 \]

當$n \to \infty$時， $\frac{\mu}{n}$依概率收斂於$P_1$.

經過大量的實驗測試，這個概率在0.5上下波動，因此就定義為0.5

那麼問題來了，對於一個隨機過程來說，$x_1, x_2, x_3 ...$互不獨立，那麼如何給這個概率賦值呢？

舉個例子，股票。相對股票做隨機試驗，那麼必須會時光倒流，這顯示是不可能的。除了股票，像分子的擴散，氣溫的變化都是無法做隨機試驗的。一般來說與時間有關的東西，都是無法做隨機試驗的。

隨機過程，$x_1, x_2, x_3 ...$不獨立，那麼可以有以下推斷

\[x_k = f(x_{k-1}) \]

\[P(x_k) = f(P(x_{k-1})) \]

這就體現了不獨立性。那麼有了這個資訊，我們是否可以研究隨機過程呢？答案也是不可以的，因為你只找到了他們的關係，但是必須要給隨機過程的起點$P(x_1)$賦予初值，初值的選取是很重要的。

但是上面說過由於不獨立性，我們無法通過大數定律賦予$P(x_1)$初值。

實際上，有的初值是可以做隨機試驗的額，比如隨機遊走$x_k = x_{k-1} +D$,$D $為位移

\[P(D=1) = 0.5 \]

\[P(D=-1) = 0.5 \]

初值$P(x_0 = 0) = 1$。

但是更多情況下，初值是不可以做隨機試驗的，只能使用主觀概率，也就是猜一個概率出來。

以上面的例子來看，拋硬幣正面朝上的概率0.5這個事情來看，兩種說法，主觀概率與大數定律學說都存在不嚴謹的地方。主觀概率就不說了，肯定是不嚴謹了，但是大數定律看似嚴謹，實際上獨立性這個屬性是無法保證，同時也是無法證明這個獨立性的。一般來說判斷獨立性都是通過經驗的，因此大數定律也是存在一定的主觀性的。有人會說，證明獨立性只需要說明$P(A)=P(B)$就可以了，但是要證明這個等式，必須要對兩個概率賦值，而要對概率賦值，必須使用大數定律，這就成了一個雞生蛋還是蛋生雞的問題。因此在無法做隨機試驗的情況下，使用主觀概率也是比較科學的做法

這就是概率論的兩大學派，支援主觀概率的也叫貝葉斯學派，支援大數定律的也叫頻率學派，目前以頻率學派占主導地位。

回到主觀概率上，隨機過程$x_1, x_2, x_3 ...$互不獨立，那麼$P(x_1)$該如何給呢？對於一些比較簡單的隨機過程，比如拋硬幣，我們可以給一個0.5，但是對於一些比較複雜的過程，比如股票，每個人看法不一，導致主觀概率的選取不通用，那麼不同的主觀概率會導致不同的結果，這顯示不是我們想要的。氣溫的變化，分子的擴散，本質上還是一個客觀的過程，我們希望儘可能削弱主觀的差異，那麼應該怎麼做呢，我們主要說貝葉斯濾波的方法。

我們需要引入外部觀測，比如對於股票來說，每個人對漲跌的看法都是不一樣，但是如果加上一個外部觀測，比如得到訊息，某公司老闆卷錢跑路了，那麼幾乎所有人都會下調對該股票的收益預期。

引入外部觀測，可以儘可能地減弱主觀概率的影響

flowchart LR A[主觀概率]-->B[外部觀測] B-->C[相對客觀的概率: 後驗概率]

主觀概率也叫做先驗概率，主觀概率和先驗概率是存在一定區別的，但是我們可以把兩者當作是一個東西，目前涉及的知識面，可以忽略兩者的區別。

先驗概率通過貝葉斯公式轉化為後驗概率。

先說一下符號

$X, Y$,大寫為隨機變數，$x, y$，小寫為隨機變數的取值，代表隨機試驗的一個可能的結果

離散變數：$P(X=x) = P_x$, 例如：

\[P(X=k) = e^{-\lambda}\frac{\lambda^{k}}{k!} \]

連續變數：

\[P(X < x) = \int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt \]

條件概率：

離散

\[P(X=x|Y=y) = \frac{P(X=x, Y=y)}{P(Y=y)} \]

連續

\[P(X=x|Y=y) =\int_{-\infty}^{x} \frac{f(x, y)}{f(y)}dy \]

下面以一個溫度例子來學習貝葉斯濾波

首先，給出先驗概率分佈：此處以一個離散變數表示，如果是連續變數，那麼需要給出概率密度函數。

\[\begin{cases} P(T=10)=0.8\\ P(T=11)=0.2 \end{cases} \]

其次，給出溫度計的測量溫度$T_m$(m：measure,測量的意思)。問題來了，既然有了溫度計的值了，還要貝葉斯干什麼，還整這麼複雜幹什麼？問題在於，任何感測器都是有誤差的。溫度計測量到的溫度，不一定是準確的。假設$T_m = 10.3 $

最後，使用貝葉斯公式，求得後驗概率分佈

\[P(T=10|T_m=10.3)=\frac{P(T_m=10.3|T=10)P(T=10)}{P(T_m=10.3)} \]

\[P(T=11|T_m=10.3)=\frac{P(T_m=10.3|T=11)P(T=11)}{P(T_m=10.3)} \]

其中：

$P(T=10|T_m=10.3)$就是後驗概率
$P(T_m=10.3)$就是先驗概率
$P(T_m=10.3|T=10)$就是似然概率

似然概率：代表觀測的準確度

$P(T_m=10.3|T=10)$當真實溫度為10的時候，溫度計測的溫度為10.3的概率，代表感測器的精度。

問題來了，先驗概率分佈需要給出所有可能的分佈，概率和必須為1。那麼似然概率需不需要寫成一個概率分佈，概率和為1呢？答案是不需要的。$P(T_m=10.3|T=10)$與$P(T_m=10.3|T=11)$是對兩個不同的真實值下的測量概率，可以說是兩個隨機試驗，他們兩個的概率沒有任何關係。似然概率是用來衡量感測器的不確定性的，不確定性不受測量的真實值的影響的。比如感測器的精度是±1，那麼測量一個冰水與沸水，感測器的誤差都是±1，它是感測器本身的性質。

後驗概率的概率和為1。

那麼還有一個概率，$P(T_m=10.3)$是什麼呢？

很多教材裡面，直接說$P(T_m=10.3)$與T無關，所以$P(T=10|T_m=10.3) = \eta P(T_m=10.3|T=10)P(T=10)$

那麼，為什麼$P(T_m=10.3)$與T無關呢？很多人都會有一個困惑，$T_m = 10.3$是一個已經發生的事件，所以$P(T_m=10.3)=1$。這就是搞混了隨機變數的取值與隨機變數的概率，這兩者是完全不同的概念。比如拋硬幣，一次隨機試驗中發生了正面朝上，那麼正面朝上的概率依然是0.5，本次結果為正面朝上並不影響正面朝上的概率。$T_m=10.3$只是一次隨機試驗的結果而已，不能只看到一次結果，就把這個事件發生的概率定為1。隨機試驗的結果不影響分佈律。

根據全概率公式：

\[P(T_m=10.3)=P(T_m=10.3|T=10)P(T=10)+P(T_m=10.3|T=11)P(T=11) \]

可以看到，$P(T_m=10.3)$與T有關的，那為什麼很多教材上說$P(T_m=10.3)$與T無關呢？因為**$P(T_m=10.3)$**與T的取值無關，與T的分佈律是有關的。

在上面的公式中可以看到，$P(T_m=10.3|T=10)$是似然概率，$P(T=10)$是先驗概率。而似然概率是感測器本身的性質，因此在某種長度上，也可以說**$P(T_m=10.3)$**與T的取值無關。

繼續進行計算：

\[P(T=10|T_m=10.3)=\frac{P(T_m=10.3|T=10)P(T=10)}{P(T_m=10.3)}=\eta P(T_m=10.3|T=10)P(T=10) \]

\[P(T=11|T_m=10.3)=\frac{P(T_m=10.3|T=11)P(T=11)}{P(T_m=10.3)}=\eta P(T_m=10.3|T=11)P(T=11) \]

可以近似於：

\[後驗概率=\eta×似然概率×先驗概率 \]

那麼$\eta$怎麼計算呢？其實很簡單，因為所有的後驗概率相加為1，所以

\[\sum 後驗概率 = \eta \sum 似然概率 × 先驗概率 \]

\[\eta = \frac{1}{ \sum 似然概率 × 先驗概率} \]

為什麼叫似然概率呢？

似然：likelihood，可能性。源於最大似然估計。他表示那個原因最有可能導致了結果。

比如A班有99男1女，B班有1男99女。那麼亂數抽取一個班，再隨機抽一個人進行觀測，結果是女，那麼最有可能是從B班抽出來的。

\[P(狀態|觀測)=\eta P(觀測|狀態)P(狀態) \]

狀態為因，觀測為果。後驗概率為由果推因，似然概率是由因推果。

如果兩個隨機變數存在一定的函數關係，他們是不是一定不獨立?
答：不一定。

等價命題：如果兩個隨機變數相互獨立，他們是不是一定沒有函數關係？
答：不一定。

獨立未必沒有函數關係，雖然聽起來匪夷所思，但這是事實。

舉個例子，一個必然事件，$Y = X+1$，$P(X=1)=1$,$P(Y=2)=1$,$P(X=1, Y=2)=1$,兩者有函數關係，但是他們是獨立的。

這個例子看起來沒有太多說服力，那麼說一個非必然事件的例子

設有一個正態概率分佈$N(\mu, \sigma^2)$，$(\mu, \sigma)$未知，從此分佈中，抽取$n$個獨立的樣本，$X_1, X_2,X_3,...,X_n$獨立同分布，則下面兩個隨機變數相互獨立。

\[\overline{X}=\frac{X_1+X_2+...+X_n}{n} \]

\[S^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline X)^2 \]

均值和方差相互獨立只有再正態分佈中才有。顯然，他們兩個是存在函數關係的。

關於樣本均值與樣本方差的獨立性證明，可以參考這個視訊