概率、分布和熵及其概述

2020-07-16 10:04:32
生成亂數隱隱包含著統計學的一些概念,下面會對它們進行概述。本節只是為了讓你熟悉這些概念,並且應該足以使你明白本章的其他內容,即使你可能從來沒接觸過這些概念。

什麼是概率

概率的值在 0 和 1 之間,它可以衡量事件發生的可能性。0 說明事件永遠不會發生,1 說明事件肯定會發生。投一次骰子得到 6 的概率,或者實際上得到任何可能值的概率,都是 1/6。得到任意數位的概率是 1。

通常,事件發生的概率是它發生的次數除以它可能發生的次數。如果事件發生的概率是 p,那麼它不發生的概率為 1-p。這樣就為生活提供了寶貴指導。例如,在英國買彩票中獎的概率,從 49 個數中選取 6 個數,大約是 1/14 000 000;這意味著不中的概率大約為 13 999 999/ 14 000 000,基本是不可能中獎的。從這個角度來說,被閃電擊中的概率是中彩票的 10 倍。

什麼是分布

分布描述的是假設變數為序列中某個特定值的可能性。分布可以是離散或連續的:

離散分布描述的是假設變數是一組固定值中任意一個值的概率。根據定義,整數值的分布就是離散分布。用一個變數來表示投一次骰子的結果就是一個典型的離散分布的範例,它只能是從 1 到 6 的整數值。在離散分布中,所有可能值的概率之和為 1。

連續分布表示的是假設連續變數是序列中某個特定值的概率。連續變數可以是序列中的任意一個值,一天中某個給定時間的溫度就是一個範例。

用來表示一個連續隨機變數在某個範圍內的值的概率的曲線被叫作概率密度函數 (Probability Density Function, PDF)。變數為給定值時,概率是點在 PDF 上對應的值。假設變數為 a 到 b 之間的任意值,變數的概率就是 a 到 b 之間的 PDF 曲線下方的面積。這意味著在 a 到 b 之間的 PDF 曲線下方的面積必須是 1,因為變數總為這個範圍內的一個可能值。

離散變數的 PDF 被叫作離散概率函數。離散變數的不同值的概率通常使用圖形的一套點或豎條來表示。像之前所說的那樣,概率之和加起來必須為 1。

在現實世界中,有很多用來模型化事件是如何發生或如何測量的分布。它們通常被描述為數學公式,當以圖形的形式展示時,就可以很容易地理解它們。圖 1 展示了 4 個分布的範例。


圖 1 分布範例