機器學習的發展歷史以及演算法演進

機器學習是一門不斷發展的學科，雖然只是在最近幾年才成為一個獨立學科，但機器學習的起源可以追溯到 20 世紀 50 年代以來人工智慧的符號演算、邏輯推理、自動機模型、啟發式搜尋、模糊數學、專家系統以及神經網路的反向傳播BP演算法等。雖然這些技術在當時並沒有被冠以機器學習之名，但時至今日它們依然是機器學習的理論基石。

從學科發展過程的角度思考機器學習，有助於理解目前層出不窮的各類機器學習演算法。機器學習的大致演變過程如表1所示。

表1：機器學習演算法大致演變過程
機器學習階段	年份	主要成果	代表人物
人工智慧起源	1936	自動機模型理論	阿蘭•圖靈（Alan Turing）
	1943	MP模型	沃倫•麥卡洛克（Warren McCulloch）、沃特•皮茨（Walter Pitts）
	1951	符號演算	馮• 諾依曼（John von Neumann）
	1950	邏輯主義	克勞德•香農（Claude Shannon）
	1956	人工智慧	約翰•麥卡錫（John McCarthy）、馬文•明斯基（Marvin Minsky )、克勞德•香農（Claude Shannon）
人工智慧初期	1958	LISP	約翰•麥卡錫（John McCarthy）
	1962	感知器收斂理論	弗蘭克•羅森布拉特（Frank Rosenblatt）
	1972	通用問題求解（GPS）	艾倫•紐厄爾（Allen Newell）、赫伯特•西蒙（Herbert Simon）
	1975	框架知識表示	馬文•明斯基（Marvin Minsky）
進化計算	1965	進化策略	英格•雷森博格（Ingo Rechenberg )
	1975	遺傳演算法	約翰•亨利•霍蘭德（John Henry Holland）
	1992	基因計算	約翰•柯扎（John Koza）
專家系統和知識工程	1965	模糊邏輯、模糊集	拉特飛•扎德（Lotfi Zadeh）
	1969	DENDRA、MYCIN	費根鮑姆（Feigenbaum )、布坎南（Buchanan )、萊德伯格（Lederberg）
	1979	ROSPECTOR	杜達（Duda）
神經網路	1982	Hopfield 網路	霍普菲爾德（Hopfield）
	1982	自組織網路	圖沃•科霍寧（Teuvo Kohonen）
	1986	BP演算法	魯姆哈特（Rumelhart）、麥克利蘭（McClelland）
	1989	折積神經網路	樂康（LeCun）
	1998	LeNet	樂康（LeCun）
	1997	迴圈神經網路RNN	塞普•霍普里特（Sepp Hochreiter）、尤爾根•施密德胡伯（Jurgen Schmidhuber）
分類演算法	1986	決策樹ID3演算法	羅斯•昆蘭（Ross Quinlan）
	1988	Boosting 演算法	弗羅因德（Freund）、米迦勒•卡恩斯（Michael Kearns）
	1993	C4.5演算法	羅斯•昆蘭（Ross Quinlan）
	1995	AdaBoost 演算法	弗羅因德（Freund）、羅伯特•夏普（Robert Schapire）
	1995	支援向量機	科林納•科爾特斯（Corinna Cortes）、萬普尼克（Vapnik）
	2001	隨機森林	里奧•布雷曼（Leo Breiman）、阿黛勒• 卡特勒（Adele Cutler )
深度學習	2006	深度信念網路	杰弗里•希爾頓（Geoffrey Hinton）
	2012	谷歌大腦	吳恩達（Andrew Ng）
	2014	生成對抗網路GAN	伊恩•古德費洛（Ian Goodfellow）

機器學習的發展分為知識推理期、知識工程期、淺層學習（Shallow Learning）和深度學習（Deep Learning）幾個階段。

知識推理期

知識推理期起始於 20 世紀 50 年代中期，這時候的人工智慧主要通過專家系統賦予計算機邏輯推理能力，赫伯特·西蒙（Herbert Simon）和艾倫·紐厄爾（Allen Newell）實現的自動定理證明系統 Logic Theorist 證明了邏輯學家拉賽爾（Russell）和懷特黑德（Whitehead）編寫的《數學原理》中的 52 條定理，並且其中一條定理比原作者所寫更加巧妙。

知識工程期

20 世紀 70 年代開始，人工智慧進入知識工程期，費根鮑姆（E.A. Feigenbaum）作為知識工程之父在 1994 年獲得了圖靈獎。由於人工無法將所有知識都總結出來教給計算機系統，所以這一階段的人工智慧面臨知識獲取的瓶頸。

淺層學習

實際上，在 20 世紀 50 年代，就已經有機器學習的相關研究，代表性工作主要是羅森布拉特（F. Rosenblatt）基於神經感知科學提出的計算機神經網路，即感知器，在隨後的十年中淺層學習的神經網路曾經風靡一時，特別是馬文·明斯基提出了著名的 XOR 問題和感知器線性不可分的問題。

由於計算機的運算能力有限，多層網路訓練困難，通常都是只有一層隱含層的淺層模型，雖然各種各樣的淺層機器學習模型相繼被提出，對理論分析和應用方面都產生了較大的影響，但是理論分析的難度和訓練方法需要很多經驗和技巧，隨著最近鄰等演算法的相繼提出，淺層模型在模型理解、準確率、模型訓練等方面被超越，機器學習的發展幾乎處於停滯狀態。

深度學習

2006 年，希爾頓（Hinton）發表了深度信念網路論文，本戈歐（Bengio）等人發表了“Greedy Layer-Wise Training of Deep Networks”論文，樂康（LeCun）團隊發表了“Efficient Learning of Sparse Representations with an Energy-Based Model”論文，這些事件標誌著人工智慧正式進入了深層網路的實踐階段，同時，雲端計算和 GPU 平行計算為深度學習的發展提供了基礎保障，特別是最近幾年，機器學習在各個領域都取得了突飛猛進的發展。

新的機器學習演算法面臨的主要問題更加複雜，機器學習的應用領域從廣度向深度發展，這對模型訓練和應用都提出了更高的要求。隨著人工智慧的發展，馮·諾依曼式的有限狀態機的理論基礎越來越難以應對目前神經網路中層數的要求，這些都對機器學習提出了挑戰。