機器學習是一門不斷發展的學科,雖然只是在最近幾年才成為一個獨立學科,但機器學習的起源可以追溯到 20 世紀 50 年代以來人工智慧的符號演算、邏輯推理、自動機模型、啟發式搜尋、模糊數學、專家系統以及神經網路的反向傳播BP演算法等。雖然這些技術在當時並沒有被冠以機器學習之名,但時至今日它們依然是機器學習的理論基石。
從學科發展過程的角度思考機器學習,有助於理解目前層出不窮的各類機器學習演算法。機器學習的大致演變過程如表1所示。
表1:機器學習演算法大致演變過程
機器學習階段 |
年份 |
主要成果 |
代表人物 |
人工智慧起源 |
1936 |
自動機模型理論 |
阿蘭•圖靈(Alan Turing) |
1943 |
MP模型 |
沃倫•麥卡洛克(Warren McCulloch)、沃特•皮茨(Walter Pitts) |
1951 |
符號演算 |
馮• 諾依曼(John von Neumann) |
1950 |
邏輯主義 |
克勞德•香農(Claude Shannon) |
1956 |
人工智慧 |
約翰•麥卡錫(John McCarthy)、馬文•明斯基(Marvin Minsky )、 克勞德•香農(Claude Shannon) |
人工智慧初期 |
1958 |
LISP |
約翰•麥卡錫(John McCarthy) |
1962 |
感知器收斂理論 |
弗蘭克•羅森布拉特(Frank Rosenblatt) |
1972 |
通用問題求解(GPS) |
艾倫•紐厄爾(Allen Newell)、赫伯特•西蒙(Herbert Simon) |
1975 |
框架知識表示 |
馬文•明斯基(Marvin Minsky) |
進化計算 |
1965 |
進化策略 |
英格•雷森博格(Ingo Rechenberg ) |
1975 |
遺傳演算法 |
約翰•亨利•霍蘭德(John Henry Holland) |
1992 |
基因計算 |
約翰•柯扎(John Koza) |
專家系統和知識工程 |
1965 |
模糊邏輯、模糊集 |
拉特飛•扎德(Lotfi Zadeh) |
1969 |
DENDRA、MYCIN |
費根鮑姆(Feigenbaum )、布坎南(Buchanan )、萊德伯格(Lederberg) |
1979 |
ROSPECTOR |
杜達(Duda) |
神經網路 |
1982 |
Hopfield 網路 |
霍普菲爾德(Hopfield) |
1982 |
自組織網路 |
圖沃•科霍寧(Teuvo Kohonen) |
1986 |
BP演算法 |
魯姆哈特(Rumelhart)、麥克利蘭(McClelland) |
1989 |
折積神經網路 |
樂康(LeCun) |
1998 |
LeNet |
樂康(LeCun) |
1997 |
迴圈神經網路RNN |
塞普•霍普里特(Sepp Hochreiter)、尤爾根•施密德胡伯(Jurgen Schmidhuber) |
分類演算法 |
1986 |
決策樹ID3演算法 |
羅斯•昆蘭(Ross Quinlan) |
1988 |
Boosting 演算法 |
弗羅因德(Freund)、米迦勒•卡恩斯(Michael Kearns) |
1993 |
C4.5演算法 |
羅斯•昆蘭(Ross Quinlan) |
1995 |
AdaBoost 演算法 |
弗羅因德(Freund)、羅伯特•夏普(Robert Schapire) |
1995 |
支援向量機 |
科林納•科爾特斯(Corinna Cortes)、萬普尼克(Vapnik) |
2001 |
隨機森林 |
里奧•布雷曼(Leo Breiman)、阿黛勒• 卡特勒(Adele Cutler ) |
深度學習 |
2006 |
深度信念網路 |
杰弗里•希爾頓(Geoffrey Hinton) |
2012 |
谷歌大腦 |
吳恩達(Andrew Ng) |
2014 |
生成對抗網路GAN |
伊恩•古德費洛(Ian Goodfellow) |
機器學習的發展分為知識推理期、知識工程期、淺層學習(Shallow Learning)和深度學習(Deep Learning)幾個階段。
知識推理期
知識推理期起始於 20 世紀 50 年代中期,這時候的人工智慧主要通過專家系統賦予計算機邏輯推理能力,赫伯特·西蒙(Herbert Simon)和艾倫·紐厄爾(Allen Newell)實現的自動定理證明系統 Logic Theorist 證明了邏輯學家拉賽爾(Russell)和懷特黑德(Whitehead)編寫的《數學原理》中的 52 條定理,並且其中一條定理比原作者所寫更加巧妙。
知識工程期
20 世紀 70 年代開始,人工智慧進入知識工程期,費根鮑姆(E.A. Feigenbaum)作為知識工程之父在 1994 年獲得了圖靈獎。由於人工無法將所有知識都總結出來教給計算機系統,所以這一階段的人工智慧面臨知識獲取的瓶頸。
淺層學習
實際上,在 20 世紀 50 年代,就已經有機器學習的相關研究,代表性工作主要是羅森布拉特(F. Rosenblatt)基於神經感知科學提出的計算機神經網路,即感知器,在隨後的十年中淺層學習的神經網路曾經風靡一時,特別是馬文·明斯基提出了著名的 XOR 問題和感知器線性不可分的問題。
由於計算機的運算能力有限,多層網路訓練困難,通常都是只有一層隱含層的淺層模型,雖然各種各樣的淺層機器學習模型相繼被提出,對理論分析和應用方面都產生了較大的影響,但是理論分析的難度和訓練方法需要很多經驗和技巧,隨著最近鄰等演算法的相繼提出,淺層模型在模型理解、準確率、模型訓練等方面被超越,機器學習的發展幾乎處於停滯狀態。
深度學習
2006 年,希爾頓(Hinton)發表了深度信念網路論文,本戈歐(Bengio)等人發表了“Greedy Layer-Wise Training of Deep Networks”論文,樂康(LeCun)團隊發表了“Efficient Learning of Sparse Representations with an Energy-Based Model”論文,這些事件標誌著人工智慧正式進入了深層網路的實踐階段,同時,雲端計算和 GPU 平行計算為深度學習的發展提供了基礎保障,特別是最近幾年,機器學習在各個領域都取得了突飛猛進的發展。
新的機器學習演算法面臨的主要問題更加複雜,機器學習的應用領域從廣度向深度發展,這對模型訓練和應用都提出了更高的要求。隨著人工智慧的發展,馮·諾依曼式的有限狀態機的理論基礎越來越難以應對目前神經網路中層數的要求,這些都對機器學習提出了挑戰。