首先來看 CPU 和 GPU 的百科解釋:
CPU(Central ProcessingUnit,中央處理器):功能主要是解釋計算機指令以及處理計算機軟體中的資料
GPU(Graphics ProcessingUnit,圖形處理器;又稱顯示核心、顯示卡、視覺處理器、顯示晶片或繪圖晶片):GPU 不同於傳統的 CPU,如Intel i5 或 i7 處理器,其核心數量較少,專為通用計算而設計。相反,GPU是一種特殊型別的處理器,具有數百或數千個核心,經過優化,可並行執行大量計算。雖然 GPU 在遊戲中以 3D 渲染而聞名,但它們對執行分析、深度學習和機器學習演演算法尤其有用。GPU 允許某些計算比傳統 CPU 上執行相同的計算速度快 10 倍至 100 倍。
CPU 和 GPU 之所以大不相同,是由於其設計目標的不同,它們分別針對了兩種不同的應用場景:
於是 CPU 和 GPU 就呈現出非常不同的架構(如下圖 1-3 所示,圖片來源 Nvidia),其中 GPU 部分的綠色是計算單元(ALU),橙紅色是儲存單元(Cache),橙黃色是控制單元(Control),DRAM 代表記憶體:
由上圖 1-3 可以看出:GPU 採用了數量眾多的計算單元和超長的流水線,但只有非常簡單的控制邏輯並省去了 Cache。而 CPU 不僅被 Cache 佔據了大量空間,而且還有有複雜的控制邏輯和諸多優化電路,相比之下計算能力只是 CPU 很小的一部分。
由此我們引出 CPU 和 GPU 的設計目標:
1)CPU 是基於低延遲(Low Latency)的設計,核心數量較少
2)GPU 是基於大吞吐量(Big Throughput)的設計,核心數量較多
Small Caches(小的快取):GPU 中快取的目的不是儲存後面需要存取的資料的,這點和 CPU 不同,而是為 Thread 提供服務的。如果有很多執行緒需要存取同一個相同的資料,快取會合並這些存取,然後再去存取記憶體。但是由於需要存取記憶體,自然會帶來延時的問題;
批次讀取/存取,一個非常常見的提升吞吐量的設計,比如 Kafka 中就用到了類似思想
Simple Control(簡單的邏輯控制單元):把多個的存取合併成少的存取;
Energy efficient ALUs(大量的算術運算單元):如上所述,GPU 雖然有記憶體延時,卻有非常多的 ALU 並支援非常多的 Thread,因此,可以充分利用 ALU 儘可能多地分配執行緒從而達到非常大的吞吐量。
總結來說,作為強大的執行引擎,CPU 將它數量相對較少的核心集中用於處理單個任務,並快速將其完成。這使它尤其適合用於處理邏輯控制、序列計算、資料庫執行等型別的工作。
相比之下,GPU 由數百個核心組成,可以同時處理數千個執行緒,所以與 CPU 擅長、序列的運算和通用型別資料運算不同,GPU 擅長的是大規模平行計算,將複雜的問題分解成數千或數百萬個獨立的任務,並一次性解決它們,比如影象處理任務,包括紋理、燈光和形狀渲染等子任務都必須同時完成,以保持影象在螢幕上快速呈現,除此之外,GPU 還被大量應用於深度學習、密碼破解等任務中。
表 1.1 CPU 和 GPU 的區別
CPU | GPU |
---|---|
Several cores | Many cores |
Low latency | High throughput |
Good for serial processing | Good for parallel processing |
Can do a handful of operations at once | Can do thousands of operations at once |
下面用一個通俗的例子來做個比喻:
注意只是比喻,可能不會太恰當,主要是幫助理解
假設我們需要做一道雞兔同籠的小學奧數題(來源 1500 年前的《孫子算經》):
計算題目,理解題目並且整理出解題的步驟以及解法,這是 CPU 乾的事情,於是 CPU 給出了類似下面的二元一次方程:
解題的過程需要用到的眾多計算,則需要一幫不需要很高邏輯理解力的計算者完成,他們只需要負責其中很簡單但是數量又很大的簡單運算就行了,最後他們把各自運算的結果交出來給 CPU 整理,那麼這群計算者就是 GPU。
簡單來說就是:
本文首發於公眾號@飛天小牛肉,阿里雲 & InfoQ 簽約作者,分享大廠面試原創題解和個人成長經驗,覺得有用的小夥伴點點關注呀~