組合語言學習筆記01——組合基礎知識

引言

組合語言是除了機器語言外，最為底層的程式語言。由於機器只能讀懂0和1，所以需要轉換成人類更易操作的語言（其實設計c等高階語言的原因也包括這點）。

同時呢，組合語言也是其他很多高階語言通向機器的一個橋樑，比如c語言需要編寫好後再編譯成組合語言，再轉換為機器語言。

這樣的話就可以自然想到，是不是我可以通過一些反編譯的手段去破解一些軟體或者其他的呢（逆向工程）？

其實也不然，只有機器語言和組合語言是一一對應的，而高階語言很可能一句話就代表了很多組合語言的操作，所以正向容易而逆向容易出錯。例如一個用c語言編寫的程式，不可能被人直接把原始碼給破解出來的。這時候就需要用到組合語言了（駭客最愛）

總之，由於組合和機器是關聯非常密切的，所以學習組合語言可以讓我們更加了解硬體的運作，如何讓硬體更有效率的工作。

本部落格主要是根據組合語言與介面技術第四版，以及小甲魚網課（地址：fishc.com）來寫。本人大三計算機專業，第一次學習組合語言，筆記僅適用於初學者借鑑，如有疏漏望大佬指出。

1.1 組合語言的產生

機器語言是機器指令的集合；
而組合語言的主體也是組合指令。

兩種指令區別在於表示方式上，通俗來講，組合指令是在機器指令的基礎上寫成了一種便於我們記憶的格式。定義上來講，組合指令叫做機器指令的助記符。

這裡舉個例子：
比如一個操作的內容是：將暫存器AX的內容移動到暫存器BX中。

用機器語言來寫是這樣的：1000100111011000

是不是根本看不懂？那麼組合指令呢，就對其進行格式變換，寫成了組合的語言：
MOV BX,AX

mov的意思就是move移動，一般都取三個字母，這樣看就很好理解了。值得注意的是，是將後面的移動到前面的，具體操作後面再講。

暫存器

我們剛才提到了AX BX這些暫存器，這些是什麼東西呢？

簡單來講，可以理解為cpu中的記憶體（注意跟一級二級快取區分）。一個cpu裡面有各種各樣的暫存器，比如標誌暫存器啊資料暫存器啊等等，每個都有自己的任務。目前只需要知道它們是儲存資料啊指令什麼的。
而AX和BX這種，暫時理解為暫存器的代號吧（小甲魚是這麼說的）

1.2 組合語言的組成

組合語言主要由以下三個部分組成：

組合指令（即機器語言的助記符），也是組合語言的核心。比如MOV add之類的，後續跟隨的運算元也放在一起。
先放一張8086的指令格式圖，慢慢理解是可以看懂的。
偽指令。
偽指令要區別於組合指令，組合指令是可以產生供機器執行的對應機器程式碼的，而偽指令不會，它主要用於輔助源程式的組合。比如指定資料存放地址等。這些指令機器無法識別，是通過編譯器來識別並執行的。
具體例子可以參考這個https://blog.csdn.net/houyichaochao/article/details/80686076
其他符號。
比如加減乘除什麼的，也是跟偽指令一樣，需要編譯器去識別和執行。

1.3 記憶體

計算機中的大部分部件都有自己的記憶體，我們這裡主要學習的是記憶體。

CPU是負責控制整個計算機的執行和運算，但是我們不能把資料什麼的直接放到CPU中（因為實在太多了，cpu又那麼貴），所以我們一般會選擇硬碟存放。但是CPU又不能直接從硬碟中讀取資料，這時候就需要記憶體這個東西。

記憶體裡面需要存放CPU需要處理的指令和資料。指令的意思是告訴CPU要做什麼操作，資料則是告訴CPU要對什麼東西操作。

在記憶體或者硬碟上，資料和指令沒有什麼區別，都是一些二進位制的程式碼。
比如：
1000100111011000 —> 89D8H (資料）
1000100111011000 —> MOV AX,BX （指令）
具體代表哪一種，是人為說了算的。

1.4 儲存單元

記憶體會被劃分為若干個儲存單元，每個儲存單元從0開始編號。比如假如一個記憶體有128個儲存單元，他們的編號就是0~127.

一個儲存單元可存放1Byte。1KB的記憶體有0~1023共1024個儲存單元。

1.5 CPU對記憶體的讀寫——匯流排

前面我們說了，CPU自己不存那麼多的資料，而是從記憶體中獲取，主要獲取的東西有三類：

儲存單元的地址（地址資訊）
器件選擇以及讀寫命令（控制資訊）
讀寫的資料（資料資訊）

那麼究竟這些資訊是如何傳輸的呢？

我們應該都聽說過電訊號這個東西，如下：

電平脈衝

電子計算機能夠處理和傳輸的訊號都是電訊號，所以要用導線傳輸。

如果你有過自己裝電腦的經歷，印象最深刻的一定是插線過程（實在是太麻煩了……）。你所插的那些線，就是匯流排（Bus）的一部分。

匯流排在邏輯上分為：

地址匯流排
資料匯流排
控制匯流排

也是分別對應了上面所說的三種資訊。

圖源自小甲魚網課

仔細看，地址線中，CPU將自己需要操作的物件的地址傳送給記憶體，告訴記憶體我現在需要這個地址裡的東西。

接著控制線中，CPU發給記憶體讀的資訊，告訴它我現在需要進行的操作是讀取。

然後記憶體便知道自己需要做什麼了，就將地址號為3的資料交給了CPU。

至於寫的指令，和讀是一樣的，只不過資料是從CPU到記憶體的。

還記不記得上面提到過，說在記憶體中指令和資料時無法區分的，兩個一樣的機器程式碼既可以代表一種操作，又可以代表一串資料。當時我們只是說可以人為認定它代表什麼，而現在我們知道了，從哪條線走的，就是代表哪一類。

如果你見過CPU晶片，肯定就見過黃色的那些針腳（也交管腳），它們是和匯流排相連的。也可以說這些針腳引出了匯流排。

一個CPU可以引出的三種匯流排的寬度分別代表了它在三個方面的效能：

地址匯流排寬度決定了CPU的定址能力
資料匯流排寬度決定了資料傳輸一次的資料量
控制匯流排寬度決定了其對其他部件的控制能力

1.5.1 地址匯流排

通過上面的圖我們能知道地址匯流排是用來傳輸地址的線，這裡我們稍微多講一點。

你們肯定都知道現在的電腦一般都是64或者32位元的，但這個可以理解為雙重的概念，即作業系統的位數和CPU的位數。兩者是有關聯的，簡單來說，如果CPU是64位元的，作業系統如果低於，就不能完全發揮CPU的效能。

對於CPU的這個引數，它代表的意思是定址的能力。比如64位元的處理器可以定址2的64次方個地址。理論上來講每條地址線就有一條導線，所以看起來64位元處理器有64條，但實際上不一定是。

更準確一點的說法是，一個CPU有N條地址線，就可以說這個CPU的地址匯流排寬度為N，可以尋找2的N次方個記憶體單元。地址匯流排上能傳送多少個不同的資訊，CPU就可以對多少個儲存單元進行定址。

1.5.2 資料匯流排

資料匯流排同樣也有寬度，它決定了資料傳輸的速度。

就像是公路一樣，公路越寬，單位時間走的車就越多（因為速度都差不多一樣，好像叫什麼震盪頻率啊什麼的）。

同樣也可以用位數來理解。

比如8086處理器，它是16位元的資料匯流排。
如果我們要傳輸某個資料，它的二進位制程式碼是1101100010001001正好16位元，我們就可以一次傳輸完畢：

8086

如果是8088處理器的話，因為這是一個8位元的CPU，所以需要傳遞兩次。注意是從低到高。

這也是位數增加運算速度更快的原因，想想現在的64位元CPU

1.5.3 控制匯流排

控制匯流排是控制線的總稱，控制線主要是CPU對其他器件的控制。

所以有多少跟控制線，就意味著CPU可以對其他器件有多少種控制。

需要知道的是，之前講的讀寫命令是由好幾根控制線綜合發出的，具體的教材上好像不要求掌握，就不多贅述了。

本章結束，注意以上內容均為理論，對實際情況不做討論。