組合語言學習筆記01——組合基礎知識

2020-09-23 13:00:53

引言

組合語言是除了機器語言外,最為底層的程式語言。由於機器只能讀懂0和1,所以需要轉換成人類更易操作的語言(其實設計c等高階語言的原因也包括這點)。

同時呢,組合語言也是其他很多高階語言通向機器的一個橋樑,比如c語言需要編寫好後再編譯成組合語言,再轉換為機器語言。

這樣的話就可以自然想到,是不是我可以通過一些反編譯的手段去破解一些軟體或者其他的呢(逆向工程)?

其實也不然,只有機器語言和組合語言是一一對應的,而高階語言很可能一句話就代表了很多組合語言的操作,所以正向容易而逆向容易出錯。例如一個用c語言編寫的程式,不可能被人直接把原始碼給破解出來的。這時候就需要用到組合語言了(駭客最愛)

總之,由於組合和機器是關聯非常密切的,所以學習組合語言可以讓我們更加了解硬體的運作,如何讓硬體更有效率的工作。

本部落格主要是根據組合語言與介面技術第四版,以及小甲魚網課(地址:fishc.com)來寫。本人大三計算機專業,第一次學習組合語言,筆記僅適用於初學者借鑑,如有疏漏望大佬指出。

1.1 組合語言的產生

機器語言是機器指令的集合;
而組合語言的主體也是組合指令。

兩種指令區別在於表示方式上,通俗來講,組合指令是在機器指令的基礎上寫成了一種便於我們記憶的格式。定義上來講,組合指令叫做機器指令的助記符。

這裡舉個例子:
比如一個操作的內容是:將暫存器AX的內容移動到暫存器BX中。

用機器語言來寫是這樣的:1000100111011000

是不是根本看不懂?那麼組合指令呢,就對其進行格式變換,寫成了組合的語言:
MOV BX,AX

mov的意思就是move移動,一般都取三個字母,這樣看就很好理解了。值得注意的是,是將後面的移動到前面的,具體操作後面再講。

暫存器

我們剛才提到了AX BX這些暫存器,這些是什麼東西呢?

簡單來講,可以理解為cpu中的記憶體(注意跟一級二級快取區分)。一個cpu裡面有各種各樣的暫存器,比如標誌暫存器啊資料暫存器啊等等,每個都有自己的任務。目前只需要知道它們是儲存資料啊指令什麼的。
而AX和BX這種,暫時理解為暫存器的代號吧(小甲魚是這麼說的)

1.2 組合語言的組成

組合語言主要由以下三個部分組成:

  1. 組合指令(即機器語言的助記符),也是組合語言的核心。比如MOV add之類的,後續跟隨的運算元也放在一起。
    先放一張8086的指令格式圖,慢慢理解是可以看懂的。
    在這裡插入圖片描述

  2. 偽指令。
    偽指令要區別於組合指令,組合指令是可以產生供機器執行的對應機器程式碼的,而偽指令不會,它主要用於輔助源程式的組合。比如指定資料存放地址等。這些指令機器無法識別,是通過編譯器來識別並執行的。
    具體例子可以參考這個https://blog.csdn.net/houyichaochao/article/details/80686076

  3. 其他符號。
    比如加減乘除什麼的,也是跟偽指令一樣,需要編譯器去識別和執行。

1.3 記憶體

計算機中的大部分部件都有自己的記憶體,我們這裡主要學習的是記憶體

CPU是負責控制整個計算機的執行和運算,但是我們不能把資料什麼的直接放到CPU中(因為實在太多了,cpu又那麼貴),所以我們一般會選擇硬碟存放。但是CPU又不能直接從硬碟中讀取資料,這時候就需要記憶體這個東西。

記憶體裡面需要存放CPU需要處理的指令和資料。指令的意思是告訴CPU要做什麼操作,資料則是告訴CPU要對什麼東西操作。

在記憶體或者硬碟上,資料和指令沒有什麼區別,都是一些二進位制的程式碼。
比如:
1000100111011000 —> 89D8H (資料)
1000100111011000 —> MOV AX,BX (指令)
具體代表哪一種,是人為說了算的。

1.4 儲存單元

記憶體會被劃分為若干個儲存單元,每個儲存單元從0開始編號。比如假如一個記憶體有128個儲存單元,他們的編號就是0~127.

一個儲存單元可存放1Byte。1KB的記憶體有0~1023共1024個儲存單元。

1.5 CPU對記憶體的讀寫——匯流排

前面我們說了,CPU自己不存那麼多的資料,而是從記憶體中獲取,主要獲取的東西有三類:

  • 儲存單元的地址(地址資訊)
  • 器件選擇以及讀寫命令(控制資訊)
  • 讀寫的資料(資料資訊)

那麼究竟這些資訊是如何傳輸的呢?

我們應該都聽說過電訊號這個東西,如下:

電平脈衝

電子計算機能夠處理和傳輸的訊號都是電訊號,所以要用導線傳輸。

如果你有過自己裝電腦的經歷,印象最深刻的一定是插線過程(實在是太麻煩了……)。你所插的那些線,就是匯流排(Bus)的一部分。

匯流排在邏輯上分為:

  • 地址匯流排
  • 資料匯流排
  • 控制匯流排

也是分別對應了上面所說的三種資訊。

圖源自小甲魚網課

讀

仔細看,地址線中,CPU將自己需要操作的物件的地址傳送給記憶體,告訴記憶體我現在需要這個地址裡的東西。

讀
接著控制線中,CPU發給記憶體讀的資訊,告訴它我現在需要進行的操作是讀取。

讀

然後記憶體便知道自己需要做什麼了,就將地址號為3的資料交給了CPU。

至於寫的指令,和讀是一樣的,只不過資料是從CPU到記憶體的。
寫

還記不記得上面提到過,說在記憶體中指令和資料時無法區分的,兩個一樣的機器程式碼既可以代表一種操作,又可以代表一串資料。當時我們只是說可以人為認定它代表什麼,而現在我們知道了,從哪條線走的,就是代表哪一類。

如果你見過CPU晶片,肯定就見過黃色的那些針腳(也交管腳),它們是和匯流排相連的。也可以說這些針腳引出了匯流排。

一個CPU可以引出的三種匯流排的寬度分別代表了它在三個方面的效能:

  • 地址匯流排寬度決定了CPU的定址能力
  • 資料匯流排寬度決定了資料傳輸一次的資料量
  • 控制匯流排寬度決定了其對其他部件的控制能力

1.5.1 地址匯流排

通過上面的圖我們能知道地址匯流排是用來傳輸地址的線,這裡我們稍微多講一點。

你們肯定都知道現在的電腦一般都是64或者32位元的,但這個可以理解為雙重的概念,即作業系統的位數和CPU的位數。兩者是有關聯的,簡單來說,如果CPU是64位元的,作業系統如果低於,就不能完全發揮CPU的效能。

對於CPU的這個引數,它代表的意思是定址的能力。比如64位元的處理器可以定址2的64次方個地址。理論上來講每條地址線就有一條導線,所以看起來64位元處理器有64條,但實際上不一定是。

更準確一點的說法是,一個CPU有N條地址線,就可以說這個CPU的地址匯流排寬度為N,可以尋找2的N次方個記憶體單元。地址匯流排上能傳送多少個不同的資訊,CPU就可以對多少個儲存單元進行定址。

1.5.2 資料匯流排

資料匯流排同樣也有寬度,它決定了資料傳輸的速度。

就像是公路一樣,公路越寬,單位時間走的車就越多(因為速度都差不多一樣,好像叫什麼震盪頻率啊什麼的)。

同樣也可以用位數來理解。

比如8086處理器,它是16位元的資料匯流排。
如果我們要傳輸某個資料,它的二進位制程式碼是1101100010001001正好16位元,我們就可以一次傳輸完畢:

8086

如果是8088處理器的話,因為這是一個8位元的CPU,所以需要傳遞兩次。注意是從低到高。

這也是位數增加運算速度更快的原因,想想現在的64位元CPU

1.5.3 控制匯流排

控制匯流排是控制線的總稱,控制線主要是CPU對其他器件的控制。

所以有多少跟控制線,就意味著CPU可以對其他器件有多少種控制。

需要知道的是,之前講的讀寫命令是由好幾根控制線綜合發出的,具體的教材上好像不要求掌握,就不多贅述了。


本章結束,注意以上內容均為理論,對實際情況不做討論。