怎樣使用 awk 刪掉檔案中重複的行

學習怎樣使用 awk 的 !visited[$0]++ 在不重新排序或改變原排列順序的前提下刪掉重複的行。

假設你有一個文字檔案，你需要刪掉所有重複的行。

要保持原來的排列順序刪掉重複行，使用：

awk '!visited[$0]++' your_file > deduplicated_file

這個指令碼維護一個關聯陣列，索引（鍵）為檔案中去重後的行，每個索引對應的值為該行出現的次數。對於檔案的每一行，如果這行（之前）出現的次數為 0，則值加 1，並列印這行，否則值加 1，不列印這行。

我之前不熟悉 awk，我想弄清楚這麼短小的一個指令碼是怎麼實現的。我調研了下，下面是調研心得：

總的來說，整個表示式的意思是：

<模式/表示式> { <動作> }

如果匹配到了模式，就會執行後面的動作。如果省略動作，awk 預設會列印（print）輸入。

省略動作等價於 {print $0}。

我們的指令碼由一個 awk 表示式語句組成，省略了動作。因此這樣寫：

awk '!visited[$0]++' your_file > deduplicated_file

等於這樣寫：

awk '!visited[$0]++ { print $0 }' your_file > deduplicated_file

對於檔案的每一行，如果表示式匹配到了，這行內容被列印到輸出。否則，不執行動作，不列印任何東西。

uniq 命令僅能對相鄰的行去重。這是一個範例：

$ cat test.txtAAABBBAACCCBBA$ uniq < test.txtABACBA

我們也可以用下面的 sort 命令來去除重複的行，但是原來的行順序沒有被保留。

sort -u your_file > sorted_deduplicated_file

上面的方法會產出一個去重的檔案，各行是基於內容進行排序的。通過管道連線命令可以解決這個問題。

cat -n your_file | sort -uk2 | sort -nk1 | cut -f2-

工作原理

假設我們有下面一個檔案：

abcghiabcdefxyzdefghiklm

cat -n test.txt 在每行前面顯示序號：

1       abc2       ghi3       abc4       def5       xyz6       def7       ghi8       klm

sort -uk2 基於第二列（k2 選項）進行排序，對於第二列相同的值只保留一次（u 選項）：

1       abc4       def2       ghi8       klm5       xyz

sort -nk1 基於第一列排序（k1 選項），把列的值作為數位來處理（-n 選項）：

1       abc2       ghi4       def5       xyz8       klm

最後，cut -f2- 從第二列開始列印每一行，直到最後的內容（-f2- 選項：留意 - 字尾，它表示這行後面的內容都包含在內）。

abcghidefxyzklm

以上為全文。