1. 簡介

本文將介紹 Go 語言中的 WaitGroup 並行原語，包括 WaitGroup 的基本使用方法、實現原理、使用注意事項以及常見的使用方式。能夠更好地理解和應用 WaitGroup 來協調多個 Goroutine 的執行，提高 Go 並行程式設計的效率和穩定性。

2. 基本使用

2.1 定義

WaitGroup是Go語言標準庫中的一個結構體，它提供了一種簡單的機制，用於同步多個協程的執行。適用於需要並行執行多個任務並等待它們全部完成後才能繼續執行後續操作的場景。

2.2 使用方式

首先主協程建立WaitGroup範例，然後在每個協程的開始處，呼叫Add(1)方法，表示需要等待一個任務執行完成，然後協程在任務執行完成之後，呼叫Done方法，表示任務已經執行完成了。

主協程中，需要呼叫Wait()方法，等待所有協程完成任務，範例如下:

func main(){
    //首先主協程建立WaitGroup範例
    var wg sync.WaitGroup
    // 開始時呼叫Add方法表示有個任務開始執行
    wg.Add(1)
    go func() {
        // 開始執行...
        //完成之後,呼叫Done方法
        wg.Done()
    }()
    // 呼叫Wait()方法，等待所有協程完成任務
    wg.Wait()
    // 執行後續邏輯
}

2.3 使用例子

package main

import (
    "fmt"
    "sync"
)

func main() {
    var wg sync.WaitGroup
    for i := 0; i < 5; i++ {
       wg.Add(1)
       go func(i int) {
          defer wg.Done()
          fmt.Printf("任務%d開始執行\n", i)
          // 模擬協程任務執行一段時間
          time.Sleep(time.Duration(rand.Int() % 100))
          // 執行緒任務執行完成
          fmt.Printf("任務%d執行完畢\n", i)
       }(i)
    }
    fmt.Println("主協程開始等待所有任務執行完成...")
    wg.Wait()
    fmt.Println("所有協程已經執行完畢...")
}

在這個例子中，我們使用了sync.WaitGroup來等待5個協程執行完畢。在迴圈中，每建立一個任務，我們呼叫一次wg.Add(1)方法，然後啟動一個協程去執行任務，當協程完成任務後，呼叫wg.Done方法，告知主協程任務已經執行完畢。然後主協程會在5個協程任務全部執行完畢之後，才會繼續向下執行。

3.實現原理

3.1 設計初衷

WaitGroup的設計初衷就是為了等待一組操作完成後再執行下一步操作，通常會在一組協程中使用。

3.2 實現

sync.WaitGroup 結構體中的 state1 和 state2 欄位是用於實現 WaitGroup 功能的重要變數。

type WaitGroup struct {
   noCopy noCopy

   state1 uint64
   state2 uint32
}

由於 WaitGroup 需要等待一組操作完成之後再執行，因此需要等待所有操作完成之後才能繼續執行。為了實現這個功能，WaitGroup 使用了一個計數器 counter 來記錄還有多少個操作沒有完成，如果 counter 的值為 0，則表示所有操作已經完成。

同時，WaitGroup 在所有任務都完成之後，需要喚醒所有處於等待的協程，此時需要知道有多少個協程處於等待狀態。為了實現這個功能，WaitGroup 使用了一個等待計數器 waiter 來記錄當前有多少個協程正在等待操作完成。

這裡WaitGroup對於計數器和等待計數器的實現，是通過一個64位元無符號整數來實現的，也就是WaitGroup結構體中的state1，其中高32位元儲存了任務計數器counter的值，低32位元儲存了等待計數器waiter的值。當我們建立一個 WaitGroup 範例時，該範例的任務計數器和等待計數器都被初始化為 0。

而且，等待協程需要等待所有任務完成之後才能繼續執行，所以等待協程在任務未完成時會被阻塞，當任務全部完成後，自動被喚醒。WaitGroup使用 state2 用於實現號誌機制。通過呼叫 runtime_Semacquire() 和 runtime_Semrelease() 函數，可以在不阻塞執行緒的情況下進行等待和通知操作。下面是Add，Done和Wait方法的具體實現:

呼叫 Add() 方法增加/減小counter的值，delta的值可以是正數，也可以是負數，下面是Add方法的原始碼實現:

func (wg *WaitGroup) Add(delta int) {
   // delta 的值可以為負數,Done方法便是通過Add(-1)來實現的
   // statep: 為state1的地址  semap: 為state2的地址
   statep, semap := wg.state()
   // 高32位元的值 加上 delta,增加任務計數器的值
   state := atomic.AddUint64(statep, uint64(delta)<<32)
   // v: 取高32位元資料,獲取到待完成任務數
   v := int32(state >> 32)
   // 取低32位元資料,獲取到等待執行緒的值
   w := uint32(state)
   // v > 0: 說明還有待完成的任務數,此時不應該喚醒等待協程
   // w = 0: 說明沒有協程在等待,此時可以直接退出
   if v > 0 || w == 0 {
      return
   }     
   // 此時v = 0,所有任務都完成了,喚醒等待協程
   *statep = 0
   for ; w != 0; w-- {
      runtime_Semrelease(semap, false, 0)
   }
}

呼叫 Done() 方法表示完成了一個任務，通過呼叫Add方法，delta值為-1，減少任務計數器counter的值，當其歸為0時，便自動喚醒所有處於等待的協程。

// Done decrements the WaitGroup counter by one.
func (wg *WaitGroup) Done() {
   wg.Add(-1)
}

呼叫Wait方法，等待任務執行完成，增加等待計數器Waiter的值:

func (wg *WaitGroup) Wait() {
   // statep: 為state1的地址  semap: 為state2的地址
   statep, semap := wg.state()
   for {
      // 載入state1的值
      state := atomic.LoadUint64(statep)
      // v: 取高32位元資料,獲取到待完成任務數
      v := int32(state >> 32)
      // 沒有任務待執行,全部都完成了
      if v == 0 {
         return
      }
      // 增加waiter計數器的值
      if atomic.CompareAndSwapUint64(statep, state, state+1) {
          // 等待被喚醒
         runtime_Semacquire(semap)
         return
      }
   }
}

3.3 實現補充

Add方法，Done方法以及Wait方法實現中，有一些異常場景的驗證邏輯被我刪除掉了。當出現異常場景時，說明使用者使用方式和WaitGroup的設計初衷相違背了，此時WaitGroup就會直接panic。

下面通過說明使用的注意事項，來間接介紹WaitGroup的異常驗證邏輯。

4.使用注意事項

4.1 Add方法和Done方法需要成對出現

下面是一個Add方法和Done方法沒有成對出現的例子，此時Add方法調多了，此時計數器永遠大於0，Wait 方法會一直阻塞等待。

package main

import (
    "fmt"
    "sync"
)

func main() {
    var wg sync.WaitGroup

    wg.Add(2)

    go func() {
        defer wg.Done()
        fmt.Println("Goroutine 1")
    }()

    go func() {
        fmt.Println("Goroutine 2")
    }()

    wg.Wait()

    fmt.Println("All goroutines finished")
}

在上述程式碼中，我們呼叫了wg.Add(2)，但只呼叫了一次wg.Done()。這會導致counter的值大於0，因此呼叫wg.Wait()會被永久阻塞，不會繼續向下繼續執行。

還有另外一種情況時Done方法呼叫多了，此時任務計數器counter的值為負數，從WaitGroup設計的語意來看，就是需要等待完成的任務數為負數，這個不符合預期，此時將會直接panic

package main

import (
    "fmt"
    "sync"
)

func main() {
    var wg sync.WaitGroup
    wg.Add(1)

    go func() {
        fmt.Println("Goroutine 1 started")
        wg.Done() // 第一次呼叫Done方法
        wg.Done() // 第二次呼叫Done方法
        fmt.Println("Goroutine 1 completed")
    }()

    wg.Wait()
    fmt.Println("All goroutines completed")
}

在上面的例子中，我們啟動了一個goroutine，第一次呼叫Add方法，counter的值變為1，在第14行呼叫Done，此時計數器的值變為0，此時等待中的goroutine將會被喚醒。在第15行又呼叫了一次Done方法，當counter減小為0時，再次呼叫Done方法會導致panic，因為此時waitGroup的計數器已經為0，再次減少將導致負數計數，這是不被允許的。

所以在呼叫Done方法時，需要保證每次呼叫都與Add方法的呼叫一一對應，否則會導致程式出現錯誤。

4.2 在所有任務都已經新增之後，才呼叫Wait方法進行等待

WaitGroup的設計初衷就是為了等待一組操作完成後再執行下一步操作。所以，如果在所有任務新增之前，便呼叫Wait方法進行等待，此時有可能會導致等待協程提前被喚醒，執行下一步操作，而尚未新增的任務則不會被等待，這違反了WaitGroup的設計初衷，也不符合預期。下面是一個簡單的例子:

package main

import (
        "fmt"
        "sync"
        "time"
)

func main() {
        var wg sync.WaitGroup
        for i := 1; i <= 3; i++ {
           go func(id int) {
              wg.Add(1)
              defer wg.Done()
              fmt.Printf("Goroutine %d started\n", id)
              time.Sleep(time.Duration(id) * time.Second) 
              fmt.Printf("Goroutine %d finished\n", id)
           }(i)
        }
        
        // 不等待所有任務新增，就開始等待
        wg.Wait()
        fmt.Println("All goroutines finished")
        time.Sleep(10 * time.Second)
}

程式碼執行結果如下，等待協程被提前喚醒，執行之後的操作，而子任務在等待協程喚醒後才開始執行:

All goroutines finished
Goroutine 1 started
Goroutine 3 started
Goroutine 2 started
Goroutine 1 finished
Goroutine 2 finished
Goroutine 3 finished

在這個例子中，我們建立了三個協程並列印出它們開始和結束的訊息。但是，我們沒有在任務開始前呼叫Add方法新增任務，而是在任務開始之後再呼叫Add方法新增任務。

這可能會導致某些任務未被加入到WaitGroup中，等待協程就呼叫了wg.Wait方法，這樣就會導致一些任務未被加入WaitGrou，從而導致等待協程不會等待這些任務執行完成。如果這種情況發生了，我們會看到"All goroutines finished"被輸出，但實際上有一些協程還沒有完成。

因此，我們應該在所有任務新增完畢之後再呼叫Wait方法，以保證等待的正確性。

5. WaitGroup常見使用方式

在函數或方法中使用，如果一個大任務可以拆分為多個獨立的子任務，此時會將其進行拆分，並使用多個協程來並行執行這些任務，提高執行效率，同時使用WaitGroup等待所有子任務執行完成，完成協程間的同步。

使用方式也比較簡單，先建立一個 sync.WaitGroup，在函數/方法中啟動多個協程，每個協程執行一個任務。然後在協程開始執行任務前，呼叫 WaitGroup.Add(1)，表示有一個任務要執行，然後在任務執行完成後呼叫 WaitGroup.Done()，表示這個任務執行完成了。

最後，在函數/方法返回之前，需要呼叫 WaitGroup.Wait()，等待所有的任務執行完成。大概範例如下:

func funcName() {
    var wg sync.WaitGroup
    for _, 任務 := range 任務列表 {
      wg.Add(1)
      go func() {
        defer wg.Done()
        //執行任務
      }
   }
   // 呼叫wait方法等待所有任務完成
   wg.Wait()
}

下面來看go-redis中ClusterClient結構體中ForEachMaster方法中對於WaitGroup的使用。ForEachMaster方法通常用於在 Redis 叢集中執行鍼對所有主節點的某種操作，例如在叢集中新增或刪除鍵，或者執行一些全域性的診斷操作，具體執行的操作由傳入引數fn指定。

這裡ForEachMaster方法會對所有主節點執行某種操作，這裡的實現是對所有主節點執行某種操作這個大任務，拆分為多個獨立的子任務，每個子任務完成對一個Master節點執行指定操作，然後每個子任務啟動一個協程去執行，主協程使用WaitGroup等待所有協程完成指定子任務，ForEachMaster也就完成了對所有主節點執行某種操作的任務。具體實現如下：

func (c *ClusterClient) ForEachMaster(
   ctx context.Context,
   fn func(ctx context.Context, client *Client) error,
) error {
   // 重新載入叢集狀態,以確保狀態資訊是最新的
   state, err := c.state.ReloadOrGet(ctx)
   if err != nil {
      return err
   }
   var wg sync.WaitGroup
   // 用於協程間通訊
   errCh := make(chan error, 1)
    // 獲取到redis叢集中所有的master節點
   for _, master := range state.Masters {
      // 啟動一個協程來執行該任務
      wg.Add(1)
      go func(node *clusterNode) {
         // 任務完成時,呼叫Done告知WaitGroup任務已完成
         defer wg.Done()
         err := fn(ctx, node.Client)
         if err != nil {
            select {
            case errCh <- err:
            default:
            }
         }
      }(master)
   }
   // 主協程等待所有任務完成
   wg.Wait()
   return nil
 }

6.總結

本文介紹了 Go 語言中的 WaitGroup 並行原語，它提供了一種簡單且強大的機制來協調多個 Goroutine 的執行。我們首先學習了 WaitGroup 的基本使用方法，包括如何建立 WaitGroup、如何向計數器中新增值、如何等待所有 Goroutine 完成以及如何在 Goroutine 中通知 WaitGroup 完成。

接著，我們瞭解了 WaitGroup 的實現原理，包括計數器和等待計數器的實現。瞭解了實現原理之後，我們可以更好地理解 WaitGroup 的內部機制以及如何更好地使用它來實現我們的需求。

在接下來的部分中，我們介紹了一些使用 WaitGroup 的注意事項，以及常見的使用方式。基於此，我們完成了對WaitGroup的介紹。

同步協程的必備工具: WaitGroup