什麼是ForkJoin?看這一篇就能掌握!

2022-10-29 15:00:28
摘要:ForkJoin是由JDK1.7之後提供的多執行緒並行處理框架。

本文分享自華為雲社群《【高並行】什麼是ForkJoin?看這一篇就夠了!》,作者: 冰 河。

在JDK中,提供了這樣一種功能:它能夠將複雜的邏輯拆分成一個個簡單的邏輯來並行執行,待每個並行執行的邏輯執行完成後,再將各個結果進行彙總,得出最終的結果資料。有點像Hadoop中的MapReduce。

ForkJoin是由JDK1.7之後提供的多執行緒並行處理框架。ForkJoin框架的基本思想是分而治之。什麼是分而治之?分而治之就是將一個複雜的計算,按照設定的閾值分解成多個計算,然後將各個計算結果進行彙總。相應的,ForkJoin將複雜的計算當做一個任務,而分解的多個計算則是當做一個個子任務來並行執行。

Java並行程式設計的發展

對於Java語言來說,生來就支援多執行緒並行程式設計,在並行程式設計領域也是在不斷髮展的。Java在其發展過程中對並行程式設計的支援越來越完善也正好印證了這一點。

  • Java 1 支援thread,synchronized。
  • Java 5 引入了 thread pools, blocking queues, concurrent collections,locks, condition queues。
  • Java 7 加入了fork-join庫。
  • Java 8 加入了 parallel streams。

並行與並行

並行和並行在本質上還是有所區別的。

並行

並行指的是在同一時刻,只有一個執行緒能夠獲取到CPU執行任務,而多個執行緒被快速的輪換執行,這就使得在宏觀上具有多個執行緒同時執行的效果,並行不是真正的同時執行,並行可以使用下圖表示。

並行

並行指的是無論何時,多個執行緒都是在多個CPU核心上同時執行的,是真正的同時執行。

分治法

基本思想

把一個規模大的問題劃分為規模較小的子問題,然後分而治之,最後合併子問題的解得到原問題的解。

步驟

①分割原問題;

②求解子問題;

③合併子問題的解為原問題的解。

我們可以使用如下虛擬碼來表示這個步驟。

if(任務很小){
 直接計算得到結果
}else{
 分拆成N個子任務
 呼叫子任務的fork()進行計算
 呼叫子任務的join()合併計算結果
}

在分治法中,子問題一般是相互獨立的,因此,經常通過遞迴呼叫演演算法來求解子問題。

典型應用

  • 二分搜尋
  • 大整數乘法
  • Strassen矩陣乘法
  • 棋盤覆蓋
  • 合併排序
  • 快速排序
  • 線性時間選擇
  • 漢諾塔

ForkJoin並行處理框架

ForkJoin框架概述

Java 1.7 引入了一種新的並行框架—— Fork/Join Framework,主要用於實現「分而治之」的演演算法,特別是分治之後遞迴呼叫的函數。

ForkJoin框架的本質是一個用於並行執行任務的框架, 能夠把一個大任務分割成若干個小任務,最終彙總每個小任務結果後得到大任務的計算結果。在Java中,ForkJoin框架與ThreadPool共存,並不是要替換ThreadPool

其實,在Java 8中引入的並行流計算,內部就是採用的ForkJoinPool來實現的。例如,下面使用並行流實現列印陣列元組的程式。

public class SumArray {
 public static void main(String[] args){
 List<Integer> numberList = Arrays.asList(1,2,3,4,5,6,7,8,9);
 numberList.parallelStream().forEach(System.out::println);
 }
}

這段程式碼的背後就使用到了ForkJoinPool。

說到這裡,可能有讀者會問:可以使用執行緒池的ThreadPoolExecutor來實現啊?為什麼要使用ForkJoinPool啊?ForkJoinPool是個什麼鬼啊?! 接下來,我們就來回答這個問題。

ForkJoin框架原理

ForkJoin框架是從jdk1.7中引入的新特性,它同ThreadPoolExecutor一樣,也實現了Executor和ExecutorService介面。它使用了一個無限佇列來儲存需要執行的任務,而執行緒的數量則是通過建構函式傳入,如果沒有向建構函式中傳入指定的執行緒數量,那麼當前計算機可用的CPU數量會被設定為執行緒數量作為預設值。

ForkJoinPool主要使用**分治法(Divide-and-Conquer Algorithm)**來解決問題。典型的應用比如快速排序演演算法。這裡的要點在於,ForkJoinPool能夠使用相對較少的執行緒來處理大量的任務。比如要對1000萬個資料進行排序,那麼會將這個任務分割成兩個500萬的排序任務和一個針對這兩組500萬資料的合併任務。以此類推,對於500萬的資料也會做出同樣的分割處理,到最後會設定一個閾值來規定當資料規模到多少時,停止這樣的分割處理。比如,當元素的數量小於10時,會停止分割,轉而使用插入排序對它們進行排序。那麼到最後,所有的任務加起來會有大概200萬+個。問題的關鍵在於,對於一個任務而言,只有當它所有的子任務完成之後,它才能夠被執行。

所以當使用ThreadPoolExecutor時,使用分治法會存在問題,因為ThreadPoolExecutor中的執行緒無法向任務佇列中再新增一個任務並在等待該任務完成之後再繼續執行。而使用ForkJoinPool就能夠解決這個問題,它就能夠讓其中的執行緒建立新的任務,並掛起當前的任務,此時執行緒就能夠從佇列中選擇子任務執行。

那麼使用ThreadPoolExecutor或者ForkJoinPool,效能上會有什麼差異呢?

首先,使用ForkJoinPool能夠使用數量有限的執行緒來完成非常多的具有父子關係的任務,比如使用4個執行緒來完成超過200萬個任務。但是,使用ThreadPoolExecutor時,是不可能完成的,因為ThreadPoolExecutor中的Thread無法選擇優先執行子任務,需要完成200萬個具有父子關係的任務時,也需要200萬個執行緒,很顯然這是不可行的,也是很不合理的!!

工作竊取演演算法

假如我們需要做一個比較大的任務,我們可以把這個任務分割為若干互不依賴的子任務,為了減少執行緒間的競爭,於是把這些子任務分別放到不同的佇列裡,併為每個佇列建立一個單獨的執行緒來執行佇列裡的任務,執行緒和佇列一一對應,比如A執行緒負責處理A佇列裡的任務。但是有的執行緒會先把自己佇列裡的任務幹完,而其他執行緒對應的佇列裡還有任務等待處理。幹完活的執行緒與其等著,不如去幫其他執行緒幹活,於是它就去其他執行緒的佇列裡竊取一個任務來執行。而在這時它們會存取同一個佇列,所以為了減少竊取任務執行緒和被竊取任務執行緒之間的競爭,通常會使用雙端佇列,被竊取任務執行緒永遠從雙端佇列的頭部拿任務執行,而竊取任務的執行緒永遠從雙端佇列的尾部拿任務執行。

工作竊取演演算法的優點:

充分利用執行緒進行平行計算,並減少了執行緒間的競爭。

工作竊取演演算法的缺點:

在某些情況下還是存在競爭,比如雙端佇列裡只有一個任務時。並且該演演算法會消耗更多的系統資源,比如建立多個執行緒和多個雙端佇列。

Fork/Join框架侷限性:

對於Fork/Join框架而言,當一個任務正在等待它使用Join操作建立的子任務結束時,執行這個任務的工作執行緒查詢其他未被執行的任務,並開始執行這些未被執行的任務,通過這種方式,執行緒充分利用它們的執行時間來提高應用程式的效能。為了實現這個目標,Fork/Join框架執行的任務有一些侷限性。

(1)任務只能使用Fork和Join操作來進行同步機制,如果使用了其他同步機制,則在同步操作時,工作執行緒就不能執行其他任務了。比如,在Fork/Join框架中,使任務進行了睡眠,那麼,在睡眠期間內,正在執行這個任務的工作執行緒將不會執行其他任務了。
(2)在Fork/Join框架中,所拆分的任務不應該去執行IO操作,比如:讀寫資料檔案。
(3)任務不能丟擲檢查異常,必須通過必要的程式碼來出來這些異常。

ForkJoin框架的實現

ForkJoin框架中一些重要的類如下所示。

ForkJoinPool 框架中涉及的主要類如下所示。

1.ForkJoinPool類

實現了ForkJoin框架中的執行緒池,由類圖可以看出,ForkJoinPool類實現了執行緒池的Executor介面。

我們也可以從下圖中看出ForkJoinPool的類圖關係。

其中,可以使用Executors.newWorkStealPool()方法建立ForkJoinPool。

ForkJoinPool中提供瞭如下提交任務的方法。
public void execute(ForkJoinTask<?> task)
public void execute(Runnable task)
public <T> T invoke(ForkJoinTask<T> task)
public <T> List<Future<T>> invokeAll(Collection<? extends Callable<T>> tasks) 
public <T> ForkJoinTask<T> submit(ForkJoinTask<T> task)
public <T> ForkJoinTask<T> submit(Callable<T> task)
public <T> ForkJoinTask<T> submit(Runnable task, T result)
public ForkJoinTask<?> submit(Runnable task)

2.ForkJoinWorkerThread類

實現ForkJoin框架中的執行緒。

3.ForkJoinTask<V>類

ForkJoinTask封裝了資料及其相應的計算,並且支援細粒度的資料並行。ForkJoinTask比執行緒要輕量,ForkJoinPool中少量工作執行緒能夠執行大量的ForkJoinTask。

ForkJoinTask類中主要包括兩個方法fork()和join(),分別實現任務的分拆與合併。

fork()方法類似於Thread.start(),但是它並不立即執行任務,而是將任務放入工作佇列中。跟Thread.join()方法不同,ForkJoinTask的join()方法並不簡單的阻塞執行緒,而是利用工作執行緒執行其他任務,當一個工作執行緒中呼叫join(),它將處理其他任務,直到注意到目標子任務已經完成。

我們可以使用下圖來表示這個過程。

ForkJoinTask有3個子類:

  • RecursiveAction:無返回值的任務。
  • RecursiveTask:有返回值的任務。
  • CountedCompleter:完成任務後將觸發其他任務。

4.RecursiveTask<V> 類

有返回結果的ForkJoinTask實現Callable。

5.RecursiveAction類

無返回結果的ForkJoinTask實現Runnable。

6.CountedCompleter<T> 類

在任務完成執行後會觸發執行一個自定義的勾點函數。

ForkJoin範例程式

package io.binghe.concurrency.example.aqs;
import lombok.extern.slf4j.Slf4j;
import java.util.concurrent.ForkJoinPool;
import java.util.concurrent.Future;
import java.util.concurrent.RecursiveTask;
@Slf4j
public class ForkJoinTaskExample extends RecursiveTask<Integer> {
 public static final int threshold = 2;
 private int start;
 private int end;
 public ForkJoinTaskExample(int start, int end) {
 this.start = start;
 this.end = end;
 }
 @Override
 protected Integer compute() {
 int sum = 0;
 //如果任務足夠小就計算任務
 boolean canCompute = (end - start) <= threshold;
 if (canCompute) {
 for (int i = start; i <= end; i++) {
                sum += i;
 }
 } else {
 // 如果任務大於閾值,就分裂成兩個子任務計算
 int middle = (start + end) / 2;
 ForkJoinTaskExample leftTask = new ForkJoinTaskExample(start, middle);
 ForkJoinTaskExample rightTask = new ForkJoinTaskExample(middle + 1, end);
 // 執行子任務
 leftTask.fork();
 rightTask.fork();
 // 等待任務執行結束合併其結果
 int leftResult = leftTask.join();
 int rightResult = rightTask.join();
 // 合併子任務
            sum = leftResult + rightResult;
 }
 return sum;
 }
 public static void main(String[] args) {
 ForkJoinPool forkjoinPool = new ForkJoinPool();
 //生成一個計算任務,計算1+2+3+4
 ForkJoinTaskExample task = new ForkJoinTaskExample(1, 100);
 //執行一個任務
 Future<Integer> result = forkjoinPool.submit(task);
 try {
            log.info("result:{}", result.get());
 } catch (Exception e) {
 log.error("exception", e);
 }
 }
}

 

點選關注,第一時間瞭解華為雲新鮮技術~