MongoDB

聚合管道

聚合框架是 MongoDB 中的一組分析工具，可以對一個或多個集合中的檔案進行分析。

MongoDB 的聚合框架基於管道的概念：首先從集合中獲取到輸入，然後將輸入的檔案傳遞到一個或多個階段，每個階段都將之前階段輸出的內容作為輸入，最終得到一個聚合結果作為輸出。

上面的圖是一個比較寬泛的管道流程圖。這裡展示一個 MongoDB 聚合語句對映到管道之後的情況：

在這裡可以看得出，aggregate([{}, {}]) 是一個聚合語句，在函數的陣列中，每一個物件都是一個階段，$match 應該就是一個篩選檔案的階段，$group 應該就是一個分組彙總的階段。

管道階段

使用聚合框架最重要的就是熟悉操作的語法，以及將這些語法構建成管道當中的階段。

在 MongoDB 聚合框架中，每一個階段都必須要規定一個特定的階段運運算元，這些階段運運算元表明了階段的執行規則，可以到官方檔案上檢視更多、更詳細的內容。

常見操作

最常見的操作應該是能與普通查詢語句對應上的操作，如查詢、投影、排序、跳過、限制等等。雖然這些在一個 find() 語句中就能實現。

最常使用的操作就是查詢，也可以說是篩選、過濾，在聚合框架中使用 $match 來表明這是一個篩選檔案的階段。如下是其使用語法：

{ $match: { <query> } }

第二個則是投影，這個階段可以修改輸入檔案的結構，通常是重新命名、增加、刪除屬性，也可以通過表示式建立計算結果以及巢狀檔案。如下是其使用語法：

// <field>: <1 or true>
// <field>: <0 or false>
// <field>: <expression>
{ $project: { <specification(s)> } }

排序、跳過、限制都比較容易理解，實際上可以與 find() 結果的遊標支援的函數做聯絡。如下是其使用語法：

// 排序
{ $sort: { <field1>: <sort order>, <field2>: <sort order> ... } }
// 跳過
{ $skip: <positive 64-bit integer> }
// 限制
{ $limit: <positive 64-bit integer> }

上述 5 個階段是最常用的階段，在使用時需要注重它們的效率，一般會使用這樣的順序去構建管道：

通過篩選語句過濾指定集合，得到符合要求的檔案列表；
如果排序非常重要，這一個階段需要在過濾檔案之後；
如果需要做分頁功能，應該是先執行跳過的階段，然後再到限制的階段；
最後，執行投影階段（進入投影階段的檔案應該儘量少）。

條件組累加器

在一些階段操作中，MongoDB 支援使用累加器來增強聚合功能，這裡說的累加器泛指求和、平均值、最大值、最小值等功能的操作符。

算術運算

這裡的算術運算不是統稱的四則運算，指的是與數學相關的運算，如平均值、求和等。

$avg 累加器用於計算平均值，通過是直接指定一個鍵名即可，使用 { $avg: "$keyName" } 這樣的語法。

$sum 累加器用於計算指定鍵的和，也是直接指定一個鍵名即可，使用 { $sum: "$keyName" } 這樣的語法。

最值運算

累加器支援的最值包括這些：最小值、最大值、最大的 n 個值。

最小值和最大值的理解都比較容易，使用也比較容易。最小值使用了 { $min: "$keyName" } 這樣的語法，最大值使用了 { $max: "$keyName" } 這樣的語法。

最大的 n 個值是在 5.2 版本新增的累加器，其作用是通過指定輸入的鍵，得到這些鍵值中排序後最大的 n 個值，其語法如下：

{
    $maxN: {
        // 指定鍵名  input: "$score"
        input: <expression>,
        // 指定數量  n: 3
        n: <expression>
    }
}

陣列提取

這裡的陣列提取指的是提取陣列中的某個元素，現在能支援到的就是提取出陣列中的前 n 個元素、後 n 個元素。

在這裡可以使用 $first、$firstN、$last、$lastN 這樣的運運算元，它們的語法分別如下：

{ $first: <expression> }

{
    $firstN: {
        input: <expression>,
        n: <expression>
    }
}

{ $last: <expression> }

{
    $lastN: {
        input: <expression>,
        n: <expression>
    }
}

其他運算

除了上述的累加器，聚合框架還有非常多其他的累加器，這裡簡單列一下：

$accumulator: 返回自定義累加器函數的結果
$addToSet: 返回一個無重複值的陣列
$bottom: 返回指定排序規則後最後 1 個元素
$bottomN: 返回指定排序規則後最後 n 個元素
$count: 返回檔案的計數
$mergeObjects: 返回合併多個物件之後的結果
$push: 返回一個可以有重複值的陣列
$stdDevPop: 返回輸入值的總體標準差
$stdDevSamp: 返回輸入值的樣本標準差

這些累加器都有各自的用法，使用得當可實現非常強大的資料分析功能，完整的內容可以到官方檔案上檢視。

聚合管道

管道階段

常見操作

更多操作 - 投影

更多操作 - 展開

更多操作 - 分組

更多操作 - 入庫

條件組累加器

算術運算

最值運算

陣列提取

其他運算