PHP實時生成並下載超巨量資料量的EXCEL檔案

2020-07-16 10:05:44
最近接到一個需求,通過選擇的時間段匯出對應的使用者存取紀錄檔到excel中, 由於使用者量較大,經常會有匯出50萬加資料的情況。

而常用的PHPexcel包需要把所有資料拿到後才能生成excel, 在面對生成超巨量資料量的excel檔案時這顯然是會造成記憶體溢位的,所以考慮使用讓PHP邊寫入輸出流邊讓瀏覽器下載的形式來完成需求。

我們通過如下的方式寫入PHP輸出流

$fp = fopen('php://output', 'a');
fputs($fp, 'strings');
....
....
fclose($fp)

php://output是一個可寫的輸出流,允許程式像操作檔案一樣將輸出寫入到輸出流中,PHP會把輸出流中的內容傳送給web伺服器並返回給發起請求的瀏覽器

另外由於excel資料是從資料庫裡逐步讀出然後寫入輸出流的所以需要將PHP的執行時間設長一點(預設30秒)set_time_limit(0)不對PHP執行時間做限制。

註:

以下程式碼只是闡明生成巨量資料量EXCEL的思路和步驟,並且在去掉專案業務程式碼後程式有語法錯誤不能拿來直接執行,請根據自己的需求填充對應的業務程式碼!

/**
     * 文章存取紀錄檔
     * 下載的紀錄檔檔案通常很大, 所以先設定csv相關的Header頭, 然後開啟
     * PHP output流, 漸進式的往output流中寫入資料, 寫到一定量後將系統緩衝沖刷到響應中
     * 避免緩衝溢位
     */
    public function articleAccessLog($timeStart, $timeEnd)
    {
        set_time_limit(0);
        $columns = [
            '文章ID', '文章標題', ......
        ];
        $csvFileName = '使用者紀錄檔' . $timeStart .'_'. $timeEnd . '.xlsx';
        //設定好告訴瀏覽器要下載excel檔案的headers
        header('Content-Description: File Transfer');
        header('Content-Type: application/vnd.ms-excel');
        header('Content-Disposition: attachment; filename="'. $fileName .'"');
        header('Expires: 0');
        header('Cache-Control: must-revalidate');
        header('Pragma: public');
        $fp = fopen('php://output', 'a');//開啟output流
        mb_convert_variables('GBK', 'UTF-8', $columns);
        fputcsv($fp, $columns);//將資料格式化為CSV格式並寫入到output流中
        $accessNum = '1000000'//從資料庫獲取總量,假設是一百萬
        $perSize = 1000;//每次查詢的條數
        $pages   = ceil($accessNum / $perSize);
        $lastId  = 0;
        for($i = 1; $i <= $pages; $i++) {
            $accessLog = $logService->getArticleAccessLog($timeStart, $timeEnd, $lastId, $perSize);
            foreach($accessLog as $access) {
                $rowData = [
                    ......//每一行的資料
                ];
                mb_convert_variables('GBK', 'UTF-8', $rowData);
                fputcsv($fp, $rowData);
                $lastId = $access->id;
            }
            unset($accessLog);//釋放變數的記憶體
            //重新整理輸出緩衝到瀏覽器
            ob_flush();
            flush();//必須同時使用 ob_flush() 和flush() 函數來重新整理輸出緩衝。
        }
        fclose($fp);
        exit();
    }

好了, 其實很簡單,就是用逐步寫入輸出流並行送到瀏覽器讓瀏覽器去逐步下載整個檔案,由於是逐步寫入的無法獲取檔案的總體size所以就沒辦法通過設定header("Content-Length: $size");在下載前告訴瀏覽器這個檔案有多大了。不過不影響整體的效果這裡的核心問題是解決大檔案的實時生成和下載。

更新: 說一下我資料庫查詢這裡的思路,因為逐步寫入EXCEL的資料實際上來自Mysql的分頁查詢,大家知道其語法是LIMIT offset, num 不過隨著offset越來越大Mysql在每次分頁查詢時需要跳過的行數就越多,這會嚴重影響Mysql查詢的效率(包括MongoDB這樣的NoSQL也是不建議skip掉多條來取結果集),所以我採用LastId的方式來做分頁查詢。

類似下面的語句:

SELECT columns FROM `table_name` 
WHERE `created_at` >= 'time range start' 
AND `created_at` <= 'time range end' 
AND  `id` < LastId 
ORDER BY `id` DESC 
LIMIT num

以上就是PHP實時生成並下載超巨量資料量的EXCEL檔案的詳細內容,更多請關注TW511.COM其它相關文章!