論文翻譯:2021_Real-Time Denoising and Dereverberation wtih Tiny Recurrent U-Net

2023-06-26 18:01:51

論文地址:微型迴圈U-Net實時降噪和去混響

論文程式碼:

參照格式:Choi H S, Park S, Lee J H, et al. Real-Time Denoising and Dereverberation wtih Tiny Recurrent U-Net[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 5789-5793.

摘要

  現代基於深度學習的模型在語音增強任務中表現出了顯著的改進。然而,對於現實世界的應用程式來說,最先進的模型的引數數量往往過於龐大,無法部署到裝置上。為此,我們提出了微型迴圈U-Net(Tiny Recurrent U-Net,TRU-Net),這是一個輕量級的線上推理模型,與當前最先進的模型效能相匹配。TRU-Net的量化版本大小為362k位元組,小到可以部署在邊緣裝置上。此外,我們將小尺寸模型與一種新的掩碼方法(phase-aware β-sigmoid mask)相結合,它可以同時去噪和去everberation。客觀和主觀評估的結果表明,我們的模型可以在基準資料集上使用更少的引數達到與當前最先進的模型競爭的效能。

關鍵詞:實時語音增強,輕量級網路,去噪,去混響

1  引言

  在本文中,我們專注於開發一個基於深度學習的語音增強模型,該模型適用於現實世界的應用,滿足以下條件:

1、一個小而快速的模型,可以儘可能減少單幀實時因子(RTF),同時保持與最先進的深度學習網路的競爭效能,

2、一個可以同時進行去噪和解噪的模型。

  為了解決第一個問題,我們的目標是改進一種流行的神經結構(U-Net[1]),它已經證明在語音增強任務中具有卓越的效能[2,3,4]。以往使用U-Net進行源分離的方法不僅在頻率維度上應用折積,而且在時間維度上也應用折積。U-Net的這種非因果性質增加了計算複雜性,因為需要對過去和未來幀進行額外的計算來推斷當前的框架。因此,它不適用於需要實時處理當前幀的線上推理場景。此外,時間維度使得網路計算效率低下,因為在U-Net的編碼和解碼路徑中相鄰幀之間都存在冗餘計算。為了解決這一問題,我們提出了一種適用於線上語音增強的神經網路結構——微型迴圈U-Net (Tiny Recurrent U-Net, TRU-Net)。該體系結構旨在實現頻率維度和時間維度計算的有效解耦,從而使網路足夠快,能夠實時處理單個幀。該網路的引數數量僅為0.38M,不僅可以部署在筆記型電腦上,還可以部署在移動裝置上,甚至可以部署在結合量化技術[5]的嵌入式裝置上。TRU-Net的詳細資訊在第2節中有更多的描述。

  接下來,為了同時抑制噪聲和混響,我們提出了一種相位感知 B-sigmoid 掩碼 (PHM)。 所提出的 PHM 受到 [6] 的啟發,其中作者建議通過從三角函數的角度重用估計的幅度掩碼值來估計相位。 PHM 與 [6] 中的方法的主要區別在於 PHM 旨在尊重混合、目標源和剩餘部分之間的三角關係,因此估計的目標源和剩餘部分的總和始終相等 到混合物。 我們通過同時生成兩個不同的 PHM 將該屬性擴充套件到四邊形,這使我們能夠有效地處理去噪和去混響。 我們將在第 3 節中更詳細地討論 PHM。

2  Tiny迴圈U-Net

2.1  PCEN特徵作為輸入

  語譜圖可能是許多語音增強模型中最流行的輸入特性。每通道能量歸一化(PCEN)[7]結合了動態範圍壓縮和自動增益控制,在應用於頻譜圖[8]時降低了前景響度的方差並抑制了背景噪聲。PCEN也適用於線上推理場景,因為它包括一個時間積分步驟,它本質上是一個一階無限脈衝響應濾波器,僅依賴於前一個輸入幀。在這項工作中,我們採用可訓練版本的PCEN。

2.2  網路結構

  TRU-Net 基於 U-Net 架構,只在頻率維度上折積,在時間維度上不折積。因此,它可以被認為是一個頻率軸的U-Net,瓶頸層是一維折積神經網路(cnn)和迴圈神經網路。編碼器由一維折積神經網路 (1D-CNN) 塊和頻率維度門控迴圈單元 (FGRU) 塊組成。每個 1D-CNN 塊都是類似於 [9] 的點折積和深度折積(就是深度可分離折積),除了第一層使用標準折積操作而沒有前面的pointwise convolution。為了節省網路大小,我們使用了六個 1D-CNN 塊,它們使用跨步折積將頻率維度大小從 256 下取樣到 16。這會導致可能對網路效能有害的小感受野 (1,750Hz)。為了增加感受野,我們沿頻率維度使用雙向 GRU 層 [10],而不是堆疊更多的 1D-CNN 塊。也就是說,來自 1D-CNN 塊的 16 個向量序列被傳遞到雙向 GRU 以增加感受野並沿頻率維度共用資訊(譯者:雙向GRU可以增加感受野?頭一次聽,表述有問題)。我們將此頻率維度雙向 GRU 層稱為 FGRU 層。在 FGRU 層之後使用pointwise convolution、BN 和 ReLU,組成一個 FGRU 塊。我們為每個前向和後向 FGRU 單元使用了 64 個hidden size。

  解碼器由時間維度門控迴圈單元 (TGRU) 塊和一維轉置折積神經網路 (1D-TrCNN) 塊組成。編碼器的輸出被傳遞到單向 GRU 層以沿時間維度聚合資訊。我們稱這個 GRU 層為 TGRU 層。一個pointwise convolution、BN 和 ReLU 在 TGRU 層之後,組成一個 TGRU 塊。我們為 TGRU 單元使用了 128 個隱藏維度。最後,使用 1D-TrCNN 塊將 TGRU 塊的輸出上取樣到原始頻譜圖大小。 1D-TrCNN 塊接受兩個輸入(1. 前一層輸出,2. 來自同一層次結構的編碼器的跳躍連線),並按如下方式對它們進行上取樣。首先,使用pointwise convolution將兩個輸入連線起來並投影到更小的通道大小(192 -> 64)。然後,使用一維轉置折積對壓縮資訊進行上取樣。與通常的 U-Net 實現相比,此過程節省了引數的數量和計算量,其中兩個輸入立即連線並使用轉置折積操作進行上取樣。請注意,我們沒有對 1D-TrCNN 塊使用深度折積,因為我們根據經驗觀察到它在解碼階段使用時會顯著降低效能

  編碼器和解碼器中使用的每個折積操作後面都是 BN 和 ReLU。 我們將折積設定表示如下,l-th: (k, s, c) ,其中 l, k, s, c 分別表示層索引、核心大小、步幅和輸出通道。 編碼器和解碼器的詳細設定如下,Encoder Config= f1-th: (5,2,64), 2-th: (3,1,128), 3-th: (5,2,128), 4-th: (3,1,128), 5-th: (5,2,128), 6-th: (3,2,128)}, Decoder Config = f1-th: (3,2,64), 2-th: (5,2, 64), 3-th: (3,1,64), 4-th: (5,2,64), 5-th: (3,1,64), 6-th: (5,2,10) G。 請注意,pointwise convolution操作共用相同的輸出通道設定,除了 k 和 s 均為 1。TRU-Net 概述以及用於 1D-CNN 塊、FGRU 塊、TGRU 塊和 1DTrCNN 塊的引數數量 如圖 1 所示。

3  單級去噪和去混響

  帶混響和噪聲的訊號$x$通常被建模為加性噪聲$y^{(n)}$和混響源$\tilde{y}$的和,其中$\tilde{y}$是房間脈衝響應(RIR) $h$與$y$的折積結果,如下所示:

$$公式1:x=\tilde{y}+y^{(n)}=h \circledast y+y^{(n)}$$

更具體地說,我們可以把$h$分解成兩部分。第一,直接路徑部分$h^{(d)}$,其中不包括反射路徑,第二,反射路徑$h(r)$,如下所示:

$$公式2:x=h^{(d)} \circledast y+h^{(r)} \circledast y+y^{(n)}=y^{(d)}+y^{(r)}+y^{(n)}$$

式中,$y(d)$和$y(r)$分別表示直接路徑源和混響。在這個設定中,我們的目標是將x分成三個元素$y^{(d)}, y^{(r)}和y^{(n)}$。短時傅立葉變換(STFT)計算得到的每個對應的時間頻率表示記為$X_{t,f}, Y_{t,f}^{(d)}, Y_{t,f}^{(r)}, Y_{t,f}^{(n)}$,估計值用$\hat{·}$表示。

3.1  相位感知$\beta$-sigmoid mask

  所提出的相位感知$\beta$-sigmoid掩碼(PHM)是一種複數掩碼,能夠系統地將估計的複數值的和,恰好等於混合值,$X_{t,f}=Y_{t,f}^{(k)}+Y_{t,f}^{(-k)}$。PHM 將 STFT 域中的混合$X_{t,f}$以一對餘(one vs rest)的方法分成兩部分,即訊號$Y_{t,f}^{(k)}$和其餘訊號的和$Y_{t,f}^{(-k)}=X_{t,f}-Y_{t,f}^{(k)}$,其中索引$k$可以是我們設定中的直接路徑源 (d)、混響 (r) 和噪聲 (n) 之一,$k \in {d,r,n}$。 複數掩碼$M_{t,f}^{(k)}\in C$估計感興趣源$k$的幅度和相位值。

  計算 PHM 需要兩個步驟。首先,網路用sigmoid函數$\sigma ^{(k)}(z_{t,f})$乘以係數$\beta_{t,f}$ 輸出兩個掩碼$|M_{t,f}^{(k)}|$和$|M_{t,f}^{(-k)}|$的幅度部分,$|M_{t,f}^{(k)}|=\beta_{t,f}·\sigma^{(k)}(z_{t,f})=\beta_{t,f}·(1+e^{-(z_{t,f}^{(k)}-z_{t,f}^{(-k)})})^{-1}$,其中$z_{t,f}^{(k)}$是神經網路函數$\psi^{(k)}(\phi)$最後一層的輸出,$\phi$是最後一層之前的網路層組成的函數。$M_{t,f}^{(k)}$用作估計源$k$的幅度掩碼,其值範圍從0到$\beta_{t,f}$。$\beta_{t,f}$的作用是設計一個接近最優值且幅度範圍靈活的掩碼,以便與常用的 sigmoid 掩碼不同,值沒有介於 0 和 1 之間。另外,因為複數掩碼$|M_{t,f}^{(k)}|$和$|M_{t,f}^{(-k)}|$之和必須組成一個三角形,所以設計一個滿足三角不等式的掩碼是合理的,即$|M_{t,f}^{(k)}|+|M_{t,f}^{(-k)}|\geq 1$且$|M_{t,f}^{(k)}|-|M_{t,f}^{(-k)}|\leq 1$。為了解決第一個不等式,我們設計網路從最後一層輸出$\beta_{t,f}$,具有如下的 softplus 啟用函數,$\beta_{t,f}=1+softplus((\psi_{\beta}(\phi ))_{t,f})$,其中表示要輸出的附加網路層$\beta_{t,f}$。第二個不等式可以通過將$\beta_{t,f}$的上界裁剪為$1/|\sigma ^{(k)}(z_{t,f})-\sigma ^{(-k)}(z_{t,f})|$來滿足。

  一旦確定了幅度掩碼,我們就可以構造一個相位掩碼$e^{j\theta_{t,f}^{(k)}}$。 給定三角形三個邊的幅值,我們可以計算混合物和源$k$之間的絕對相位差$\theta_{t,f}^{(k)}$的餘弦值,$cos(\triangle \theta _{t,f}^{(k)})=(1+|M_{t,f}^{(k)}|^2-|M_{t,f}^{(-k)}|^2)/(2|M_{t,f}^{(k)}|)$。 然後,為相位掩碼估計用於相位校正的旋轉方向$\xi_{t,f}\in \{1,-1\}$(順時針或逆時針)如下,$e^{j\theta_{t,f}^{(k)}}=cos(\triangle \theta _{t,f}^{(k)})+j\xi_{t,f}sin(\triangle \theta _{t,f}^{(k)})$。 使用兩類直通 Gumbel-softmax 估計器來估計$\xi_{t,f}$[11]。$M_{t,f}^{(k)}$定義如下,$M_{t,f}^{k}=|M_{t,f}^{(k)}|·e^{j\theta _{t,f}^{(k)}}$。 最後,$M_{t,f}^{(k)}$乘以$X_{t,f}$來估計源$k$如下,$\hat{Y}_{t,f}^{k}=M_{t,f}^{(k)}·X_{t,f}$。

3.2  從一個四邊形的角度掩碼

  因為我們希望同時提取直接源和混響源,所以分別使用兩對PHM。第一對掩碼,$M_{t,f}^{(d)}$和$M_{t,f}^{(-d)}$,分別將混合物分離為直接源和其餘組分。第二對掩碼,$M_{t,f}^{(n)}$和$M_{t,f}^{(-n)}$,將混合物分離為噪聲和混響源。由於PHM保證了混合組分和分離組分在複雜STFT域中構造一個三角形,分離結果可以從一個四邊形的角度來看,如圖2所示。在這種情況下,由於三個邊和兩個邊角已經由兩對phm確定,所以四邊形的第四個邊$M_{t,f}^{(r)}$是唯一確定的。

3.3  多尺度目標

  近年來,多尺度譜圖(MSS)損耗函數已成功應用於一些音訊合成研究中[12,13]。我們不僅將這種多尺度方案納入了頻譜域,而且也納入了類似於[14]的波形域。

  學習最大化餘弦相似度可以被視為最大化訊號失真比(SDR)[2]。估計訊號$\hat{y}^{(k)}\in R^N$與ground truth訊號$y^{(k)}\in R^N$之間的餘弦相似損失C定義為:$C(y^{(k)},\hat{y}^{(k)})=-\frac{<y^{(k)},\hat{y}^{(k)}>}{||y^{(k)}||·||\hat{y}^{(k)}||}$,其中$N$表示訊號的時間維數,$k$表示訊號型別($k\in \{d,r,n\}$)。考慮切片訊號$y_{\frac{N}{M}(i-1):\frac{N}{M}i}^{(k)}$,其中$i$表示段索引,$M$表示段數。切訊號,正常化的準則,每個切段被認為是一個單元計算$C$。因此,我們假設是很重要的選擇一個合適的區段長度單位$\frac{N}{M}$時計算$C$。在我們的例子中,我們使用多個設定段長度的$g_i=\frac{N}{M_j}$如下:

$$公式3:\mathcal{L}_{w a v}^{(k)}=\sum_{j} \frac{1}{M_{j}} \sum_{i=1}^{M_{j}} C\left(\boldsymbol{y}_{\left[g_{j}(i-1): g_{j} i\right]}^{(k)}, \hat{\boldsymbol{y}}_{\left[g_{j}(i-1): g_{j} i\right]}^{(k)}\right)$$

其中$M_j$為切片段數。在我們的例子中,$g_i$的集合選擇如下:$g_i\in \{4064, 2032, 1016, 508\}$。

  接下來,譜域上的多尺度損耗定義如下

$$公式4:\mathcal{L}_{s p e c}^{(k)}=\sum_{i}\left\|\left|\operatorname{STFT}_{i}\left(\boldsymbol{y}^{(k)}\right)\right|^{0.3}-\left|\operatorname{STFT}_{i}\left(\hat{\boldsymbol{y}}^{(k)}\right)^{0.3}\right|\right\|^{2}$$

式中$i$為$STFT_i$的FFT大小。與原始MSS損失的唯一區別是,我們將log變換替換為冪律壓縮,因為在之前的語音增強研究中已經成功地使用了冪律壓縮[15,16]。我們使用STFT的FFT大小(1024,512,256),重疊率為75%。最終損耗函數的定義是將所有分量相加,如下所示:$L_{final}=\sum_{k\in \{d,r,n\}}L_{wav}^{(k)}+L_{spec}^{(k)}$。

4  實驗

4.1  復現細節

  由於我們的目標是同時進行去噪和去混響,所以我們使用熱室聲學[20]來模擬一個隨機取樣吸收、房間大小、聲源位置和麥克風距離的人工混響。我們使用了2秒的語音和噪聲段,並將它們混合成均勻分佈的訊雜比(SNR),範圍從-5 dB到25 dB。輸入特徵被用作對數幅譜圖、PCEN譜圖和解調相位的實/虛部分的通道級聯。我們使用了AdamW優化器[21],當連續三個階段驗證分數沒有提高時,學習速度降低了一半。初始學習速率設定為0.0004。視窗大小和跳大小分別設定為512 (32ms)和128 (8ms)。

  我們還將提出的模型量化為INT8格式,並將模型大小與之前的作品進行了比較。我們的量化模型實驗的目的是減少模型尺寸和計算成本的嵌入式環境。我們採用[5]中提出的量化數計算流程來量化神經網路。此外,採用均勻量化並將零點限制為0的均勻對稱量化方案[22]實現了高效的硬體實現。在實驗中,神經網路的所有層次都採用量化的權值、啟用和輸入進行處理;只有偏差值以完全精度表示。其他處理步驟,如特徵提取和掩碼,是在完全精確的計算。對於編碼器層和解碼器層,我們觀察訓練過程中中間張量的尺度統計。然後,在推理過程中,我們使用觀察到的最小值和最大值的平均值來固定啟用的尺度。由於每個時間步長內部啟用的動態範圍較大,只有GRU層在推理時間內被動態量化。

4.2  消融實驗

  為了驗證PCEN、多尺度目標和FGRU塊的效果,我們分別使用CHiME2訓練集和發展集對模型進行訓練和驗證。在CHiME2實驗裝置上進行消融研究。TRU-Net-A表示所提出的方法。TRU-Net-B表示沒有多尺度目標訓練的模型。TRU-Net-C表示沒有經過PCEN特徵訓練的模型。TRU-Net-D表示沒有FGRU塊訓練的模型。我們使用最初的SDR[23]來將我們的模型與其他模型進行比較。結果如表2所示。很明顯,所有提出的方法都有助於效能的提高。注意,FGRU塊對效能有很大的貢獻。我們還使用CHiME2測試集將提出的模型與其他模型進行了比較。該模型的效能不僅優於最近的輕量級模型Tiny- LSTM (TLSTM)及其修剪版本(PTLSTM)[24],而且優於大型模型[16]。

4.3  降噪結果

  通過在大規模DNS-challenge資料集[25]和內部採集資料集上對模型進行訓練,進一步驗證了模型的去噪效能。它在兩個非盲DNS開發集上進行了測試,1)合成剪輯無混響(合成無混響)和2)合成剪輯有混響(合成有混響)。我們將我們的模型與最近的模型[3,4,17,18,19]進行了比較,這些模型是在2020年Interspeech dns挑戰賽上提交的。採用6個評價指標:PESQ、cbac、COVL、CSIG、SI-SDR和STOI[26, 27, 28, 29]。請注意,儘管建議使用ITU-T P862.2寬頻帶版本的PESQ (PESQ2),但少數研究使用ITU-T P862.1 (PESQ1)報告了他們的得分。因此,我們使用兩個PESQ版本將我們的模型與其他模型進行比較。結果如表1所示。我們可以看到,TRU-Net顯示了最好的效能在合成沒有混響設定,而有最小的引數數目。在合成混響集,使用比其他模型更少的數量級引數,TRU-Net顯示了競爭效能。

4.4  去混響結果

  在包含3000個音訊檔的WHAMR資料集的最小子集上測試了同時去噪和去everberation的效能。WHAMR資料集由噪聲混響混合和直接源作為地面真實值組成。試驗採用表1中的TRU-Net模型(FP32和INT8)。我們在表3中展示了我們模型的去噪和去everberation效能,以及在相同的WHAMR資料集上測試的另外兩個模型。與其他基線模型相比,我們的模型取得了最好的效果,表明了TRU-Net在同時去噪和去everberation任務中的引數效率。

4.5  聽力測試結果

  使用表1中提出的模型(TRU-Net (FP32)),我們參加了2021年ICASSP DNS挑戰Track 1[25]。為了獲得更好的感知質量,我們將估計的直接源和混響源混合在15 dB,並應用零延遲動態範圍壓縮(DRC)。在2.7 GHz Intel i5-5257U和2.6 GHz Intel i7-6700HQ處理器上,處理單幀(包括FFT、iFFT和DRC)的平均計算時間分別為1.97 ms和1.3 ms。TRU-Net的前瞻是0毫秒。聽力測試基於ITU-T P.808進行。結果如表4所示。該模型在各種語音集上進行了測試,包括唱歌的聲音、音調語言、非英語(包括音調)、英語和情感演講。結果表明,與基線模型NSnet2[30]相比,TRU-Net具有更好的效能。

5  與先前工作的關係

由於混合訊號相位複用的次優性,近年來相位感知語音增強技術受到越來越多的關注。雖然這些工作大多試圖通過相位掩碼或附加網路來估計乾淨相位,但實際上可以利用餘弦定理[31]來計算混合物和源之間的絕對相位差。受此啟發,[6]提出了一種用於語音分離的絕對相位差旋轉方向估計方法。

  TRU-Net中使用的FGRU和TGRU與[32]中的工作類似。他們在頻率維度和時間維度上使用雙向長短期記憶(bi-LSTM)網路,並結合基於2d - cnn的U-Net。不同之處是,我們使用bi-LSTM來提高[32]的效能,而我們使用FGRU和單向TGRU來更好地處理線上推理場景,並結合提出的基於一維cnn(頻率維度)的輕量級U-Net。

6  結論

  在這項工作中,我們提出了TRU-Net,這是一個專門為線上推理應用設計的高效的神經網路架構。結合提出的PHM,我們成功地演示了單級去噪和實時去everberation。我們還表明,使用PCEN和多尺度目標進一步提高了效能。實驗結果表明,我們的模型與具有大量引數的最新模型具有相當的效能。在未來的工作中,我們計劃在一個過引數化模型上使用現代剪枝技術來開發一個大稀疏模型,在相同的引數數量下,它可能比小稠密模型提供更好的效能。

7  參考文獻

[1] Olaf Ronneberger, Philipp Fischer, and Thomas Brox, U-net: Convolutional networks for biomedical image segmentation, in Proc. MICCAI, 2015, pp. 234 241.

[2] Hyeong-Seok Choi, Jang-Hyun Kim, Jaesung Huh, Adrian Kim, Jung-Woo Ha, and Kyogu Lee, Phase-aware speech enhancement with deep complex u-net, arXiv preprint arXiv:1903.03107, 2019.

[3] Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, and Arvindh Krishnaswamy, Poconet: Better speech enhancement with frequency-positional embeddings, semi-supervised conversational data, and biased loss, in Proc. INTERSPEECH, 2020.

[4] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, Dccrn: Deep complex convolution recurrent network for phase-aware speech enhancement, in Proc. INTERSPEECH, 2020.

[5] Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang, Andrew Howard, Hartwig Adam, and Dmitry Kalenichenko, Quantization and training of neural networks for efficient integer-arithmetic-only inference, in Proc. CVPR, 2018, pp. 2704 2713.

[6] Zhong-QiuWang, Ke Tan, and DeLiangWang, Deep learning based phase reconstruction for speaker separation: A trigonometric perspective, in Proc. ICASSP, 2019, pp. 71 75.

[7] YuxuanWang, Pascal Getreuer, Thad Hughes, Richard F Lyon, and Rif A Saurous, Trainable frontend for robust and far-field keyword spotting, in Proc. ICASSP, 2017, pp. 5670 5674.

[8] Vincent Lostanlen, Justin Salamon, Mark Cartwright, Brian McFee, Andrew Farnsworth, Steve Kelling, and Juan Pablo Bello, Per-channel energy normalization: Why and how, IEEE Signal Processing Letters, vol. 26, no. 1, pp. 39 43, 2018.

[9] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam, Mobilenets: Efficient convolutional neural networks for mobile vision applications, arXiv preprint arXiv:1704.04861, 2017.

[10] Kyunghyun Cho, Bart van Merri enboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshuas Bengio, Learning phrase representations using RNN encoder decoder for statistical machine translation, in Proc. EMNLP, 2014, pp. 1724 1734.

[11] Eric Jang, Shixiang Gu, and Ben Poole, Categorical reparameterization with gumbel-softmax, in Proc. ICLR, 2017.

[12] Xin Wang, Shinji Takaki, and Junichi Yamagishi, Neural source-filter-based waveform model for statistical parametric speech synthesis, in Proc. ICASSP, 2019, pp. 5916 5920.

[13] Jesse Engel, Lamtharn (Hanoi) Hantrakul, Chenjie Gu, and Adam Roberts, Ddsp: Differentiable digital signal processing, in Proc. ICLR, 2020.

[14] Jian Yao and Ahmad Al-Dahle, Coarse-to-Fine Optimization for Speech Enhancement, in Proc. INTERSPEECH, 2019, pp. 2743 2747.

[15] Hakan Erdogan and Takuya Yoshioka, Investigations on data augmentation and loss functions for deep learning based speech-background separation. , in INTERSPEECH, 2018, pp. 3499 3503. 

[16] Kevin Wilson, Michael Chinen, Jeremy Thorpe, Brian Patton, John Hershey, Rif A Saurous, Jan Skoglund, and Richard F Lyon, Exploring tradeoffs in models for low-latency speech enhancement, in IWAENC, 2018, pp. 366 370.

[17] Yangyang Xia, Sebastian Braun, Chandan KA Reddy, Harishchandra Dubey, Ross Cutler, and Ivan Tashev, Weighted speech distortion losses for neural-network-based real-time speech enhancement, in Proc. ICASSP, 2020, pp. 871 875.

[18] Nils L Westhausen and Bernd T Meyer, Dual-signal transformation lstm network for real-time noise suppression, in Proc. INTERSPEECH, 2020.

[19] Yuichiro Koyama, Tyler Vuong, Stefan Uhlich, and Bhiksha Raj, Exploring the best loss function for dnn-based lowlatency speech enhancement with temporal convolutional networks, arXiv preprint arXiv:2005.11611, 2020.

[20] Robin Scheibler, Eric Bezzam, and Ivan Dokmani c, Pyroomacoustics: A python package for audio room simulation and array processing algorithms, in Proc. ICASSP, 2018, pp. 351 355.

[21] Sashank J. Reddi, Satyen Kale, and Sanjiv Kumar, On the convergence of adam and beyond, in Proc. ICLR, 2018.

[22] Raghuraman Krishnamoorthi, Quantizing deep convolutional networks for efficient inference: A whitepaper, arXiv preprint arXiv:1806.08342, 2018.

[23] Emmanuel Vincent, R emi Gribonval, and C edric F evotte, Performance measurement in blind audio source separation, IEEE transactions on audio, speech, and language processing, vol. 14, no. 4, pp. 1462 1469, 2006.

[24] Igor Fedorov, Marko Stamenovic, Carl Jensen, Li-Chia Yang, Ari Mandell, Yiming Gan, Matthew Mattina, and Paul N Whatmough, Tinylstms: Efficient neural speech enhancement for hearing aids, in Proc. INTERSPEECH, 2020.

[25] Chandan KA Reddy, Harishchandra Dubey, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, and Sriram Srinivasan, Icassp 2021 deep noise suppression challenge, arXiv preprint arXiv:2009.06122, 2020.

[26] ITU-T Recommendation, Perceptual evaluation of speech quality (pesq): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, Rec. ITU-T P. 862, 2001.

[27] Philipos C Loizou, Speech enhancement: theory and practice, CRC press, 2013.

[28] Jonathan Le Roux, ScottWisdom, Hakan Erdogan, and John R Hershey, Sdr half-baked or well done? , in Proc. ICASSP, 2019, pp. 626 630.

[29] Cees H Taal, Richard C Hendriks, Richard Heusdens, and Jesper Jensen, A short-time objective intelligibility measure for time-frequency weighted noisy speech, in Proc. ICASSP, 2010, pp. 4214 4217.

[30] Sebastian Braun and Ivan Tashev, Data augmentation and loss normalization for deep noise suppression, in International Conference on Speech and Computer, 2020, pp. 79 86.

[31] Pejman Mowlaee, Rahim Saeidi, and Rainer Martin, Phase estimation for signal reconstruction in single-channel source separation, in Thirteenth Annual Conference of the International Speech Communication Association, 2012.

[32] Tomasz Grzywalski and Szymon Drgas, Using recurrences in time and frequency within u-net architecture for speech enhancement, in Proc. ICASSP, 2019, pp. 6970 6974.