Note:[ wechat:Y466551 | 可加勿騷擾,付費諮詢 ]
論文標題:Better Fine-Tuning via Instance Weighting for Text Classification
論文作者:
論文來源:2021 ACL
論文地址:download
論文程式碼:download
視屏講解:click
出發點:域適應一類方法是對預先訓練好的模型引數進行微調,以往的微調工作主要集中在預訓練階段,研究如何預訓練一組最能幫助目標任務的引數;
方法簡介:本文提出了一種基於範例加權的微調(IW-Fit)方法,該方法修正了微調階段,以提高目標域的最終效能。IW-Fit在每個微調階段動態調整範例權重,以實現兩個目標: 1)有效地識別和學習目標域的具體知識;2)很好地保持源域和目標域之間的共用知識。在IW-Fit中使用的設計的範例加權度量是與模型無關的,這對於一般的基於DNN的分類器很容易實現。實驗結果表明,IW-Fit可以持續提高目標域的分類精度。
貢獻:
IW-Fit 中設計的加權度量應該實現兩個目標:
預測損失:
$f\left(\mathbf{y}, g_{\boldsymbol{\theta}}(\mathbf{x})\right)=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) \quad\quad(1)$
假設:
預測損失
$\text{Eq.1}$ 中的預測損失可作為分配範例權重的第一個度量值:
$w=\frac{1}{\tau}\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})+\epsilon\right) \quad\quad(2)$
其中,$\epsilon$ 是一個平滑常數,用於防止小損失的範例的權重為零,$\tau$ 是一個歸一化常數,使小批次的權重的平均值等於 $1$ ;
歷史預測損失方差
在 epoch 等於 $t$ 階段,假設 $h^{t-1}= \left[f^{1}, \ldots, f^{t-1}\right]$ 是包含預測損失 $f=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) $ 的歷史項的向量;
第二個度量可以根據預測損失的方差來計算:
$w=\frac{1}{\tau}\left(s t d\left(h^{t-1}\right)+\epsilon\right) \quad\quad(3)$
其中,$\operatorname{std}\left(h^{t-1}\right)$ 是估計的標準推導加上它在 $h^{t-1}$ 中的置信區間:
$\operatorname{std}\left(h^{t-1}\right)=\sqrt{\varsigma\left(h^{t-1}\right)+\frac{\varsigma^{2}\left(h^{t-1}\right)}{\left|h^{t-1}\right|-1}} \quad\quad(4)$
其中,$\varsigma^{2}\left(h^{t-1}\right)$ 為預測損失的方差,$\left|h^{t-1}\right|$ 為儲存的預測損失數;
加權度量的混合變數
如上所述,預測損失在早期微調時期更有效,歷史預測損失的方差應在一些後期使用。
因此,進一步提出了兩個混合變體來結合這兩個加權指標:
硬混合
前 $\eta$ 個 epoch 採用預測損失,然後切換到使用預測損失的方差:
$w=\frac{1}{\tau}\left[\mathbf{I}_{t \leq \eta} \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+\mathbf{I}_{t>\eta} \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(5)$
其中,當 $A$ 為真時,指標函數 $\mathbf{I}_{A}$ 等於 $1$,否則為 $0$;
軟混合
在硬混合中,超引數 $\eta$ 需要仔細調整,並且這兩個指標在每個微調時期都是互斥的。為了探索這兩個指標的一個潛在的更靈活的組合,建議使用一種軟混合變體作為:
$w=\frac{1}{\tau}\left[\beta \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+(1-\beta) \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(6)$
其中,$\beta$ 是一個在微調時期從 $1$ 線性下降到 $0$ 的平衡比。實驗結果表明,在所有比較的微調方法中,採用軟混合加權度量的資訊量擬合方法通常表現最好。
略
因上求緣,果上努力~~~~ 作者:Wechat~Y466551,轉載請註明原文連結:https://www.cnblogs.com/BlairGrowing/p/17650517.html