論文解讀(IW-Fit)《Better Fine-Tuning via Instance Weighting for Text Classification》

2023-08-23 18:00:37

Note:[ wechat:Y466551 | 可加勿騷擾,付費諮詢 ]

論文資訊

論文標題:Better Fine-Tuning via Instance Weighting for Text Classification
論文作者:
論文來源:2021 ACL
論文地址:download 
論文程式碼:download
視屏講解:click

1 介紹

  出發點:域適應一類方法是對預先訓練好的模型引數進行微調,以往的微調工作主要集中在預訓練階段,研究如何預訓練一組最能幫助目標任務的引數;

  方法簡介:本文提出了一種基於範例加權的微調(IW-Fit)方法,該方法修正了微調階段,以提高目標域的最終效能。IW-Fit在每個微調階段動態調整範例權重,以實現兩個目標: 1)有效地識別和學習目標域的具體知識;2)很好地保持源域和目標域之間的共用知識。在IW-Fit中使用的設計的範例加權度量是與模型無關的,這對於一般的基於DNN的分類器很容易實現。實驗結果表明,IW-Fit可以持續提高目標域的分類精度。

  貢獻:

    • 提出了基於範例加權的微調(IWFit),這是一種應用於給定一組預先訓練好的引數的微調階段的方法;
    • 設計了兩個模型不可知的指標來計算IW-Fit中使用的權重及其混合變數的權重;
    • 進行了大量的實驗來驗證IW-Fit可以在幾個基線上持續地提高目標域的分類精度;

2 方法

  IW-Fit 中設計的加權度量應該實現兩個目標:

    1. 有效地識別和學習目標領域的特定知識;
    2. 很好地保持源域和目標域之間的共用知識;

  預測損失:

    $f\left(\mathbf{y}, g_{\boldsymbol{\theta}}(\mathbf{x})\right)=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})   \quad\quad(1)$

  假設:

    • 在早期的微調時期,引數接近於從尚未適應目標域的預訓練分類器中獲得的引數。一個範例有著較大的預測損失意味著預先訓練好的分類器不能很好地擬合它,並且它可能包含更多的目標知識。因此,如果為這些範例分配了較大的權重,那麼該模型將更加重視學習目標域上的特定知識;
    • 對於類似於源域的範例,通常早期時期的一個很小的預測損失。如果這樣的範例在後期的微調時期受到巨大的損失,那麼微調分類器很可能會被具有目標特定知識的範例過度擬合。在這種情況下,這些範例會產生較大的預測損失以及較大的預測損失方差;

預測損失

  $\text{Eq.1}$ 中的預測損失可作為分配範例權重的第一個度量值:

    $w=\frac{1}{\tau}\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})+\epsilon\right)  \quad\quad(2)$

  其中,$\epsilon$ 是一個平滑常數,用於防止小損失的範例的權重為零,$\tau$ 是一個歸一化常數,使小批次的權重的平均值等於 $1$ ;

歷史預測損失方差

  在 epoch 等於 $t$ 階段,假設 $h^{t-1}= \left[f^{1}, \ldots, f^{t-1}\right]$ 是包含預測損失 $f=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) $ 的歷史項的向量;

  第二個度量可以根據預測損失的方差來計算:

    $w=\frac{1}{\tau}\left(s t d\left(h^{t-1}\right)+\epsilon\right)  \quad\quad(3)$

  其中,$\operatorname{std}\left(h^{t-1}\right)$ 是估計的標準推導加上它在 $h^{t-1}$ 中的置信區間:

    $\operatorname{std}\left(h^{t-1}\right)=\sqrt{\varsigma\left(h^{t-1}\right)+\frac{\varsigma^{2}\left(h^{t-1}\right)}{\left|h^{t-1}\right|-1}}  \quad\quad(4)$

  其中,$\varsigma^{2}\left(h^{t-1}\right)$ 為預測損失的方差,$\left|h^{t-1}\right|$ 為儲存的預測損失數;

加權度量的混合變數

  如上所述,預測損失在早期微調時期更有效,歷史預測損失的方差應在一些後期使用。

  因此,進一步提出了兩個混合變體來結合這兩個加權指標:

硬混合

  前 $\eta$ 個 epoch 採用預測損失,然後切換到使用預測損失的方差:

    $w=\frac{1}{\tau}\left[\mathbf{I}_{t \leq \eta} \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+\mathbf{I}_{t>\eta} \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right]  \quad\quad(5)$

  其中,當 $A$ 為真時,指標函數 $\mathbf{I}_{A}$ 等於 $1$,否則為 $0$;

軟混合

  在硬混合中,超引數 $\eta$ 需要仔細調整,並且這兩個指標在每個微調時期都是互斥的。為了探索這兩個指標的一個潛在的更靈活的組合,建議使用一種軟混合變體作為:

    $w=\frac{1}{\tau}\left[\beta \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+(1-\beta) \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right]  \quad\quad(6)$

  其中,$\beta$ 是一個在微調時期從 $1$ 線性下降到 $0$ 的平衡比。實驗結果表明,在所有比較的微調方法中,採用軟混合加權度量的資訊量擬合方法通常表現最好。

3 實驗

  略