論文標題:A Two-Stage Framework with Self-Supervised Distillation For Cross-Domain Text Classification
論文作者:Yunlong Feng, Bohan Li, Libo Qin, Xiao Xu, Wanxiang Che
論文來源:2023 aRxiv
論文地址:download
論文程式碼:download
視屏講解:click
動機:以前的工作主要集中於提取 域不變特徵 或 任務不可知特徵,而忽略了存在於目標域中可能對下游任務有用的域感知特徵;
貢獻:
Figure 1(a):闡述域不變特徵和域感知特徵與任務的關係;
Figure 1(b):闡述遮蔽域不變特徵和域感知特徵與預測的關係:
一個文字提示組成如下:
$\boldsymbol{x}_{\mathrm{p}}=\text { "[CLS] } \boldsymbol{x} \text {. It is [MASK]. [SEP]"} \quad\quad(1)$
$\text{PLM}$ 將 $\boldsymbol{x}_{\mathrm{p}}$ 作為輸入,並利用上下文資訊用詞彙表中的一個單詞填充 $\text{[MASK]}$ 作為輸出,輸出單詞隨後被對映到一個標籤 $\mathcal{Y}$。
PT 的目標:
$\mathcal{L}_{p m t}\left(\mathcal{D}^{\mathcal{T}} ; \theta_{\mathcal{M}}\right)=-\sum_{\boldsymbol{x}, y \in \mathcal{D}} y \log p_{\theta_{\mathcal{M}}}\left(\hat{y} \mid \boldsymbol{x}_{\mathrm{p}}\right)$
使用 $\text{MLM }$ 來避免快捷學習($\text{shortcut learning}$),並適應目標域分佈。具體來說,構造了一個掩蔽文字提示符 $\boldsymbol{x}_{\mathrm{pm}}$:
$\boldsymbol{x}_{\mathrm{pm}}=\text { "[CLS] } \boldsymbol{x}_{\mathrm{m}} \text {. It is [MASK]. [SEP]"}$
其中,$m\left(y_{\mathrm{m}}\right)$ 和 $\operatorname{len}_{m\left(\boldsymbol{x}_{\mathrm{m}}\right)}$ 分別表示 $x_{\mathrm{m}}$ 中的掩碼詞和計數;
SSKD
核心:使模型能夠在預測和目標域的域感知特徵之間建立聯絡;
具體:模型迫使 $x_{\mathrm{p}}$ 的預測和 $\boldsymbol{x}_{\mathrm{pm}}$ 的未掩蔽詞之間聯絡起來,本文在 $p_{\theta}\left(y \mid \boldsymbol{x}_{\mathrm{pm}}\right)$ 和 $p_{\theta}\left(y \mid \boldsymbol{x}_{\mathrm{p}}\right)$ 的預測之間進行 $\text{KD}$:
$\mathcal{L}_{s s d}\left(\mathcal{D} ; \theta_{\mathcal{M}}\right)=\sum_{\boldsymbol{x} \in \mathcal{D}} K L\left(p_{\theta_{\mathcal{M}}}\left(y \mid \boldsymbol{x}_{\mathrm{pm}}\right)|| p_{\theta_{\mathcal{M}}}\left(y \mid \boldsymbol{x}_{\mathrm{p}}\right)\right)$
注意:$\boldsymbol{x}_{\mathrm{pm}}$ 可能包含域不變、域感知特徵,或兩者都包含;
Procedure:
Objective:
$\begin{array}{l}\mathcal{L}_{1}^{\prime}\left(\mathcal{D}^{\mathcal{T}} ; \theta_{\mathcal{M}}\right)=\alpha \mathcal{L}_{p m t}\left(\mathcal{D}^{\mathcal{T}} ; \theta_{\mathcal{M}}\right) \\\mathcal{L}_{1}^{\prime \prime}\left(\mathcal{D}^{\mathcal{T}} ; \theta_{\mathcal{M}}\right)=\beta \mathcal{L}_{m l m}\left(\mathcal{D} ; \theta_{\mathcal{M}}\right)\end{array}$
Stage 2: Adapt to the target domain
Procedure:
Objective:
$\begin{aligned}\mathcal{L}_{2}^{\prime}\left(\mathcal{D}_{S}^{\mathcal{T}}, \mathcal{D}_{T} ; \theta_{\mathcal{M}}\right) & =\alpha \mathcal{L}_{p m t}\left(\mathcal{D}_{S}^{\mathcal{T}} ; \theta_{\mathcal{M}}\right) \\\mathcal{L}_{2}^{\prime \prime}\left(\mathcal{D}_{S}^{\mathcal{T}}, \mathcal{D}_{T} ; \theta_{\mathcal{M}}\right) & =\beta\left(\mathcal{L}_{m l m}\left(\mathcal{D}_{T} ; \theta_{\mathcal{M}}\right)\right. \left.+\mathcal{L}_{s s d}\left(\mathcal{D}_{T} ; \theta_{\mathcal{M}}\right)\right)\end{aligned}$
Algorithm
Dataset
Amazon reviews dataset
Single-source domain adaptation on Amazon reviews
Multi-source domain adaptation on Amazon reviews
MEPT: The proposed model TAMEPT without Stage 2.
因上求緣,果上努力~~~~ 作者:Wechat~Y466551,轉載請註明原文連結:https://www.cnblogs.com/BlairGrowing/p/17654194.html