LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention Bias 论文阅读

KDD 2023 原文地址

Introduction#

文本噪声，如笔误(Typos), 拼写错误(Misspelling)和缩写(abbreviations), 会影响基于 Transformer 的模型. 主要表现在两个方面:

Transformer 的架构中不使用字符信息.
由噪声引起的词元分布偏移使得相同概念的词元更加难以关联.

先前解决噪声问题的工作主要依赖于数据增强策略, 主要通过在训练集中加入类似的 typos 和 misspelling 进行训练.
数据增强确实使得模型在损坏(噪声)样本上表现出出更高的鲁棒性.
虽然这种策略在一定程度上已被证明有效地缓解了词元分布偏移的问题, 但所有这些方法仍然受到在词元化(tokenization)中字符信息会丢失的限制.

Approach#

在自注意机制中加入词感知注意模块(Lexical-aware Attention module, LEA).
LEA 考虑了句子间的词的字符关系, 文中认为这是提高句子相似性任务的关键, 特别是在存在 typos 的情况下.

Self-attention#

定义 self-attention 的输入为 $X = {x_{1}, x_{2}, \dots, x_{n}}$ , 输出为 $Z = {z_{1}, z_{2}, \dots, z_{n}}$ , 输出中的每个 token 的表示计算如下:

\begin{matrix} (1) & z_{i} = \sum_{j = i}^{n} a_{i j} (x_{j} \cdot W^{V}), z_{i} \in R^{d_{h}} . \end{matrix}

其中的注意力权重 $a_{i j}$ 计算如下:

\begin{matrix} (2) & a_{i j} = \frac{exp (e_{i j})}{\sum_{k = 1}^{n} exp (e_{i k})}, \end{matrix}

其中

\begin{matrix} (3) & e_{i j} = \frac{(x_{i} W^{Q}) (x_{j} W^{K})}{\sqrt{d_{h}}} . \end{matrix}

Lexical attention bias#

对于语义文本相似性(textual similarity), 将两个句子拼接:

\begin{matrix} (4) & X_{c} = X_{l} | X_{r} \end{matrix}

主要做法是参考了相对位置嵌入(relative position embeddings)的做法, 对 self-attention 中的 $e_{i j}$ 进行如下修改:

\begin{matrix} (5) & {\tilde{e}}_{i j} = e_{i j} + α l_{i j} W^{L}, \end{matrix}

其中第二项就是词偏向(lexical bias). $W^{L} \in R^{d^{L} \times 1}$ 是可训练参数, $l \in R^{1 \times d^{L}}$ 是成对词汇注意嵌入(pairwise lexical attention embedding), $α$ 是一个固定的比例因子, 它在训练开始时根据两个项的大小自动计算一次.

为了计算成对词汇注意嵌入(pairwise lexical attention embedding), 先计算句子对之间单词的相似度, 而句子内单词的相似度设定为0:

\begin{matrix} (6) & s_{i j} = {\begin{aligned} 0 & , if x_{i}, x_{j} \in X_{l} or x_{i}, x_{j} \in X_{r} \\ Sim (w (x_{i}), w (x_{j})) & , otherwise. \end{aligned} \end{matrix}

其中 Sim 是一个度量, 用于表示两个单词之间的字符串相似度.

Implementation details#

论文中相似度度量选取的是 Jaccard 系数.
只在架构的后半层添加了 lexical attention bias.

之后通过将将 $s_{i j}$ 带入 Transformer 中的正余弦函数, 得到表示词相似度的 embedding:

\begin{matrix} (7) & \begin{aligned} l_{i j}^{(s_{i j}, 2 p)} & = & \sin (\frac{2 π \cdot d_{i j}}{β^{2 p / d_{h}}}), \\ l_{i j}^{(s_{i j}, 2 p + 1)} & = & \cos (\frac{2 π \cdot d_{i j}}{β^{2 p / d_{h}}}), \end{aligned} \end{matrix}

最终的词相似度嵌入 $l_{i j}$ 是上了两个向量的拼接.

Experiment#

Performance#

Impact of the lexical similarity choice#

分析了使用不同相似度度量在 Abt-Buy 这个数据集上, BERT-Medium 的表现.
相似度度量包括: Jaccard (Jac.), Smith-Waterman (Smith), Longest Common Subsequence (LCS), Levenshtein (Lev.) and Jaro–Winkler (Jaro)