![image-20231109143738132](/Users/fenffef/Library/Application Support/typora-user-images/image-20231109143738132.png)

论文标题:汉语拼写纠正中的语音表示解耦
期刊/会议:ACL 2023
作者单位:中山大学
论文:https://aclanthology.org/2023.acl-long.755
代码:https://github.com/liangzh63/DORM-CSC

摘要

汉字拼写纠正(CSC)旨在消除和纠正汉语文本中的错误字符。虽然在这项任务中已经努力引入语音信息(汉语拼音),但他们通常将语音表征与字符表征相结合,这往往会削弱正常文本的表征效果。在这项工作中,我们提出解耦这两种类型的特征,以允许文本和语音信息之间的直接交互。为了学习有用的语音表示,我们引入了一个拼音到字符的目标,要求模型仅基于语音信息来预测正确的字符,其中施加了一个分离掩码来禁止从语音输入到文本的注意力。为了避免过度拟合语音,我们进一步设计了一个自提取模块,以确保语义信息在预测中发挥主要作用。在三个CSC基准上的大量实验证明了我们的方法在使用语音信息方面的优越性。

image-20231109144243200

方法

image-20231109144624364
  1. 通过将拼音序列附加到原始文本输入来构建语音感知输入序列(如图 1 First Forward Pass 所示),其中使用一组通用的位置嵌入来关联两个子序列。这样,文本特征可以在训练和推理过程中根据需要从拼音部分捕获语音信息。
  2. 然后,为了学习有用的拼音表示,我们引入了拼音到字符的预测目标,其中施加分离掩模以禁止从拼音到文本的注意力,以要求模型仅从拼音信息中恢复正确的字符(如图 1 Separation Mask 所示)。拼音到字符的任务在训练期间是辅助的,它的预测将在推理时被丢弃。
  3. 提出一个自蒸馏模块,强制模型的预测与提供原始文本输入时的预测一致。

实验结果

![image-20231109145156126](/Users/fenffef/Library/Application Support/typora-user-images/image-20231109145156126.png)

消融实验结果

image-20231109145250596

可视化结果

image-20231109145332420

案例分析

![image-20231109145418001](/Users/fenffef/Library/Application Support/typora-user-images/image-20231109145418001.png)