-
题名CDCPP:跨领域中文标点符号预测
被引量:2
- 1
-
-
作者
刘鹏远
王伟康
邱立坤
杜冰洁
-
机构
北京语言大学国家语言资源监测与研究平面媒体中心
闽江学院计算机控制与工程学院
-
出处
《中文信息学报》
CSCD
北大核心
2021年第6期131-140,共10页
-
基金
北京市自然科学基金(4192057)
教育部人文社会科学研究规划基金(18YJA740030)
北京语言大学校级项目(中央高校基本科研业务费专项资金)(17PT05)。
-
文摘
在中文文本特别是在社交媒体及问答领域文本中,存在非常多的标点符号错误或缺失的情况,这严重影响对文本进行语义分析及机器翻译等各项自然语言处理的效果。当前对标点符号进行预测的相关研究多集中于英文对话的语音转写文本,缺少对社交媒体及问答领域文本进行标点符号预测的相关研究,也没有这些领域公开的数据集。该文首次提出跨领域中文标点符号预测任务,该任务首先利用标点符号基本规范正确的大规模新闻领域文本,建立标点符号预测模型;然后在标点符号标注不规范的社交媒体及问答领域,进行跨领域标点符号预测。随后,构建了新闻、社交媒体及问答三个领域的相应数据集。最后还实现了一个基于BERT的标点符号预测基线模型并在该数据集上进行了实验与分析。实验结果表明,直接利用新闻领域训练的模型,在社交媒体及问答领域进行标点符号预测的性能均有所下降,在问答领域下降较小,在微博领域下降较大,超过20%,说明跨领域标点符号预测任务具有一定的挑战性。
-
关键词
中文标点符号预测
跨领域
数据集
-
Keywords
Chinese punctuation prediction
cross-domain
dataset
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-