期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
CDCPP:跨领域中文标点符号预测 被引量:2
1
作者 刘鹏远 王伟康 +1 位作者 邱立坤 杜冰洁 《中文信息学报》 CSCD 北大核心 2021年第6期131-140,共10页
在中文文本特别是在社交媒体及问答领域文本中,存在非常多的标点符号错误或缺失的情况,这严重影响对文本进行语义分析及机器翻译等各项自然语言处理的效果。当前对标点符号进行预测的相关研究多集中于英文对话的语音转写文本,缺少对社... 在中文文本特别是在社交媒体及问答领域文本中,存在非常多的标点符号错误或缺失的情况,这严重影响对文本进行语义分析及机器翻译等各项自然语言处理的效果。当前对标点符号进行预测的相关研究多集中于英文对话的语音转写文本,缺少对社交媒体及问答领域文本进行标点符号预测的相关研究,也没有这些领域公开的数据集。该文首次提出跨领域中文标点符号预测任务,该任务首先利用标点符号基本规范正确的大规模新闻领域文本,建立标点符号预测模型;然后在标点符号标注不规范的社交媒体及问答领域,进行跨领域标点符号预测。随后,构建了新闻、社交媒体及问答三个领域的相应数据集。最后还实现了一个基于BERT的标点符号预测基线模型并在该数据集上进行了实验与分析。实验结果表明,直接利用新闻领域训练的模型,在社交媒体及问答领域进行标点符号预测的性能均有所下降,在问答领域下降较小,在微博领域下降较大,超过20%,说明跨领域标点符号预测任务具有一定的挑战性。 展开更多
关键词 中文标点符号预测 跨领域 数据集
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部