-
题名基于词嵌入的书面语篇多层次差异探究
被引量:2
- 1
-
-
作者
张学敬
吕学强
周强
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京信息科学与技术国家研究中心
清华大学信息技术研究院语音和语言技术中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2019年第23期142-149,共8页
-
基金
国家自然科学基金(No.61433018,No.61373075,No.61671070)
国家语委重点项目(No.ZDI135-53)
-
文摘
书面语篇包含有独白语篇和对话语篇两种类型,而独白语篇和对话语篇具有不同的描述功能和用词特点,这对基于这些语篇的不同分析任务计算建模提出了新的挑战。基于现有两种语篇标注库,采用统计分析方法,对两类语篇的不同层次功能结构差异性进行了定量分析。基于三种不同类型语料文本中自动训练得到的不同词嵌入向量,以字向量的角度初步分析了两类语篇在用词方面的不同分布特点。在此基础上针对两类语篇的4个典型分析任务,研究了不同词嵌入对深度学习模型分析性能的影响效果。实验结果表明,不同的词嵌入在不同语篇分析任务的表现能力存在明显差异,从而验证了独白语篇和对话语篇的多层次差异。
-
关键词
独白语篇
对话语篇
词嵌入
多层次差异分析
-
Keywords
monologue text
dialogue text
word embedding
multi-level difference analysis
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-