-
题名基于深层语言模型的古汉语知识表示及自动断句研究
被引量:21
- 1
-
-
作者
胡韧奋
李绅
诸雨辰
-
机构
北京师范大学中文信息处理研究所
北京师范大学汉语文化学院
北京师范大学文学院
-
出处
《中文信息学报》
CSCD
北大核心
2021年第4期8-15,共8页
-
基金
国家自然科学基金(62006021)
教育部人文社会科学研究青年基金(18YJC751073)
国家社会科学基金(18ZDA238)。
-
文摘
古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F1值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。
-
关键词
古汉语
自动断句
深层语言模型
-
Keywords
ancient Chinese
automatic sentence segmentation
deep language model
-
分类号
H087
[语言文字—语言学]
-