-
题名基于最优文档嵌入的《红楼梦》作者辨析
被引量:2
- 1
-
-
作者
薛扬
梁循
谢华伦
杜玮
-
机构
中国人民大学信息学院
北大方正集团有限公司数字出版技术国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2020年第9期97-110,共14页
-
基金
国家自然科学基金(71531012)
数字出版技术国家重点实验室开放课题。
-
文摘
该文以包括《红楼梦》在内的51部当代及明清文学作品为语料集,利用文档嵌入算法,根据文档嵌入向量的酉不变性定义了不同作者作品文档嵌入矩阵及文档嵌入损失函数,构建了文档嵌入模型中最优维度及最优窗口的选择模型,并根据文本用词和文档主题语义特征构建了高维空间中的文档嵌入向量。通过无监督的流形学习降维映射以及有监督的分类算法多组实验,验证了通过文档嵌入得到的向量空间模型可以有效区分不同作者的写作风格,对于已知确定作者的作品分类准确率达99.6%,对于风格较为接近的作者也可以有效识别,例如,文风相似的路遥和陈忠实。并在此分类模型的基础上,构建了变尺度滑动窗口分类模型对《红楼梦》进行深入分析,印证了"红楼梦"前80回与后40回可能来自不同作者,还发现了前100回与后20回也存在着较大的风格差异,不排除有再次更换作者的可能。该文在计算机技术层面上为《红楼梦》的作者辨析问题提供了一种支持意见和新的见解。
-
关键词
红楼梦
作者识别
文档嵌入
最优维度
-
Keywords
A Dream of Red Mansions
authorship identification
document embedding
optimal dimension
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合词和文档嵌入的关键词抽取算法
被引量:8
- 2
-
-
作者
祖弦
谢飞
刘啸剑
-
机构
合肥师范学院计算机学院
合肥工业大学计算机与信息学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2021年第2期294-304,共11页
-
基金
国家自然科学基金(61503116)
安徽省高校自然科学研究项目(KJ2019A0737)
+1 种基金
合肥师范学院校级科研项目(2017QN18)
高校优秀青年人才项目(gxyq2019068)。
-
文摘
各类应用领域的文本数据日益增多,如何从这些海量数据中迅速准确地提取核心内容,已成为关键词抽取的主要任务。提出一种基于词和文档嵌入的关键词抽取方法,通过计算单词与文档在同一维度上的向量表示,得出每个单词与文档之间的语义相似度,将其作为无向图中每个单词节点的初始权重。接着使用带语义偏向的随机游走策略,计算出每个单词以及候选词的分值。最后选取得分较高的前N个候选词作为最终关键词。在公开数据集上的实验结果表明,该算法在准确率、召回率、F值上均超过现有的主流关键词抽取方法,极大提高了关键词自动抽取的效率。
-
关键词
关键词抽取
图排序
词嵌入
文档嵌入
语义信息
-
Keywords
keyphrase extraction
graph sorting
word embedding
document embedding
semantic information
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-