期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于最优文档嵌入的《红楼梦》作者辨析 被引量:2
1
作者 薛扬 梁循 +1 位作者 谢华伦 杜玮 《中文信息学报》 CSCD 北大核心 2020年第9期97-110,共14页
该文以包括《红楼梦》在内的51部当代及明清文学作品为语料集,利用文档嵌入算法,根据文档嵌入向量的酉不变性定义了不同作者作品文档嵌入矩阵及文档嵌入损失函数,构建了文档嵌入模型中最优维度及最优窗口的选择模型,并根据文本用词和文... 该文以包括《红楼梦》在内的51部当代及明清文学作品为语料集,利用文档嵌入算法,根据文档嵌入向量的酉不变性定义了不同作者作品文档嵌入矩阵及文档嵌入损失函数,构建了文档嵌入模型中最优维度及最优窗口的选择模型,并根据文本用词和文档主题语义特征构建了高维空间中的文档嵌入向量。通过无监督的流形学习降维映射以及有监督的分类算法多组实验,验证了通过文档嵌入得到的向量空间模型可以有效区分不同作者的写作风格,对于已知确定作者的作品分类准确率达99.6%,对于风格较为接近的作者也可以有效识别,例如,文风相似的路遥和陈忠实。并在此分类模型的基础上,构建了变尺度滑动窗口分类模型对《红楼梦》进行深入分析,印证了"红楼梦"前80回与后40回可能来自不同作者,还发现了前100回与后20回也存在着较大的风格差异,不排除有再次更换作者的可能。该文在计算机技术层面上为《红楼梦》的作者辨析问题提供了一种支持意见和新的见解。 展开更多
关键词 红楼梦 作者识别 文档嵌入 最优维度
在线阅读 下载PDF
融合词和文档嵌入的关键词抽取算法 被引量:8
2
作者 祖弦 谢飞 刘啸剑 《计算机科学与探索》 CSCD 北大核心 2021年第2期294-304,共11页
各类应用领域的文本数据日益增多,如何从这些海量数据中迅速准确地提取核心内容,已成为关键词抽取的主要任务。提出一种基于词和文档嵌入的关键词抽取方法,通过计算单词与文档在同一维度上的向量表示,得出每个单词与文档之间的语义相似... 各类应用领域的文本数据日益增多,如何从这些海量数据中迅速准确地提取核心内容,已成为关键词抽取的主要任务。提出一种基于词和文档嵌入的关键词抽取方法,通过计算单词与文档在同一维度上的向量表示,得出每个单词与文档之间的语义相似度,将其作为无向图中每个单词节点的初始权重。接着使用带语义偏向的随机游走策略,计算出每个单词以及候选词的分值。最后选取得分较高的前N个候选词作为最终关键词。在公开数据集上的实验结果表明,该算法在准确率、召回率、F值上均超过现有的主流关键词抽取方法,极大提高了关键词自动抽取的效率。 展开更多
关键词 关键词抽取 图排序 嵌入 文档嵌入 语义信息
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部