期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
Doc2Vec模型驱动的芯片竞争话语研究:主题意义与话语策略
1
作者 续雨媛 卫乃兴 《外语研究》 北大核心 2025年第5期27-35,共9页
基于分布式表示的Doc2Vec向量空间模型将抽象的语义关系表征为语义空间中的向量距离,可用于话语研究中的主题挖掘。本研究基于自建的中美媒体芯片竞争语料库,采用Doc2Vec模型进行主题挖掘,探讨中美媒体话语的主题意义与博弈策略。向量... 基于分布式表示的Doc2Vec向量空间模型将抽象的语义关系表征为语义空间中的向量距离,可用于话语研究中的主题挖掘。本研究基于自建的中美媒体芯片竞争语料库,采用Doc2Vec模型进行主题挖掘,探讨中美媒体话语的主题意义与博弈策略。向量数据表明,中美媒体围绕“芯片管制”“国际关系”“国家立法”“技术发展”等4个主题展开话语建构。在共享的“芯片管制”与“国际关系”主题下,双方话语策略迥异,呈现极强对抗态势:美方基于所谓“道义伦理学”合法化对华芯片管制,中方则从后果主义伦理原则发力,批判美方扰乱全球经济秩序,对之去合法化;美方借助危机叙事构建阵营对立,中方则以立足全人类共同价值的团结话语来消解。“国家立法”和“技术发展”分别为双方特有的主题,即美方通过零和博弈叙事,动员不同利益集团借助强制性法案遏制中国芯片发展;中方则聚焦技术自主创新,以事实性数据表征对芯片发展的信心。方法论上,本研究揭示,Doc2Vec模型、语料库方法与传统话语分析结合使用,对洞悉博弈双方的区别性话语建构及话语策略可产生协同效应,有助于拓展话语研究方法。 展开更多
关键词 doc2vec模型 词嵌入 芯片竞争话语 对抗性话语 语料库话语研究
在线阅读 下载PDF
基于LDA模型和Doc2vec的学术摘要聚类方法 被引量:25
2
作者 张卫卫 胡亚琦 +1 位作者 翟广宇 刘志鹏 《计算机工程与应用》 CSCD 北大核心 2020年第6期180-185,共6页
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型... 针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型——主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用K-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。 展开更多
关键词 短文本聚类 LDA模型 doc2vec模型 学术摘要
在线阅读 下载PDF
基于改进TextRank算法的中文文本摘要提取 被引量:26
3
作者 徐馨韬 柴小丽 +2 位作者 谢彬 沈晨 王敬平 《计算机工程》 CAS CSCD 北大核心 2019年第3期273-277,共5页
为提高中文文本摘要提取的准确度,融合Doc2Vec模型、K-means算法和TextRank算法,提出一种中文文本摘要自动提取算法(DK-TextRank)。使用Doc2Vec模型进行文本向量化,采用改进的K-means算法实现相似文本聚类,在每个聚类簇中应用加入权重... 为提高中文文本摘要提取的准确度,融合Doc2Vec模型、K-means算法和TextRank算法,提出一种中文文本摘要自动提取算法(DK-TextRank)。使用Doc2Vec模型进行文本向量化,采用改进的K-means算法实现相似文本聚类,在每个聚类簇中应用加入权重影响因子的TextRank算法对文本语句进行排序,并提取主题句生成摘要。实验结果表明,DK-TextRank算法在摘要语句数量为7时F值达到79.36%,相比传统TF-IDF、TextRank算法提取的摘要质量更高。 展开更多
关键词 doc2vec模型 K-MEANS算法 TextRank算法 摘要提取 权重影响因子
在线阅读 下载PDF
融合文本分布式表示的重复缺陷报告检测 被引量:4
4
作者 曾杰 贲可荣 +1 位作者 张献 徐永士 《计算机工程与科学》 CSCD 北大核心 2021年第4期670-680,共11页
重复缺陷报告检测能够避免对描述同一缺陷的多份报告进行重复的任务分派和修复,可降低软件维护成本。为了进一步提高检测的准确率,提出一种融合文本分布式表示的重复缺陷报告检测方法。首先,基于大规模缺陷报告数据库训练Doc2Vec模型并... 重复缺陷报告检测能够避免对描述同一缺陷的多份报告进行重复的任务分派和修复,可降低软件维护成本。为了进一步提高检测的准确率,提出一种融合文本分布式表示的重复缺陷报告检测方法。首先,基于大规模缺陷报告数据库训练Doc2Vec模型并抽取缺陷报告的分布式表示,将不同长度的缺陷报告编码为统一长度的稠密向量。接着,通过比较这些向量来计算不同缺陷报告的相似程度,将其作为一种新特征与重复缺陷报告检测过程常用的其它特征进行融合,并利用机器学习算法训练二元分类模型。在公开的Bugzilla重复缺陷报告数据集上的实验结果表明,相比于代表性方法D_TS,本文方法的F1值平均提升了2%,说明了新特征的有效性。 展开更多
关键词 重复缺陷报告 文本分布式表示 doc2vec模型 机器学习算法
在线阅读 下载PDF
一种融合D_BBAS方法的重复缺陷报告检测 被引量:2
5
作者 曾方 谢琪 崔梦天 《计算机应用研究》 CSCD 北大核心 2022年第12期3736-3742,共7页
为了更有效地获得缺陷报告的非结构化信息的特征,提出一种D_BBAS(Doc2vec and BERT BiLSTM-attention similarity)方法,它基于大规模缺陷报告库训练特征提取模型,生成能反映深层次语义信息的缺陷摘要文本表示集和缺陷描述文本表示集;利... 为了更有效地获得缺陷报告的非结构化信息的特征,提出一种D_BBAS(Doc2vec and BERT BiLSTM-attention similarity)方法,它基于大规模缺陷报告库训练特征提取模型,生成能反映深层次语义信息的缺陷摘要文本表示集和缺陷描述文本表示集;利用这两个分布式的表示集计算出缺陷报告对的相似度,从而得到两个新的相似度特征;这两个新特征将与基于结构化信息生成的传统特征结合后参与重复缺陷报告的检测。在著名开源项目Eclipse、NetBeans和Open Office的缺陷报告库上验证了D_BBAS方法的有效性,其中包含超过50万个缺陷报告。实验结果表明,相比于代表性方法,该方法的F1值平均提升了1.7%,证明了D_BBAS方法的有效性。 展开更多
关键词 重复缺陷报告 BERT模型 doc2vec模型 BiLSTM-attention神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部