期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
Doc2Vec模型驱动的芯片竞争话语研究:主题意义与话语策略
1
作者 续雨媛 卫乃兴 《外语研究》 北大核心 2025年第5期27-35,共9页
基于分布式表示的Doc2Vec向量空间模型将抽象的语义关系表征为语义空间中的向量距离,可用于话语研究中的主题挖掘。本研究基于自建的中美媒体芯片竞争语料库,采用Doc2Vec模型进行主题挖掘,探讨中美媒体话语的主题意义与博弈策略。向量... 基于分布式表示的Doc2Vec向量空间模型将抽象的语义关系表征为语义空间中的向量距离,可用于话语研究中的主题挖掘。本研究基于自建的中美媒体芯片竞争语料库,采用Doc2Vec模型进行主题挖掘,探讨中美媒体话语的主题意义与博弈策略。向量数据表明,中美媒体围绕“芯片管制”“国际关系”“国家立法”“技术发展”等4个主题展开话语建构。在共享的“芯片管制”与“国际关系”主题下,双方话语策略迥异,呈现极强对抗态势:美方基于所谓“道义伦理学”合法化对华芯片管制,中方则从后果主义伦理原则发力,批判美方扰乱全球经济秩序,对之去合法化;美方借助危机叙事构建阵营对立,中方则以立足全人类共同价值的团结话语来消解。“国家立法”和“技术发展”分别为双方特有的主题,即美方通过零和博弈叙事,动员不同利益集团借助强制性法案遏制中国芯片发展;中方则聚焦技术自主创新,以事实性数据表征对芯片发展的信心。方法论上,本研究揭示,Doc2Vec模型、语料库方法与传统话语分析结合使用,对洞悉博弈双方的区别性话语建构及话语策略可产生协同效应,有助于拓展话语研究方法。 展开更多
关键词 doc2vec模型 词嵌入 芯片竞争话语 对抗性话语 语料库话语研究
在线阅读 下载PDF
基于Doc2vec-LightGBM的CBTC车载信号设备故障分类诊断方法 被引量:6
2
作者 柴琳果 张景会 +2 位作者 上官伟 蔡伯根 李小雨 《铁道学报》 EI CAS CSCD 北大核心 2024年第4期108-118,共11页
车载信号设备是城市轨道交通信号系统的重要组成部分,其运营过程中会产生海量离散化、片段化的日志文本数据。目前,CBTC车载设备故障记录文本仍存在语义不明确、词语冗余的问题,从而造成故障致因溯源难,针对此,提出一种基于Doc2vec-Ligh... 车载信号设备是城市轨道交通信号系统的重要组成部分,其运营过程中会产生海量离散化、片段化的日志文本数据。目前,CBTC车载设备故障记录文本仍存在语义不明确、词语冗余的问题,从而造成故障致因溯源难,针对此,提出一种基于Doc2vec-LightGBM的CBTC车载设备故障自动分类诊断方法。首先对故障文本使用Jieba完成文本分词,依据TF-IDF实现分词文本数据的特征提取,并采用Doc2vec训练文本分词向量;其次针对数据不均衡的问题,采用Borderline-SMOTE算法进行少数类文本向量数据的补全泛化;最后,通过训练轻量梯度提升机LightGBM分类器完成故障文本自动分类。采用某信号厂商所记录的1 133条故障文本数据进行分类实验分析,并与支持向量机(SVM)方法对比。实验结果表明,所提方法在分类精确率、召回率上分别为98.2%、97.5%,证明了该故障文本自动分类方法的有效性和优越性。 展开更多
关键词 CBTC 车载设备 doc2vec LightGBM 故障分类诊断
在线阅读 下载PDF
Doc2vec在薪水预测中的应用研究 被引量:8
3
作者 潘博 张青川 +1 位作者 于重重 曹帅 《计算机应用研究》 CSCD 北大核心 2018年第1期155-157,共3页
针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,利用文本深度表示模型doc2vec... 针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,利用文本深度表示模型doc2vec计算文本的特征向量,能更深入地表征出文本语义特征。实验将多种组合模型进行对比,结果表明相比于目前已有方法,doc2vec提取文本特征可以使薪水预测误差率至少降低5%。 展开更多
关键词 薪水预测 doc2vec 文本特征
在线阅读 下载PDF
基于Doc2Vec增强特征的长文本主题聚类研究 被引量:3
4
作者 陈洁 《计算机科学》 CSCD 北大核心 2023年第S01期211-216,共6页
针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度... 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类。相比直接应用Doc2Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82%和60.63%,准确率提高12.14%和20.58%,F1-Score值提高15.61%和11.58%;DV-tfifd在两个数据集上的噪声数分别减少15.20%和59.55%,准确率提高10.85%和17.93%,F1-Score值提高15.60%和9.21%。实验结果表明,DV-sim和DV-tfidf都可以提高主题聚类性能,且基于语义的增强特征比基于词频的效果更好,DV-sim在优秀女性人物报道的主题聚类上也得到了有效应用。 展开更多
关键词 主题聚类 文本表征 doc2vec 词向量 HDBSCAN
在线阅读 下载PDF
基于LDA模型和Doc2vec的学术摘要聚类方法 被引量:25
5
作者 张卫卫 胡亚琦 +1 位作者 翟广宇 刘志鹏 《计算机工程与应用》 CSCD 北大核心 2020年第6期180-185,共6页
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型... 针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型——主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用K-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。 展开更多
关键词 短文本聚类 LDA模型 doc2vec模型 学术摘要
在线阅读 下载PDF
基于Doc2Vec和BiLSTM的老年患者疾病预测研究 被引量:5
6
作者 藏润强 左美云 郭鑫鑫 《计算机工程与科学》 CSCD 北大核心 2020年第12期2273-2279,共7页
基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。... 基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。基于这些向量采用BiLSTM模型来预测老年患者未来的疾病,可以起到对老年疾病的预警作用。最后通过使用真实的医院诊断数据进行实验验证,结果发现模型能够有效地预测出老年人新的疾病,且在保证预测准确率的同时还具有一定的稳定性。 展开更多
关键词 上下文 doc2vec 双向长短时记忆网络BiLSTM 数据挖掘 疾病预测
在线阅读 下载PDF
Prediction of RNA m6A Methylation Sites in Multiple Tissues Based on Dual-branch Residual Network
7
作者 GUO Xiao-Tian GAO Wei +2 位作者 CHEN Dan LI Hui-Min TAN Xue-Wen 《生物化学与生物物理进展》 北大核心 2025年第11期2900-2915,共16页
Objective N6-methyladenosine(m6A),the most prevalent epigenetic modification in eukaryotic RNA,plays a pivotal role in regulating cellular differentiation and developmental processes,with its dysregulation implicated ... Objective N6-methyladenosine(m6A),the most prevalent epigenetic modification in eukaryotic RNA,plays a pivotal role in regulating cellular differentiation and developmental processes,with its dysregulation implicated in diverse pathological conditions.Accurate prediction of m6A sites is critical for elucidating their regulatory mechanisms and informing drug development.However,traditional experimental methods are time-consuming and costly.Although various computational approaches have been proposed,challenges remain in feature learning,predictive accuracy,and generalization.Here,we present m6A-PSRA,a dual-branch residual-network-based predictor that fully exploits RNA sequence information to enhance prediction performance and model generalization.Methods m6A-PSRA adopts a parallel dual-branch network architecture to comprehensively extract RNA sequence features via two independent pathways.The first branch applies one-hot encoding to transform the RNA sequence into a numerical matrix while strictly preserving positional information and sequence continuity.This ensures that the biological context conveyed by nucleotide order is retained.A bidirectional long short-term memory network(BiLSTM)then processes the encoded matrix,capturing both forward and backward dependencies between bases to resolve contextual correlations.The second branch employs a k-mer tokenization strategy(k=3),decomposing the sequence into overlapping 3-mer subsequences to capture local sequence patterns.A pre-trained Doc2vec model maps these subsequences into fixeddimensional vectors,reducing feature dimensionality while extracting latent global semantic information via context learning.Both branches integrate residual networks(ResNet)and a self-attention mechanism:ResNet mitigates vanishing gradients through skip connections,preserving feature integrity,while self-attention adaptively assigns weights to focus on sequence regions most relevant to methylation prediction.This synergy enhances both feature learning and generalization capability.Results Across 11 tissues from humans,mice,and rats,m6A-PSRA consistently outperformed existing methods in accuracy(ACC)and area under the curve(AUC),achieving>90%ACC and>95%AUC in every tissue tested,indicating strong cross-species and cross-tissue adaptability.Validation on independent datasets—including three human cell lines(MOLM1,HEK293,A549)and a long-sequence dataset(m6A_IND,1001 nt)—confirmed stable performance across varied biological contexts and sequence lengths.Ablation studies demonstrated that the dual-branch architecture,residual network,and self-attention mechanism each contribute critically to performance,with their combination reducing interference between pathways.Motif analysis revealed an enrichment of m6A sites in guanine(G)and cytosine(C),consistent with known regulatory patterns,supporting the model’s biological plausibility.Conclusion m6A-PSRA effectively captures RNA sequence features,achieving high prediction accuracy and robust generalization across tissues and species,providing an efficient computational tool for m6A methylation site prediction. 展开更多
关键词 N6-methyladenosine site doc2vec BiLSTM dual-branch residual network self-attention
在线阅读 下载PDF
基于Bi-LSTM模型的恶意JavaScript代码检测方法 被引量:2
8
作者 纪育青 方艳红 +1 位作者 谭顺华 王学渊 《计算机应用与软件》 北大核心 2024年第9期357-362,共6页
传统的静态检测恶意JavaScript代码方法十分依赖于已有的恶意代码特征,无法有效提取混淆恶意代码特征,导致检测混淆恶意JavaScript代码的精确率低。针对该问题提出基于双向长短期记忆网络(Bidirectional Long Short-term Memory, Bi-LS... 传统的静态检测恶意JavaScript代码方法十分依赖于已有的恶意代码特征,无法有效提取混淆恶意代码特征,导致检测混淆恶意JavaScript代码的精确率低。针对该问题提出基于双向长短期记忆网络(Bidirectional Long Short-term Memory, Bi-LSTM)的恶意代码检测模型。通过抽象语法树将JavaScript代码转化为句法单元序列,通过Doc2Vec算法将句法单元序列用分布式向量表示,将句向量矩阵送入Bi-LSTM模型进行检测。实验结果表明,该方法对于混淆恶意JavaScript代码具有良好的检测效果且检测效率高,准确率为97.03%,召回率为97.10%。 展开更多
关键词 恶意JavaScript代码检测 Bi-LSTM 深度学习 doc2vec
在线阅读 下载PDF
基于机器学习分类算法的高质量专利成果筛选研究 被引量:5
9
作者 周一夫 谭春辉 +3 位作者 江婷 李玥澎 毕慧婷 汪红信 《现代情报》 CSSCI 北大核心 2024年第2期81-91,共11页
[目的/意义]基于客观数据形成一套自动筛选方法,对专利成果质量进行快速识别,为推动专利成果转化工作提供决策支持。[方法/过程]首先,以专利成果的发明人数量、IPC号数量等形式特征结合语义向量匹配度特征、专利成果质量标注结果,构建... [目的/意义]基于客观数据形成一套自动筛选方法,对专利成果质量进行快速识别,为推动专利成果转化工作提供决策支持。[方法/过程]首先,以专利成果的发明人数量、IPC号数量等形式特征结合语义向量匹配度特征、专利成果质量标注结果,构建高质量专利成果筛选指标体系;其次,以“先进制造与自动化”领域为例,在专利之星平台检索该领域的发明专利作为专利文本数据来源,并以湖北省需求为例,将其相关的产业发展规划(宏观)和市场技术需求(微观)作为需求文本数据来源;随后,采用分词、去停、文本向量化等步骤对专利文本和需求文本进行处理,并整理形成训练集和测试集;最后,调用8种机器学习分类算法模型进行训练与评估,并对训练效果最优的算法展开应用测试,以验证筛选方法的可行性。[结果/结论]结果显示,随机森林算法模型在选取的8类算法模型中整体表现最优,被用为高质量专利成果筛选方法中的内核分类算法。此外,本文提出的筛选方法对专利成果质量识别具备较强的可行性,能够结合不同省(市)的特定专利需求,快速地进行大批量专利成果的筛选,在一定程度上可有效降低人力、物力和财力成本的消耗。 展开更多
关键词 专利成果筛选 高质量专利成果 机器学习 doc2vec
在线阅读 下载PDF
基于Word2Vec的一种文档向量表示 被引量:150
10
作者 唐明 朱磊 邹显春 《计算机科学》 CSCD 北大核心 2016年第6期214-217,269,共5页
在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF... 在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。 展开更多
关键词 TF-IDF word2vec doc2vec 文本分类
在线阅读 下载PDF
面向功能的技术融合趋势研究 被引量:13
11
作者 苗红 王艳 +2 位作者 黄鲁成 吴菲菲 李欣 《情报杂志》 CSSCI 北大核心 2020年第5期51-58,共8页
[目的/意义]针对技术融合趋势研究缺乏将技术与功能结合的有效方法体系,导致技术融合目标导向性不强、研究结论可实践性弱、预测存在滞后性等问题,该文提出一种面向功能的技术融合趋势研究框架。[方法/过程]首先,利用SAO(Subject-Action... [目的/意义]针对技术融合趋势研究缺乏将技术与功能结合的有效方法体系,导致技术融合目标导向性不强、研究结论可实践性弱、预测存在滞后性等问题,该文提出一种面向功能的技术融合趋势研究框架。[方法/过程]首先,利用SAO(Subject-Action-Object)与TRT(Technology-Relationship-Technology)结构中的目的关系挖掘技术解决方案与功能信息;其次,采用Doc2Vec和改进的K-means算法对功能进行聚类,实现面向功能的融合技术解决方法获取;最后,结合专家知识界定技术方案所属IPC,并根据ISI-OST-INPI分类体系划分技术类别,分析技术融合趋势。[结果/结论]以老年智能可穿戴技术为研究对象的实证结果显示,该方法有助于发现面向同一功能的主要融合技术类别,识别融合过程中的核心技术、衰退型技术,预测具有融合潜力的新兴技术和前沿技术;该研究框架增强了技术融合趋势判断的实践意义,预测更具前瞻性。 展开更多
关键词 技术融合 SAO结构 TRT结构 doc2vec K-MEANS 老年智能可穿戴
在线阅读 下载PDF
基于文档分布式表达的新浪微博情感分类研究 被引量:16
12
作者 杨宇婷 王名扬 +1 位作者 田宪允 李鹏宇 《情报杂志》 CSSCI 北大核心 2016年第2期151-156,共6页
[目的/意义]拥有庞大用户群体的新浪微博每天都产生海量的文本数据,对其进行情感分类有助于分析社会的舆论走向,为舆情监测提供帮助。其中,如何挖掘微博中的文本特征与情感信息是微博情感分类研究的关键。[方法/过程]将能有效考察上下... [目的/意义]拥有庞大用户群体的新浪微博每天都产生海量的文本数据,对其进行情感分类有助于分析社会的舆论走向,为舆情监测提供帮助。其中,如何挖掘微博中的文本特征与情感信息是微博情感分类研究的关键。[方法/过程]将能有效考察上下文语境的基于文档分布式的特征表达方法引入到微博情感分类研究中,通过综合考虑上下文的语义、语序和情感信息,将微博文本转化为高维空间的特征向量,然后利用SVM分类器判断文本的情感极性。[结果/结论]实验表明,对微博文本进行文档分布式特征表达后,其分类准确率可达90.46%,优于其他特征表达方法。 展开更多
关键词 微博 情感分类 文档分布式表达 doc2vec
在线阅读 下载PDF
基于DPI的用户兴趣实时分类 被引量:4
13
作者 陈康 付华峥 +2 位作者 陈翀 张宇艺 韦誉 《电信科学》 北大核心 2016年第12期109-115,共7页
近年来,随着大数据发展热潮兴起,电信运营商能获得的DPI数据规模越来越大。如何对如此海量的DPI数据进行实时的挖掘和分类是运营商研究的热点。设计了一种基于混合n-gram特征的URL分类算法和基于Doc2Vec模型的文本分类算法相结合的DPI... 近年来,随着大数据发展热潮兴起,电信运营商能获得的DPI数据规模越来越大。如何对如此海量的DPI数据进行实时的挖掘和分类是运营商研究的热点。设计了一种基于混合n-gram特征的URL分类算法和基于Doc2Vec模型的文本分类算法相结合的DPI数据分类方法,大大提高了DPI数据的分类速度和分类准确率,为电信运营商进行精准营销提供了良好的基础。 展开更多
关键词 DPI URL分类 文本分类 N-GRAM doc2vec
在线阅读 下载PDF
基于语义的网络交易论坛虚拟身份同一性识别 被引量:2
14
作者 张璇 袁得嵛 金波 《信息网络安全》 CSCD 北大核心 2020年第12期47-53,共7页
近年来,IT技术催生电子商务繁荣发展,网络交易深度融入到了人们的生产生活中。网络交易论坛作为重要的交易载体,其多样化和差异化也促使交易双方在不同平台注册账号,以多个虚拟身份进行商品买卖。由于不同交易论坛之间信息不共享,虚拟... 近年来,IT技术催生电子商务繁荣发展,网络交易深度融入到了人们的生产生活中。网络交易论坛作为重要的交易载体,其多样化和差异化也促使交易双方在不同平台注册账号,以多个虚拟身份进行商品买卖。由于不同交易论坛之间信息不共享,虚拟身份缺乏有效关联,无法进行数据汇聚,难以通过传统数据关联比对的方法识别用户,迫切需要新的技术方法对网络交易平台参与者虚拟身份进行深入分析,形成准确的身份映射。文章利用多个网络交易论坛数据,训练生成基于Doc2Vec语义相似度分析的虚拟身份同一性识别无监督模型,对出售商品的描述文本进行相似性计算,挖掘隐藏卖家同一虚拟身份,进而为用户画像、风控等技术场景提供支持。 展开更多
关键词 doc2vec 虚拟身份识别 语义相似性
在线阅读 下载PDF
基于句向量和卷积神经网络的文本聚类研究 被引量:7
15
作者 贾君霞 王会真 +1 位作者 任凯 康文 《计算机工程与应用》 CSCD 北大核心 2022年第16期123-128,共6页
针对文本聚类时文本特征维度高,忽略文档词排列顺序和语义等问题,提出了一种基于句向量(Doc2vec)和卷积神经网络(convolutional neural networks,CNN)的文本特征提取方法用于文本聚类。首先利用Doc2vec模型把训练数据集中的文本转换成... 针对文本聚类时文本特征维度高,忽略文档词排列顺序和语义等问题,提出了一种基于句向量(Doc2vec)和卷积神经网络(convolutional neural networks,CNN)的文本特征提取方法用于文本聚类。首先利用Doc2vec模型把训练数据集中的文本转换成句向量,充分考虑文档词排列顺序和语义;然后利用CNN提取文本的深层语义特征,解决特征维度高的问题,得到能够用于聚类的文本特征向量;最后使用k-means算法进行聚类。实验结果表明,在爬取的搜狗新闻数据上,该文本聚类模型的准确率达到了0.776,F值指标达到了0.780,相比其他文本聚类模型均有所提高。 展开更多
关键词 卷积神经网络(CNN) doc2vec 文本表示 文本聚类
在线阅读 下载PDF
基于改进TextRank算法的中文文本摘要提取 被引量:26
16
作者 徐馨韬 柴小丽 +2 位作者 谢彬 沈晨 王敬平 《计算机工程》 CAS CSCD 北大核心 2019年第3期273-277,共5页
为提高中文文本摘要提取的准确度,融合Doc2Vec模型、K-means算法和TextRank算法,提出一种中文文本摘要自动提取算法(DK-TextRank)。使用Doc2Vec模型进行文本向量化,采用改进的K-means算法实现相似文本聚类,在每个聚类簇中应用加入权重... 为提高中文文本摘要提取的准确度,融合Doc2Vec模型、K-means算法和TextRank算法,提出一种中文文本摘要自动提取算法(DK-TextRank)。使用Doc2Vec模型进行文本向量化,采用改进的K-means算法实现相似文本聚类,在每个聚类簇中应用加入权重影响因子的TextRank算法对文本语句进行排序,并提取主题句生成摘要。实验结果表明,DK-TextRank算法在摘要语句数量为7时F值达到79.36%,相比传统TF-IDF、TextRank算法提取的摘要质量更高。 展开更多
关键词 doc2vec模型 K-MEANS算法 TextRank算法 摘要提取 权重影响因子
在线阅读 下载PDF
基于指令序列嵌入的安卓恶意应用检测框架 被引量:3
17
作者 孙才俊 白冰 +4 位作者 王伟忠 何能强 王之宇 孙天宁 张奕鹏 《信息安全研究》 2022年第8期777-785,共9页
随着移动应用程序及其用户的增长,移动应用的安全性成为各利益相关者的首要关注点.目前,基于安卓平台的恶意软件变种日益增多,亟需高效且有效的恶意软件检测方法,用于保障移动应用的安全性与可靠性.为解决该问题,提出一种基于指令序列嵌... 随着移动应用程序及其用户的增长,移动应用的安全性成为各利益相关者的首要关注点.目前,基于安卓平台的恶意软件变种日益增多,亟需高效且有效的恶意软件检测方法,用于保障移动应用的安全性与可靠性.为解决该问题,提出一种基于指令序列嵌入(instruction sequence embedding,ISE)的轻量级安卓恶意应用检测框架ISEDroid.ISEDroid从安卓应用的Dalvik代码片段中提取出指令执行序列,用于表示恶意软件在运行期间所有可执行、可跟踪的路径.然后,通过自然语言处理中的嵌入(embedding)方法将指令序列转化为低维度数值向量.接着,通过average pooling算法生成样本代码行为的语义摘要.最后,通过评估不同的机器学习算法、调整指令片段嵌入的维度以及优化各种机器学习超参数,保证模型的各项参数达到最优,从而实现最佳的分类性能.大量实验证明,提出的方法能够准确识别安卓恶意应用,并且取得了0.952的F1得分. 展开更多
关键词 安卓恶意应用检测 自然语言处理 词嵌入 段落嵌入 doc2vec
在线阅读 下载PDF
融合主题信息的卷积神经网络文本分类方法研究 被引量:20
18
作者 杨锐 陈伟 +3 位作者 何涛 张敏 李蕊伶 岳芳 《现代情报》 CSSCI 2020年第4期42-49,共8页
[目的/意义]针对能源政策语义信息丰富的特点,研究不同环境下卷积神经网络模型对能源政策文本特征分类识别的效果并提出优化方法,辅助能源政策信息资源进行自动分类操作,方便研究人员更好地进行能源政策解读。[方法/过程]在不同环境下... [目的/意义]针对能源政策语义信息丰富的特点,研究不同环境下卷积神经网络模型对能源政策文本特征分类识别的效果并提出优化方法,辅助能源政策信息资源进行自动分类操作,方便研究人员更好地进行能源政策解读。[方法/过程]在不同环境下利用字符级和词级卷积神经网络模型对能源政策自动文本分类识别效果进行实验,从标题、内容、核心主题句等角度全面对比分析,利用Doc2Vec抽取不同比例核心主题句,将这些主题信息融入卷积神经网络模型中以对实验进行优化。[结果/结论]随着核心主题句抽取率的提高F1均值呈正态分布,当抽取率为70%时达到平衡,神经网络模型评估F1均值为83.45%,较实验中的其它方法均有所提高,通过Doc2Vec提取主题信息,并将其融入卷积神经网络的方法有效提升了卷积神经网络模型自动文本分类的效果。 展开更多
关键词 能源政策 卷积神经网络 文本分类 词向量 文本向量
在线阅读 下载PDF
基于递归张量神经网络的微信公众号文章的新颖度评估方法 被引量:8
19
作者 王平 侯景瑞 吴任力 《情报学报》 CSSCI CSCD 北大核心 2019年第2期159-169,共11页
自媒体平台内容同质化问题日益严重,导致用户难以从中获取新颖优质的信息,因此对其文章内容进行新颖度评估就显得尤为重要。本文以微信公众号文章为例,提出了一种自媒体平台文章的新颖度评估方法,该方法利用非监督的句级Doc2Vec语言模... 自媒体平台内容同质化问题日益严重,导致用户难以从中获取新颖优质的信息,因此对其文章内容进行新颖度评估就显得尤为重要。本文以微信公众号文章为例,提出了一种自媒体平台文章的新颖度评估方法,该方法利用非监督的句级Doc2Vec语言模型构建文本向量,基于递归张量神经网络构建新颖度测度模型,进而通过模型训练求解并量化评估文章的新颖度。本文从微信公众平台自动采集4,628篇文章开展实证研究,首先设置不同的张量切片数量进行对照实验,综合新颖度分布特征和训练时间计算最优参数,然后通过计算文档相似度验证了文章的新颖度和相似度之间的线性回归关系。该实验结果证明了本方法具有较强的可行性和有效性,从深度学习的视角拓展和丰富了文本新颖度评估的研究,也为自媒体平台的新颖话题探测和前沿知识发现提供了支撑。 展开更多
关键词 新颖度评估 递归张量神经网络 doc2vec 文本向量 余弦相似度
在线阅读 下载PDF
反馈式K近邻语义迁移学习的领域命名实体识别 被引量:7
20
作者 朱艳辉 李飞 +2 位作者 冀相冰 曾志高 徐啸 《智能系统学报》 CSCD 北大核心 2019年第4期820-830,共11页
领域命名实体识别是构建领域知识图谱的重要基础。针对专业领域语料匮乏的特点,构建基于深度学习的BiLSTM-CNN-CRFs网络模型,并提出一种反馈式K近邻语义迁移学习的领域命名实体识别方法。首先,对专业领域语料和通用领域语料分别训练得... 领域命名实体识别是构建领域知识图谱的重要基础。针对专业领域语料匮乏的特点,构建基于深度学习的BiLSTM-CNN-CRFs网络模型,并提出一种反馈式K近邻语义迁移学习的领域命名实体识别方法。首先,对专业领域语料和通用领域语料分别训练得到语料文档向量,使用马哈拉诺比斯距离计算领域语料与通用语料的语义相似性,针对每个专业领域样本分别取K个语义最相似的通用领域样本进行语义迁移学习,构建多个迁移语料集。然后,使用BiLSTM-CNN-CRFs网络模型对迁移语料集进行领域命名实体识别,并对识别结果进行评估和前馈,根据反馈结果选取合适的K值,作为语义迁移学习的最佳阈值。以包装领域和医疗领域为例进行实验验证,结果表明:本文方法取得了很好的识别效果,可以有效解决专业领域语料匮乏问题。 展开更多
关键词 领域命名实体识别 反馈式K近邻 语义迁移学习 深度学习 卷积神经网络 文档向量 马哈拉诺比斯距离 包装领域 医疗领域
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部