期刊文献+
共找到145篇文章
< 1 2 8 >
每页显示 20 50 100
基于JRAG的涉水法律法规智能知识问答技术 被引量:1
1
作者 张志鑫 明晨曦 +3 位作者 刘颉 刘哲 李岸昀 曾德晶 《人民长江》 北大核心 2025年第2期240-247,共8页
当前以自然语言大模型为代表的生成式人工智能技术迎来了蓬勃发展,为涉水法律法规领域的智能知识问答提供了新的思路。然而,现有的大模型主要是在通用数据集上训练的,在涉水法律法规领域上的知识问答容易出现回答内容相关度较低、回答... 当前以自然语言大模型为代表的生成式人工智能技术迎来了蓬勃发展,为涉水法律法规领域的智能知识问答提供了新的思路。然而,现有的大模型主要是在通用数据集上训练的,在涉水法律法规领域上的知识问答容易出现回答内容相关度较低、回答不准确等问题。对此,提出了基于联合检索增强生成(JRAG)的涉水法律法规智能知识问答技术框架,该方法主要由知识存储、知识检索以及问答生成等环节组成。为了提高知识检索的效果,在知识检索环节提出词向量-关键词联合检索的方法,有效地提高了检索内容与用户问题匹配的能力。为了验证JRAG的有效性,提出了一套涉水法律法规问答数据集。在该数据集上与最新中文大模型,如文心一言、通义千问、Yi、ChatGLM3等进行对比,JRAG在评估指标真实性、完整性、相关性和有效性上取得了更好的效果。研究成果具有一定的扩展性,可为其他业务领域的智能知识问答研究奠定基础。 展开更多
关键词 大模型 知识问答 涉水法律法规 联合检索增强生成 词向量
在线阅读 下载PDF
结合LDA与Word2vec的文本语义增强方法 被引量:27
2
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
在线阅读 下载PDF
基于统计语言模型改进的Word2Vec优化策略研究 被引量:14
3
作者 张克君 史泰猛 +1 位作者 李伟男 钱榕 《中文信息学报》 CSCD 北大核心 2019年第7期11-19,共9页
该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,... 该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。通过基于维基百科1.5GB中文语料的词向量训练实验对比后发现,使用CBOW-TFIDF模型训练出的词向量在相似词测试任务中结果最佳;把改进的词向量应用到情感倾向性分析任务中,正向评价的精确率和F1值分别提高了4.79%、4.92%,因此基于统计语言模型改进的词向量,对于情感倾向性分析等以词向量为基础的应用研究工作有较为重要的实践意义。 展开更多
关键词 词向量 统计语言模型 TFIDF 文本关键词 CBOW-TFIDF
在线阅读 下载PDF
word2vec-ACV:OOV语境含义的词向量生成模型 被引量:9
4
作者 王永贵 郑泽 李玥 《计算机应用研究》 CSCD 北大核心 2019年第6期1623-1628,共6页
针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵... 针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(global ACV)和局部平均上下文词向量(local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵,并将word2vec-ACV模型和word2vec模型分别进行类比任务实验和命名实体识别任务实验。实验结果表明,word2vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。 展开更多
关键词 word2vec模型 词向量 共现矩阵 平均上下文词向量
在线阅读 下载PDF
基于TB-IDACNN的新闻推荐模型
5
作者 辛春花 鲁晓波 何婷 《计算机工程与设计》 北大核心 2025年第5期1387-1394,共8页
针对现有新闻推荐方法存在未考虑新闻的动态特性、难以深度挖掘新闻的语义信息等问题,提出一种融合TinyBERT和改进型动态注意卷积神经网络的个性化新闻推荐模型(TB-IDACNN)。充分利用TinyBERT词向量模型、卷积神经网络和内积注意力网络... 针对现有新闻推荐方法存在未考虑新闻的动态特性、难以深度挖掘新闻的语义信息等问题,提出一种融合TinyBERT和改进型动态注意卷积神经网络的个性化新闻推荐模型(TB-IDACNN)。充分利用TinyBERT词向量模型、卷积神经网络和内积注意力网络等深度学习模型的优势,综合考虑新闻的动态特性和静态特性,实现个性化新闻推荐。在MIND和Adressa数据集上的结果表明,相比其它几种先进的新闻推荐模型,所提模型可以获得更好的推荐性能,能够有效满足用户在新闻推荐任务中的需求。 展开更多
关键词 动态神经网络 新闻推荐 词嵌入模型 内积注意力机制 卷积神经网络 词向量化 平均加权池化
在线阅读 下载PDF
基于语义增强的装备事件抽取方法
6
作者 方睿 崔良中 方圆婧 《计算机科学》 北大核心 2025年第S1期286-294,共9页
信息时代下,装备领域的数据量急剧增长,使得论证人员难以高效地从中获取关键信息,进而支持相应的数据分析和论证工作。针对装备领域事件抽取事件论元边界模糊的问题,提出了一种基于语义增强的装备事件抽取方法。该方法利用装备领域的专... 信息时代下,装备领域的数据量急剧增长,使得论证人员难以高效地从中获取关键信息,进而支持相应的数据分析和论证工作。针对装备领域事件抽取事件论元边界模糊的问题,提出了一种基于语义增强的装备事件抽取方法。该方法利用装备领域的专业术语和词汇信息,构建领域词向量,并设计能够兼容和整合不同粒度语义信息的模型结构,将装备领域词向量与预训练模型ERNIE生成的字符向量进行融合,将专业术语知识和通用语言理解能力相结合,实现更全面的语义信息捕捉,增强模型对装备领域文本语义的理解,从而提升模型对事件论元边界的识别能力。实验结果表明,该方法在装备领域数据集上取得了优于基线方法的F1值,相比CK-BERT模型F1值提升了3.83%;在公开数据集ACE2005上进行的实验验证了其能有效提升装备领域事件要素抽取的性能。 展开更多
关键词 装备领域 事件抽取 语义增强 领域词向量 预训练模型
在线阅读 下载PDF
文本分类TF-IDF算法的改进研究 被引量:119
7
作者 叶雪梅 毛雪岷 +1 位作者 夏锦春 王波 《计算机工程与应用》 CSCD 北大核心 2019年第2期104-109,161,共7页
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分... 中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。 展开更多
关键词 新词 词频-逆文档频率(tf-idf) 向量空间模型 文本分类
在线阅读 下载PDF
获取适配专利知识的功能模型相似度计算方法
8
作者 曹国忠 李凯 《机械设计》 北大核心 2025年第4期175-181,共7页
为优化产品创新知识推送的适配性问题,在构建模型进行知识匹配与推送研究基础上,提出一种获取适配专利知识的功能模型相似度计算方法。该方法将TRIZ中的功能模型与知识推送过程相结合,根据功能模型选取待改进设计中相似度计算的要素,引... 为优化产品创新知识推送的适配性问题,在构建模型进行知识匹配与推送研究基础上,提出一种获取适配专利知识的功能模型相似度计算方法。该方法将TRIZ中的功能模型与知识推送过程相结合,根据功能模型选取待改进设计中相似度计算的要素,引入图论算法;基于功能模型计算所选要素的权重;融合专利检索与专利自然语言处理技术提取专利设计中的相似度计算要素,采用词向量模型实现相似度计算。对存在刹车导管切割长度不良问题的切管机进行实例研究,构建其功能模型,并采用计算方法匹配相似专利方案功能模型,验证该计算方法的可行性与准确性。基于该方法准确计算匹配相似专利方案功能模型,从结构层面直接对设计问题的解决进行启发,可提升产品创新知识推送的适配性,进而提高创新设计效率。 展开更多
关键词 功能模型相似度计算 适配性专利知识 图论算法 自然语言处理 词向量模型
在线阅读 下载PDF
基于LDA和word2vec的英文作文跑题检测 被引量:3
9
作者 曲强 崔荣一 赵亚慧 《计算机应用研究》 CSCD 北大核心 2019年第2期415-419,共5页
针对目前国内的英语作文辅助批阅系统缺少准确而高效的跑题检测算法的问题,提出了一种结合LDA和word2vec的跑题检测算法。该算法利用LDA模型对文档建模并通过word2vec对文档进行训练,利用得到的文档主题和词语之间的语义关系,对文档中... 针对目前国内的英语作文辅助批阅系统缺少准确而高效的跑题检测算法的问题,提出了一种结合LDA和word2vec的跑题检测算法。该算法利用LDA模型对文档建模并通过word2vec对文档进行训练,利用得到的文档主题和词语之间的语义关系,对文档中各主题及其特征词计算概率加权和,最终通过设定合理阈值筛选出跑题作文。实验中通过改变文档的主题数而得到不同的F值,确定了最佳主题数。实验结果表明,所提出的方法比基于向量空间模型的方法更具有效性,可以检测到更多的跑题作文,并且准确率较高,F值达到89%以上,实现了作文跑题检测的智能化处理,可以有效地应用在英语作文教学中。 展开更多
关键词 作文跑题检测 向量空间模型 潜在狄利克雷分配 词语间语义关系
在线阅读 下载PDF
基于Word2Vec的SCI地址字段数据清洗方法研究 被引量:16
10
作者 孙源 《情报杂志》 CSSCI 北大核心 2019年第2期195-200,共6页
[目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立"机构名称映射表",达到数据清... [目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立"机构名称映射表",达到数据清洗的目的。[方法/过程]首先,对SCI地址字段的数据进行预处理,按照规律将地址字段的信息构建成专有名词。然后,引入Word2Vec模型训练,利用训练好的模型结合余弦相似度找出与待清洗机构名相似的拼写形式。最后,建立"机构名称映射表"完成清洗。[结果/结论]通过实证分析发现,第一,在相同阈值下,该方法针对机构的识别准确要比传统字符匹配的方法要高。第二,在机构名变体与缩写的识别能力上有较好的表现。第三,该方法的运算速度是传统字符匹配算法的近40倍。Word2Vec词向量模型在数据清洗中有一定应用价值,能够根据SCI地址字段的上下文信息,清洗出指定机构名称的形似、变体和缩写机构名,从而达到数据规范化的目的。 展开更多
关键词 数据清洗 word2Vec 词向量模型 SCI地址字段
在线阅读 下载PDF
自然语言处理领域中的词嵌入方法综述 被引量:21
11
作者 曾骏 王子威 +2 位作者 于扬 文俊浩 高旻 《计算机科学与探索》 CSCD 北大核心 2024年第1期24-43,共20页
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的... 词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。 展开更多
关键词 词向量 词嵌入方法 自然语言处理 语言模型 分词 词向量评估
在线阅读 下载PDF
基于IBTM-TMW 的信号设备故障文本聚类方法 被引量:1
12
作者 杨妮 张友鹏 +1 位作者 左静 赵斌 《中国铁道科学》 EI CAS CSCD 北大核心 2024年第6期194-201,共8页
针对信号设备故障文本数据存在的长度短、专业性强及难以智能化再利用等问题,提出基于改进的词对主题模型和词向量融合(IBTM-TMW)的信号设备故障文本聚类方法。首先,为减少数据噪音,提升数据质量,在数据预处理过程中引入自建词典和保留... 针对信号设备故障文本数据存在的长度短、专业性强及难以智能化再利用等问题,提出基于改进的词对主题模型和词向量融合(IBTM-TMW)的信号设备故障文本聚类方法。首先,为减少数据噪音,提升数据质量,在数据预处理过程中引入自建词典和保留动名词处理;其次,在词对的吉布斯采样建模过程中引入词的差异性重要度作为加权因素,利用改进的词对主题模型(IBTM)提升文本主题特征的学习能力,并将词频-改进逆文档频率权重(TF-MIDF)嵌入到Word2vec词向量的生成过程,将词的文本重要性与Word2vec词向量融合,完善文本词特征向量的表示;最后,通过融合文本主题特征向量和词特征向量,增强文本特征的表示能力,并采用K-means++算法进行故障聚类分析。结果表明:同一试验数据集下,所提方法生成的文本特征向量明显优于其他传统模型,其诊断精度达到89.9%,高于K-means,GMM,AGNES和BIRCH等聚类模型(诊断精度分别为78.3%,68.1%,87.9%和81.7%)。该方法可增强故障文本特征与类别间关联关系的识别能力,为基于文本数据驱动的故障诊断提供参考。 展开更多
关键词 故障诊断 主题模型 词向量 权重 文本聚类
在线阅读 下载PDF
文本相似度计算方法综述 被引量:12
13
作者 魏嵬 丁香香 +2 位作者 郭梦星 杨钊 刘辉 《计算机工程》 CAS CSCD 北大核心 2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进... 文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。 展开更多
关键词 文本相似度 字符串 词向量 预训练模型 深度学习
在线阅读 下载PDF
基于A-BiLSTM和CNN的文本分类 被引量:3
14
作者 黄远 戴晓红 +2 位作者 黄伟建 于钧豪 黄峥 《计算机工程与设计》 北大核心 2024年第5期1428-1434,共7页
为解决单一神经网络不能获取准确全局文本信息的问题,提出一种基于A-BiLSTM双通道和优化CNN的文本分类模型。A-BiLSTM双通道层使用注意力机制关注对文本分类贡献值较大的部分,并用BiLSTM提取文本中上下文语义信息;A-BiLSTM双通道层中将... 为解决单一神经网络不能获取准确全局文本信息的问题,提出一种基于A-BiLSTM双通道和优化CNN的文本分类模型。A-BiLSTM双通道层使用注意力机制关注对文本分类贡献值较大的部分,并用BiLSTM提取文本中上下文语义信息;A-BiLSTM双通道层中将两者输出的特征信息融合,得到高级语义;A-BiLSTM双通道层后,使用优化CNN的强学习能力提取关键局部特征,得到最终文本特征表示。分类器输出文本信息的类别。实验结果表明,该模型分类效果优于其它对比模型,具有良好的泛化能力。 展开更多
关键词 文本分类 深度学习 双通道网络 注意力机制 双向长短时记忆网络 卷积神经网络 词向量模型
在线阅读 下载PDF
基于改进ORB-SVM的工件识别方法研究
15
作者 仝保国 刘凌云 《包装与食品机械》 CAS 北大核心 2024年第1期60-66,共7页
针对传统的图像识别算法识别多品种工件,存在运行时间长、识别率低等问题,提出基于改进ORB-SVM的工件图像识别方法。在传统ORB算法的特征点检测基础上,采用SIFT算法获得具有旋转尺度不变性的图像特征描述,并利用词袋模型将图像特征转化... 针对传统的图像识别算法识别多品种工件,存在运行时间长、识别率低等问题,提出基于改进ORB-SVM的工件图像识别方法。在传统ORB算法的特征点检测基础上,采用SIFT算法获得具有旋转尺度不变性的图像特征描述,并利用词袋模型将图像特征转化为特征直方图,进而构建支持向量机(SVM)的分类模型,实现对工件的识别分类。试验结果表明:改进的ORB-SVM在应对旋转变换、光照变换、尺度变换时更具鲁棒性,且工件识别准确率高达98.89%,单个工件的识别时间低于0.43 s,具有良好的高效性和实用性。研究为多领域的工件识别提供参考。 展开更多
关键词 工件识别 特征检测 ORB算法 词袋模型 支持向量机
在线阅读 下载PDF
基于语义信息的中文短信文本相似度研究 被引量:9
16
作者 刘金岭 宋连友 范玉虹 《计算机工程》 CAS CSCD 2012年第13期58-60,70,共4页
在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加... 在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。 展开更多
关键词 短信文本 相似度 tf-idf模型 特征词 向量空间模型
在线阅读 下载PDF
基于词序方法的文本相似度计算模型 被引量:7
17
作者 郭武斌 周宽久 苏振魁 《情报学报》 CSSCI 北大核心 2008年第6期857-862,共6页
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共... 针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试。试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%。 展开更多
关键词 文本相似度 词序 向量空间模型 tf-idf方法
在线阅读 下载PDF
一种基于LDA主题模型的话题发现方法 被引量:22
18
作者 郭蓝天 李扬 +2 位作者 慕德俊 杨涛 李哲 《西北工业大学学报》 EI CAS CSCD 北大核心 2016年第4期698-702,共5页
话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题... 话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题建模方法,通过引入基于CBOW(continuous bag-of-word)模型的词向量化方法对目标语料进行相似词的聚类,能够有效降低LDA模型输入文本的维度,并且使主题更明确。通过在真实数据集上计算分析,与现有基于词频权重的词向量化LDA方法相比,在相同主题词数情况下困惑度可降低约3%。 展开更多
关键词 词向量 LDA模型 话题发现 困惑度
在线阅读 下载PDF
基于领域知识和词向量的词义消歧方法 被引量:14
19
作者 杨安 李素建 李芸 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第2期204-210,共7页
利用无标注文本构建词向量模型,结合特定领域的关键词信息,提出一种词义消歧方法。以环境领域的待消歧文本作为评测语料,通过与Lesk等其他消歧方法进行比较,证明了所提方法的有效性。通过引入不同的领域知识,证明该方法亦可在其他领域... 利用无标注文本构建词向量模型,结合特定领域的关键词信息,提出一种词义消歧方法。以环境领域的待消歧文本作为评测语料,通过与Lesk等其他消歧方法进行比较,证明了所提方法的有效性。通过引入不同的领域知识,证明该方法亦可在其他领域的文本消歧任务中加以应用。 展开更多
关键词 词义消歧 词向量模型 领域知识
在线阅读 下载PDF
基于语义相似度的论坛话题追踪方法 被引量:22
20
作者 席耀一 林琛 +2 位作者 李弼程 周杰 许旭阳 《计算机应用》 CSCD 北大核心 2011年第1期93-96,共4页
现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相... 现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相似度并以此作为帖子与话题的相关程度,最后根据相关程度实现论坛话题追踪。该方法较好地避免了向量空间模型的缺陷。实验表明,该方法能比较有效地解决面向论坛的话题追踪问题。 展开更多
关键词 话题追踪 论坛 关键词 语义相似度 向量空间模型
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部