期刊文献+
共找到97篇文章
< 1 2 5 >
每页显示 20 50 100
融合多层级特征表示的多领域谣言早期检测方法 被引量:1
1
作者 黄涛 肖玉芝 +2 位作者 向洁萍 金胜 霍宣蓉 《情报杂志》 北大核心 2025年第4期127-135,共9页
[研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短... [研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短语和句子级特征,构建多层级特征增强的单元门模块以挖掘谣言深层信息。利用该模块构建领域感知特征抽取器,捕获谣言文本的领域特征及偏差,形成多领域与多层级的谣言特征表示,判断是否为谣言。[研究结果/结论]在涵盖9个不同领域的公开数据集上的实验结果表明,该模型的准确率、F1值和AUC值分别达到了92.85%、93.11%和96.96%,能够有效的对多领域谣言进行早期检测。 展开更多
关键词 网络谣言 谣言识别 早期谣言检测 多领域话题 特征增强 领域感知
在线阅读 下载PDF
基于潜在影响力预测和多源信息融合的新兴技术识别方法 被引量:1
2
作者 张甜 陈进东 +2 位作者 周晓纪 孙胜凯 张永伟 《情报杂志》 北大核心 2025年第9期134-142,133,共10页
[研究目的]针对新兴技术识别在前瞻性预测及单一数据源等方面的不足,提出基于潜在影响力预测和多源信息融合的新兴技术识别方法。[研究方法]首先,从“科学-技术”视角构建影响力评估指标体系,提出基于深度学习模型Bi-LSTM的潜在影响力... [研究目的]针对新兴技术识别在前瞻性预测及单一数据源等方面的不足,提出基于潜在影响力预测和多源信息融合的新兴技术识别方法。[研究方法]首先,从“科学-技术”视角构建影响力评估指标体系,提出基于深度学习模型Bi-LSTM的潜在影响力预测方法,识别未来短期、中期、长期具有高影响力的论文和专利;其次,利用LDA模型提取研究主题,聚类合并科学主题和技术主题,并基于主题演化网络和主题共现网络识别新兴技术;最后,通过新闻数据验证本文方法的有效性,并结合情感分析挖掘公众诉求。[研究结果/结论]以碳中和领域为例,基于本文提出的新兴技术识别方法,识别得到未来短期、中期、长期新兴技术共7项,实验结果验证了潜在影响力预测方法在识别高影响力研究中的有效性,以及融合多源信息的新兴技术识别方法的准确性。 展开更多
关键词 新兴技术识别 多源数据 潜在影响力预测 多源信息融合 主题分析 碳中和
在线阅读 下载PDF
基于主题多视图表示的零样本实体检索方法
3
作者 齐丹丹 王长征 +6 位作者 郭少茹 闫智超 胡志伟 苏雪峰 马博翔 李时钊 李茹 《广西师范大学学报(自然科学版)》 北大核心 2025年第3期23-34,共12页
零样本实体检索旨在将实体提及(mention)链接到训练阶段未见过的实体,在多种自然语言处理任务中起关键作用。然而现有方法依然存在2个问题:1)仅使用实体描述的前k个句子来构建实体的多视图表示,导致实体多视图语义冗余与缺失,很难充分... 零样本实体检索旨在将实体提及(mention)链接到训练阶段未见过的实体,在多种自然语言处理任务中起关键作用。然而现有方法依然存在2个问题:1)仅使用实体描述的前k个句子来构建实体的多视图表示,导致实体多视图语义冗余与缺失,很难充分学习提及与实体之间的匹配关系;2)仅以提及为中心构造正负例,对提及与实体之间的对比关系覆盖度较低,导致其匹配错误。针对以上2个问题,本文提出基于主题的多视图实体表示(Topic-MVER)方法。该方法基于主题构建实体的多视图表示,并使用对比学习建模提及与实体之间的3种关系,提升提及和实体对表示的匹配性。该方法在ZESHEL和MedMentions数据集上的Recall@1分别达到48.13%和73.86%,较基线模型分别提升2.73和1.21个百分点,验证了本文方法的有效性。 展开更多
关键词 实体检索 零样本 长文本 主题多视图 对比学习
在线阅读 下载PDF
面向多标签隐性知识的文本数据挖掘算法
4
作者 邓乔夫 李骁娅 郭校君 《沈阳工业大学学报》 北大核心 2025年第5期594-601,共8页
【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知... 【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知识的数据挖掘算法,以提升文本分类的准确性和数据挖掘的效率。【方法】针对多标签文本数据中隐性知识的显性化问题,基于SECI理论对文本信息中的隐性知识进行显性化转换,并利用循环神经网络的短时记忆能力提高隐性知识的转换效率。在此基础上,考虑到文本信息的复杂性,分别从局部特征和全局特征两个维度进行分析,并采用特征融合策略提高数据挖掘的准确性。由于文本信息前后文关联性较强,利用基于长短期记忆网络(LSTM)模型的门控机制,提取文本的上下文信息,以捕捉文本中的序列依赖关系;采用潜在狄利克雷分配(LDA)模型,对文本的主题结构进行建模,从而避免因人工标注标准差异导致的模型训练偏差;通过特征拼接的方式,并结合LDA主题模型和LSTM模型提取的局部及全局特征,以降低特征提取过程中信息丢失的风险;引入主题控制器,通过缩小推理范围,提高文本特征提取的有效性;构建基于高斯解码器的上下文主题层,计算词汇在特定主题下的条件概率矩阵,并利用高斯混合解码器优化文本主题建模,提高文本内容的扩充能力;使用Softmax函数计算各标签的概率,实现多标签文本分类。【结果】对比实验中,使用困惑度作为模型训练的评估指标。结果表明,本文模型的困惑度优于对照组(LDA主题模型与LSTM模型),验证了LDA与LSTM结合的特征拼接策略可有效发挥两种模型的优势。此外,与NVDM、LSTM、LDA和VAETM模型进行对比,以准确率和查全率为评估指标,本文模型在准确率和查全率方面分别提升了5.05%和2.75%,表明其在多标签文本分类任务中的有效性与优越性。【结论】对比实验结果表明,本文模型能够显著提升文本分类的性能,相比LDA主题模型和LSTM模型,在处理多标签文本时表现更优;能够高效挖掘多标签文本数据中的隐性知识,为文本分类、语义分析和信息检索等任务提供了一种高效、精准的解决方案。 展开更多
关键词 多标签文本 深度主题特征提取模型 隐性知识 循环神经网络 LSTM神经网络 LDA主题模型 特征拼接 高斯解码器
在线阅读 下载PDF
分布式多主题网络爬虫系统的研究与实现 被引量:20
5
作者 白鹤 汤迪斌 王劲林 《计算机工程》 CAS CSCD 北大核心 2009年第19期13-16,19,共5页
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的... 提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。 展开更多
关键词 网络爬虫 多主题 分布式
在线阅读 下载PDF
基于向量空间模型的多主题Web文本分类方法 被引量:14
6
作者 周炎涛 唐剑波 吴正国 《计算机应用研究》 CSCD 北大核心 2008年第1期142-144,共3页
对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法。该方法通过网页与每个类的相似度和动态阈值的比较,... 对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法。该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中。实验证明,这种方法具有较好的精确度和召回率。 展开更多
关键词 向量空间模型 文本分类 多主题 数据挖掘
在线阅读 下载PDF
基于主题的Web文本聚类方法 被引量:4
7
作者 张万山 肖瑶 +1 位作者 梁俊杰 余敦辉 《计算机应用》 CSCD 北大核心 2014年第11期3144-3146,3151,共4页
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚... 针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。 展开更多
关键词 多主题 WEB文本 聚类 特征词 准确率
在线阅读 下载PDF
Web网页信息文本分类的研究 被引量:5
8
作者 李净 袁小华 沈晓晶 《计算机工程与设计》 CSCD 北大核心 2008年第23期6026-6028,共3页
面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Bo... 面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Boosting和Web文档结构Bayesian分类模型,而对于长文档采用Boosting和综合Bayesian分类模型。实验结果表明,此分类框架具有较好的分类效果。 展开更多
关键词 WEB文本分类 多主题 多分类器 BOOSTING算法 综合Bayesian分类法
在线阅读 下载PDF
一种基于搜索策略的多主题信息采集方法 被引量:3
9
作者 仲兆满 李存华 +1 位作者 刘宗田 管燕 《电子学报》 EI CAS CSCD 北大核心 2014年第12期2352-2358,共7页
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置... 本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数.针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法.设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较.结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能. 展开更多
关键词 多主题信息采集 原子规则 内置搜索 通用搜索 相关性计算
在线阅读 下载PDF
基于概念簇的多主题提取算法 被引量:3
10
作者 马甲林 张永军 王志坚 《智能系统学报》 CSCD 北大核心 2015年第2期261-266,共6页
现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库,构建概念向量表示文本,根据概念... 现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库,构建概念向量表示文本,根据概念的语义及上下文背景对同义词进行归并、对多义词进行排歧,并利用概念间语义关系实现语义相似度计算;在此基础上提出基于概念簇的多主题提取算法MEABCC,该算法通过对概念进行聚类,得到多个主题簇;在使用K-means算法进行概念聚类时,通过"预设种子"方法对其进行改进,以弥补传统K-means算法对初始中心的敏感性所引起的时空开销不稳定、结果波动较大的缺陷。实验结果表明,该算法具有较好的准确率、召回率和F1值。 展开更多
关键词 语义 稀疏 上下文背景 知识库 概念簇 多主题提取 K-MEANS MEABCC
在线阅读 下载PDF
基于LDA重要主题的多文档自动摘要算法 被引量:11
11
作者 刘娜 路莹 +1 位作者 唐晓君 李明霞 《计算机科学与探索》 CSCD 北大核心 2015年第2期242-248,共7页
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建... 提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。 展开更多
关键词 多文档摘要 主题模型 重要主题
在线阅读 下载PDF
基于主题的文本句情感分析 被引量:8
12
作者 王磊 苗夺谦 +1 位作者 张志飞 余鹰 《计算机科学》 CSCD 北大核心 2014年第3期32-35,共4页
近年来,针对互联网在线信息的情感分析已经成为自然语言处理领域的一个研究热点。提出一个基于主题的情感向量空间模型,它将文本的潜在主题特征融入情感模型中,结合情感词典,利用多标签分类算法,对文本中句的情感极性进行分析与研究。... 近年来,针对互联网在线信息的情感分析已经成为自然语言处理领域的一个研究热点。提出一个基于主题的情感向量空间模型,它将文本的潜在主题特征融入情感模型中,结合情感词典,利用多标签分类算法,对文本中句的情感极性进行分析与研究。实验结果表明,基于主题的情感向量空间模型在句的情感极性判断上取得了令人满意的效果。 展开更多
关键词 情感词典 概率主题 多标签分类 情感分析
在线阅读 下载PDF
用于多标签分类的改进Labeled LDA模型 被引量:12
13
作者 江雨燕 李平 王清 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期425-432,共8页
概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言... 概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力. 展开更多
关键词 主题模型 隐含狄利克雷分配 多标签分类 共享主题
在线阅读 下载PDF
文本流多粒度主题结构建模研究 被引量:2
14
作者 陈千 郭鑫 +1 位作者 王素格 张虎 《中文信息学报》 CSCD 北大核心 2015年第1期118-125,共8页
主题检测近年来在文本挖掘和自然语言处理领域得到了广泛的应用,对主题进行结构建模是主题检测的基础。为了对文本流中的多粒度主题进行建模,提出一种基于语义层次树的主题结构模型。该模型利用领域本体的特点,将主题同本体作一一映射,... 主题检测近年来在文本挖掘和自然语言处理领域得到了广泛的应用,对主题进行结构建模是主题检测的基础。为了对文本流中的多粒度主题进行建模,提出一种基于语义层次树的主题结构模型。该模型利用领域本体的特点,将主题同本体作一一映射,结合概率理论,将概念集里的概念用主题树的叶子节点表示,每一层中的节点均是下一层节点的多项分布,使之更适合描述文本流中多粒度的主题结构。为了便于构建主题的空间结构,提出主题的相似度和事件相关度计算方法。该文结尾设计了实验构造真实新闻文本流数据上的主题树。实验结果表明,该结构模型能够体现主题丰富的多粒度空间语义特征。 展开更多
关键词 主题检测 多粒度主题建模 文本流
在线阅读 下载PDF
基于多中心模型的网络热点话题发现算法 被引量:28
15
作者 王巍 杨武 齐海凤 《南京理工大学学报》 EI CAS CSCD 北大核心 2009年第4期422-426,431,共6页
为了有效消除网络话题相关报道内容侧重点变化对网络话题发现准确性的影响,提出了网络话题多中心模型。将报道内容之间的关联关系层次化,提高了对网络话题的描述能力。提出了基于多中心模型的网络热点话题发现算法,利用话题中心判别新... 为了有效消除网络话题相关报道内容侧重点变化对网络话题发现准确性的影响,提出了网络话题多中心模型。将报道内容之间的关联关系层次化,提高了对网络话题的描述能力。提出了基于多中心模型的网络热点话题发现算法,利用话题中心判别新出现的报道是否属于已有网络话题,算法基于单遍聚类思想,通过引入话题中心的策略优化了算法的计算开销。实验结果表明:该算法可以全面、准确地发现网络热点话题,同时具有较为理想的性能,可应用于大规模网络动态流式数据环境下的热点话题发现。 展开更多
关键词 话题发现 热点话题 多中心 单遍聚类
在线阅读 下载PDF
多文档文摘中句子优化选择方法研究 被引量:13
16
作者 秦兵 刘挺 +1 位作者 陈尚林 李生 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1129-1134,共6页
在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法·首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序·以文摘中有效词的覆盖率作为优化指标,在... 在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法·首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序·以文摘中有效词的覆盖率作为优化指标,在各个子主题中选择文摘句·从减少子主题之间及子主题内部的信息的冗余性两个角度选择文摘句,使文摘的信息覆盖率得到很大提高·实验表明,生成的文摘是令人满意的· 展开更多
关键词 多文档文摘 子主题 句子优化选择
在线阅读 下载PDF
基于异构信息网络融合的专利技术主题识别研究 被引量:13
17
作者 田鹏伟 张娴 《情报杂志》 CSSCI 北大核心 2021年第8期45-52,共8页
[目的/意义]利用异构信息网络融合建模开展专利技术主题识别方法研究,能有效提高专利技术主题识别的准确性。[方法/过程]利用文本挖掘技术提取专利技术主题构建共现网络,采用OVL算法及加权运算对异构信息网络进行融合,基于融合后的网络... [目的/意义]利用异构信息网络融合建模开展专利技术主题识别方法研究,能有效提高专利技术主题识别的准确性。[方法/过程]利用文本挖掘技术提取专利技术主题构建共现网络,采用OVL算法及加权运算对异构信息网络进行融合,基于融合后的网络开展主题识别。[结果/结论]以工业机器人领域为例的实证研究表明:与未经融合的关键词直接共现网络相比,基于融合网络的技术主题识别结果的主题内集中性更好、主题间区分度更显著、交叉性与重叠性更低。 展开更多
关键词 专利文献 专利技术 异构信息网络 网络融合 多元关系融合 主题识别
在线阅读 下载PDF
多变参pLSI文本敏感特征抽取算法 被引量:2
18
作者 李卫平 杨杰 王钢 《计算机应用研究》 CSCD 北大核心 2015年第9期2587-2589,共3页
敏感词等特征的抽取是社交网络敏感话题分析的关键环节。目前热门的概率主题模型在社交网络敏感话题分析领域,受到特征语义复杂以及高噪声的影响,处理性能不够理想。提出了一种多变参概率潜在语义索引(p LSI)算法,可以利用社交网站标签... 敏感词等特征的抽取是社交网络敏感话题分析的关键环节。目前热门的概率主题模型在社交网络敏感话题分析领域,受到特征语义复杂以及高噪声的影响,处理性能不够理想。提出了一种多变参概率潜在语义索引(p LSI)算法,可以利用社交网站标签、文本表情图片等多种辅助信息提高特征抽取的效果。实验数据显示,该算法有较高的分类准确率和较低的时间开销。该算法是理想的降维算法,适用于社交网络的敏感特征抽取。 展开更多
关键词 特征抽取 敏感特征 潜在概率语义索引 多变参 话题分析
在线阅读 下载PDF
话题识别与跟踪中的层次化话题识别技术研究 被引量:49
19
作者 于满泉 骆卫华 +1 位作者 许洪波 白硕 《计算机研究与发展》 EI CSCD 北大核心 2006年第3期489-495,共7页
话题识别与跟踪(topic detection and tracking,TDT)旨在发展一系列基于事件的信息组织技术,层次化话题识别(hierarchical topic detection,HTD)是其中一项全新的任务定义形式.通过连续的大规模评测,话题识别与跟踪已成为国际上自然语... 话题识别与跟踪(topic detection and tracking,TDT)旨在发展一系列基于事件的信息组织技术,层次化话题识别(hierarchical topic detection,HTD)是其中一项全新的任务定义形式.通过连续的大规模评测,话题识别与跟踪已成为国际上自然语言处理尤其是信息检索领域的一个研究热点.为此,将自然语言处理与信息检索技术相结合,提出了针对事件特点的切实有效的单粒度话题识别方法,并提出了基于多层聚类的MLCS算法对话题进行层次化组织.所提出的方法具有很好的效果,在TDT2004的HTD评测中,该方法取得了第2名的成绩. 展开更多
关键词 话题识别与跟踪 层次化话题识别 多层聚类 命名实体 指代消解
在线阅读 下载PDF
一种面向观点挖掘的多粒度话题情感联合模型 被引量:4
20
作者 赵煜 蔡皖东 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2011年第3期181-188,共8页
为了提高文本观点挖掘的效率,通过扩展标准话题模型,提出了一种新颖的多粒度话题情感联合模型(MG-TSJ).模型将文本话题区分为全局和局部两类,同时挖掘文本中涉及的多层次话题信息和情感倾向信息.该模型采用非监督的学习方法,解决了现有... 为了提高文本观点挖掘的效率,通过扩展标准话题模型,提出了一种新颖的多粒度话题情感联合模型(MG-TSJ).模型将文本话题区分为全局和局部两类,同时挖掘文本中涉及的多层次话题信息和情感倾向信息.该模型采用非监督的学习方法,解决了现有方法存在的领域依赖问题.通过在测试语料库上进行实验,该模型在文本情感倾向性分类任务中的准确率达到82.6%,具有和监督分类系统相当的性能;挖掘话题集合呈现层次化、语义相关的特点,证明了MG-TSJ模型对观点挖掘是可行的和有效的. 展开更多
关键词 观点挖掘 话题模型 多粒度话题情感联合模型 非监督学习 蒙特卡罗模拟法
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部