期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
面向舆情事件的子话题标签生成模型ET-TAG 被引量:19
1
作者 周楠 杜攀 +2 位作者 靳小龙 刘悦 程学旗 《计算机学报》 EI CSCD 北大核心 2018年第7期1490-1503,共14页
关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分析舆情事件(包括掌握事件热点、监测发展走向等)具有重要意义... 关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分析舆情事件(包括掌握事件热点、监测发展走向等)具有重要意义.事件子话题标签的生成通常包括两个关键步骤:首先发现子话题,然后依据每个子话题的关键词或文档内容生成描述该子话题的有效标签.传统方法在发现话题时多采用聚类或分类的方法,它们将同一个话题的文档整合到一个簇中.然而,由于隶属同一事件的文档具有很强的相似性,现有方法难以度量他们之间的距离,因此无法应用于发现事件子话题这一任务.此外,在为子话题生成标签时,传统的方法通常通过抽取来实现.此类方法所生成标签的准确性无法保证.为此,该文提出了一种基于PLSA with Background Language并结合关键词聚类发现事件内部子话题,进而基于维基百科等知识库生成事件子话题标签的模型ET-TAG.在多类舆情事件数据集上的实验结果表明,ET-TAG算法相比K-means和LDA等已有子话题发现方法具有更好的性能;从子话题标签生成角度而言,ET-TAG生成的标签相对于传统方法也具有更好的准确性和概括性.该文最后将ET-TAG算法生成的子话题标签用于事件的对比和追踪,结果表明通过子话题标签可以发现事件共性,并反映事件子话题热度的变化趋势. 展开更多
关键词 子话题发现 PLSA with BACKGROUND LANGUAGE 关键词聚类 子话题标签生成
在线阅读 下载PDF
网络舆情话题情感演化研究 被引量:37
2
作者 黄卫东 陈凌云 吴美蓉 《情报杂志》 CSSCI 北大核心 2014年第1期102-107,共6页
针对现有的关于网络舆情内容进行情感分析的研究不能满足舆情情感深度挖掘的需求,提出一种基于概率潜在语义分析(PLSA)的网络舆情话题情感分析方法,利用PLSA模型对不同时间段上的网络舆情话题进行子话题提取和情感词表构建,综合考虑修... 针对现有的关于网络舆情内容进行情感分析的研究不能满足舆情情感深度挖掘的需求,提出一种基于概率潜在语义分析(PLSA)的网络舆情话题情感分析方法,利用PLSA模型对不同时间段上的网络舆情话题进行子话题提取和情感词表构建,综合考虑修饰词对情感词的影响以及情感词对子话题的贡献程度,最终得到一个时间序列上各个子话题的情感倾向值以及整个话题的情感变化趋势。实验结果证明该方法不仅可以描述同一个子话题随时间的情感演化过程,还可以描述话题情感随子话题维度和内容的演变情况。 展开更多
关键词 网络舆情 PLSA模型 情感演化 子话题抽取 情感分析 情感词表
在线阅读 下载PDF
多文档文摘中句子优化选择方法研究 被引量:13
3
作者 秦兵 刘挺 +1 位作者 陈尚林 李生 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1129-1134,共6页
在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法·首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序·以文摘中有效词的覆盖率作为优化指标,在... 在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法·首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序·以文摘中有效词的覆盖率作为优化指标,在各个子主题中选择文摘句·从减少子主题之间及子主题内部的信息的冗余性两个角度选择文摘句,使文摘的信息覆盖率得到很大提高·实验表明,生成的文摘是令人满意的· 展开更多
关键词 多文档文摘 子主题 句子优化选择
在线阅读 下载PDF
多主题文本摘要抽取的研究与实现 被引量:5
4
作者 廖涛 刘宗田 王利 《计算机工程》 CAS CSCD 北大核心 2011年第6期21-23,共3页
研究自动摘要技术,结合统计与文本关系图并基于复杂网络中的社区划分算法,提出一种多主题文本摘要抽取方法。抽取文本中权重较高的句子,通过句子的相似度计算建立文本关系图,利用社区划分算法解决子主题划分的问题。实验结果表明,该方... 研究自动摘要技术,结合统计与文本关系图并基于复杂网络中的社区划分算法,提出一种多主题文本摘要抽取方法。抽取文本中权重较高的句子,通过句子的相似度计算建立文本关系图,利用社区划分算法解决子主题划分的问题。实验结果表明,该方法对多主题文本摘要的抽取质量较好,能抽取出较多的子主题。 展开更多
关键词 多主题文本 自动摘要 统计模型 文本关系图 子主题社区划分
在线阅读 下载PDF
基于GA的文本子主题切分中的参数优化研究 被引量:2
5
作者 钟彬彬 刘远超 徐志明 《计算机工程与应用》 CSCD 北大核心 2005年第21期97-99,共3页
如何正确有效地确定文档的子主题边界对于自动文摘、问答系统等自然语言处理应用是非常重要的。然而多数文档中子主题之间没有明确的标记(如小标题),这给子主题的提取带来一定的困难。文章首先分析了利用TextTiling算法进行隐式章节划... 如何正确有效地确定文档的子主题边界对于自动文摘、问答系统等自然语言处理应用是非常重要的。然而多数文档中子主题之间没有明确的标记(如小标题),这给子主题的提取带来一定的困难。文章首先分析了利用TextTiling算法进行隐式章节划分的基本原理。同时考虑到算法中人工定义参数可能会对系统的指标产生影响,利用遗传算法对其进行了优化,自动获取的参数值使系统准确率提高了7.1%。实验表明遗传算法是一种非常简单有效的参数优化方法。通过该文方法获取的参数更加适合中文文档的隐式章节划分。 展开更多
关键词 隐式章节划分 TextTiling算法 遗传算法 参数优化
在线阅读 下载PDF
基于子主题区域划分的多文档自动文摘方法 被引量:1
6
作者 王萌 徐超 +1 位作者 李春贵 何婷婷 《计算机工程》 CAS CSCD 北大核心 2011年第12期158-160,163,共4页
为解决词频矩阵的词频维数过大和矩阵过于稀疏的问题,提出一种子主题区域划分的多文档自动文摘方法。使用知网进行概念获取,建立概念向量空间模型,代替传统的词频向量空间模型。在概念向量空间模型的基础上,利用一种改进的层次分割法对... 为解决词频矩阵的词频维数过大和矩阵过于稀疏的问题,提出一种子主题区域划分的多文档自动文摘方法。使用知网进行概念获取,建立概念向量空间模型,代替传统的词频向量空间模型。在概念向量空间模型的基础上,利用一种改进的层次分割法对文档集合进行子主题划分,从各个子主题中抽取出满足一定数量的句子作为文摘。实验结果验证了该方法的有效性。 展开更多
关键词 子主题区域 自动文摘 知网 概念向量空间模型
在线阅读 下载PDF
基于主题子空间的文本模糊C均值聚类方法 被引量:2
7
作者 吉翔华 陈超 +1 位作者 邵正荣 俞能海 《小型微型计算机系统》 CSCD 北大核心 2007年第12期2225-2228,共4页
模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy... 模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy C-Means),通过对能够代表文本主题的关键短语(salient phrase)的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵.实验表明,TS2FCM取得了较好的聚类效果. 展开更多
关键词 TS2FCM 主题子空间 模糊C均值聚类 文本聚类
在线阅读 下载PDF
基于全局/局部共现词对分布的汉越双语新闻事件线索分析 被引量:1
8
作者 高盛祥 余正涛 +2 位作者 龙文旭 丁硙 闫春婷 《中文信息学报》 CSCD 北大核心 2015年第6期90-97,共8页
针对汉越双语新闻事件线索分析,提出了基于全局/局部共现词对分布的汉越双语事件线索生成方法。该方法首先将新闻话题词语分布作为全局词语表征全局事件,然后用一定时间粒度下新闻片段特有的时间、人物、地点等事件元素作为局部词语,分... 针对汉越双语新闻事件线索分析,提出了基于全局/局部共现词对分布的汉越双语事件线索生成方法。该方法首先将新闻话题词语分布作为全局词语表征全局事件,然后用一定时间粒度下新闻片段特有的时间、人物、地点等事件元素作为局部词语,分析新闻片段中全局词语和局部词语的共现关系,将全局/局部词语的共现规律作为监督信息,结合RCRP算法和汉越双语新闻的对齐语料,构建有监督话题生成主题模型,获得相应时间跨度下代表事件发展进程的子话题分布,通过子话题的分布反映事件发展的线索,从而构建出在线汉越双语事件线索生成模型。实验在汉越混合新闻数据集上进行,事件线索生成对比实验结果证明了提出的方法的有效性。 展开更多
关键词 汉语-越南语 新闻事件线索 全局/局部共现词对 子话题分布 双语主题模型
在线阅读 下载PDF
基于多重文本关系图中clique子团聚类的主题识别方法研究 被引量:4
9
作者 郭红梅 孔贝贝 张智雄 《情报学报》 CSSCI CSCD 北大核心 2017年第5期433-442,共10页
在网络成为最主要科学交流和信息传播渠道的今天,越来越多的机构将其研究成果以电子化形式呈现,这些电子化的文本资源中蕴涵着丰富的语义信息。面对这些海量的资源,科研人员很难在短时间内快速捕获文本中的主旨内容。如何高效准确地呈... 在网络成为最主要科学交流和信息传播渠道的今天,越来越多的机构将其研究成果以电子化形式呈现,这些电子化的文本资源中蕴涵着丰富的语义信息。面对这些海量的资源,科研人员很难在短时间内快速捕获文本中的主旨内容。如何高效准确地呈现文本资源中的核心主题,辅助科研人员对文本集中的重要关联信息进行聚焦,提高科研效率,一直是文本挖掘研究中的一个重要问题。在对现有有益研究成果借鉴的基础上,结合文本中术语和术语关系的特点,论文提出将文本中的术语和术语间的共现、句法和语义关系利用图结构进行表示,识别文本关系图中的紧密关联子团,基于所得到的紧密关联子团聚类来揭示文本子主题的整体研究思路。开展了两个方面的研究:①将文本集中的术语和术语间各种关系属性进行叠加归并,构建多重文本关系叠加模型;②基于clique子团间相似性距离和语义标识,进行聚类识别文本集中所包含的重要子主题。论文采用"migraine disorders"主题中近五年的文献构建文本集,对提出的方法开展了2个有效性实验。实验1与文本中领域专家所给出的标引词按语义类型分组结果对比,结果表明论文提出的方法与领域专家给出的标引词语义类型分组结果具有一致性;实验2与目前广泛使用的LDA方法结果进行对比,在准确率和召回率上都较LDA方法有所提高。2个实验均证明了文中方法的有效性。 展开更多
关键词 clique子团 多重文本关系 文本主题识别
在线阅读 下载PDF
社区教育研究的原创性与子课题的研究工作(二)
10
作者 李继星 《职业技术教育》 北大核心 2003年第1期48-51,共4页
四、如何提升子课题研究工作的原创性 (一)要树立科学精神 子课题研究工作是否具有原创性,主要取决于两大要素:一是科学精神,二是科学方法.所谓科学精神,主要包含下列一些内容:
关键词 研究工作 子课题 原创性 教育研究 社区 科学精神 科学方法
在线阅读 下载PDF
基于事件指导的多文档生成式摘要方法 被引量:6
11
作者 王振超 孙锐 姬东鸿 《计算机应用研究》 CSCD 北大核心 2017年第2期343-346,356,共5页
建立在理解篇章语义基础之上的生成式摘要,在思想上相对于抽取式摘要更加合理,但在具体实现上却面临语义理解、自然语言生成等难题。提出了一种以事件作为基本语义单元的生成式摘要方法,通过对事件聚类反映篇章的主题分布,并利用事件指... 建立在理解篇章语义基础之上的生成式摘要,在思想上相对于抽取式摘要更加合理,但在具体实现上却面临语义理解、自然语言生成等难题。提出了一种以事件作为基本语义单元的生成式摘要方法,通过对事件聚类反映篇章的主题分布,并利用事件指导多语句压缩生成自然语句构建摘要。通过在DUC标准数据集上进行评测,最终的ROUGE得分媲美目前主流的生成式方法,从而说明事件能够很好地承载篇章的主干信息,同时有效地指导多语句压缩过程中冗余信息的去除和自然语言的生成。 展开更多
关键词 事件 生成式 组合语义 子主题 多语句压缩 多文档摘要
在线阅读 下载PDF
一种微博热点事件子话题的可视分析方法 被引量:3
12
作者 李依霖 朱嘉奇 +1 位作者 吴云坤 王宏安 《中国科学技术大学学报》 CAS CSCD 北大核心 2017年第1期48-56,共9页
如何从海量微博数据中挖掘出有意义的信息,理解热点事件发生的全过程,并发现其中的拐点事件,显得越来越重要.传统的单一依靠词频的方法缺乏对子话题的抽象描述,因此存在一定的局限性.为此结合主题提取和词频统计的技术,提出了一种交互... 如何从海量微博数据中挖掘出有意义的信息,理解热点事件发生的全过程,并发现其中的拐点事件,显得越来越重要.传统的单一依靠词频的方法缺乏对子话题的抽象描述,因此存在一定的局限性.为此结合主题提取和词频统计的技术,提出了一种交互式可视分析方法,对热点事件子话题的演化过程进行不同粒度的展示;再通过比较相邻时间区间子话题词分布的变化,发现关于某些子话题的拐点事件,进而利用词项共现图在微博原文中找到具体信息.这里,用户可以在交互过程中发现最优的参数配置,从而更加有效地分析拐点事件,并理解热点事件发生的全过程.在真实的数据集上进行了实验,并与传统的基于词频的方法和基于主题变化趋势的方法做比较,结果验证了该方法的有效性. 展开更多
关键词 子事件检测 微博 可视分析 主题模型
在线阅读 下载PDF
动态增量式子主题事件演化分析 被引量:4
13
作者 李风环 郑德权 赵铁军 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2441-2450,共10页
事件发展的持续性和相互影响性使人们对事件的后续进展越来越感兴趣,而传统的事件分析大多是针对基于句子的事件.针对专题事件,结合single-pass聚类方法、兼类思想以及动态增量思想,提出了一种增量式子主题动态演化分析模型.该模型基于... 事件发展的持续性和相互影响性使人们对事件的后续进展越来越感兴趣,而传统的事件分析大多是针对基于句子的事件.针对专题事件,结合single-pass聚类方法、兼类思想以及动态增量思想,提出了一种增量式子主题动态演化分析模型.该模型基于专题事件的时序特征提出,包括动态阈值的设定、相似度平滑、子主题动态增量策略等过程,以及运用χ2统计的思想来综合评价模型性能的方法.该模型可以有效地对专题事件进行子主题分析,进而使人们能够更直接和快速地了解主题事件的进展.实验结果表明提出的方法使子主题演化分析的性能有了显著的提高. 展开更多
关键词 演化分析 子主题 动态 增量式 主题事件
在线阅读 下载PDF
基于网络社交媒体的子话题检测技术综述 被引量:3
14
作者 理姗姗 杨文忠 +1 位作者 王婷 王丽花 《计算机应用》 CSCD 北大核心 2020年第6期1565-1573,共9页
在当前多种平台崛起的互联网背景下,与传统媒体相比,网络社交媒体中的数据具有传递速度快、用户参与度高、内容覆盖全等特点,其中存在着人们关注并发布评论的众多话题,而一个话题的相关信息中可能存在更深层次、更细粒度的子话题,针对... 在当前多种平台崛起的互联网背景下,与传统媒体相比,网络社交媒体中的数据具有传递速度快、用户参与度高、内容覆盖全等特点,其中存在着人们关注并发布评论的众多话题,而一个话题的相关信息中可能存在更深层次、更细粒度的子话题,针对该问题进行基于网络社交媒体的子话题检测技术的研究,这是一个新兴且不断发展的研究领域。通过社交媒体获取话题及子话题信息并参与讨论,这一方式正全方位、深层次改变着人们的生活,但是该领域技术还不成熟,且相关研究在国内尚处于起步阶段。首先,简述网络社交媒体中子话题检测的发展背景和基本概念;其次,将子话题检测技术分为七大类,对每类方法均加以介绍、对比和总结;然后,将子话题检测方式分为在线检测和离线检测两种方式,并将这两种方式进行对比,列举通用技术及两种方式下的常用技术;最后,概括了该领域当前不足及未来发展趋势。 展开更多
关键词 子话题 话题检测和追踪 网络社交媒体 话题层次 子事件
在线阅读 下载PDF
面向查询的多模式自动摘要研究 被引量:3
15
作者 李芳 何婷婷 《中文信息学报》 CSCD 北大核心 2011年第2期9-14,共6页
为了满足用户的个性化需求,提供尽可能丰富、实用、方便的文摘结果,该文设计了面向查询的多文档自动文摘的多种摘要模式。在将查询返回的文档集合表示为以文本、段落为节点的双层复杂网络结构以发现子主题的基础上,除传统的摘要模式外,... 为了满足用户的个性化需求,提供尽可能丰富、实用、方便的文摘结果,该文设计了面向查询的多文档自动文摘的多种摘要模式。在将查询返回的文档集合表示为以文本、段落为节点的双层复杂网络结构以发现子主题的基础上,除传统的摘要模式外,该文又设计了概括摘要、局部摘要、全局摘要和详细摘要这四种摘要模式,并给出了各种摘要的生成方法。支持用户以主题为线索自主漫游,按照一定的逻辑顺序浏览信息。 展开更多
关键词 面向查询的多文档自动文摘 子主题发现 多模式摘要
在线阅读 下载PDF
基于改进Single-Pass的新闻话题检测与追踪技术研究 被引量:4
16
作者 张帆 潘亚雄 胡勇 《信息安全研究》 2020年第5期396-403,共8页
为解决如何从海量新闻报道中检测并追踪到目标话题,选择了自增式聚类Single-Pass算法进行研究.在原有的基础上对其进行改进得到改进后的Single-Pass聚类算法,期望能得到更好的解决方法.对于原有算法进行的改进主要有在新闻文本的特征词... 为解决如何从海量新闻报道中检测并追踪到目标话题,选择了自增式聚类Single-Pass算法进行研究.在原有的基础上对其进行改进得到改进后的Single-Pass聚类算法,期望能得到更好的解决方法.对于原有算法进行的改进主要有在新闻文本的特征词选取中加入权重系数表达特征词位置信息,同时辅以时间特征进行新闻文本相似度计算,并且在Single-Pass聚类算法步骤中添加子话题阈值判断过程.实验验证改进后的Single-Pass聚类算法不仅可得到不同粒度的话题聚类效果,同时也提升了聚类效率.实验结果证明,在相同条件下,改进后的Single-Pass聚类算法在漏检率和误检率上有明显的改善. 展开更多
关键词 新闻话题 Single-Pass聚类算法 时间特征 相似度 子话题
在线阅读 下载PDF
从复合句零主语指代看汉英语言思维的差异 被引量:1
17
作者 王倩 《安徽大学学报(哲学社会科学版)》 CSSCI 北大核心 2005年第5期41-45,共5页
和英语零主语指代相比,汉语零主语指代的现象要复杂得多,这种差异很大程度上是由汉英语言的不同思维特点造成的。本文通过意合和形合、主题显著和主语显著、主体思维和客体思维、整合思维和拆分思维四个方面的比较,对复合句零主语的指... 和英语零主语指代相比,汉语零主语指代的现象要复杂得多,这种差异很大程度上是由汉英语言的不同思维特点造成的。本文通过意合和形合、主题显著和主语显著、主体思维和客体思维、整合思维和拆分思维四个方面的比较,对复合句零主语的指代所反映的汉英语言思维特点上的差异进行了分析。 展开更多
关键词 零主语指代 意合 形合 主题显著 主语显著 主体思维 客体思维 整合思维 拆分思维
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部