期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于概念的文本表示模型 被引量:16
1
作者 陈龙 范瑞霞 高琪 《计算机工程与应用》 CSCD 北大核心 2008年第20期162-164,共3页
文本信息处理正朝着语义的方向发展,而当今主流的文本表示模型——向量空间模型(VSM)以单个词语作为特征项,这忽略了自然语言中词语之间的语义联系、导致文本中大量存在同义词与多义词现象,从而严重地降低了文本信息处理的精度。应用自... 文本信息处理正朝着语义的方向发展,而当今主流的文本表示模型——向量空间模型(VSM)以单个词语作为特征项,这忽略了自然语言中词语之间的语义联系、导致文本中大量存在同义词与多义词现象,从而严重地降低了文本信息处理的精度。应用自然语言处理相关技术和成果,把概念和概念距离引入向量空间模型,从语义、概念的角度出发,以概念作为文本的特征项,建立基于概念的文本表示模型。实验证明:这种方法能较好地解决同义词和多义词问题、提高了文本分类的查全率和查准率。 展开更多
关键词 文本表示模型 概念 概念距离
在线阅读 下载PDF
文本图表示模型及其在文本挖掘中的应用 被引量:13
2
作者 李纲 毛进 《情报学报》 CSSCI 北大核心 2013年第12期1257-1264,共8页
近年来在文本挖掘领域,学者们尝试从底层改造文本挖掘算法,提出文本图表示模型,更加丰富地表征文本内容和结构,从而改进现有文本挖掘算法。相关的研究主要涉及文本图表示模型的定义、节点和边的构建、文本相似度计算方法,以及文本... 近年来在文本挖掘领域,学者们尝试从底层改造文本挖掘算法,提出文本图表示模型,更加丰富地表征文本内容和结构,从而改进现有文本挖掘算法。相关的研究主要涉及文本图表示模型的定义、节点和边的构建、文本相似度计算方法,以及文本图表示模型在特征内容提取、文本分类和文本聚类、信息检索以及其他文本挖掘任务中的应用。本文主要从以上几方面对文本图表示模型研究进行综述。 展开更多
关键词 文本表示 文本表示模型 图结构 文本挖掘
在线阅读 下载PDF
基于文本空间表示模型的文本相似度计算研究 被引量:4
3
作者 张文萍 黎春兰 《现代情报》 CSSCI 2013年第2期21-23,124,共4页
在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法———文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集并在测试集... 在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法———文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果。 展开更多
关键词 文本相似度 文本空间表示模型 段落 算法
在线阅读 下载PDF
一种基于频繁词集表示的新文本聚类方法 被引量:15
4
作者 张雪松 贾彩燕 《计算机研究与发展》 EI CSCD 北大核心 2018年第1期102-112,共11页
传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based d... 传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based document clustering method,FIC).该方法从文档集中运用FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,根据文本间相似度建立文本网络,运用社区划分的算法对网络进行划分,从而达到文本聚类的目的.FIC算法不仅能降低文本表示的维度,还可以构建文本集中文本间的关联关系,使文本与文本间不再是独立的两两关系.实验中运用2个英文语料库Reuters-21578,20NewsGroup和1个中文语料库——搜狗新闻数据集来测试算法精度.实验表明:较传统的利用文本空间向量模型的聚类方法,该方法能够有效地降低文本表示的维度,并且,相比于常见的基于频繁词集的聚类方法能获得更好的聚类效果. 展开更多
关键词 文本聚类 频繁词集 复杂网络 社区划分 文本表示模型
在线阅读 下载PDF
面向文本聚类的实体—动作关联模型研究 被引量:3
5
作者 刘作国 陈笑蓉 《中文信息学报》 CSCD 北大核心 2018年第5期22-30,共9页
该文提出面向文本聚类分析的实体—动作关联模型EARM,探讨汉语语义实体及其行为的描述方法。汉语属于非形态语言,语句没有时态及语态的变化,词类跟句法成分之间也不是简单的一一对应关系。该文提出一种句法成分识别机制,根据词汇类别特... 该文提出面向文本聚类分析的实体—动作关联模型EARM,探讨汉语语义实体及其行为的描述方法。汉语属于非形态语言,语句没有时态及语态的变化,词类跟句法成分之间也不是简单的一一对应关系。该文提出一种句法成分识别机制,根据词汇类别特征及位置特征识别实体及动作。在句法成分识别的基础上展开句法分析,通过匹配句型特征建立实体—动作关联模型EARM,描述实体的行为及状态。对于嵌套句型等较为复杂的句型结构,需要在句法分析过程中实施动作层次分解,将复杂语句分解为简单的基本句型,以便于挖掘实体—动作关联。考虑到汉语语法比较灵活,语句成分缺省和倒装现象相对普遍,该文提出了倒装句的识别机制,通过匹配接近的句型进行实体移位,调整语序。论述了基于统计模型的EARM权重量化策略,借助语法树的最大公共子图量化文本的相似度并实施聚类,设计并开展了EARM实体—动作分析实验和EARM聚类实验。实验结果表明EARM的分析是准确有效的,聚类结果是合理的。 展开更多
关键词 文本表示模型 实体—动作关联 句型识别 动作层次分解
在线阅读 下载PDF
领域知识在文本聚类应用中的机遇和挑战 被引量:7
6
作者 景丽萍 恽佳丽 于剑 《计算机工程与科学》 CSCD 北大核心 2010年第6期88-91,121,共5页
最近几年,越来越多学者意识到单靠数据驱动的无监督聚类方法很难满足用户对富含语义信息的文本数据的处理需求。领域知识,如领域本体的人工或自动构建、百科全书Wikipedia的网上公布为文本处理带来了新的希望和美好的前景。本文主要阐... 最近几年,越来越多学者意识到单靠数据驱动的无监督聚类方法很难满足用户对富含语义信息的文本数据的处理需求。领域知识,如领域本体的人工或自动构建、百科全书Wikipedia的网上公布为文本处理带来了新的希望和美好的前景。本文主要阐述领域知识在文本聚类过程中的具体应用、研究现状和所面临的挑战。 展开更多
关键词 领域知识 文本聚类 知识表示 文本表示模型
在线阅读 下载PDF
基于军事训练本体的文档向量空间模型构建 被引量:2
7
作者 郝文宁 穆新国 +2 位作者 陈刚 靳大尉 赵水宁 《计算机应用》 CSCD 北大核心 2012年第A02期10-12,共3页
为解决军事训练文档间语义相关问题,提出一种基于军事训练本体的向量空间模型构建方法。介绍了基于军事训练本体构建文档索引和基于已建索引构建向量空间模型,其中向量空间模型构建的过程主要包括特征项抽取、权重计算和向量空间模型降... 为解决军事训练文档间语义相关问题,提出一种基于军事训练本体的向量空间模型构建方法。介绍了基于军事训练本体构建文档索引和基于已建索引构建向量空间模型,其中向量空间模型构建的过程主要包括特征项抽取、权重计算和向量空间模型降维三个步骤。实验结果证明,基于军事训练本体的向量空间模型的文档表示方法可以解决文档间的语义相关问题。 展开更多
关键词 军事训练本体 向量空间模型 文本表示模型 语义相关
在线阅读 下载PDF
基于离散粒子群优化的微博热点话题发现算法 被引量:9
8
作者 马慧芳 吉余岗 +1 位作者 李晓红 周汝南 《计算机工程》 CAS CSCD 北大核心 2016年第3期208-213,共6页
结合词项关联关系和粒子群优化(PSO)算法的特点,提出一种基于离散PSO(DPSO)的微博热点话题发现算法。通过对词语互信息及内外关联词信息的挖掘,更新传统文本表示模型,利用DPSO算法从寻优角度发现微博热点话题及简化微博聚类过程,并将聚... 结合词项关联关系和粒子群优化(PSO)算法的特点,提出一种基于离散PSO(DPSO)的微博热点话题发现算法。通过对词语互信息及内外关联词信息的挖掘,更新传统文本表示模型,利用DPSO算法从寻优角度发现微博热点话题及简化微博聚类过程,并将聚类质量评价指标作为适应度函数对聚类结果进行不断迭代优化,获得聚类结果的最优解。实验结果表明,该算法能够在大量微博中快速发现热点话题,具有较高的热点话题发现准确性及运行效率。 展开更多
关键词 微博 热点话题发现 词项关系 文本表示模型 粒子群优化
在线阅读 下载PDF
突发事件热点话题识别系统及关键问题研究 被引量:6
9
作者 陈莉萍 杜军平 《计算机工程与应用》 CSCD 北大核心 2011年第32期19-22,共4页
针对突发事件热点话题识别系统,建立了系统实现的整体技术框架,给出了系统四个组成部分的关键问题描述及解决策略,结合新闻报道文本内容和结构的特点和报道源分布性特征,基于VSM文本表示模型和TF-IDF公式,提出了正文裁剪方法和特征权重... 针对突发事件热点话题识别系统,建立了系统实现的整体技术框架,给出了系统四个组成部分的关键问题描述及解决策略,结合新闻报道文本内容和结构的特点和报道源分布性特征,基于VSM文本表示模型和TF-IDF公式,提出了正文裁剪方法和特征权重计算的改进模型,并以地震突发事件新闻报道作为数据源进行模型评估。实验结果表明通过对新闻报道正文的裁剪,只提取标题、导语及相关特征参量等信息即可作为热点话题识别的样本集,且改进的特征权重计算模型与经典模型比较,具有更好地执行效率和适应性更强的文本表示能力。 展开更多
关键词 突发事件 新闻报道 热点话题识别 正文裁剪 文本表示模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部