题名 基于概念的文本表示模型
被引量:16
1
作者
陈龙
范瑞霞
高琪
机构
北京理工大学模式识别与智能系统研究所
出处
《计算机工程与应用》
CSCD
北大核心
2008年第20期162-164,共3页
文摘
文本信息处理正朝着语义的方向发展,而当今主流的文本表示模型——向量空间模型(VSM)以单个词语作为特征项,这忽略了自然语言中词语之间的语义联系、导致文本中大量存在同义词与多义词现象,从而严重地降低了文本信息处理的精度。应用自然语言处理相关技术和成果,把概念和概念距离引入向量空间模型,从语义、概念的角度出发,以概念作为文本的特征项,建立基于概念的文本表示模型。实验证明:这种方法能较好地解决同义词和多义词问题、提高了文本分类的查全率和查准率。
关键词
文本表示模型
概念
概念距离
Keywords
text representation model
concept
distance of concept
分类号
TP39
[自动化与计算机技术—计算机应用技术]
题名 文本图表示模型及其在文本挖掘中的应用
被引量:13
2
作者
李纲
毛进
机构
武汉大学信息资源研究中心
出处
《情报学报》
CSSCI
北大核心
2013年第12期1257-1264,共8页
基金
国家自然科学基金项目:科研团队动态演化规律研究(项目批准号:71273196)的研究成果之一
文摘
近年来在文本挖掘领域,学者们尝试从底层改造文本挖掘算法,提出文本图表示模型,更加丰富地表征文本内容和结构,从而改进现有文本挖掘算法。相关的研究主要涉及文本图表示模型的定义、节点和边的构建、文本相似度计算方法,以及文本图表示模型在特征内容提取、文本分类和文本聚类、信息检索以及其他文本挖掘任务中的应用。本文主要从以上几方面对文本图表示模型研究进行综述。
关键词
文本 表示
文本 图表示 模型
图结构
文本 挖掘
Keywords
text representation, text graph representation, graph structure, text ming
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于文本空间表示模型的文本相似度计算研究
被引量:4
3
作者
张文萍
黎春兰
机构
武汉科技大学管理学院
武汉大学信息管理学院
出处
《现代情报》
CSSCI
2013年第2期21-23,124,共4页
基金
湖北省教育厅人文社科项目"云计算环境下图书馆信息服务模型研究"(2012Q190)研究成果之一
文摘
在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法———文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果。
关键词
文本 相似度
文本 空间表示 模型
段落
算法
Keywords
text similarity
text space representation model
paragraph
algorithm
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 一种基于频繁词集表示的新文本聚类方法
被引量:15
4
作者
张雪松
贾彩燕
机构
交通数据分析与数据挖掘北京市重点实验室(北京交通大学)
北京交通大学计算机与信息技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2018年第1期102-112,共11页
基金
国家自然科学基金面上项目(61473030)
数字出版国家重点实验室专项课题~~
文摘
传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based document clustering method,FIC).该方法从文档集中运用FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,根据文本间相似度建立文本网络,运用社区划分的算法对网络进行划分,从而达到文本聚类的目的.FIC算法不仅能降低文本表示的维度,还可以构建文本集中文本间的关联关系,使文本与文本间不再是独立的两两关系.实验中运用2个英文语料库Reuters-21578,20NewsGroup和1个中文语料库——搜狗新闻数据集来测试算法精度.实验表明:较传统的利用文本空间向量模型的聚类方法,该方法能够有效地降低文本表示的维度,并且,相比于常见的基于频繁词集的聚类方法能获得更好的聚类效果.
关键词
文本 聚类
频繁词集
复杂网络
社区划分
文本表示模型
Keywords
document clustering
frequent itemsets
complex network
community division
text representation model
分类号
TP301
[自动化与计算机技术—计算机系统结构]
题名 面向文本聚类的实体—动作关联模型研究
被引量:3
5
作者
刘作国
陈笑蓉
机构
贵州大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2018年第5期22-30,共9页
基金
国家自然科学基金(61363028)
文摘
该文提出面向文本聚类分析的实体—动作关联模型EARM,探讨汉语语义实体及其行为的描述方法。汉语属于非形态语言,语句没有时态及语态的变化,词类跟句法成分之间也不是简单的一一对应关系。该文提出一种句法成分识别机制,根据词汇类别特征及位置特征识别实体及动作。在句法成分识别的基础上展开句法分析,通过匹配句型特征建立实体—动作关联模型EARM,描述实体的行为及状态。对于嵌套句型等较为复杂的句型结构,需要在句法分析过程中实施动作层次分解,将复杂语句分解为简单的基本句型,以便于挖掘实体—动作关联。考虑到汉语语法比较灵活,语句成分缺省和倒装现象相对普遍,该文提出了倒装句的识别机制,通过匹配接近的句型进行实体移位,调整语序。论述了基于统计模型的EARM权重量化策略,借助语法树的最大公共子图量化文本的相似度并实施聚类,设计并开展了EARM实体—动作分析实验和EARM聚类实验。实验结果表明EARM的分析是准确有效的,聚类结果是合理的。
关键词
文本表示模型
实体—动作关联
句型识别
动作层次分解
Keywords
text expression model
entity-action relationship
sentence patterns recognition
action layer decomposi-tion
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 领域知识在文本聚类应用中的机遇和挑战
被引量:7
6
作者
景丽萍
恽佳丽
于剑
机构
北京交通大学计算机与信息技术学院
出处
《计算机工程与科学》
CSCD
北大核心
2010年第6期88-91,121,共5页
基金
国家973计划资助项目(2007CB311002)
国家自然科学基金资助项目(90820013
+1 种基金
60875031
60905028)
文摘
最近几年,越来越多学者意识到单靠数据驱动的无监督聚类方法很难满足用户对富含语义信息的文本数据的处理需求。领域知识,如领域本体的人工或自动构建、百科全书Wikipedia的网上公布为文本处理带来了新的希望和美好的前景。本文主要阐述领域知识在文本聚类过程中的具体应用、研究现状和所面临的挑战。
关键词
领域知识
文本 聚类
知识表示
文本表示模型
Keywords
domain knowledge
text mining
knowledge representation
text representation model
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于军事训练本体的文档向量空间模型构建
被引量:2
7
作者
郝文宁
穆新国
陈刚
靳大尉
赵水宁
机构
解放军理工大学工程兵工程学院
出处
《计算机应用》
CSCD
北大核心
2012年第A02期10-12,共3页
文摘
为解决军事训练文档间语义相关问题,提出一种基于军事训练本体的向量空间模型构建方法。介绍了基于军事训练本体构建文档索引和基于已建索引构建向量空间模型,其中向量空间模型构建的过程主要包括特征项抽取、权重计算和向量空间模型降维三个步骤。实验结果证明,基于军事训练本体的向量空间模型的文档表示方法可以解决文档间的语义相关问题。
关键词
军事训练本体
向量空间模型
文本表示模型
语义相关
Keywords
ontology in military training
Vector Space Model (VSM)
text representation model
semantic revelance
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于离散粒子群优化的微博热点话题发现算法
被引量:9
8
作者
马慧芳
吉余岗
李晓红
周汝南
机构
西北师范大学计算机科学与工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第3期208-213,共6页
基金
国家自然科学基金资助项目(61363058
61163039)
+2 种基金
中国科学院计算技术研究所智能信息处理重点实验室开放基金资助项目(IIP2014-4)
甘肃省自然科学基金资助项目(145RJZA232)
甘肃省青年科技基金资助项目(145RJYA259)
文摘
结合词项关联关系和粒子群优化(PSO)算法的特点,提出一种基于离散PSO(DPSO)的微博热点话题发现算法。通过对词语互信息及内外关联词信息的挖掘,更新传统文本表示模型,利用DPSO算法从寻优角度发现微博热点话题及简化微博聚类过程,并将聚类质量评价指标作为适应度函数对聚类结果进行不断迭代优化,获得聚类结果的最优解。实验结果表明,该算法能够在大量微博中快速发现热点话题,具有较高的热点话题发现准确性及运行效率。
关键词
微博
热点话题发现
词项关系
文本表示模型
粒子群优化
Keywords
microblog
hot topic discovering
term relationship
text representation model
Particle Swarm Optimization(PSO)
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 突发事件热点话题识别系统及关键问题研究
被引量:6
9
作者
陈莉萍
杜军平
机构
北京邮电大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2011年第32期19-22,共4页
基金
国家自然科学基金No.91024001
No.61070142
+1 种基金
中央高校基本科研业务费专项资金资助(No.2009RC0210)
北京市自然科学基金项目(No.4111002)~~
文摘
针对突发事件热点话题识别系统,建立了系统实现的整体技术框架,给出了系统四个组成部分的关键问题描述及解决策略,结合新闻报道文本内容和结构的特点和报道源分布性特征,基于VSM文本表示模型和TF-IDF公式,提出了正文裁剪方法和特征权重计算的改进模型,并以地震突发事件新闻报道作为数据源进行模型评估。实验结果表明通过对新闻报道正文的裁剪,只提取标题、导语及相关特征参量等信息即可作为热点话题识别的样本集,且改进的特征权重计算模型与经典模型比较,具有更好地执行效率和适应性更强的文本表示能力。
关键词
突发事件
新闻报道
热点话题识别
正文裁剪
文本表示模型
Keywords
emergency event
news report
hot topic identification
text clipping
text representation model
分类号
TP391
[自动化与计算机技术—计算机应用技术]