期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
一种基于语义相似度的文本聚类算法 被引量:18
1
作者 孙爽 章勇 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第6期712-716,共5页
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出... 文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。 展开更多
关键词 文本聚类 语义相似 文本表示 语义相似文本聚类算法
在线阅读 下载PDF
文本相似度计算在企业信息检索中的应用
2
作者 黄炜 《科学技术与工程》 2011年第15期3571-3575,3584,共6页
企业信息检索系统所要解决的核心问题就是:提高检索关键字集合的规范性与完备性,通过对文本相似度计算及相关分类算法,达到检索关键字集合规范性及完备性提高的目的。给出了线性序列相似度的定义,讨论了匹配矩阵的性质,给出了一种计算... 企业信息检索系统所要解决的核心问题就是:提高检索关键字集合的规范性与完备性,通过对文本相似度计算及相关分类算法,达到检索关键字集合规范性及完备性提高的目的。给出了线性序列相似度的定义,讨论了匹配矩阵的性质,给出了一种计算线性序列相似度的算法,并对算法作出了优化。 展开更多
关键词 信息检索 文本相似度算法 全局优化 状态空间
在线阅读 下载PDF
汉字关联性量化方法及其在文本相似性分析中的应用 被引量:1
3
作者 赵彦斌 李庆华 《计算机应用》 CSCD 北大核心 2006年第6期1396-1397,1400,共3页
文本相似性分析、聚类和分类多基于特征词,由于汉语词之间无分隔符,汉语分词及高维特征空间的处理等基础工作必然引起高计算费用问题。探索了一种在不使用特征词的条件下,使用汉字间的关系进行文本相似性分析的研究思路。首先定义了文... 文本相似性分析、聚类和分类多基于特征词,由于汉语词之间无分隔符,汉语分词及高维特征空间的处理等基础工作必然引起高计算费用问题。探索了一种在不使用特征词的条件下,使用汉字间的关系进行文本相似性分析的研究思路。首先定义了文本中汉字与汉字之间关系的量化方法,提出汉字关联度的概念,然后构造汉字关联度矩阵来表示汉语文本,并设计了一种基于汉字关联度矩阵的汉语文本相似性度量算法。实验结果表明,汉字关联度优于二字词词频、互信息、T检验等统计量。由于无需汉语分词,本算法适用于海量中文信息处理。 展开更多
关键词 汉字关联 信息矩阵 文本相似度算法
在线阅读 下载PDF
继电保护信息语义智能识别算法的研究与应用 被引量:3
4
作者 钱海 邱金辉 +3 位作者 张道农 姜健琳 尹浙洪 沈亚东 《电力系统保护与控制》 EI CSCD 北大核心 2018年第3期83-88,共6页
为了应对当前存在于继电保护领域的语义不标准现象,设计一种继电保护信息语义智能识别算法。该智能算法基于字典管理、语义匹配、检索预处理以及检索管理4大模块。结合采集储存算法、预处理算法和文本相似度算法设计出一种智能自我学习... 为了应对当前存在于继电保护领域的语义不标准现象,设计一种继电保护信息语义智能识别算法。该智能算法基于字典管理、语义匹配、检索预处理以及检索管理4大模块。结合采集储存算法、预处理算法和文本相似度算法设计出一种智能自我学习的语义智能处理机制。该算法通过逐步提高计算机自识别率来实现对不标准继电保护语义的统计,从而丰富语义知识积累库,以便增加对不标准语义标准化的正确率。根据对不同类型不标准语义数据的测试,对得到的标准语义数据进行分析验证,证明了此继电保护信息语义智能识别算法具有准确的性能和良好的可行性。 展开更多
关键词 继电保护系统 文本相似度算法 人工智能
在线阅读 下载PDF
电子文件智能归档系统设计实现的演进逻辑与优化策略 被引量:2
5
作者 胡文学 丁海斌 +2 位作者 赵婧尧 罗夏钻 颜晗 《档案管理》 北大核心 2024年第3期34-38,共5页
伴随档案信息化进程的发展,电子文件智能归档问题的研究逐渐成为我国档案学者们近年来关注的焦点之一。智能归档不仅需要明确归档范围作为制度保障,还需要文本、图像等相似度算法比对原理和机器学习算法等人工智能技术的支持。本文中所... 伴随档案信息化进程的发展,电子文件智能归档问题的研究逐渐成为我国档案学者们近年来关注的焦点之一。智能归档不仅需要明确归档范围作为制度保障,还需要文本、图像等相似度算法比对原理和机器学习算法等人工智能技术的支持。本文中所介绍的系统通过对拟归档文件进行智慧排查,经过系统内置清单、系统比对、四性检测合格后智能形成元数据,最终向档案管理部门办理移交。智能归档与一般电子文件归档方式相比,具有智能化、自动化、一体化、网络化等特点。 展开更多
关键词 电子文件 归档 智能归档 文本相似度算法 人工智能 机器学习 四性检测 元数据
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部