期刊文献+
共找到63篇文章
< 1 2 4 >
每页显示 20 50 100
一种基于语义相似度的文本聚类算法 被引量:18
1
作者 孙爽 章勇 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第6期712-716,共5页
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出... 文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。 展开更多
关键词 文本 语义相似 文本表示 语义相似度的文本聚类算法
在线阅读 下载PDF
基于语义相似度的Web文档聚类算法 被引量:3
2
作者 李毅 王浩 杨静 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第12期1846-1850,共5页
文章提出基于语义相似度的Web文档聚类算法——WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阈值,并对最小树中进行切割,同时对较小的子类进行划分合并。实验表明,WDCSS不仅能为具有各种不同聚类... 文章提出基于语义相似度的Web文档聚类算法——WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阈值,并对最小树中进行切割,同时对较小的子类进行划分合并。实验表明,WDCSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质量降低问题。 展开更多
关键词 WEB文档 语义相似 算法 最小树
在线阅读 下载PDF
图书馆数字文本智能聚类个性化推荐应用研究
3
作者 江新姿 高尚 《无线互联科技》 2025年第2期107-111,120,共6页
Web 2.0信息时代,信息量迅速增加,信息检索速率却显著降低,如何提高信息的自动分类管理水平,从海量数据中高效、准确、快速获取有价值的信息与知识成为智慧图书馆亟待研究与解决的问题。文章提出了在数字图书馆服务中运用新型文本聚类... Web 2.0信息时代,信息量迅速增加,信息检索速率却显著降低,如何提高信息的自动分类管理水平,从海量数据中高效、准确、快速获取有价值的信息与知识成为智慧图书馆亟待研究与解决的问题。文章提出了在数字图书馆服务中运用新型文本聚类群智能分析方法。该算法通过改进文本间的语义相似度计算,融合K-means聚类算法与蚁群聚类算法(Ant Colony Optimization,ACO)的优点,在初始分类时将K-means聚类算法用作快速分类,用分类结果指导更新蚂蚁各途径信息素,指导蚂蚁后续聚类途径选择,提高聚类运行效率。该分析方法因为不需要类别的信息,能自动完成文本分组,所以可以更好地应用到图书馆资源的推荐与检索服务中。图书馆数字文本数据库实验证明,混合蚁群聚类算法比单独的K-means、ACO都具有更好的聚类效果,可以看出该算法的有效性。 展开更多
关键词 文本 K-MEANS 混合蚁群算法 个性化推荐 语义相似
在线阅读 下载PDF
基于关键词聚类的新闻文本相似度计算 被引量:1
4
作者 祝婷 胡建成 《成都信息工程大学学报》 2024年第2期163-169,共7页
针对新闻文本篇幅长、冗余信息多、文本相似度难以准确高效计算的问题,提出一种基于关键词聚类的新闻文本相似度计算方法。首先对文本数据进行预处理,挖掘出文本中的关键信息。使用以TF-IDF值为权重的加权采样方法抽取文本数据集中的关... 针对新闻文本篇幅长、冗余信息多、文本相似度难以准确高效计算的问题,提出一种基于关键词聚类的新闻文本相似度计算方法。首先对文本数据进行预处理,挖掘出文本中的关键信息。使用以TF-IDF值为权重的加权采样方法抽取文本数据集中的关键词,基于聚类的方法光滑噪声数据。聚类形成簇后,在簇间词语相似度计算上,使用word2vec融合TF-IDF词语加权的计算方法,同时关注词语间的语义信息和词语频率。最后,基于各簇的相似度计算两篇文本的相似度。实验表明,所提新闻文本相似度计算方法在计算效果上优于传统计算方法。 展开更多
关键词 新闻文本相似 word2vec TF-IDF 关键词
在线阅读 下载PDF
基于语义理解的文本相似度算法 被引量:80
5
作者 金博 史彦军 滕弘飞 《大连理工大学学报》 EI CAS CSCD 北大核心 2005年第2期291-297,共7页
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包... 相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高. 展开更多
关键词 语义理解 相似算法 相似计算 计算方法 文本相似 语义相似 信息检索 实例验证 计算公式 准确性 文档 知网
在线阅读 下载PDF
基于类簇合并的无参数密度峰值聚类算法 被引量:1
6
作者 刘天娇 王胜景 袁永生 《现代电子技术》 北大核心 2024年第8期1-8,共8页
密度峰值聚类算法(DPC)通过决策图直观地找到类簇中心进而完成聚类,是一种简单高效的聚类算法。然而,DPC算法的截断距离和类簇中心都是人为确定的,受主观影响较大,具有不确定性。针对上述问题,提出一种基于类簇合并的无参数密度峰值聚... 密度峰值聚类算法(DPC)通过决策图直观地找到类簇中心进而完成聚类,是一种简单高效的聚类算法。然而,DPC算法的截断距离和类簇中心都是人为确定的,受主观影响较大,具有不确定性。针对上述问题,提出一种基于类簇合并的无参数密度峰值聚类算法(NDPCCM)。首先根据样本点两两之间的相似度的分布特征将其分为类内相似度和类间相似度两种类型,并利用类内相似度自动确定截断相似度,避免了人为设置参数;接着根据簇中心权值的下降趋势自动选择初始类簇中心,得到初始类簇;最后通过合并初始类簇对初步聚类结果进行优化,提高了聚类的准确性。在人工数据集和UCI真实数据集上,将所提算法与DPC、DBSCAN、K-means算法进行对比实验。结果表明所提算法无需输入参数就能够自动得到类簇,且聚类性能优于其他算法。 展开更多
关键词 分析 峰值算法 初始 簇合并 相似 性能
在线阅读 下载PDF
基于语义距离的高效文本聚类算法 被引量:15
7
作者 冯少荣 肖文俊 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第5期30-37,共8页
针对现有文本聚类算法忽略了词之间的语义信息,导致文本的相似度计算不够精确的问题,提出了一种基于语义进行文本聚类的新方法.该方法从语义上具体分析文本,利用文本的具体语义来计算文本间的相似度.聚类采用最近邻聚类算法,并提出第二... 针对现有文本聚类算法忽略了词之间的语义信息,导致文本的相似度计算不够精确的问题,提出了一种基于语义进行文本聚类的新方法.该方法从语义上具体分析文本,利用文本的具体语义来计算文本间的相似度.聚类采用最近邻聚类算法,并提出第二次聚类算法来改进最近邻算法对输入次序敏感的问题.根据相似度权重优胜劣汰类特征词,使得最后类特征词越来越逼近类的主题.实验结果表明,文中所提出的算法在聚类精度和召回率上均优于基于向量空间模型的k-Means聚类算法. 展开更多
关键词 文本 语义距离 相似 最近邻 算法
在线阅读 下载PDF
基于启发式聚类模型和类别相似度的协同过滤推荐算法 被引量:23
8
作者 王兴茂 张兴明 +1 位作者 吴毅涛 潘俊池 《电子学报》 EI CAS CSCD 北大核心 2016年第7期1708-1713,共6页
基于k-近邻的协同过滤推荐算法对于邻居数量k的确定过于主观,并且推荐时以k-近邻均值加权推荐不够准确.针对这两个问题,本文首先引入并改进最大最小距离聚类算法,进而设计启发式聚类模型将用户进行不规定类别数的自由聚类划分,目标用户... 基于k-近邻的协同过滤推荐算法对于邻居数量k的确定过于主观,并且推荐时以k-近邻均值加权推荐不够准确.针对这两个问题,本文首先引入并改进最大最小距离聚类算法,进而设计启发式聚类模型将用户进行不规定类别数的自由聚类划分,目标用户所在类的用户为邻居用户,客观确定邻居数量;然后在推荐时定义类别相似度,针对性地建立目标用户未评分和评分项目的潜在类别关系,改进k-近邻均值加权算法.实验结果表明,该算法提高了推荐准确度(约0.035MAE). 展开更多
关键词 协同过滤 推荐算法 算法 启发式模型 相似
在线阅读 下载PDF
基于语义覆盖度融合的I/O映射聚类算法
9
作者 葛学锋 《科技通报》 北大核心 2015年第8期60-62,共3页
需要对语义主题树特征进行聚类算法设计,提高对语义特征的搜索和语义泛化能力。传统的语义特征聚类算法采用基于本体映射的语义特征聚类算法,建立异构的本体模型之间的语义等价映射关系,导致聚类性能和语义泛化能力不好。提出一种基于... 需要对语义主题树特征进行聚类算法设计,提高对语义特征的搜索和语义泛化能力。传统的语义特征聚类算法采用基于本体映射的语义特征聚类算法,建立异构的本体模型之间的语义等价映射关系,导致聚类性能和语义泛化能力不好。提出一种基于语义覆盖度融合的I/O映射聚类算法,利用领域知识和模式匹配,建立本体之间语义映射关系,考虑三种与语义信息相关的学习知识,得到语义相似度函数,利用统计TF-IDF的方法计算词语的特征权值,通过语义主题树特征匹配,实现搜索引擎的覆盖度I/O映射聚类改进。仿真实验表明,采用该算法能提高对语义的覆盖度融合能力,具有更好的数据聚类性能,较好地完成语义映射任务,语义信息检索查准率提高为98.7%。 展开更多
关键词 语义 覆盖融合 映射 算法
在线阅读 下载PDF
属性分布相似度吸引子传播聚类算法研究
10
作者 王依章 王丽敏 韩旭明 《长春工业大学学报》 CAS 2014年第3期271-274,共4页
传统吸引子传播聚类算法对数据类型敏感,文中提出一种改进的吸引子传播聚类算法,将JACCARD系数引入对象间属性分布相似度,并与吸引子传播聚类算法结合。仿真实验结果表明,该算法收敛速度快,聚类精度高,明显提高高维稀疏数据的聚类性能。
关键词 吸引子传播算法 JACCARD系数 属性分布相似
在线阅读 下载PDF
评“半监督语义动态文本聚类算法”
11
《电子科技大学学报》 EI CAS CSCD 北大核心 2019年第6期802-802,共1页
说起聚类,第一反应是“物以类聚,人以群分”,同类的东西常聚在一起,志同道合的人相聚成群。在聚类问题场景描述中,我们通常认为参与聚类的这些数据是事先存在的、定量的。然而,在现实生活中,数据并不确定,而是动态的、增长的、变化的。
关键词 问题 人以群分 场景描述 文本算法 现实生活 志同道合 语义 动态
在线阅读 下载PDF
融合LDA和GloVe模型的病症文本聚类算法 被引量:2
12
作者 吴迪 赵玉凤 《河北工程大学学报(自然科学版)》 CAS 2022年第1期92-98,共7页
针对隐含狄利克雷分布(LDA)模型特征提取时忽略语义信息的问题,提出一种融合LDA和全局文本表示(GloVe)模型的病症文本聚类算法LG&K-Medoide。首先,利用LDA对病症文本数据建模,采用JS(Jensen-Shannon)距离计算文本相似度;其次,利用Gl... 针对隐含狄利克雷分布(LDA)模型特征提取时忽略语义信息的问题,提出一种融合LDA和全局文本表示(GloVe)模型的病症文本聚类算法LG&K-Medoide。首先,利用LDA对病症文本数据建模,采用JS(Jensen-Shannon)距离计算文本相似度;其次,利用GloVe对病症文本数据建模获取词向量,根据病症词性贡献度,对词向量权重进行标注,采用余弦距离计算基于GloVe建模加权的文本相似度;最后,将两种相似度进行结合,改进距离公式,实现K-Medoide聚类。实验结果表明,LG&K-Medoide算法较基于LDA,LDA+TF-IDF,LDA+Word2Vec模型的聚类算法具有较高的精度。 展开更多
关键词 病症文本 LDA GLOVE 相似结合
在线阅读 下载PDF
基于语义融合的文本相似度算法研究
13
作者 孙德刚 《信息技术与信息化》 2023年第3期109-112,共4页
针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情... 针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情况的基础上,通过调整数字识别方向、选取合适的数据来源,依据图像识别技术和算法深度学习的共性需求,从语义融合角度提出以核心词为节点进行文本相似度计算;然后通过多特征融合向量空间模型对特征项的类间分布问题进行分析,最终通过加权计算得到文本相似度。从算法实现效果来看,相较于传统算法能够获得更高文本分类准确度,改进基于文本相似度算法的语言处理技术更加高效、准确。 展开更多
关键词 语义融合 文本相似 算法实现
在线阅读 下载PDF
基于社团结构的文本聚类算法研究 被引量:1
14
作者 马力 张娟 《西安邮电学院学报》 2013年第2期111-115,共5页
为了提高文本聚类的有效性,提出一种基于网络社团结构的文本聚类算法。基于语义知识库理论,利用文本集与词语间的关系,引入文本相似度概念,再结合Newman社团聚类算法特性,将文本集作为独立社团,用文本相似度表示社团联系的紧密程度,对... 为了提高文本聚类的有效性,提出一种基于网络社团结构的文本聚类算法。基于语义知识库理论,利用文本集与词语间的关系,引入文本相似度概念,再结合Newman社团聚类算法特性,将文本集作为独立社团,用文本相似度表示社团联系的紧密程度,对网络文本进行聚类。实验结果表明,该方法有效可行。 展开更多
关键词 社团结构 Newman算法 文本相似 文本
在线阅读 下载PDF
用EDA和禁忌搜索算法进行文本聚类
15
作者 郭莉莉 左先亮 高尚 《信息技术》 2014年第4期55-59,共5页
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法 TF-IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算... 基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法 TF-IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。 展开更多
关键词 文本 相似计算 分布式估计算法 禁忌搜索算法
在线阅读 下载PDF
融合耦合距离区分度和强类别特征的短文本相似度计算方法 被引量:13
16
作者 马慧芳 刘文 +1 位作者 李志欣 蔺想红 《电子学报》 EI CAS CSCD 北大核心 2019年第6期1331-1336,共6页
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法... 短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率. 展开更多
关键词 文本挖掘 自然语言处理 文本 社会网络 耦合关系 特征提取 语义消歧 相似计算
在线阅读 下载PDF
多维因素影响下的K-Hybrids聚类算法
17
作者 孙晶 《数字技术与应用》 2024年第5期223-225,共3页
在实际问题中,进行聚类分析的数据点常常受到很多因素的影响。本文针对多因素影响下的聚类问题,提出了K-Hybrids聚类算法,该算法考虑了聚类过程中点的权重差异,以及数据点所属标签相似度的问题。用加权K-means算法对聚类过程进行调整,... 在实际问题中,进行聚类分析的数据点常常受到很多因素的影响。本文针对多因素影响下的聚类问题,提出了K-Hybrids聚类算法,该算法考虑了聚类过程中点的权重差异,以及数据点所属标签相似度的问题。用加权K-means算法对聚类过程进行调整,同时用基于独热编码的Jaccard相似度计算数据点之间的逻辑距离,最后引入权重因子对这两个影响因素进行整合。实验结果显示,该算法的聚类效果很好,更具有实际意义。大数据时代下,数据的产生、采集方式日新月异,对数据的处理技术也在飞速发展,如何提高对数据的处理速度、优化处理流程一直是人们研究的主要内容。 展开更多
关键词 算法 权重因子 标签相似 分析 处理流程 效果 过程 逻辑距离
在线阅读 下载PDF
基于改进矩阵分解和谱聚类的协同过滤算法
18
作者 舒珏淋 谢红韬 袁公萍 《现代信息科技》 2024年第9期73-76,共4页
针对协同过滤算法中存在的数据稀疏性、可扩展性及准确性问题,提出一种基于改进矩阵分解和谱聚类的协同过滤算法。该算法首先将通过抑制物品流行度和用户活跃度优化的相似度计算融入最小二乘法(ALS),以避免矩阵分解时因子信息的丢失;其... 针对协同过滤算法中存在的数据稀疏性、可扩展性及准确性问题,提出一种基于改进矩阵分解和谱聚类的协同过滤算法。该算法首先将通过抑制物品流行度和用户活跃度优化的相似度计算融入最小二乘法(ALS),以避免矩阵分解时因子信息的丢失;其次结合流形学习的谱聚类算法弥补ALS算法产生的大计算量问题,同时获得全局最优解以提高聚类所得目标用户最近邻居的准确率;最后利用Movielens数据集进行实验。实验结果表明,改进的算法可以有效降低协同过滤算法的平均绝对误差和均方根误差,提高准确率,拥有更优的性能。 展开更多
关键词 协同过滤算法 相似 全局最优解
在线阅读 下载PDF
基于复合相似度的订单分批模型及算法优化
19
作者 李明臣 《中国储运》 2024年第12期204-205,共2页
一、订单分批问题概述(一)订单分批问题描述订单拣选是从根据订单需求从货架上拣选商品的过程。订单分区拣选就是划分各个作业拣选区,每个拣选区都有专人来进行拣选,但是电商仓库商品都放置在一起,不适用于电商仓库。订单分批拣选根据... 一、订单分批问题概述(一)订单分批问题描述订单拣选是从根据订单需求从货架上拣选商品的过程。订单分区拣选就是划分各个作业拣选区,每个拣选区都有专人来进行拣选,但是电商仓库商品都放置在一起,不适用于电商仓库。订单分批拣选根据订单相似度进行批次处理,适用于电商仓库。订单分批问题可以看作是聚类问题,将有相同特征的订单聚类在一。但是在移动式货架系统中,构建订单分批模型的目标是让订单拣选成本最小。 展开更多
关键词 批次处理 订单分批 相似 问题 拣选 电商仓库 问题概述 模型及算法
在线阅读 下载PDF
基于共享逆近邻与指数核的密度峰聚类算法
20
作者 高月 杨小飞 +1 位作者 马盈仓 汪义瑞 《纺织高校基础科学学报》 CAS 2020年第2期78-84,共7页
针对密度峰聚类算法中局部密度定义和聚类分配策略的不足,提出了一种基于共享逆近邻与指数核的密度峰聚类算法。该算法利用样本的共享逆近邻点和指数核函数构造一种相似度,得到一种新的密度并将其应用在密度峰聚类算法中生成初始簇,然... 针对密度峰聚类算法中局部密度定义和聚类分配策略的不足,提出了一种基于共享逆近邻与指数核的密度峰聚类算法。该算法利用样本的共享逆近邻点和指数核函数构造一种相似度,得到一种新的密度并将其应用在密度峰聚类算法中生成初始簇,然后将这些簇与凝聚层次聚类算法结合形成最终的类簇。数值实验证明:提出的基于共享逆近邻与指数核的密度峰聚类算法在真实数据集上的聚类结果要优于其他密度聚类算法,并能有效解决密度峰聚类算法中局部密度定义问题和聚类分配策略问题。 展开更多
关键词 算法 共享逆近邻 指数核 相似 层次算法
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部