期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
一种PST_LDA中文文本相似度计算方法 被引量:18
1
作者 张超 陈利 李琼 《计算机应用研究》 CSCD 北大核心 2016年第2期375-377,383,共4页
为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LD... 为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集分别用LDA和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。 展开更多
关键词 词性标注 LDA模型 PST_LDA模型 文本相似计算
在线阅读 下载PDF
文本相似度计算的一种新方法 被引量:6
2
作者 张焕炯 李玉鉴 钟义信 《计算机科学》 CSCD 北大核心 2002年第7期92-93,共2页
1引言 目前信息检索技术已应用于许多领域,尤其广泛应用在Intcrnet网络、图书馆等领域,为快速查阅文本信息提供极大便利.文本信息检索利用文本相似度描述文本与查询式之间的匹配程度.
关键词 INTERNET 文本相似计算 信息检索 向量空间模型 信息论
在线阅读 下载PDF
对数似然相似度算法的MapReduce并行化实现 被引量:3
3
作者 张明敏 张功萱 周秀敏 《计算机工程与设计》 北大核心 2015年第5期1233-1238,共6页
为提高Mahout中协同过滤算法处理大数据的能力,对云计算平台进行研究,提出一种基于MapReduce模型计算相似度的方法。通过设计4个MapReduce任务,实现对数似然相似度算法的并行化;结合算法自身的特点,采用复合键对和同现矩阵的思想将大量... 为提高Mahout中协同过滤算法处理大数据的能力,对云计算平台进行研究,提出一种基于MapReduce模型计算相似度的方法。通过设计4个MapReduce任务,实现对数似然相似度算法的并行化;结合算法自身的特点,采用复合键对和同现矩阵的思想将大量小键值对合并为大键值对,以减少中间计算量和通信开销。实验结果表明,和Mahout中的单机版相似度算法相比,基于Hadoop平台的对数似然相似度算法具有很好的加速比和可扩展性,能够提升推荐算法的效率。 展开更多
关键词 计算 mapreduce编程模型 协同过滤 对数似然相似 同现矩阵 并行化
在线阅读 下载PDF
云计算环境下朴素贝叶斯文本分类算法的实现 被引量:21
4
作者 江小平 李成华 +1 位作者 向文 张新访 《计算机应用》 CSCD 北大核心 2011年第9期2551-2554,2566,共5页
采用分布式编程MapReduce模型研究了文本统一格式预处理、训练、测试以及分类等基于朴素贝叶斯文本分类算法主要计算过程的MapReduce并行化方法,并在Hadoop云计算平台进行了实验。实验结果表明:朴素贝叶斯文本分类算法MapReduce并行化后... 采用分布式编程MapReduce模型研究了文本统一格式预处理、训练、测试以及分类等基于朴素贝叶斯文本分类算法主要计算过程的MapReduce并行化方法,并在Hadoop云计算平台进行了实验。实验结果表明:朴素贝叶斯文本分类算法MapReduce并行化后在Hadoop云计算平台上部署运行,具有较好的加速比,对中文网页文本分类识别率达到了86%。 展开更多
关键词 计算 并行计算 mapreduce编程模型 文本分类 朴素贝叶斯算法
在线阅读 下载PDF
一种新的句子相似度度量及其在文本自动摘要中的应用 被引量:34
5
作者 张奇 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2005年第2期93-99,共7页
本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同... 本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的 ,利用句子间相似度以及句子的权重的抽句式文摘算法 ,在抽取出句子的同时也去掉了冗余。DUC2 0 0 3、DUC2 0 0 4 (DocumentUnderstandingConference 2 0 0 3,2 0 0 4 )的评测结果征明了方法的有效性。我们的系统在DUC2 0 0 4的评测中列第二位。 展开更多
关键词 计算机应用 中文信息处理 文本自动摘要 向量模型 相似计算
在线阅读 下载PDF
一种结合云模型的文本分类方法 被引量:3
6
作者 张玉芳 谢娟 熊忠阳 《计算机工程与应用》 CSCD 2014年第15期117-119,124,共4页
为了降低在传统的文本分类方法中自然语言的不确定性对分类效果的影响,提出了一种结合云模型的文本分类方法。该方法分别定义文本和类别的云模型,通过计算测试文本和每个类别的云相似度,根据最大相似度原则确定测试文本所属的类别。实... 为了降低在传统的文本分类方法中自然语言的不确定性对分类效果的影响,提出了一种结合云模型的文本分类方法。该方法分别定义文本和类别的云模型,通过计算测试文本和每个类别的云相似度,根据最大相似度原则确定测试文本所属的类别。实验结果表明,与传统的K-NN算法相比,该方法在分类准确率等方面有所提高。 展开更多
关键词 文本分类 模型 相似
在线阅读 下载PDF
基于云模型的Web服务QoS预测 被引量:1
7
作者 段秋实 胡志刚 《计算机应用与软件》 2017年第11期20-25,73,共7页
随着近年来Web服务数量的快速增长,用户-服务QoS(Quality of Service)记录矩阵变得日益稀疏。为了解决传统协同过滤算法在稀疏数据集上预测精确性不高的问题,利用欧几里得距离对数值敏感的特点,将云模型特征向量的欧几里得距离转换成云... 随着近年来Web服务数量的快速增长,用户-服务QoS(Quality of Service)记录矩阵变得日益稀疏。为了解决传统协同过滤算法在稀疏数据集上预测精确性不高的问题,利用欧几里得距离对数值敏感的特点,将云模型特征向量的欧几里得距离转换成云模型的相似度。对基于云模型的协同过滤算法改进,并将改进算法用于Web服务QoS的动态预测。考虑用户调用同一服务提供商的不同服务有相似体验,再结合云模型的相似度对QoS记录矩阵进行填充,在预测用户调用某服务的QoS时使用填充后的QoS记录矩阵进行计算,从而有利于解决稀疏矩阵下预测准确度难以提高的问题。实验表明,使用该算法的预测结果相较于传统的协同过滤算法有更低的平均绝对误差(MAE),能获得更高的推荐质量。 展开更多
关键词 WEB 服务 Qo S 预测 协同过滤 模型 相似计算
在线阅读 下载PDF
结合语义的特征权重计算方法研究 被引量:20
8
作者 任姚鹏 陈立潮 +1 位作者 张英俊 袁英 《计算机工程与设计》 CSCD 北大核心 2010年第10期2381-2383,2387,共4页
为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚... 为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚类的效果。传统的VSM特征权重计算方法——TF-IDF,没有考虑语义相似的词语在文本集中的分布情况,针对该问题,在基于"知网"的词语语义相似度分析基础上,提出了一种改进的TF-IDF权重计算方法。实验结果表明,该算法是有效可行的,且在一定程度上提高了文本聚类的查准率和查全率。 展开更多
关键词 文本聚类 向量空间模型 权重计算方法 词汇语义相似 知网
在线阅读 下载PDF
自然语言处理文本查重优化算法设计 被引量:12
9
作者 董星彤 陈士宏 陈淑鑫 《科学技术与工程》 北大核心 2022年第3期1091-1097,共7页
为了探索高校学生实习时提交的实践报告文本存在着重复的问题,从高校教学管理部门收集到相关文本的分类数据,结合Jieba分词工具处理文本信息,利用Word2vec词向量转换技术,表现了自然语言精准的语义分析能力。考虑到主题词抽取、概率分... 为了探索高校学生实习时提交的实践报告文本存在着重复的问题,从高校教学管理部门收集到相关文本的分类数据,结合Jieba分词工具处理文本信息,利用Word2vec词向量转换技术,表现了自然语言精准的语义分析能力。考虑到主题词抽取、概率分布情况及时间复杂度三个方面,使用Python的OS库完成批处理去重、去停用词和去非中文词,运用重要采样思想优化LDA(latent dirichlet allocation),模型,提出了新的训练模型ISLDA(importance sampling latent dirichlet allocation)抽取主题词汇,并采用余弦相似度计算重复率。更好地实现了文本查重算法模型的优化,对比两个模型的主题词类别、各词汇分布概率,结果表明新训练模型优化了主题模型,提高了计算模型训练准确率及测试文本的查重能力,较理想地实现了文本查重分析设计方法。 展开更多
关键词 语义分析 查重模型 重要性采样 文本向量化 相似计算
在线阅读 下载PDF
基于概念语义相关性和LDA的文本标记算法 被引量:1
10
作者 周春 蒋运承 《华南师范大学学报(自然科学版)》 CAS 北大核心 2018年第4期121-128,共8页
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记.该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表... 为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记.该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记.为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验.为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-News Group)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验.实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率. 展开更多
关键词 概念语义相关性 相似计算 文本标记 主题模型 文本分类
在线阅读 下载PDF
面向大规模社交网络的潜在好友推荐方法 被引量:7
11
作者 贺超波 汤庸 +2 位作者 陈国华 刘海 吴琳琳 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期420-424,共5页
有效的潜在好友推荐是促进社交网络不断增长的重要途径,对于大规模社交网络环境下的复杂计算问题,文章提出了一种适用于大规模社交网络的潜在好友推荐方法,该方法首先将用户的潜在好友划分为"可能认识的"和"可能感兴趣的... 有效的潜在好友推荐是促进社交网络不断增长的重要途径,对于大规模社交网络环境下的复杂计算问题,文章提出了一种适用于大规模社交网络的潜在好友推荐方法,该方法首先将用户的潜在好友划分为"可能认识的"和"可能感兴趣的"2类,然后分别基于用户共同好友关系拓扑图和Profile文本相似性计算模型进行描述,最后基于MapReduce云计算模型对相关方法进行了设计实现。探讨了云计算环境下的潜在好友推荐系统框架设计、大规模用户共同好友关系拓扑图以及Profile文本相似性计算的方法,并通过实验以及应用实例验证了该方法的有效性以及可扩展性。 展开更多
关键词 好友推荐 社交网络 文本相似度mapreduce云计算模型
在线阅读 下载PDF
Asyn-SimRank:一种可异步执行的大规模SimRank算法 被引量:2
12
作者 王春磊 张岩峰 +3 位作者 鲍玉斌 赵长宽 于戈 高立新 《计算机研究与发展》 EI CSCD 北大核心 2015年第7期1567-1579,共13页
SimRank算法利用网络结构来评估网络中任意2点的相似性,它被广泛应用于社交网络和链接预测等诸多领域中.近年来,随着大数据技术的发展,SimRank算法处理的数据不断增大,人们利用MapReduce等分布式计算模型设计实现分布式的大规模SimRank... SimRank算法利用网络结构来评估网络中任意2点的相似性,它被广泛应用于社交网络和链接预测等诸多领域中.近年来,随着大数据技术的发展,SimRank算法处理的数据不断增大,人们利用MapReduce等分布式计算模型设计实现分布式的大规模SimRank算法来适应大数据处理的需求.但是,由于SimRank算法包含开销较大的迭代过程,每次迭代之后都需要一个全局同步,且每次迭代的计算复杂度高、通信量大,SimRank算法不能在分布式环境下高效地实现.1)提出Asyn-SimRank算法,该算法采用迭代-累积的方式完成迭代计算,异步执行SimRank的核心迭代过程,避免了大规模分布式计算中的大量同步开销,同时有效降低计算量并减少通信开销;2)提出关键点优先调度计算,提升了AsynSimRank算法的全局收敛速度;3)证明了Asyn-SimRank算法的正确性和收敛性以及关键点优先调度计算的有效性;4)支持异步迭代的分布式框架Maiter上实现了Asyn-SimRank算法.实验结果显示,相比较于Hadoop,Spark上实现的SimRank算法和Delta-SimRank算法,Asyn-SimRank算法大大提升了算法的计算效率,加速了算法收敛. 展开更多
关键词 异步计算 迭代计算 Asyn-SimRank算法 相似 大数据 mapreduce模型 Maiter框架
在线阅读 下载PDF
一种基于本体语义的灾害主题爬虫策略 被引量:4
13
作者 马雷雷 李宏伟 +2 位作者 连世伟 梁汝鹏 陈虎 《计算机工程》 CAS CSCD 北大核心 2016年第11期50-56,共7页
为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权... 为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权获取网页文本特征向量,并进行主题相关度计算。设计URL锚文本主题相关度计算方法,分析URL链接优先度,优化爬行队列。选取地震灾害和气象灾害2个主题进行测试与分析,实验结果表明,该策略能有效提高稳定性和爬准率。 展开更多
关键词 主题爬虫 本体 语义相似 向量空间模型 相关计算 文本
在线阅读 下载PDF
基于知识块摘要和词转移距离的高效司法文档分类 被引量:6
14
作者 马建刚 张鹏 马应龙 《计算机应用》 CSCD 北大核心 2019年第5期1293-1298,共6页
随着全国司法机关智能化建设的深入推进,通过信息化建设应用所积累的海量司法文书为开展司法智能服务提供了司法数据分析基础。通过司法文书的相似性分析实现类案推送,可以为司法人员提供智能辅助办案决策支持,从而提高办案的质量和效... 随着全国司法机关智能化建设的深入推进,通过信息化建设应用所积累的海量司法文书为开展司法智能服务提供了司法数据分析基础。通过司法文书的相似性分析实现类案推送,可以为司法人员提供智能辅助办案决策支持,从而提高办案的质量和效率。针对面向通用领域的文本分类方法因没有考虑特定司法领域文本的复杂结构和知识语义而导致司法文本分类的效能低问题,提出一种基于司法知识块摘要和词转移距离(WMD)的高效司法文档分类方法。首先为司法文书构建领域本体知识模型,进而基于领域本体,利用信息抽取技术获取司法文档中核心知识块摘要;然后基于司法文本的知识块摘要利用WMD进行司法文档相似度计算;最后利用K最近邻算法进行司法文本分类。以两个典型罪名的案件文档集作为实验数据,与传统的WMD文档相似度计算方法进行对比,实验结果表明,所提方法能明显提高司法文本分类的正确率(分别有5.5和9.9个百分点的提升),同时也降低了文档分类所需的时间(速度分别提升到原来的52.4和89.1倍)。 展开更多
关键词 智慧检务 领域本体模型 文本分类 相似计算 知识块摘要 词转移距离
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部