期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于主题相似度模型的TS-PageRank算法 被引量:23
1
作者 黄德才 戚华春 钱能 《小型微型计算机系统》 CSCD 北大核心 2007年第3期510-514,共5页
PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRan... PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRank算法框架.只要选择不同的相似度计算模型,就可以得到不同的TS-PageRank算法,形成一个网页排序算法簇.理论分析和数值仿真实验表明,该算法在不需要额外文本信息,也不增加算法时空复杂度的情况下,就能极大地减少主题漂移现象,从而提高查询效率和质量. 展开更多
关键词 链接分析 主题相似度 PAGERANK算法
在线阅读 下载PDF
基于主题相似度指导网络蜘蛛穿越隧道的爬行算法 被引量:5
2
作者 陈小海 周娅 《计算机工程与科学》 CSCD 北大核心 2009年第10期126-128,共3页
隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出... 隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。 展开更多
关键词 主题网络蜘蛛 隧道穿越 主题相似度
在线阅读 下载PDF
基于主题相似度的宏观篇章主次关系识别方法 被引量:5
3
作者 蒋峰 褚晓敏 +2 位作者 徐昇 李培峰 朱巧明 《中文信息学报》 CSCD 北大核心 2018年第1期43-50,共8页
篇章分析是自然语言处理领域的一个重要任务。分析篇章主次关系有助于理解篇章的结构和语义,并为自然语言处理的应用提供有力的支持。该文在微观篇章主次关系识别研究的基础上,重点研究宏观篇章主次关系,提出了一种基于word2vec和LDA的... 篇章分析是自然语言处理领域的一个重要任务。分析篇章主次关系有助于理解篇章的结构和语义,并为自然语言处理的应用提供有力的支持。该文在微观篇章主次关系识别研究的基础上,重点研究宏观篇章主次关系,提出了一种基于word2vec和LDA的主题相似度的宏观篇章主次关系识别模型。基于word2vec的主题相似度和基于LDA的主题相似度在不同维度上计算语义相似度,两者在语义层面形成互补,因而增强了模型识别宏观篇章主次关系的能力。该模型在宏观汉语篇章树库(MCDTB)上实验的F1值达到79.9%,正确率达到81.82%,相较基准系统分别提升了1.7%和1.81%。 展开更多
关键词 宏观篇章主次关系 主题相似度 word2vec LDA
在线阅读 下载PDF
主题相似度与链接权重相结合的垃圾网页排序检测 被引量:2
4
作者 韦莎 朱焱 《计算机应用》 CSCD 北大核心 2016年第3期735-739,共5页
针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分... 针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分配(LDA)模型得到所有网页的主题分布,并计算相互链接网页间的主题相似度;其次,根据Web图计算链接权重,并与主题相似度结合,得到主题链接权重矩阵;然后,利用主题链接权重调节非信任值传播,改进Anti-TrustRank和加权非信任值排序(WATR)算法,使网页得到更合理的非信任值;最后,将所有网页的非信任值进行排序,通过划分阈值检测出垃圾网页。在数据集WEBSPAM-UK2007上进行的实验结果表明,与Anti-TrustRank和WATR相比,TLDR的Spam Factor分别提高了45%和23.7%,F1-measure(阈值取600)分别提高了3.4个百分点和0.5个百分点,spam比例(前三个桶)分别提高了15个百分点和10个百分点。因此,主题与链接权重相结合的TLDR算法能有效提高垃圾网页检测性能。 展开更多
关键词 垃圾网页检测 链接作弊 排序算法 主题相似度 非信任值传播
在线阅读 下载PDF
基于语义串抽取及主题相似度度量的维吾尔文文本分类 被引量:4
5
作者 吐尔地.托合提 维尼拉.木沙江 艾斯卡尔.艾木都拉 《中文信息学报》 CSCD 北大核心 2017年第4期100-107,共8页
该文研究一种改进的n元递增算法来抽取维吾尔文本中表达关键信息的语义串,并用带权语义串集来刻画文本主题,提出了一种类似于Jaccard相似度的文本和类主题相似度度量方法,并实现了相应的维吾尔文分类算法。实验结果表明,该文提出的文本... 该文研究一种改进的n元递增算法来抽取维吾尔文本中表达关键信息的语义串,并用带权语义串集来刻画文本主题,提出了一种类似于Jaccard相似度的文本和类主题相似度度量方法,并实现了相应的维吾尔文分类算法。实验结果表明,该文提出的文本模型简单有效,分类算法计算量不高,而且还能达到或超过经典分类器的分类综合性能。 展开更多
关键词 维吾尔文 n元递增算法 语义串抽取 主题相似度 文本分类
在线阅读 下载PDF
融合主题相似度权重的主题社区发现模型 被引量:3
6
作者 钱芸芸 杨文忠 +2 位作者 姚苗 李海磊 柴亚闯 《计算机工程与应用》 CSCD 北大核心 2021年第5期107-114,共8页
社交网络结构错综复杂,主题社区是进行个性化推荐和商业推广的重要途径之一。然而,现有主题社区挖掘方法,要么仅基于链接关系和文本信息挖掘主题社区,要么在已划分社区的基础上挖掘主题,忽略了主题与社区的相互作用,导致社区内部话题相... 社交网络结构错综复杂,主题社区是进行个性化推荐和商业推广的重要途径之一。然而,现有主题社区挖掘方法,要么仅基于链接关系和文本信息挖掘主题社区,要么在已划分社区的基础上挖掘主题,忽略了主题与社区的相互作用,导致社区内部话题相似度不高。因此,提出新的社区主题计算方法,进而建立一种融合主题相似度权重的主题社区发现模型(TSWTCD)。利用文本信息提取主题,计算节点间主题相似度作为链接权重,将链接权重作为模块度参数划分社区。最后,根据提出新的社区主题计算方法得到社区主题。基于真实数据集的实验结果表明,TSWTCD模型提升了挖掘主题社区的质量。 展开更多
关键词 主题社区 链接信息 主题相似度 模块
在线阅读 下载PDF
基于主题相似度的视频分段
7
作者 周敏 陈昌红 +1 位作者 干宗良 刘峰 《南京邮电大学学报(自然科学版)》 北大核心 2016年第6期15-23,共9页
视频中的人体行为分析是计算机视觉领域的研究热点,视频分段是人体行为分析的基础。文中提出了基于主题相似度的视频分段方法,首先提取视频的时空特征,并利用词袋模型将视频中的人体行为表示成行为文档,对行为文档进行主题建模得到蕴含... 视频中的人体行为分析是计算机视觉领域的研究热点,视频分段是人体行为分析的基础。文中提出了基于主题相似度的视频分段方法,首先提取视频的时空特征,并利用词袋模型将视频中的人体行为表示成行为文档,对行为文档进行主题建模得到蕴含在文档中的主题特征,然后计算两个相邻滑动窗口内主题分布的相似度,绘制出相似度曲线,最后根据相似度曲线进行分段。实验结果表明,文中算法能够有效地将视频中的不同行为分割开来,提高后续行为识别工作的效率。 展开更多
关键词 视频分段 主题相似度 词袋模型 LDA
在线阅读 下载PDF
融合情感与主题的协作会话质量检测算法
8
作者 叶俊民 阙信超 +2 位作者 张晨 宋艺爽 赵刚 《小型微型计算机系统》 北大核心 2025年第5期1048-1055,共8页
在协作学习过程中,协作会话质量是影响协作知识建构的关键因素之一,高质量的协作会话有助于培养学习者的反思和合作能力.如何检测协作会话质量是教育技术研究中的一个挑战性问题.本文提出了一种融合情感增强和主题相似度计算的协作会话... 在协作学习过程中,协作会话质量是影响协作知识建构的关键因素之一,高质量的协作会话有助于培养学习者的反思和合作能力.如何检测协作会话质量是教育技术研究中的一个挑战性问题.本文提出了一种融合情感增强和主题相似度计算的协作会话质量检测模型BRASE(BERT-Attention with Similarity and Emotion).首先,利用BERT对协作会话内容和主题信息进行编码;其次,通过Bi-LSTM和注意力机制捕获协作会话的上下文语义及关键词信息,以提取协作会话内容和会话主题的主要特征,在此基础上计算协作会话的主题相似度;最后,通过朴素贝叶斯算法计算协作会话情感得分来评估协作会话的质量.本文在课堂真实数据集上进行了大量实验,结果表明,BRASE模型在基于情感权重和主题相似度下对协作会话质量检测的平均准确度和F1值方面优于现有模型.因此,BRASE模型能够有效检测协作会话的质量. 展开更多
关键词 协作会话 情感增强 主题相似度 会话质量检测
在线阅读 下载PDF
使用联合链接相似度评估爬取Web资源 被引量:6
9
作者 张乃洲 李石君 +1 位作者 余伟 张卓 《计算机学报》 EI CSCD 北大核心 2010年第12期2267-2280,共14页
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接... 如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率. 展开更多
关键词 聚焦爬行 主题相似度 链接评估 Web链接图 Q学习
在线阅读 下载PDF
基于LDA的多特征融合的短文本相似度计算 被引量:9
10
作者 张小川 余林峰 张宜浩 《计算机科学》 CSCD 北大核心 2018年第9期266-270,共5页
近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征... 近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合的短文本相似度算法。该方法融合了主题相似度因子ST(Similarity Topic)和词语共现度因子CW(Co-occurrence Words),建立了联合相似度模型以规约不同ST区间下CW对ST产生的约束或补充条件,并最终权衡了准确性更高的相似度结果。对改进后的算法进行文本聚类实验,结果表明改进后的算法在F度量值上取得了一定程度的提升。 展开更多
关键词 LDA 主题模型 短文本相似 主题相似度 词语共现
在线阅读 下载PDF
基于相似主题和HITS的微博用户推荐算法研究 被引量:2
11
作者 王嵘冰 徐红艳 +1 位作者 冯勇 安维凯 《中文信息学报》 CSCD 北大核心 2019年第7期128-135,共8页
为了准确地为微博用户推荐相近兴趣领域的重要用户,有效提高用户对微博平台的依赖度。该文对传统的HITS算法进行了改进:通过分析微博用户社交网络结构,运用改进算法将微博用户划分为3类,在微博主题相似度计算中引入用户的权威度和中心度... 为了准确地为微博用户推荐相近兴趣领域的重要用户,有效提高用户对微博平台的依赖度。该文对传统的HITS算法进行了改进:通过分析微博用户社交网络结构,运用改进算法将微博用户划分为3类,在微博主题相似度计算中引入用户的权威度和中心度,最后根据用户类别进行微博用户推荐。实验中,使用爬取的微博数据对传统的推荐算法和该文的改进算法进行对比实验,由于所提算法在分析过程中考虑了用户结构信息、用户的权威度与中心度等多种因素,因而在准确率、召回率、F1值上均有明显提高。 展开更多
关键词 微博用户推荐 HITS 权威 中心 主题相似度
在线阅读 下载PDF
基于节点综合相似度的多标签传播社区划分算法 被引量:1
12
作者 郝梓琳 李雷 施化吉 《计算机应用研究》 CSCD 北大核心 2019年第6期1705-1708,共4页
为了解决现有的多标签传播社区划分算法采用的随机顺序策略导致形成的社区划分结果不稳定和社区质量不够高的问题,提出了一种基于节点综合相似度的多标签传播社区划分算法MLPA-NCS。以节点潜在影响力的降序作为节点选择顺序,解决社区结... 为了解决现有的多标签传播社区划分算法采用的随机顺序策略导致形成的社区划分结果不稳定和社区质量不够高的问题,提出了一种基于节点综合相似度的多标签传播社区划分算法MLPA-NCS。以节点潜在影响力的降序作为节点选择顺序,解决社区结果划分不稳定问题。根据节点的主题相似度和链接相关度计算出节点综合相似度,并以节点综合相似度降序作为更新节点标签时对邻近节点遍历的顺序,提高所划分社区的质量。采用真实数据集和人工网络数据,对多个算法进行对比实验,结果表明算法有效可行,社区划分结果更稳定,社区质量也更高。 展开更多
关键词 社区划分 标签传播 重叠社区 综合相似 主题相似度
在线阅读 下载PDF
多维视角下科学主题演化分析框架 被引量:23
13
作者 王康 陈悦 +1 位作者 苏成 赵筱媛 《情报学报》 CSSCI CSCD 北大核心 2021年第3期297-307,共11页
本文以知识单元的游离与组合的知识计量理论为基础,以时间加权修正后提取的关键词为知识单元,从而在关键词、关键词关联和主题关联三个阶度进行科学主题演化分析的理论框架。其中,涉及时间加权词频测度、关键词关联的主题测度和主题关... 本文以知识单元的游离与组合的知识计量理论为基础,以时间加权修正后提取的关键词为知识单元,从而在关键词、关键词关联和主题关联三个阶度进行科学主题演化分析的理论框架。其中,涉及时间加权词频测度、关键词关联的主题测度和主题关联的相似度测度。本文以图书情报领域大数据研究论文进行实证研究,研究结果表明,基于时间加权的关键词频数测度能够强化上升型关键词、弱化下降型关键词,快速探测出绝对高频词、突现词或新兴词;基于关键词关联的主题测度,可使研究者对图情领域大数据主题的发展趋势有整体的感知和预测;基于主题关联的相似度测度,能够展示各主题之间的融合、扩散、突现、消亡等复杂关系,有助于揭示领域研究热点和预测未来发展趋势。 展开更多
关键词 主题演化 时间加权 主题 主题相似度 知识单元
在线阅读 下载PDF
基于作者和研究主题的科研机构名称演化关系识别研究 被引量:3
14
作者 胡潜 吴茜 +1 位作者 董寒宇 李静 《情报学报》 CSSCI CSCD 北大核心 2023年第11期1289-1299,共11页
因机构发展变迁而引发的科研机构名称演化,严重影响了基于机构名称所开展的信息检索、科研评价等知识服务的质量和效果。为此,本文提出了一种基于作者和研究主题的科研机构名称演化关系识别方法,以消解科研机构名称间的异质性,实现科研... 因机构发展变迁而引发的科研机构名称演化,严重影响了基于机构名称所开展的信息检索、科研评价等知识服务的质量和效果。为此,本文提出了一种基于作者和研究主题的科研机构名称演化关系识别方法,以消解科研机构名称间的异质性,实现科研机构名称归一化。通过对科研机构名称演化在学术论文署名中的表现分析,本文构建了基于作者和研究主题的科研机构名称演化关系识别模型,对科研机构名称间的改名、拆分、合并和重组关系进行了识别,并基于小规模的学术论文数据对模型效果进行了验证。研究结果表明,本文提出的科研机构名称演化关系识别方法在一级和二级科研机构名称演化关系的识别中均能达到较好的准确率和召回率,并能够识别出一般性冷门科研机构之间的名称演化关系。 展开更多
关键词 机构名称 名称规范化 作者共现 研究主题相似度
在线阅读 下载PDF
LDA模型在专利文本分类中的应用 被引量:45
15
作者 廖列法 勒孚刚 朱亚兰 《现代情报》 CSSCI 北大核心 2017年第3期35-39,共5页
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语... 对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。 展开更多
关键词 LDA 主题模型 专利文本分类 主题相似度
在线阅读 下载PDF
基于用户属性与覆盖范围的意见领袖挖掘研究 被引量:3
16
作者 李亚星 王兆凯 +2 位作者 刘利军 冯旭鹏 黄青松 《计算机应用研究》 CSCD 北大核心 2017年第12期3556-3559,共4页
针对微博信息的交互性和不确定性,提出一种基于用户属性与覆盖范围的意见领袖研究方法。该方法分别计算用户属性值和用户传播覆盖范围,根据粉丝忠实程度计算出用户属性值从而得到用户属性排名;利用用户间微博内容主题相似度构建贡献图,... 针对微博信息的交互性和不确定性,提出一种基于用户属性与覆盖范围的意见领袖研究方法。该方法分别计算用户属性值和用户传播覆盖范围,根据粉丝忠实程度计算出用户属性值从而得到用户属性排名;利用用户间微博内容主题相似度构建贡献图,获得用户覆盖范围排名。最后,结合用户属性排名和用户覆盖范围排名生成最终的意见领袖排名。实验结果表明,该方法相比其他意见领袖挖掘方法有更好的效果。 展开更多
关键词 意见领袖 情感分析 主题相似度 贡献图 延时传播
在线阅读 下载PDF
基于模块抽取的大本体分块与映射 被引量:1
17
作者 王润梅 徐德智 +1 位作者 赖雅 姚学聪 《计算机科学》 CSCD 北大核心 2011年第10期248-251,共4页
大本体规模过大,使得本体间映射复杂。针对已有方法在分块上的不足,提出一种基于模块抽取的大本体分块映射方法。通过建立本体依赖图的拉普拉斯矩阵来抽取本体模块,计算模块之间的相似度,实现分块映射。实验结果表明,该方法能有效实现... 大本体规模过大,使得本体间映射复杂。针对已有方法在分块上的不足,提出一种基于模块抽取的大本体分块映射方法。通过建立本体依赖图的拉普拉斯矩阵来抽取本体模块,计算模块之间的相似度,实现分块映射。实验结果表明,该方法能有效实现大本体分块,提高映射效率。 展开更多
关键词 大本体 词干 模块抽取 模块主题相似度
在线阅读 下载PDF
一种用于本体排序的内容分析方法 被引量:2
18
作者 徐德智 刘怡静 《计算机应用研究》 CSCD 北大核心 2010年第6期2127-2129,共3页
针对使用传统的用于本体排序的方法得到的排序结果不够准确的问题,提出了一种新的内容分析方法。首先通过构造本体的概念模型提取本体的主题词集合得到本体的主题相似度;然后通过对关键词所在的本体上下文进行分析,得到本体相对于关键... 针对使用传统的用于本体排序的方法得到的排序结果不够准确的问题,提出了一种新的内容分析方法。首先通过构造本体的概念模型提取本体的主题词集合得到本体的主题相似度;然后通过对关键词所在的本体上下文进行分析,得到本体相对于关键词的上下文相关度;最后结合主题相似度和上下文相关度得到本体相对于关键词的综合评价值并进行排序。实验结果表明,该方法可以有效地提高本体排序的准确性。 展开更多
关键词 本体排序 主题相似度 上下文相关
在线阅读 下载PDF
EmailVis电子邮件中事件可视分析
19
作者 罗珣 张晴宇 +1 位作者 方芳 路强 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2021年第1期19-28,共10页
对电子邮件文本消息与收发关系的可视化,能够有效地分析过去发生的重要事件与人员交互.然而现有的电子邮件可视化软件对电子邮件主题的筛选与聚类较为简单,使得用户难以挖掘出更深层次的信息.鉴于这些不足,EmailVis通过多种角度对电子... 对电子邮件文本消息与收发关系的可视化,能够有效地分析过去发生的重要事件与人员交互.然而现有的电子邮件可视化软件对电子邮件主题的筛选与聚类较为简单,使得用户难以挖掘出更深层次的信息.鉴于这些不足,EmailVis通过多种角度对电子邮件进行归纳与分类,最终获取到可能包含重要信息的电子邮件,并将它们以点、线与邮件线程相结合的方式展现出来,以便用户快速定位到重要事件的发生时间与相关信息.最后,用户研究表明,EmailVis可以帮助公司管理人员更加清晰地回忆过去发生的项目完成进度、部门交互关系与异常事件信息,为改进工作流程和协调部门合作提供有力的数据支持,从而提高人员协作效率. 展开更多
关键词 电子邮件可视化 视觉分析 主题相似度 事件挖掘 协同工作
在线阅读 下载PDF
面向不平衡微博数据集的转发行为预测方法 被引量:2
20
作者 赵煜 邵必林 +1 位作者 边根庆 宋丹 《计算机应用》 CSCD 北大核心 2015年第7期1959-1964,共6页
针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其... 针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其次,综合微博特征数据的特点来改进少数类样本合成过采样技术(SMOTE),对原始数据集进行非参数概率分布估计,并根据近似概率分布对数据集进行过采样处理,从而使正反例数据量达到平衡;最后,利用随机森林算法,依据微博转发关键特征进行分类器训练,并利用袋外(OOB)数据误差估计来分析和设置随机森林算法的相关参数。通过与基于决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)和随机森林等算法的微博转发预测方法进行对比,所提方法整体性能优于基准方法中性能最优的SVM方法,召回率提高了8%,F值提高了5%。实验结果表明,所提方法在实际应用中能够有效提高微博转发行为预测的准确率。 展开更多
关键词 集合与微博主题词集合之间的相似计算采用向 微博 转发预测 不均匀数据集 过采样 随机森林
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部