期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
基于关系触发词与多特征的中文人物关系抽取
1
作者 冷根 周允升 +1 位作者 余敦辉 孙斌 《计算机工程与设计》 北大核心 2024年第1期282-290,共9页
针对当前主流的中文人物关系抽取方法未充分利用核心词,且难以提取中文深层文本信息的问题,提出一种基于关系触发词与多特征的中文人物关系抽取方法。将词语语义与其位置、词性、依存句法以及语义角色融合,使用结构简洁但特征提取能力... 针对当前主流的中文人物关系抽取方法未充分利用核心词,且难以提取中文深层文本信息的问题,提出一种基于关系触发词与多特征的中文人物关系抽取方法。将词语语义与其位置、词性、依存句法以及语义角色融合,使用结构简洁但特征提取能力更强的Transformer编码器对原始文本进行编码,基于同义词词林与词向量提取人物关系触发词,并将其作为注意力导向引入注意力机制中,提高模型对文本重要信息的学习能力。实验结果表明,该方法的F1值为89.7%,相比CNN、BiLSTM-ATT、R-BERT等模型平均提升了9.6个百分点,验证了该方法的有效性。 展开更多
关键词 人物关系抽取 变换网络 关系触发词 注意力机制 多特征 中文文本 双通道
在线阅读 下载PDF
一种基于机器学习的Spark容器集群性能提升方法 被引量:2
2
作者 田春岐 李静 +1 位作者 王伟 张礼庆 《信息网络安全》 CSCD 北大核心 2019年第4期11-19,共9页
目前基于Spark的应用十分广泛,合理的参数配置会使Spark作业具备较高的执行效率,很多学者对虚拟机集群上的Spark参数调优进行了深入研究。近年来,容器作为一种新兴的云计算基础设施越来越广泛地被应用于服务集群中,因而对基于容器集群的... 目前基于Spark的应用十分广泛,合理的参数配置会使Spark作业具备较高的执行效率,很多学者对虚拟机集群上的Spark参数调优进行了深入研究。近年来,容器作为一种新兴的云计算基础设施越来越广泛地被应用于服务集群中,因而对基于容器集群的Spark参数调优进行研究也具有重要意义。文章研究了Docker容器集群中Spark的参数配置问题,提出了一种新型的参数调优方法(ContainerOpt),使用机器学习方法学习并预测作业在不同参数组合下的性能,同时引入节点自动伸缩机制,使输入规模较大的作业可以获得更优的性能。文章还提出了由时间和资源共同决定的性能表示模型,代替传统的基于单一执行时间的性能表示模型,从而在作业执行时间和资源占用之间达到较好的平衡。实验结果表明,相较于默认配置,该参数调优方法可提升50%的执行效率。 展开更多
关键词 云计算 SPARK DOCKER 机器学习 参数调优
在线阅读 下载PDF
开源社区中已有开发者的合作行为分析 被引量:9
3
作者 陈丹 王星 +1 位作者 何鹏 曾诚 《计算机科学》 CSCD 北大核心 2016年第S1期476-479 501,共5页
理解开发者的合作行为是促进开源社区协作开发的关键一步。已有文献主要对社区成员的加入与迁移展开研究,而对社区中已有开发者之间的实际合作行为关注甚少。主要从开发者的交互关系与个人技能两个角度出发,探析社区已有开发者如何建立... 理解开发者的合作行为是促进开源社区协作开发的关键一步。已有文献主要对社区成员的加入与迁移展开研究,而对社区中已有开发者之间的实际合作行为关注甚少。主要从开发者的交互关系与个人技能两个角度出发,探析社区已有开发者如何建立新合作以及哪些因素影响他们的合作。应用Sourceforge.net平台公开的数据进行实验,结果表明不同的开发者的偏好合作模式不同,拓扑距离上的优势("朋友的朋友"关系)对开发者间首次合作的影响不大,开发者之前的合作次数越多越有利于他们再次建立合作,而开发环境(操作系统)与开发者(管理)经验对合作也有明显的影响。所得结论有助于提高开源社区已有开发者的合作意识,促进社区的稳定与可持续性。 展开更多
关键词 开源软件社区 开发者合作网络 行为分析 偏好合作
在线阅读 下载PDF
一种最大化内存共享与最小化运行时环境的超轻量级容器 被引量:7
4
作者 张礼庆 郭栋 +2 位作者 吴绍岭 崔海波 王伟 《计算机研究与发展》 EI CSCD 北大核心 2019年第7期1545-1555,共11页
容器技术的兴起带来了数据中心的深刻变化,大量软件转为微服务方式部署与交付.如何优化海量用户环境下大规模容器的启动、运行与维护问题具有广泛的现实意义.目前以Docker为代表的主流容器技术已经取得较大成功,但在镜像体积、资源共享... 容器技术的兴起带来了数据中心的深刻变化,大量软件转为微服务方式部署与交付.如何优化海量用户环境下大规模容器的启动、运行与维护问题具有广泛的现实意义.目前以Docker为代表的主流容器技术已经取得较大成功,但在镜像体积、资源共享等方面仍有较大改进空间.梳理了虚拟化技术的发展过程,阐明轻量级的虚拟化技术是未来的研究方向,对数据敏感型应用至关重要.通过建立库文件共享模型,探究了库文件的共享程度对容器最大启动数量的影响.给出了一种超轻量级的容器设计方案,通过细化可操作资源的粒度,使得支撑应用程序运行的容器运行时环境最小化;将依赖库文件与可执行二进制文件单独抽取成层,实现了容器对主机内存资源的最大化共享.根据上述方案实现了一种超轻量级容器管理引擎:REG(runtime environment generation),并定义了一套基于REG的工作流.在镜像体积、启动速度、内存占用、容器启动风暴等方面进行对比实验,验证了所提方法在大规模容器环境下的有效性. 展开更多
关键词 容器 云件 轻量级 运行时环境 资源共享
在线阅读 下载PDF
跨项目缺陷预测中训练数据选择方法 被引量:3
5
作者 王星 何鹏 +1 位作者 陈丹 曾诚 《计算机应用》 CSCD 北大核心 2016年第11期3165-3169,3187,共6页
跨项目缺陷预测(CPDP)利用来自其他项目的缺陷数据预测目标项目的缺陷情况,为解决以往缺陷预测方法面临的训练数据受限问题提供了一个新的视角。训练数据的质量将直接影响跨项目缺陷预测模型的性能,因此,需尽可能选择与目标项目更相似... 跨项目缺陷预测(CPDP)利用来自其他项目的缺陷数据预测目标项目的缺陷情况,为解决以往缺陷预测方法面临的训练数据受限问题提供了一个新的视角。训练数据的质量将直接影响跨项目缺陷预测模型的性能,因此,需尽可能选择与目标项目更相似的数据用于模型的训练。利用PROMISE提供的34个公开数据集,从训练数据选择方面,分析了四种典型的相似性度量方法对跨项目预测结果的影响以及各种方法之间的差异。研究结果表明:使用不同的相似性度量方法选出的训练数据质量不同,其中余弦相似性与相关系数两种方法效果更好,且最大改进比例达到6.7%;同时,根据目标项目的缺陷率,发现余弦相似性更适合于缺陷率高于0.25的项目。 展开更多
关键词 软件质量保证 缺陷预测 跨项目缺陷预测 相似性度量 数据选择
在线阅读 下载PDF
基于企业知识图谱构建的实体关联查询系统 被引量:5
6
作者 余敦辉 万鹏 王社 《计算机应用》 CSCD 北大核心 2021年第9期2510-2516,共7页
针对目前知识图谱查询中节点之间语义关联性不高、查询效率低等问题,提出了一种实体关联的查询方法,然后以此为基础设计并实现了基于知识图谱的企业查询系统。所提查询方法采用四层过滤模型,首先通过路径搜索找到目标节点的公共路径,从... 针对目前知识图谱查询中节点之间语义关联性不高、查询效率低等问题,提出了一种实体关联的查询方法,然后以此为基础设计并实现了基于知识图谱的企业查询系统。所提查询方法采用四层过滤模型,首先通过路径搜索找到目标节点的公共路径,从而过滤掉关联程度较低的查询节点,得到过滤集合;然后在中间两层分别对过滤集合的属性和关系计算关联度,再基于动态阈值完成图集过滤;最后综合实体关联度和关系关联度得分并排序得到最终的查询结果。基于真实企业数据进行的实验结果表明,与Ness、NeMa等传统图查询方法相对比,所提方法在查询时间上平均降低了28.5%,同时在过滤性能上平均提高了29.6%,可见该方法能高效完成查询和展示与目标相关联实体的任务。 展开更多
关键词 知识图谱 图数据库 关联关系 查询系统 实体查询
在线阅读 下载PDF
基于亲和力与研究方向覆盖率的审稿人推荐算法 被引量:3
7
作者 钟磊 周允升 +1 位作者 余敦辉 崔海波 《计算机应用》 CSCD 北大核心 2023年第2期430-436,共7页
针对现有审稿人推荐算法主要通过亲和力分数分配审稿人,而忽略了审稿人与论文研究方向匹配的问题,提出一种基于亲和力与研究方向覆盖率的审稿人推荐算法(ARDC)。首先,根据研究方向在待审论文和审稿人论文组中出现的频数,确定论文选择审... 针对现有审稿人推荐算法主要通过亲和力分数分配审稿人,而忽略了审稿人与论文研究方向匹配的问题,提出一种基于亲和力与研究方向覆盖率的审稿人推荐算法(ARDC)。首先,根据研究方向在待审论文和审稿人论文组中出现的频数,确定论文选择审稿人的次序;然后,综合审稿人和论文间的亲和力得分以及审稿人对论文的研究方向覆盖得分,来计算审稿人对待审论文的综合审阅得分,并依据轮询调度得到论文预分配审稿小组;最后,对预分配审稿小组进行利益冲突检查与消解以实现最终的审稿小组推荐。实验结果表明,与基于松弛迭代的分配算法(FairIR)和同行评审公平分配算法(PR4A)等基于分配的审稿人推荐算法相比,所提算法在牺牲少量亲和力的情况下,将研究方向覆盖得分平均提高了38%,从而确保推荐结果更加准确合理。 展开更多
关键词 审稿人推荐 亲和力分数 主题模型 利益冲突 轮询调度
在线阅读 下载PDF
基于池化和特征组合增强BERT的答案选择模型 被引量:2
8
作者 胡婕 陈晓茜 张龑 《计算机应用》 CSCD 北大核心 2023年第2期365-373,共9页
当前主流模型无法充分地表示问答对的语义,未充分考虑问答对主题信息间的联系并且激活函数存在软饱和的问题,而这些会影响模型的整体性能。针对这些问题,提出了一种基于池化和特征组合增强BERT的答案选择模型。首先,在预训练模型BERT的... 当前主流模型无法充分地表示问答对的语义,未充分考虑问答对主题信息间的联系并且激活函数存在软饱和的问题,而这些会影响模型的整体性能。针对这些问题,提出了一种基于池化和特征组合增强BERT的答案选择模型。首先,在预训练模型BERT的基础上增加对抗样本并引入池化操作来表示问答对的语义;其次,引入主题信息特征组合来加强问答对主题信息间的联系;最后,改进隐藏层的激活函数,并用拼接向量通过隐藏层和分类器完成答案选择任务。在SemEval-2016CQA和SemEval-2017CQA数据集上进行的验证结果表明,所提模型与tBERT模型相比,准确率分别提高了3.1个百分点和2.2个百分点;F1值分别提高了2.0个百分点和3.1个百分点。可见,所提模型在答案选择任务上的综合效果得到了有效提升,准确率和F1值均优于对比模型。 展开更多
关键词 答案选择 预训练模型 池化 特征组合 激活函数
在线阅读 下载PDF
面向全局优化的时空众包任务分配算法 被引量:13
9
作者 聂茜婵 张阳 +1 位作者 余敦辉 张兴盛 《计算机应用》 CSCD 北大核心 2020年第7期1950-1958,共9页
针对时空众包任务分配研究中未考虑多方参与对象的效益和连续任务分配的全局优化,导致分配效果不佳的问题,提出一种面向三方综合效益全局优化的在线任务分配算法。首先,基于在线随机森林和门控循环单元网络预测出下一时间戳内众包对象(... 针对时空众包任务分配研究中未考虑多方参与对象的效益和连续任务分配的全局优化,导致分配效果不佳的问题,提出一种面向三方综合效益全局优化的在线任务分配算法。首先,基于在线随机森林和门控循环单元网络预测出下一时间戳内众包对象(众包任务和工人)的分布情况,进而结合当前时间戳内众包对象的情况构造二分图模型,最后采用带权二分图最优匹配算法完成任务分配。实验结果证明了所提算法在连续任务分配过程中实现了综合效益的全局优化。与贪心算法对比,该算法在任务分配成功率方面提升25.7%,在平均综合效益方面提升32.2%,在工人平均机会成本方面提升37.8%;与随机阈值算法对比,该算法在任务分配成功率方面提升27.4%,在平均综合效益方面提升34.7%,在工人平均机会成本方面40.2%。 展开更多
关键词 时空众包 预测分析 在线随机森林 KM算法
在线阅读 下载PDF
基于弹幕情感分析和主题模型的视频推荐算法 被引量:7
10
作者 朱思淼 魏世伟 +1 位作者 魏思恒 余敦辉 《计算机应用》 CSCD 北大核心 2021年第10期2813-2819,共7页
针对互联网上大量自制视频缺少用户评分、推荐准确率不高的问题,提出一种融合弹幕情感分析和主题模型的视频推荐算法(VRDSA)。首先,对视频的弹幕评论进行情感分析,得到视频的情感向量,之后基于情感向量计算视频之间的情感相似度;同时,... 针对互联网上大量自制视频缺少用户评分、推荐准确率不高的问题,提出一种融合弹幕情感分析和主题模型的视频推荐算法(VRDSA)。首先,对视频的弹幕评论进行情感分析,得到视频的情感向量,之后基于情感向量计算视频之间的情感相似度;同时,基于视频的标签建立主题模型来得到视频标签的主题分布,并使用主题分布计算视频之间的主题相似度;接着,对视频的情感相似度和主题相似度进行融合得到视频间的综合相似度;然后,结合视频间的综合相似度和用户的历史记录得到用户对视频的偏好度;同时通过视频的点赞量、弹幕量、收藏数等用户互动指标对视频的大众认可度进行量化,并结合用户历史记录计算出视频的综合认可度;最后,基于用户对视频的偏好度和视频的综合认可度预测用户对视频的认可度,并生成个性化推荐列表来完成视频的推荐。实验结果表明,与融合协同过滤和主题模型的弹幕视频推荐算法(DRCFT)以及嵌入LDA主题模型的协同过滤算法(ULR-itemCF)相比,所提算法推荐的准确率平均提高了17.1%,召回率平均提高了22.9%,F值平均提高了22.2%。所提算法对弹幕进行情感分析,并融合主题模型,以此来完成对视频的推荐,并且充分挖掘了弹幕数据的情感性,使得推荐结果更加准确。 展开更多
关键词 视频推荐算法 弹幕 主题模型 情感分析 认可度
在线阅读 下载PDF
基于知识图谱和重启随机游走的跨平台用户推荐方法 被引量:6
11
作者 余敦辉 张蕗怡 +1 位作者 张笑笑 毛亮 《计算机应用》 CSCD 北大核心 2021年第7期1871-1877,共7页
针对单一社交网络平台中推荐相似用户结果单一,对用户兴趣和行为信息了解不够全面的问题,提出了基于知识图谱和重启随机游走的跨平台用户推荐方法(URCP-KR)。首先,在分割、匹配出的目标平台图谱和辅助平台图谱的相似子图中,利用改进的... 针对单一社交网络平台中推荐相似用户结果单一,对用户兴趣和行为信息了解不够全面的问题,提出了基于知识图谱和重启随机游走的跨平台用户推荐方法(URCP-KR)。首先,在分割、匹配出的目标平台图谱和辅助平台图谱的相似子图中,利用改进的多层循环神经网络(RNN)预测出候选用户实体,再综合利用拓扑结构特征相似度和用户画像相似度筛选出相似用户;然后,将辅助平台图谱中的相似用户的关系信息补全到目标平台图谱;最后,计算目标平台图谱中的用户游走到社区内每个用户的概率,从而得到用户之间的兴趣相似度来实现用户推荐。实验结果表明,与协同过滤(CF)算法、基于跨平台的在线社交网络用户推荐算法(URCP)和基于多开发者社区的用户推荐算法(UR-MC)相比,URCP-KP在推荐精确率及推荐多样性等方面均有所提高,推荐精确率最高可达95.31%,推荐覆盖率最高可达88.42%。 展开更多
关键词 知识图谱 实体链接 关系补全 重启随机游走 用户推荐
在线阅读 下载PDF
GKCI:改进的基于图神经网络的关键类识别方法 被引量:7
12
作者 周纯英 曾诚 +1 位作者 何鹏 张龑 《软件学报》 EI CSCD 北大核心 2023年第6期2509-2525,共17页
研究人员将软件系统中的关键类作为理解和维护一个系统的起点,而关键类上的缺陷给系统带来了极大的安全隐患.因此,识别关键类可提高软件的可靠性和稳定性.常用的识别方法是将软件系统抽象为一个类依赖网络,再根据定义好的度量指标和计... 研究人员将软件系统中的关键类作为理解和维护一个系统的起点,而关键类上的缺陷给系统带来了极大的安全隐患.因此,识别关键类可提高软件的可靠性和稳定性.常用的识别方法是将软件系统抽象为一个类依赖网络,再根据定义好的度量指标和计算规则计算每个节点的重要性得分,如此基于非训练框架得到的关键类,并没有充分利用软件网络的结构信息.针对这一问题,基于图神经网络技术提出了一种有监督的关键类识别方法.首先,将软件系统抽象为类粒度的软件网络,并利用网络嵌入学习方法Node2Vec得到类节点的表征向量,再通过一个全连接层将节点的表征向量转换为具体分值;然后,利用改进的图神经网络模型,综合考虑类节点之间的依赖方向和权重,进行节点分值的聚合操作;最后,模型输出每个类节点的最终得分并进行降序排列,从而实现关键类的识别.在8个Java开源软件系统上,通过与基准方法的实验对比,验证了该方法的有效性.实验结果表明:在前10个候选关键类中,所提方法比最先进的方法提升了6.4%的召回率和3.5%的精确率. 展开更多
关键词 关键类识别 软件网络 图神经网络 软件度量
在线阅读 下载PDF
Truser:一种基于可信用户的服务推荐方法 被引量:5
13
作者 何鹏 吴浩 +1 位作者 曾诚 马于涛 《计算机学报》 EI CSCD 北大核心 2019年第4期851-863,共13页
在服务推荐过程中,为排除不可信用户信息带来的干扰,确保推荐结果的精准性,该文从用户聚类的角度,通过两阶段的ISODATA聚类,将离群用户视为不可信用户进行过滤,再基于得到的可信用户提出一种改进的服务推荐方法.最后,在两个公开数据集La... 在服务推荐过程中,为排除不可信用户信息带来的干扰,确保推荐结果的精准性,该文从用户聚类的角度,通过两阶段的ISODATA聚类,将离群用户视为不可信用户进行过滤,再基于得到的可信用户提出一种改进的服务推荐方法.最后,在两个公开数据集Last.FM和Delicious上进行了实证分析.结果表明,该文所提方法在两个数据集上的推荐精度相较于已有基准方法分别提高16.1%和4.5%,且发现当第一阶段聚类的预期聚类中心为6时,推荐效果最好;同时,在推荐过程中为目标用户返回Top-5个可信用户,且向其推荐这5个用户中至少有70%的人关注过的服务最为适宜.因此,围绕可信用户的数据进行推荐,能有效地提高服务推荐的质量. 展开更多
关键词 ISODATA聚类 协同过滤 服务推荐 服务计算
在线阅读 下载PDF
软件定义网络安全研究 被引量:5
14
作者 石志凯 朱国胜 《计算机应用》 CSCD 北大核心 2017年第A01期75-79,共5页
软件定义网络(SDN)通过控制和转发分离可实现网络的集中控制和全局优化,通过开放可编程接口可实现网络资源的动态控制和调度优化。集中控制、开放、可编程一方面促进了网络技术的飞速发展,同时也带来了新的安全问题与威胁。概述了SDN带... 软件定义网络(SDN)通过控制和转发分离可实现网络的集中控制和全局优化,通过开放可编程接口可实现网络资源的动态控制和调度优化。集中控制、开放、可编程一方面促进了网络技术的飞速发展,同时也带来了新的安全问题与威胁。概述了SDN带来的安全机遇和所面临的安全威胁;根据分层的SDN的构架,由北向南依次探讨应用层、控制层、数据层和南北向通道的安全问题及其对应的安全策略;分析了DDo S攻击、策略冲突、指纹攻击等SDN面临的典型安全问题;最后给出了SDN安全未来的研究方向。 展开更多
关键词 软件定义网络 安全 攻击
在线阅读 下载PDF
融合信任隐含相似度与评分相似度的社会化推荐 被引量:1
15
作者 周寅莹 章梦怡 +1 位作者 余敦辉 朱明 《计算机应用》 CSCD 北大核心 2022年第12期3671-3678,共8页
针对现有的社会化推荐算法大都忽略了物品间的关联关系对推荐精度的影响,并且未能将用户评分与信任数据进行有效结合的问题,提出一种融合信任隐含相似度与评分相似度的社会化推荐算法(SocialTS)。首先,将用户间的评分相似度与信任隐含... 针对现有的社会化推荐算法大都忽略了物品间的关联关系对推荐精度的影响,并且未能将用户评分与信任数据进行有效结合的问题,提出一种融合信任隐含相似度与评分相似度的社会化推荐算法(SocialTS)。首先,将用户间的评分相似度与信任隐含相似度进行线性组合以得到用户间可靠的相似朋友;然后,将信任关系融入到项目的相关性分析中,从而得到修正后的相似项目;最后,将相似用户、项目作为正则项添加到矩阵分解(MF)模型下,从而获取用户、项目更准确的特征表示。实验结果表明,当潜在特征维度为10时,与主流的社会化推荐算法TrustSVD相比,SocialTS在FilmTrust和CiaoDVD数据集上的均方根误差(RMSE)分别降低了4.23%和8.38%,平均绝对误差(MAE)分别降低了4.66%和6.88%。SocialTS不仅可以有效改善用户冷启动问题,还能较为准确地预测不同评分数量下用户的实际评分,且具有良好的鲁棒性。 展开更多
关键词 社会化推荐 冷启动 信任隐含相似度 信任关系 矩阵分解
在线阅读 下载PDF
基于决策树的敏感词变形体识别算法研究及应用 被引量:19
16
作者 余敦辉 张笑笑 +1 位作者 付聪 张万山 《计算机应用研究》 CSCD 北大核心 2020年第5期1395-1399,1405,共6页
针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏... 针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高了19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1%。通过分析,该算法对敏感词变形体的识别和自动过滤是有效的。 展开更多
关键词 敏感词识别 敏感词变形体 决策树 敏感程度计算 多因子模型
在线阅读 下载PDF
融合知识图谱与用户评论的商品推荐算法 被引量:15
17
作者 汤伟韬 余敦辉 魏世伟 《计算机工程》 CAS CSCD 北大核心 2020年第8期93-100,共8页
针对基于用户评论的商品推荐算法未充分利用评论之间关联信息的问题,提出一种融合知识图谱与用户评论的商品推荐算法。结合知识图谱对用户评论进行商品特征和情感词提取,构建商品特征集合和商品向量并计算商品相似度矩阵,根据情感词确... 针对基于用户评论的商品推荐算法未充分利用评论之间关联信息的问题,提出一种融合知识图谱与用户评论的商品推荐算法。结合知识图谱对用户评论进行商品特征和情感词提取,构建商品特征集合和商品向量并计算商品相似度矩阵,根据情感词确定商品特征得分,通过随机游走商品节点获取商品特征权重。在此基础上,根据商品特征得分和商品特征权重计算商品推荐价值并进行Top-k推荐。实验结果表明,与基于知识图谱的推荐算法、协同过滤算法、基于内容的推荐算法和混合推荐算法相比,该算法的准确率、召回率和F值最高分别提升15.81%、7.27%和8.55%。 展开更多
关键词 推荐算法 知识图谱 用户评论 商品特征 随机游走模型
在线阅读 下载PDF
面向中文敏感词变形体的识别方法研究 被引量:16
18
作者 付聪 余敦辉 张灵莉 《计算机应用研究》 CSCD 北大核心 2019年第4期988-991,共4页
针对网络信息中所包含的敏感词,尤其是中文敏感词变形体的识别成为了一个迫切需要解决的问题。通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对词的拼音、词的简称和词的拆分三种敏感词变形体分别设... 针对网络信息中所包含的敏感词,尤其是中文敏感词变形体的识别成为了一个迫切需要解决的问题。通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对词的拼音、词的简称和词的拆分三种敏感词变形体分别设计了基于易混拼音分组的敏感词的识别算法(SPGR)、字符串的简称识别算法(SNR)和基于KMP的汉字拆分识别算法(WS-KMP),有效提高了敏感词审查的准确率和效率。实验结果表明,该方法在识别中文敏感词变形体时有较高的查全率和查准率。 展开更多
关键词 变形体 敏感词识别 编辑距离 KMP算法
在线阅读 下载PDF
时空众包环境下时效均衡的在线任务分配算法 被引量:5
19
作者 张兴盛 余敦辉 +1 位作者 张万山 王晨旭 《计算机应用》 CSCD 北大核心 2019年第5期1357-1363,共7页
针对时空众包任务分配研究中单一考虑任务分配总效用或任务等待时间,导致总体分配效果不佳的问题,提出一种基于分配时间因子的动态阈值算法。首先,基于预估等待分配时间和已等待分配时间计算任务的分配时间因子;其次,综合考虑任务的回... 针对时空众包任务分配研究中单一考虑任务分配总效用或任务等待时间,导致总体分配效果不佳的问题,提出一种基于分配时间因子的动态阈值算法。首先,基于预估等待分配时间和已等待分配时间计算任务的分配时间因子;其次,综合考虑任务的回报值和分配时间因子进行任务分配排序;然后,在初始值的基础上增加动态调整项为每一项任务设置阈值;最后,根据阈值条件为每一项任务设置候选匹配集,并从候选匹配集中选择匹配系数最大的候选匹配对加入结果集,完成任务分配。通过实验证明,该算法在任务分配率达到95.8%的情况下,与贪心算法相比,在分配总效用方面提升20.4%;与随机阈值算法相比,在分配总效用方面提升17.8%,在任务平均等待时间方面缩短13.2%;与基于两阶段框架模型的在线微任务分配改进(TGOA-Greedy)算法相比,在分配总效用方面提升13.9%。实验结果表明,该算法能够在提升任务分配总效用的同时缩短任务的平均等待时间,实现分配总效用与任务等待时间两者间的均衡。 展开更多
关键词 时空众包 在线任务分配 任务分配总效用 任务等待时间 分配时间因子 动态阈值算法
在线阅读 下载PDF
改进的XGBoost在不平衡数据处理中的应用研究 被引量:21
20
作者 宋玲玲 王时绘 +1 位作者 杨超 盛潇 《计算机科学》 CSCD 北大核心 2020年第6期98-103,共6页
传统分类器在处理不平衡数据时,往往会倾向于保证多数类的准确率而牺牲少数类的准确率,导致少数类的误分率较高。针对这一问题,提出一种面向二分类不平衡数据的XGBoost(eXtreme Gradient Boosting)改进方法。其主要思想是分别从数据、... 传统分类器在处理不平衡数据时,往往会倾向于保证多数类的准确率而牺牲少数类的准确率,导致少数类的误分率较高。针对这一问题,提出一种面向二分类不平衡数据的XGBoost(eXtreme Gradient Boosting)改进方法。其主要思想是分别从数据、特征以及算法3个层面针对不平衡数据的特点进行改进。首先在数据层面,通过条件生成式对抗网络(Conditional Generative Adversarial Nets,CGAN)学习少数类样本的分布信息,训练生成器生成少数类补充样本,调节数据的不平衡性;其次在特征层面,先利用XGBoost进行特征组合生成新的特征,再通过最大相关最小冗余(minimal Redundancy-Maximal Relevance,mRMR)算法筛选出更适合不平衡数据分类的特征子集;最后在算法层面,引入针对不平衡数据分类问题的焦点损失函数(Focal Loss)来改进XGBoost,改进后的XGBoost通过新的数据集训练得到最终模型。在实验阶段,选择G-mean和AUC作为评价指标,6组KEEL数据集上的实验结果验证了所提改进方法的可行性;同时将该方法与现有的4种不平衡分类模型进行比较,实验结果表明所提改进方法具有较好的分类效果。 展开更多
关键词 不平衡数据 XGBoost FOCAL LOSS 特征组合 mRMR CGAN
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部