期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于LDA主题模型的分布式信息检索集合选择方法 被引量:22
1
作者 何旭峰 陈岭 +3 位作者 陈根才 钱坤 吴勇 王敬昌 《中文信息学报》 CSCD 北大核心 2017年第3期125-133,共9页
该文针对分布式信息检索时不同集合对最终检索结果贡献度有差异的现象,提出一种基于LDA主题模型的集合选择方法。该方法首先使用基于查询的采样方法获取各集合描述信息;其次,通过建立LDA主题模型计算查询与文档的主题相关度;再次,用基... 该文针对分布式信息检索时不同集合对最终检索结果贡献度有差异的现象,提出一种基于LDA主题模型的集合选择方法。该方法首先使用基于查询的采样方法获取各集合描述信息;其次,通过建立LDA主题模型计算查询与文档的主题相关度;再次,用基于关键词相关度与主题相关度相结合的方法估计查询与样本集中文档的综合相关度,进而估计查询与各集合的相关度;最后,选择相关度最高的M个集合进行检索。实验部分采用R_(m)、P@n和MAP作为评价指标,对集合选择方法的性能进行了验证。实验结果表明该方法能更准确的定位到包含相关文档多的集合,提高了检索结果的召回率和准确率。 展开更多
关键词 集合选择 分布式信息检索 LDA
在线阅读 下载PDF
基于改进DPhyp算法的Impala查询优化 被引量:3
2
作者 周强 陈岭 +3 位作者 马骄阳 赵宇亮 吴勇 王敬昌 《计算机研究与发展》 EI CSCD 北大核心 2013年第S2期114-120,共7页
针对目前基于动态规划查询超图(dynamic programming hypergraphs,DPhyp)优化SQL查询算法产生指数运行时间、传统代价模型难以直接适用于Impala大数据实时查询系统等问题,提出基于改进DPhyp算法的Impala查询优化方法.首先,构建满足左线... 针对目前基于动态规划查询超图(dynamic programming hypergraphs,DPhyp)优化SQL查询算法产生指数运行时间、传统代价模型难以直接适用于Impala大数据实时查询系统等问题,提出基于改进DPhyp算法的Impala查询优化方法.首先,构建满足左线性树的搜索策略,缩小整个执行计划的搜索空间;接着,综合考虑数据移动代价及Hash join算法运行等关键因素,结合提出的代价模型,生成最佳的join顺序;最后,在生成的join顺序基础上构建执行计划,执行后返回最终查询结果.大量实验结果表明,改进的DPhyp算法与DPhyp生成的join顺序一致,且前者算法运行效率比后者要快近一倍.另外,改进的DPhyp算法结合提出的代价模型,比原始的Impala查询响应时间平均减少67%~80%. 展开更多
关键词 查询超图 代价模型 Impala大数据实时查询 左线性树 执行计划
在线阅读 下载PDF
基于多路层次聚类的商品评论数据概念分类构建 被引量:3
3
作者 涂鼎 陈岭 +2 位作者 陈根才 吴勇 王敬昌 《计算机研究与发展》 EI CSCD 北大核心 2013年第S2期208-215,共8页
针对基于传统层次聚类构建概念分类只能生成二叉树形式结果的限制,提出一种新的评论集概念分类构建方法.首先,使用主题模型对评论集进行描述,选出评论集中最具代表性的主题词作为候选概念词.接着,使用WordNet提取概念词间的语义关系,并... 针对基于传统层次聚类构建概念分类只能生成二叉树形式结果的限制,提出一种新的评论集概念分类构建方法.首先,使用主题模型对评论集进行描述,选出评论集中最具代表性的主题词作为候选概念词.接着,使用WordNet提取概念词间的语义关系,并计算概念词间的语义距离.最后,对概念词进行多路层次聚类,生成概念分类.此外,还提出一种新的概念分类构建性能评价标准,并使用该标准在用户评论数据集上将提出方法与基本层次聚类方法进行了比较,结果表明使用多路层次聚类的方法能够获得与目标概念分类更高的相似度. 展开更多
关键词 概念分类 WORDNET 层次聚类 文本挖掘 本体评价
在线阅读 下载PDF
基于历史点击数据的集合选择方法 被引量:2
4
作者 刘颖 陈岭 +2 位作者 陈根才 赵江奇 王敬昌 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第1期23-28,161,共7页
针对分布式信息检索时不同信息集对最终检索结果贡献度有差异的现象,提出基于历史点击数据的集合选择方法(PCTD-CS).该方法利用点击数据估计各集合与历史查询的相关度.采用基于关键词和基于检索结果相结合的方法估计查询间的相似度.利... 针对分布式信息检索时不同信息集对最终检索结果贡献度有差异的现象,提出基于历史点击数据的集合选择方法(PCTD-CS).该方法利用点击数据估计各集合与历史查询的相关度.采用基于关键词和基于检索结果相结合的方法估计查询间的相似度.利用历史查询中的相似查询估计新查询与各集合的相关度,选择相关度最高的M个集合进行检索,给出要获取前k个文档的情况下各集合应当返回的文档数.采用召回率Rm、前n个检索结果的准确率P@n及平均准确率MAP对集合选择方法的性能进行验证.实验结果表明,采用PCTD-CS方法提高了检索结果的召回率和准确率,能够更准确地定位到包含相关文档多的集合. 展开更多
关键词 分布式信息检索 集合选择 相似查询 点击数据
在线阅读 下载PDF
基于浓密树和改进McCHyp算法的Impala查询优化 被引量:1
5
作者 马骄阳 陈岭 +3 位作者 赵宇亮 杨谊 吴勇 王敬昌 《计算机研究与发展》 EI CSCD 北大核心 2014年第S2期39-47,共9页
针对Impala大数据实时查询系统在查询优化上存在的问题,提出基于浓密树和改进的MinCutConservative Hypergraph(McCHyp)算法的Impala查询优化方法.首先,修改Impala使其支持浓密树的查询计划;接着,使用剪枝策略对McCHyp算法进行改进,减... 针对Impala大数据实时查询系统在查询优化上存在的问题,提出基于浓密树和改进的MinCutConservative Hypergraph(McCHyp)算法的Impala查询优化方法.首先,修改Impala使其支持浓密树的查询计划;接着,使用剪枝策略对McCHyp算法进行改进,减少查询优化的时间;最后,提出一种适用于Impala的代价模型,并将改进的McCHyp算法集成到Impala中,根据用户的SQL语句生成较优的查询计划.在Impala系统上实现了本文提出的查询优化方法并在TPC-H数据集上进行了实验,结果表明改进的McCHyp算法与McCHyp算法对连接超图的优化结果一致,且前者的运行时间减少了43.82%~62.55%.同时,使用改进的McCHyp算法及新的代价模型对查询语句优化后,查询响应时间较原始的Impala系统减少了79.60%. 展开更多
关键词 查询优化 IMPALA 代价模型 浓密树 查询计划
在线阅读 下载PDF
基于图神经网络的地表水水质预测模型 被引量:13
6
作者 许佳辉 王敬昌 +1 位作者 陈岭 吴勇 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2021年第4期601-607,共7页
针对水质数据在时间和空间维度上的复杂依赖关系,提出基于图神经网络(GNN)的地表水水质预测模型.该模型采用GNN建模地表水水质监测站点在空间上的复杂依赖关系,使用长短时记忆网络(LSTM)建模水质指标序列在时间上的复杂依赖关系,将编码... 针对水质数据在时间和空间维度上的复杂依赖关系,提出基于图神经网络(GNN)的地表水水质预测模型.该模型采用GNN建模地表水水质监测站点在空间上的复杂依赖关系,使用长短时记忆网络(LSTM)建模水质指标序列在时间上的复杂依赖关系,将编码结果输入到解码器中得到预测输出.实验结果表明,与时间序列分析方法、通用回归方法和一般深度学习方法相比,该模型能够实现23.3%、26.6%和14.8%的性能提升. 展开更多
关键词 水质预测 图神经网络(GNN) 深度神经网络 长短时记忆网络(LSTM) 深度学习
在线阅读 下载PDF
基于CQPM的OLAP查询日志挖掘及推荐 被引量:1
7
作者 殷婷 肖敏 +2 位作者 陈岭 赵江奇 王敬昌 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第11期2052-2060,2080,共10页
为提高用户的使用效率,提出基于连续查询模式挖掘(CQPM)算法的联机分析处理(OLAP)查询日志挖掘及推荐方法.CQPM算法在双向扩展频繁闭合序列模式挖掘算法(BIDE)的基础上加入查询之间的间隔约束,确保查询模式的连续性.提出方法通过基于查... 为提高用户的使用效率,提出基于连续查询模式挖掘(CQPM)算法的联机分析处理(OLAP)查询日志挖掘及推荐方法.CQPM算法在双向扩展频繁闭合序列模式挖掘算法(BIDE)的基础上加入查询之间的间隔约束,确保查询模式的连续性.提出方法通过基于查询后缀树的模糊查询模式匹配(AQPM)算法预测用户下一步有效查询,并将预测结果按概率大小排序后推荐给用户.通过8名OLAP分析人员在Mondrian OLAP服务器上的查询日志对提出方法进行性能评价,结果表明,相较基于prefixspan的改进算法,采用CQPM算法能够去除数量庞大的冗余的查询模式,相较基本的前缀匹配算法,AQPM算法能够提高推荐的准确率. 展开更多
关键词 数据仓库 查询日志 OLAP 推荐
在线阅读 下载PDF
基于在线层次化非负矩阵分解的文本流主题检测 被引量:2
8
作者 涂鼎 陈岭 +2 位作者 陈根才 吴勇 王敬昌 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2016年第8期1618-1626,共9页
针对文本流主题检测中存在的主题结构扁平问题,提出在线的层次化非负矩阵分解方法,在每个时间片中根据归一化累计折损增益选择主题节点进行分解,接着反复将文档分配给最相关的主题节点构建主题层次,该过程中假设主题在由不同时间片中相... 针对文本流主题检测中存在的主题结构扁平问题,提出在线的层次化非负矩阵分解方法,在每个时间片中根据归一化累计折损增益选择主题节点进行分解,接着反复将文档分配给最相关的主题节点构建主题层次,该过程中假设主题在由不同时间片中相似主题节点构成的序列中连续再演化,在当前时间片对主题节点进行分解时考虑过去时间片中主题节点的分解结果.该方法不仅能在线的发现和更新文本流中的主题,而且还可揭示主题间的结构关系.在Nist TDT2数据集上的实验结果表明,该方法在NMI、Micro F1、MAP和NDCG等指标下均显著超过了其他动态NMF方法,并在时间效率上显示出一定优势. 展开更多
关键词 动态主题模型 层次聚类 非负矩阵分解
在线阅读 下载PDF
基于门控循环单元的多因素感知短期游客人数预测模型 被引量:6
9
作者 王敬昌 陈岭 +2 位作者 余珊珊 蒋晨书 吴勇 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2019年第12期2357-2364,共8页
提出的预测模型采取分时序分段策略,使用卷积神经网络(CNN)提取景区多因素时序数据的特征,并对不同因素的时序数据赋予不同的权重,将结果送入门控循环单元(GRU)以挖掘其中的时序信息,结合预测时刻的情境信息(天气状况和节假日)预测短期... 提出的预测模型采取分时序分段策略,使用卷积神经网络(CNN)提取景区多因素时序数据的特征,并对不同因素的时序数据赋予不同的权重,将结果送入门控循环单元(GRU)以挖掘其中的时序信息,结合预测时刻的情境信息(天气状况和节假日)预测短期景区内游客人数.在某景区的闸机数据集和监控点车辆数据集上的实验结果表明:基于门控循环单元的多因素感知短期游客人数预测模型可以充分考虑多情境因素并对不同因素时序数据赋予不同的权重,均方根误差(RMSE)和平均绝对百分比误差(MAPE)均小于传统模型,能够有效降低短期游客人数预测误差。 展开更多
关键词 短期游客人数预测 多因素感知 门控循环单元(GRU) 卷积神经网络(CNN) 情境信息
在线阅读 下载PDF
基于深度神经网络的多因素感知终端换机预测模型 被引量:5
10
作者 陈纬奇 王敬昌 +2 位作者 陈岭 杨勇勤 吴勇 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2021年第1期109-115,共7页
针对基于特征工程的传统终端换机预测模型依赖于领域知识且无法充分利用用户通话、流量使用等序列数据的问题,提出基于深度神经网络的多因素融合终端换机预测模型.该模型使用长短时记忆网络(LSTM)提取用户通话、流量使用行为序列特征,... 针对基于特征工程的传统终端换机预测模型依赖于领域知识且无法充分利用用户通话、流量使用等序列数据的问题,提出基于深度神经网络的多因素融合终端换机预测模型.该模型使用长短时记忆网络(LSTM)提取用户通话、流量使用行为序列特征,使用全连接网络融合用户自然属性、行为序列特征和历史换机信息,预测用户是否换机.实验表明,基于深度神经网络的多因素融合终端换机预测模型能够考虑影响用户换机的多种因素,充分挖掘用户通话、流量使用行为序列特征;当召回率为0.135时,相比于传统模型精确率提高了34.3%. 展开更多
关键词 终端换机预测 多因素感知 深度神经网络 长短时记忆网络 全连接网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部