期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于Spark框架的高效KNN中文文本分类算法 被引量:19
1
作者 于苹苹 倪建成 +2 位作者 姚彬修 李淋淋 曹博 《计算机应用》 CSCD 北大核心 2016年第12期3292-3297,共6页
针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-... 针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-medoids聚类算法对训练集进行两次裁剪;然后在分类过程中迭代K值获得分类结果,并在计算过程中结合Spark计算框架对数据进行分区迭代实现并行化。实验结果表明,在不同数据集中传统尽最近邻算法、基于K-medoids的群最近邻算法所耗费时间是所提Spark框架下的B最近邻算法的3.92-31.90倍,所提算法具有较高的计算效率,相较于Hadoop平台有较好的加速比,可有效地对大数据进行分类处理。 展开更多
关键词 K-最近邻 聚类 收缩因子 K-medoids SPARK 并行化计算
在线阅读 下载PDF
基于Spark的并行频繁模式挖掘算法 被引量:13
2
作者 曹博 倪建成 +2 位作者 李淋淋 于苹苹 姚彬修 《计算机工程与应用》 CSCD 北大核心 2016年第20期86-91,共6页
在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最... 在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。 展开更多
关键词 大数据 频繁模式挖掘 TOP-K 模式树 并行计算
在线阅读 下载PDF
基于聚类和Spark框架的加权Slope One算法 被引量:8
3
作者 李淋淋 倪建成 +2 位作者 于苹苹 姚彬修 曹博 《计算机应用》 CSCD 北大核心 2017年第5期1287-1291,1310,共6页
针对传统Slope One算法在相似性计算时未考虑项目属性信息和时间因素对项目相似性计算的影响,以及推荐在当前大数据背景下面临的计算复杂度高、处理速度慢的问题,提出了一种基于聚类和Spark框架的加权Slope One算法。首先,将时间权重加... 针对传统Slope One算法在相似性计算时未考虑项目属性信息和时间因素对项目相似性计算的影响,以及推荐在当前大数据背景下面临的计算复杂度高、处理速度慢的问题,提出了一种基于聚类和Spark框架的加权Slope One算法。首先,将时间权重加入到传统的项目评分相似性计算中,并引入项目属性相似性生成项目综合相似度;然后,结合Canopy-K-means聚类算法生成最近邻居集;最后,利用Spark计算框架对数据进行分区迭代计算,实现该算法的并行化。实验结果表明,基于Spark框架的改进算法与传统Slope One算法、基于用户相似性的加权Slope One算法相比,评分预测准确性更高,较Hadoop平台下的运行效率平均可提高3.5~5倍,更适合应用于大规模数据集的推荐。 展开更多
关键词 SLOPE One算法 聚类 SPARK 时间权重 项目属性
在线阅读 下载PDF
增强纹理平流算法研究 被引量:2
4
作者 鲁大营 朱登明 +2 位作者 王兆其 高仲合 倪建成 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2017年第4期670-679,共10页
当以纹理方式可视化三维矢量场时,纹理卷积会降低矢量纹理脉的对比度,容易出现平流纹理细节模糊与粗糙的问题,为此提出一种增强纹理平流算法.首先通过自定义球体半径确定任一噪声点的邻近点,利用当前噪声点与邻近点间的位置关系计算噪... 当以纹理方式可视化三维矢量场时,纹理卷积会降低矢量纹理脉的对比度,容易出现平流纹理细节模糊与粗糙的问题,为此提出一种增强纹理平流算法.首先通过自定义球体半径确定任一噪声点的邻近点,利用当前噪声点与邻近点间的位置关系计算噪声伪梯度,以测试矢量场局部区域内的变化趋势,选取伪梯度的最大下降幅度参与纹理平流;然后根据任一平流位置处的噪声值对最终输出纹理的贡献度自适应调整噪声权重;最后引入盒型滤波递归合成平滑算子进行纹理卷积来生成矢量体纹理.算法的有效性根据可视化对比度的量化分析函数进行客观评价.实验结果表明,该算法能够有效地增加纹理平流踪迹间强度对比,改善绘制效果,高质量地显示三维矢量场的纹理分布. 展开更多
关键词 矢量场可视化 纹理平流 纹理增强 噪声梯度
在线阅读 下载PDF
具有良恰当断面的富足半群的结构 被引量:1
5
作者 孔祥军 王蓓 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第10期37-44,共8页
利用L^*-幂单半群和R^*-幂单半群,给出具有良恰当断面的富足半群的一个对称的织积结构定理.此结论去掉了拟理想这个重要的前提,且比已有结论的形式更简单.其结果是对逆断面和恰当断面中相应结果的丰富和推广,为进一步研究该类半群的结... 利用L^*-幂单半群和R^*-幂单半群,给出具有良恰当断面的富足半群的一个对称的织积结构定理.此结论去掉了拟理想这个重要的前提,且比已有结论的形式更简单.其结果是对逆断面和恰当断面中相应结果的丰富和推广,为进一步研究该类半群的结构、性质及刻画其上的同余奠定了坚实的理论基础. 展开更多
关键词 富足半群 良恰当断面 L^*-幂单半群
在线阅读 下载PDF
基于多源信息相似度的微博用户推荐算法 被引量:12
6
作者 姚彬修 倪建成 +2 位作者 于苹苹 李淋淋 曹博 《计算机应用》 CSCD 北大核心 2017年第5期1382-1386,共5页
针对传统的协同过滤(CF)推荐算法中存在的数据稀疏性和推荐准确率不高的问题,提出了基于多源信息相似度的微博用户推荐算法(MISUR)。首先,根据微博用户的标签信息运用K最近邻(KNN)算法对用户进行分类;然后,对得到的每个类中的用户分别... 针对传统的协同过滤(CF)推荐算法中存在的数据稀疏性和推荐准确率不高的问题,提出了基于多源信息相似度的微博用户推荐算法(MISUR)。首先,根据微博用户的标签信息运用K最近邻(KNN)算法对用户进行分类;然后,对得到的每个类中的用户分别计算其多源信息(微博内容、交互关系和社交信息)的相似度;其次,引入时间权重和丰富度权重计算多源信息的总相似度,并根据其大小进行TOP-N用户推荐;最后,在并行计算框架Spark上进行实验。实验结果表明,MISUR算法与CF算法和基于多社交行为的微博好友推荐算法(MBFR)相比,在准确率、召回率和效率方面都有较大幅度的提升,说明了MISUR算法的有效性。 展开更多
关键词 多源信息 稀疏性 相似度 时间权重 丰富度权重
在线阅读 下载PDF
一种基于Canopy和粗糙集的CRS-KNN文本分类算法 被引量:9
7
作者 姚彬修 倪建成 +2 位作者 于苹苹 曹博 李淋淋 《计算机工程与应用》 CSCD 北大核心 2017年第11期172-177,共6页
针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了一种基于Canopy和粗糙集的CRS-KNN(Canopy Rough Set-KNN)文本分类算法。算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集... 针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了一种基于Canopy和粗糙集的CRS-KNN(Canopy Rough Set-KNN)文本分类算法。算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似作差所得的边界区域数据需要通过KNN算法确定其最终的类别。实验结果表明,该算法降低了KNN算法的数据计算规模,提高了分类效率。同时与传统的KNN算法和基于聚类改进的KNN文本分类算法相比,准确率、召回率和F_1值都得到了一定的提高。 展开更多
关键词 Canopy聚类 粗糙集 K-最近邻(KNN)算法 文本分类
在线阅读 下载PDF
基于改进的TF-IDF算法及共现词的主题词抽取算法 被引量:18
8
作者 公冶小燕 林培光 +2 位作者 任威隆 张晨 张春云 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第6期1072-1080,共9页
信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词... 信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词权重构建文档—共现词矩阵并建立潜在语义分析(Latent Semantic Analysis,LSA)模型.该方法借助LSA模型的奇异值分解(Singular Value Decomposition,SVD)将文档—共现词矩阵映射到潜在语义空间,不仅实现数据降维,而且获得低维度的文档相似矩阵.最后,对文档相似矩阵进行k-means聚类,在同类文档中选出词权重最大的前几对共现词,作为该类文章的主题词.对比基于TF-IDF(Term Frequency-Inverse Document Frequency)和共现词抽取主题词的实验,该算法的准确度分别提高了19%和10%. 展开更多
关键词 共现词 互信息 语义分析(LSA) 奇异值分解(SVD) TERM Frequency-Inverse Document Frequency(TF-IDF)
在线阅读 下载PDF
流场可视化的最优视点选择方法 被引量:5
9
作者 鲁大营 朱登明 王兆其 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2017年第12期2281-2287,共7页
针对流场可视化当前视点下存在的遮挡与可能面临的非交互式环境的问题,提出一种最优视点选择方法.首先,根据当前视点下的流场行为和结构信息及可视投影的图像质量,利用信息理论概念进行最优视点综合性度量;其次,应用可视成像的相关性对... 针对流场可视化当前视点下存在的遮挡与可能面临的非交互式环境的问题,提出一种最优视点选择方法.首先,根据当前视点下的流场行为和结构信息及可视投影的图像质量,利用信息理论概念进行最优视点综合性度量;其次,应用可视成像的相关性对视点间的相似性评估,以决定两视点间的最小重叠;最后,结合K均值聚类方法将相似视点归为一类,每一类中视点熵值最高的视点作为最具代表性的视点.应用各种流场数据集进行可视化最佳视点选择实验,给出了视点选择效果图、与其他方法的最优视点效果对比图以及选择过程的计算时间.实验结果表明,该方法能够自动、有效地进行最优视点选择. 展开更多
关键词 纹理可视化 视点选择 流场结构 信息熵
在线阅读 下载PDF
基于YOLO的自然场景倾斜文本定位方法研究 被引量:5
10
作者 周翔宇 高仲合 《计算机工程与应用》 CSCD 北大核心 2020年第9期213-220,共8页
为了提升倾斜文本区域定位的准确度,提出了一种基于YOLO算法改进的YOLO_BOX定位模型。设置不同尺寸的anchor对图片进行训练,且定义LOSS损失函数训练预测模型;使用K-means算法对box进行聚类,并利用NMS方法进行多余候选框过滤;利用Angle C... 为了提升倾斜文本区域定位的准确度,提出了一种基于YOLO算法改进的YOLO_BOX定位模型。设置不同尺寸的anchor对图片进行训练,且定义LOSS损失函数训练预测模型;使用K-means算法对box进行聚类,并利用NMS方法进行多余候选框过滤;利用Angle Correct算法对聚类后的box进行灰度化处理,通过计算像素灰度值的方差来得到文字的倾斜角度并进行角度矫正。实验结果表明,优化后的YOLO_BOX定位模型在ICDAR2015数据集上,对自然场景中倾斜文本区域的定位中具有较高的准确率和召回率。 展开更多
关键词 深度学习 卷积神经网络 目标检测 倾斜文本定位 聚类
在线阅读 下载PDF
融合语义标签和噪声先验的图像生成 被引量:2
11
作者 张素素 倪建成 +1 位作者 周子力 侯杰 《计算机应用》 CSCD 北大核心 2020年第5期1431-1439,共9页
针对现有生成模型难以直接从复杂语义标签生成高分辨率图像的问题,提出了融合语义标签和噪声先验的生成对抗网络(SLNP-GAN)。首先,直接输入语义标签(包含形状、位置和类别等信息),使用全局生成器对其进行编码,并结合噪声先验来学习粗粒... 针对现有生成模型难以直接从复杂语义标签生成高分辨率图像的问题,提出了融合语义标签和噪声先验的生成对抗网络(SLNP-GAN)。首先,直接输入语义标签(包含形状、位置和类别等信息),使用全局生成器对其进行编码,并结合噪声先验来学习粗粒度的全局属性,初步合成低分辨率图像;然后,基于注意力机制,使用局部细化生成器来查询低分辨率图像子区域对应的高分辨率子标签,获取细粒度信息,从而生成纹理清晰的复杂图像;最后,采用改进的引入动量的Adam算法(AMM)算法来优化对抗训练。实验结果表明,与现有方法text2img相比,所提方法的像素精确度(PA)在COCO_Stuff和ADE20K数据集上分别提高了23.73%和11.09%;相较于Adam算法,AMM算法收敛速度提升了约一倍,且损失值波幅较小。可见,SLNP-GAN能高效地获取全局特征和局部纹理,生成细粒度、高质量的图像。 展开更多
关键词 语义标签 噪声先验 注意力机制 引入动量的Adam算法 生成对抗网络
在线阅读 下载PDF
融合反向传播的无参考模糊图像质量评价 被引量:2
12
作者 赵月 王来花 +2 位作者 王伟胜 乔丽娟 阮泉 《计算机应用与软件》 北大核心 2022年第9期248-254,306,共8页
针对图像中的高斯模糊失真,提出一种融合反向传播的无参考模糊图像质量评价方法。利用分水岭算法标记出的连通域计算密度差值;利用Tamura纹理特征模型和拉普拉斯算子分别度量图像的粗糙度和清晰度;将提取的密度差、粗糙度和清晰度输入... 针对图像中的高斯模糊失真,提出一种融合反向传播的无参考模糊图像质量评价方法。利用分水岭算法标记出的连通域计算密度差值;利用Tamura纹理特征模型和拉普拉斯算子分别度量图像的粗糙度和清晰度;将提取的密度差、粗糙度和清晰度输入反向传播(Back-Propagation,BP)神经网络进行训练,实现对高斯模糊失真图像的质量预测。实验证明,该方法在质量评价以及一致性方面均优于对比方法。此外,该方法解决了实际应用中因缺乏参考图像而不能进行质量评价的问题。 展开更多
关键词 BP神经网络 高斯模糊 图像质量评价 无参考 连通域 粗糙度 清晰度
在线阅读 下载PDF
TransP:一种基于WordNet中PartOf关系的知识图谱嵌入方法 被引量:2
13
作者 李天宇 周子力 +2 位作者 赵晓函 陈丹华 王凯莉 《计算机应用与软件》 北大核心 2022年第5期241-246,266,共7页
在三元组(lip,PartOf,mouth)中,PartOf关系连接的头实体lip具有部分属性,尾实体mouth则具有整体属性,对这类三元组进行嵌入表示时,头实体和尾实体不应以同样的方式编码。对此,将PartOf关系三元组中的实体编码为一个球体,球心表示对应实... 在三元组(lip,PartOf,mouth)中,PartOf关系连接的头实体lip具有部分属性,尾实体mouth则具有整体属性,对这类三元组进行嵌入表示时,头实体和尾实体不应以同样的方式编码。对此,将PartOf关系三元组中的实体编码为一个球体,球心表示对应实体的低维语义空间向量,利用球体的相对位置关系对WordNet中实体间的PartOf关系进行建模,将其命名为TransP模型。在WN18数据集上对TransP进行了链接预测和三元组分类实验,验证了TransP模型的有效性。 展开更多
关键词 知识图谱嵌入 PartOf关系 低维语义空间
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部