期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于距离度量的癌症预测分类算法研究
1
作者 殷丽凤 刘浩琦 《大连交通大学学报》 2025年第2期106-112,共7页
为了提高分类算法的效率及准确性,提出一种基于距离度量的二分类算法模型并应用于癌症识别领域。首先,利用k-means聚类找到数据集的聚类中心,计算每个样本点到聚类中心的曼哈顿距离、余弦相似度和马氏距离。其次,采用距离度量替换原有... 为了提高分类算法的效率及准确性,提出一种基于距离度量的二分类算法模型并应用于癌症识别领域。首先,利用k-means聚类找到数据集的聚类中心,计算每个样本点到聚类中心的曼哈顿距离、余弦相似度和马氏距离。其次,采用距离度量替换原有属性放入GBM和XGBoost分类器进行学习的方式来压缩数据属性,以减少分类器的训练压力、提高训练效率,并用训练好的模型对测试集进行预测。最后,设计3组不同训练方式进行对比试验,用分类评估标准评估模型性能,并控制参数从多个角度验证TCDM的合理性。试验结果表明,TCDM相较于其他分类模型在癌症识别领域中有更高的性能和准确率。 展开更多
关键词 分类算法 余弦相似度 马氏距离 曼哈顿距离 K-MEANS聚类
在线阅读 下载PDF
启发式k-means聚类算法的改进研究 被引量:2
2
作者 殷丽凤 栗庆杰 《大连交通大学学报》 CAS 2024年第2期115-119,共5页
启发式k-means聚类算法通过在k-means第一次迭代后查看附近的集群来预测每个数据点可能会被划分到的集群子集,有效地加快了算法的运行速度。但由于启发式算法存在随机选择初始聚类中心以及无法有效识别数据集中离群点的缺陷,导致聚类结... 启发式k-means聚类算法通过在k-means第一次迭代后查看附近的集群来预测每个数据点可能会被划分到的集群子集,有效地加快了算法的运行速度。但由于启发式算法存在随机选择初始聚类中心以及无法有效识别数据集中离群点的缺陷,导致聚类结果的误差平方和较大并且轮廓系数偏小。针对这一问题,提出了CHk-means算法,该算法引入仔细播种方法,克服了启发式k-means算法随机选择初始聚类中心带来的局部最优解问题;该算法引入局部异常因子LOF算法对离群点进行检测,降低了离群点数据对聚类结果的影响。在多个数据集上对3种算法进行对比试验,结果表明CHk-means算法可有效降低聚类结果的误差平方和,增强聚类的轮廓系数,使聚类质量得到明显改善。 展开更多
关键词 聚类算法 K-MEANS 启发式算法 仔细播种 局部异常因子 离群点
在线阅读 下载PDF
基于Apriori算法的关联规则分析应用 被引量:19
3
作者 殷丽凤 李明状 《电子设计工程》 2023年第15期11-14,19,共5页
Apriori算法是关联规则的经典算法之一。文中是基于对Apriori算法原理的研究从而完成电影标签推荐的应用,实现当用户给自己喜欢的电影打标签时,可通过关联规则进行电影推荐。实验采用Python语言实现Apriori算法,对数据集MovieLens采用On... Apriori算法是关联规则的经典算法之一。文中是基于对Apriori算法原理的研究从而完成电影标签推荐的应用,实现当用户给自己喜欢的电影打标签时,可通过关联规则进行电影推荐。实验采用Python语言实现Apriori算法,对数据集MovieLens采用One-hot编码进行处理,利用Apriori算法寻找到数据集中的频繁项集,根据找到的频繁项集生成关联规则。实验结果表明,基于Apriori算法的电影标签推荐得到的实验结果更准确、快速、高效,同时也取得了良好的电影标签推荐效果,从而提升用户体验。 展开更多
关键词 APRIORI算法 电影推荐 关联规则 数据挖掘
在线阅读 下载PDF
概率XML数据模型的综述 被引量:2
4
作者 殷丽凤 金花 田宏 《电子设计工程》 2011年第23期88-91,共4页
随着XML成为网络信息表示和交换的标准以及不确定数据的广泛存在,概率XML数据库管理技术成为了当今研究的热点,研究者根据概率数据的类型和解决实际问题的需要提出了多种概率XML数据模型。首先介绍了概率XML数据管理技术的概念,特点和挑... 随着XML成为网络信息表示和交换的标准以及不确定数据的广泛存在,概率XML数据库管理技术成为了当今研究的热点,研究者根据概率数据的类型和解决实际问题的需要提出了多种概率XML数据模型。首先介绍了概率XML数据管理技术的概念,特点和挑战;其次综述了概率XML数据和概率XML数据模型,各种模型的核心思想都来自于可能世界模型,通过选择孩子节点以及删除节点可得到一个可能世界的实例,而且所有实例的概率之和为1;最后介绍了不同模型之间的转换关系。为概率XML数据库的查询、规范化理论奠定了基础。 展开更多
关键词 概率XML数据 概率XML数据模型 可能世界 模型转换
在线阅读 下载PDF
XML强闭包依赖范式的研究 被引量:1
5
作者 殷丽凤 郝忠孝 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2010年第4期496-502,共7页
为了解决从数据库整体的角度来消除基于不完全信息的XML数据冗余问题,研究了在不完全信息环境下XML数据库的各个模式之间存在的XML强闭包依赖引起数据冗余的判定条件和规范化算法.首先,给出了XML强函数依赖和XML强闭包依赖两者互不影响... 为了解决从数据库整体的角度来消除基于不完全信息的XML数据冗余问题,研究了在不完全信息环境下XML数据库的各个模式之间存在的XML强闭包依赖引起数据冗余的判定条件和规范化算法.首先,给出了XML强函数依赖和XML强闭包依赖两者互不影响的定义;其次,提出了XML强函数依赖和非循环XML强闭包依赖互不影响的判定定理,研究了XML强闭包依赖范式以及相应的判定定理;最后,提出了把XML数据库模式转化为XML强闭包依赖范式的规范化算法,对时间复杂度进行了分析.该算法消除了冗余路径,避免了更新异常,实现了整个XML数据库模式更合理的设计. 展开更多
关键词 不完全信息 XML强函数依赖 XML强闭包依赖 XML强闭包依赖范式
在线阅读 下载PDF
基于Python网上招聘信息的爬取和分析 被引量:11
6
作者 殷丽凤 张浩然 《电子设计工程》 2019年第20期22-26,共5页
针对Python语言的大数据爬取和分析,采用以纯python语言编写爬虫脚本的方式,通过爬取51job上招聘信息为“python”和“数据分析”两个词条的数据信息和简要分析,得出python爬虫编写中各类问题的解决方法,最后对规范数据做了进一步分析,... 针对Python语言的大数据爬取和分析,采用以纯python语言编写爬虫脚本的方式,通过爬取51job上招聘信息为“python”和“数据分析”两个词条的数据信息和简要分析,得出python爬虫编写中各类问题的解决方法,最后对规范数据做了进一步分析,分析结果为应聘人才做决策提供了有价值的信息。 展开更多
关键词 PYTHON语言 网络爬虫 数据预处理 规范数据 数据分析
在线阅读 下载PDF
XML亚强函数依赖及其推理规则 被引量:1
7
作者 殷丽凤 刘亚欣 田宏 《电子设计工程》 2012年第1期6-9,共4页
为了解决不完全信息环境下XML亚强函数依赖的逻辑蕴涵问题,基于XML Schema研究了XML亚强函数依赖及其推理规则。给出了XML Schema、符合XML Schema的不完全XML文档树等概念;基于子树信息等价、子树信息相容的概念提出了XML亚强函数依赖... 为了解决不完全信息环境下XML亚强函数依赖的逻辑蕴涵问题,基于XML Schema研究了XML亚强函数依赖及其推理规则。给出了XML Schema、符合XML Schema的不完全XML文档树等概念;基于子树信息等价、子树信息相容的概念提出了XML亚强函数依赖的定义和性质;提出了相应的推理规则集,并对其正确性进行了证明。为不完全信息环境下存在XML亚强函数依赖的XML Schema规范化的研究奠定了基础。 展开更多
关键词 不完全信息 子树信息相容 子树信息等价 XML亚强函数依赖 推理规则
在线阅读 下载PDF
粗糙XML函数依赖及其推理规则 被引量:1
8
作者 殷丽凤 邱占芝 《电子设计工程》 2014年第3期4-6,10,共4页
随着XML成为网络信息表示和交换的标准以及不确定数据的广泛存在,不确定XML数据库管理技术成为了当今研究的热点。基于粗糙集理论提出了XML信息系统模型、粗糙XML树信息系统、粗糙冗余等定义,基于粗糙XML信息系统的上近似、下近似给出... 随着XML成为网络信息表示和交换的标准以及不确定数据的广泛存在,不确定XML数据库管理技术成为了当今研究的热点。基于粗糙集理论提出了XML信息系统模型、粗糙XML树信息系统、粗糙冗余等定义,基于粗糙XML信息系统的上近似、下近似给出了粗糙XML函数依赖的定义及推理规则,并对推理规则的正确性进行了证明。为粗糙XML数据库理论的进一步研究奠定了基础。 展开更多
关键词 粗糙集 粗糙XML树信息系统 粗糙冗余 粗糙XML函数依赖 推理规则
在线阅读 下载PDF
基于Spark回归分析的共享单车需求量研究 被引量:1
9
作者 殷丽凤 李钊 《电子设计工程》 2023年第8期5-9,共5页
共享单车作为一项科技创新产品,解决了城市最后一公里的难题。针对共享单车供需关系不平衡且复杂多变的特性,以及解决传统机器学习工具工作复杂、流程不清晰等问题,采用Spark计算框架以及Spark机器学习管道将UCI实验室共享单车数据集应... 共享单车作为一项科技创新产品,解决了城市最后一公里的难题。针对共享单车供需关系不平衡且复杂多变的特性,以及解决传统机器学习工具工作复杂、流程不清晰等问题,采用Spark计算框架以及Spark机器学习管道将UCI实验室共享单车数据集应用到Spark平台,并结合线性回归、决策树、随机森林、梯度提升树这四种机器学习方法分别构建了不同的回归模型。得出随机森林的预测效果最好,RMSE、MAE和R^(2)分别为50.95、34.67和0.92。该模型具有较高的准确率,可为单车调度和预测提供较好的参考。 展开更多
关键词 机器学习 回归分析 需求量预测 SPARK
在线阅读 下载PDF
消除XML亚强多值依赖引起冗余的一种分解方法
10
作者 殷丽凤 金宇 邱占芝 《电子设计工程》 2014年第4期5-8,共4页
数据约束是数据库规范化理论的基础,不完全信息引入XML文档后,需要重新定义数据约束。本文基于子树信息等价和子树信息相容的概念给出了XML亚强多值依赖的定义;提出了弱键路径和XML亚强多值依赖弱范式的定义,通过实例分析XML亚强多值依... 数据约束是数据库规范化理论的基础,不完全信息引入XML文档后,需要重新定义数据约束。本文基于子树信息等价和子树信息相容的概念给出了XML亚强多值依赖的定义;提出了弱键路径和XML亚强多值依赖弱范式的定义,通过实例分析XML亚强多值依赖引起数据冗余的原因,提出分解不完全XML文档满足XML亚强多值依赖弱范式的定理。研究成果可较好的处理不完全XML文档中存在XML亚强多值依赖引起的数据冗余问题,避免了数据冗余所带来的操作异常。 展开更多
关键词 不完全信息 子树信息等价 子树信息相容 XML亚强多值依赖 XML亚强多值依赖弱范式
在线阅读 下载PDF
利用函数拟合对DeepFM算法的改进研究
11
作者 殷丽凤 苗子宇 《电子设计工程》 2023年第13期36-40,共5页
DeepFM模型是基于FM模型与Wide&Deep模型的改进,该推荐算法主要基于深度学习通过已知特征来预测用户点击某一按钮的概率。但随着电子商务的发展,不仅需要通过横向特征预测用户点击某一按钮的概率,还要纵向考虑该按钮在不同时间段的... DeepFM模型是基于FM模型与Wide&Deep模型的改进,该推荐算法主要基于深度学习通过已知特征来预测用户点击某一按钮的概率。但随着电子商务的发展,不仅需要通过横向特征预测用户点击某一按钮的概率,还要纵向考虑该按钮在不同时间段的点击概率变化。文中对DeepFM进行了改进,引用了拟合函数的方法,通过各个拟合的函数计算出点击概率变化的函数图像,延展该图像得知该按钮被点击概率随着第三维坐标时间值的变化,从而实现了各种用户在不同时间对于不同商品需求的预测。该算法运用了相对平滑的函数曲线来拟合模型计算的结果,提高了模型的精确度。 展开更多
关键词 推荐算法 需求预测 函数拟合 深度学习
在线阅读 下载PDF
基于粒计算的XML近似多值依赖的判定算法
12
作者 金花 殷丽凤 《电子设计工程》 2015年第11期12-15,18,共5页
为了解决不确定XML数据规范化问题,提出了一种基于粒计算的XML近似多值依赖的判定算法。首先提出集值XML数据模型、集值XML数据库等基本概念;借助相似关系给出XML近似多值依赖的定义;根据等价粒分析如何利用位模式表示集值XML数据库中... 为了解决不确定XML数据规范化问题,提出了一种基于粒计算的XML近似多值依赖的判定算法。首先提出集值XML数据模型、集值XML数据库等基本概念;借助相似关系给出XML近似多值依赖的定义;根据等价粒分析如何利用位模式表示集值XML数据库中的信息值,提出路径间存在XML近似多值依赖的判定算法,并对算法的时间复杂性进行了分析。通过实例分析,对于信息值采用位模式,数据格式更接近机器内部表示,算法的运算效率与速度也得到了提高。 展开更多
关键词 集值XML数据 相似关系 XML近似多值依赖 等价粒 位模式
在线阅读 下载PDF
基于贝叶斯网络的隐私数据研究
13
作者 石雪松 殷丽凤 《信息技术与信息化》 2023年第9期119-122,共4页
随着大数据技术在各个领域的广泛应用,如何保护个人隐私已经成为了需要解决的问题,在个人隐私保护方面,差分隐私保护模型已经成为对隐私数据保护的首选模型。将贝叶斯网络与差分隐私保护模型结合起来可以对数据提供有效的保护。针对贝... 随着大数据技术在各个领域的广泛应用,如何保护个人隐私已经成为了需要解决的问题,在个人隐私保护方面,差分隐私保护模型已经成为对隐私数据保护的首选模型。将贝叶斯网络与差分隐私保护模型结合起来可以对数据提供有效的保护。针对贝叶斯网络随机选择首结点的问题进行改进,在PrivBayes的基础上提出了改进算法I-PrivBayes,对数据中的各个属性引入独立性权重,快速准确地选出首结点。通过实验表明方法能大幅度提升数据的准确性和隐私安全性。 展开更多
关键词 差分隐私 贝叶斯网络 独立性权重
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部