期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于GBDT的个人信用评估方法 被引量:15
1
作者 王黎 廖闻剑 《电子设计工程》 2017年第15期68-72,共5页
近年来,个人信用评估问题成为信贷行业的研究热点,针对当前应用于信用评估的分类算法大多存在只对某种类型的信用数据集具有较好的分类效果的问题,提出了基于Gradient Boosted Decision Tree(GBDT)的个人信用评估方法。GBDT天然可处理... 近年来,个人信用评估问题成为信贷行业的研究热点,针对当前应用于信用评估的分类算法大多存在只对某种类型的信用数据集具有较好的分类效果的问题,提出了基于Gradient Boosted Decision Tree(GBDT)的个人信用评估方法。GBDT天然可处理混合数据类型的数据集,可以发现多种有区分性的特征以及特征组合,不需要做复杂的特征变换,对于特征类型复杂的信用数据集有明显的优势,且其通过其损失函数可以很好地处理异常点。在基于两个UCI公开信用审核数据集上的对比实验表明,GBDT明显优于传统常用的支持向量机(Support Vector Machine,SVM)以及逻辑回归(Logistic Regression,LR)的信用评估效果,具有较好的稳定性和普适性。 展开更多
关键词 信用评估 分类算法 GBDT
在线阅读 下载PDF
模糊时间序列模型在论域定义上的研究 被引量:4
2
作者 汪洋 陈海燕 彭艳兵 《电子设计工程》 2017年第2期9-13,共5页
文中基于模糊时间序列模型,提出了如何定义论域的方法。预测人员在不断地应用模糊时间序列模型进行预测的同时,也对此模型进行了不同方面的改进,但是大部分主要包括两个方面:一是论域划分,而是模糊关系表示。在论域划分上面,现有的研究... 文中基于模糊时间序列模型,提出了如何定义论域的方法。预测人员在不断地应用模糊时间序列模型进行预测的同时,也对此模型进行了不同方面的改进,但是大部分主要包括两个方面:一是论域划分,而是模糊关系表示。在论域划分上面,现有的研究都是简单的向上和向下取整的方法,没有意识到论域区间的定义也会影响到预测的结果的原因,所以本文研究了新的定义论域区间的方法,本文新的方法中提出论域区间的定义和当前类别的数据分布有关,这样充分考虑了样本数据的分布情况,提高了论域间隔的准确度和可解释性。最后,本文应用阿拉巴马州大学的预测结果和最新的论域划分方法进行了比较,结果表明了此方法的有效性。 展开更多
关键词 模糊时间序列 论域区间定义 数据分布 论域划分
在线阅读 下载PDF
基于地理位置时间序列的相似性研究 被引量:1
3
作者 彭艳兵 姚伟烈 刘卫江 《电子设计工程》 2017年第8期37-40,共4页
位置时间序列常被应用到不同的研究领域,具有很高的商业价值。本文通过计算位置时间序列的余弦相似度找到确定与其近似的位置时间序列。同时针对余弦相似度在计算位置时间序列相似性出现的偏差,提出了一种余弦相似度的改进方法(单侧相似... 位置时间序列常被应用到不同的研究领域,具有很高的商业价值。本文通过计算位置时间序列的余弦相似度找到确定与其近似的位置时间序列。同时针对余弦相似度在计算位置时间序列相似性出现的偏差,提出了一种余弦相似度的改进方法(单侧相似度)。单侧相似度给出了不同位置时间序列的包含关系,这种关系是余弦相似度的进一步解释,可以用来衡量不同研究对象之间的包含程度。通过实验,证明了单侧相似度更适合描述位置时间序列的相似性。 展开更多
关键词 上网习惯 位置时间序列 位置权重 余弦相似度 单侧相似度
在线阅读 下载PDF
基于Solr的混合介质存储在淘宝系统中的研究与应用 被引量:1
4
作者 汪洋 崔炜 《电子设计工程》 2017年第15期22-25,共4页
DT时代已经来临,开源搜索引擎已经成为各大公司检索海量数据的主流,其中Solr以其支持多种格式索引,高效性,高灵活性,高可扩展性,深受广大爱好者以及各大公司青睐,本文基于提高Solr检索速度和对数据管理便捷性,提出了混合介质存储分盘管... DT时代已经来临,开源搜索引擎已经成为各大公司检索海量数据的主流,其中Solr以其支持多种格式索引,高效性,高灵活性,高可扩展性,深受广大爱好者以及各大公司青睐,本文基于提高Solr检索速度和对数据管理便捷性,提出了混合介质存储分盘管理查询并且设置优先级异步并发的改进方案,通过在淘宝用户评论检索中的研究与应用,证实了方案能够极大优化了性能并且提高检索速度。 展开更多
关键词 LUCENE SOLR 混合介质存储存储 数据的冷热 淘宝用户评论检索系统
在线阅读 下载PDF
一种基于apiori算法改进的knn文本分类方法 被引量:5
5
作者 骆凡 彭艳兵 《电子设计工程》 2016年第7期1-3,共3页
针对现在机器学习的文本分类算法普遍使用的knn,支持向量机,神经网络等算法进行分类中存在的两个问题,没有考虑到语义关联对其文本的影响和受文章长短对其词频向量大小的影响,通过结合apiori算法进行改进knn算法的方法对文本分类样本进... 针对现在机器学习的文本分类算法普遍使用的knn,支持向量机,神经网络等算法进行分类中存在的两个问题,没有考虑到语义关联对其文本的影响和受文章长短对其词频向量大小的影响,通过结合apiori算法进行改进knn算法的方法对文本分类样本进行了分类实验,结果表明,该改进算法相对于为改进前平均查准率有10%左右的提升,平均召回率有5%左右的提升,得出该方法能有效提高文本分类准确率的结论。 展开更多
关键词 文本分类 KNN 关联规则 apiori
在线阅读 下载PDF
基于多叉树和Spark的改进Apriori算法 被引量:3
6
作者 曹佳豪 刘宇 《信息技术》 2018年第6期128-132,共5页
文中基于Spark和多叉树对传统Apriori算法进行改进,将原始事物数据库转换为布尔矩阵,切割成多个分区数据库后交由Spark的各个Worker节点处理,以多叉树的形式存储中间结果,最后交由主节点进行合并,得到全局频繁项集。将基于Spark实现的Ap... 文中基于Spark和多叉树对传统Apriori算法进行改进,将原始事物数据库转换为布尔矩阵,切割成多个分区数据库后交由Spark的各个Worker节点处理,以多叉树的形式存储中间结果,最后交由主节点进行合并,得到全局频繁项集。将基于Spark实现的Apriori算法同Hadoop环境下的Apriori算法进行性能对比,发现在数据量相同的情况下基于Spark的Apriori算法较基于Hadoop的Apriori算法执行时间减少了67%以上,采用多叉树存储中间结果后,算法执行时间在原来的基础上减少了44%以上。文中实验证明了Spark比Hadoop更适用于Apriori这种以迭代搜索方式执行的算法,且采用多叉树存储中间结果可有效地提高算法执行效率。 展开更多
关键词 数据挖掘 关联规则 APRIORI 多叉树 SPARK
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部