-
题名面向大型数据集的高效决策树参数剪枝算法
被引量:9
- 1
-
-
作者
谢兆贤
邹兴敏
张文静
-
机构
曲阜师范大学网络空间安全学院
-
出处
《计算机工程》
CSCD
北大核心
2024年第1期156-165,共10页
-
基金
山东省自然科学基金面上项目(ZR2020MF048)。
-
文摘
决策树在数据分类上具有较好的效果,但容易产生过拟合的现象,解决方案是对决策树进行剪枝处理,然而传统剪枝算法普遍存在预剪枝容易欠拟合、后剪枝时间消耗多、网络搜索剪枝仅适用于小型数据集等问题。为了解决以上问题,提出一种高效的决策树参数剪枝算法。根据网络安全态势感知模型,建立剪枝决策树态势感知系统架构,分析网络数据流。在生成决策树的过程中,利用枚举与二分搜索算法找出决策树最大深度,采用深度优先搜索算法找到节点最小分裂数和最大特征数,最终结合这3个最优参数自上而下完成剪枝。实验结果表明,所提算法在大型数据集上的过拟合风险较小,训练集与测试集准确率都在95%以上,同时相比于后剪枝算法中表现较好的悲观错误剪枝算法快了近20倍。
-
关键词
决策树
剪枝
过拟合
安全态势感知
泛化性
-
Keywords
Decision Tree(DT)
pruning
overfitting
security situational awareness
generalization
-
分类号
TP313.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Neo4j的领域本体存储方法研究
被引量:45
- 2
-
-
作者
王红
张青青
蔡伟伟
姜洋
-
机构
中国民航大学计算机科学与技术学院
-
出处
《计算机应用研究》
CSCD
北大核心
2017年第8期2404-2407,共4页
-
基金
国家自然科学基金委员会与中国民用航空局联合资助项目(U163310052
U1533104)
+1 种基金
中央高校基本科研业务费基金资助项目(3122015C022)
中国民航大学科研启动基金资助项目(2014QD14X)
-
文摘
在分析民航突发事件应急管理领域本体及其存储特点的基础上,提出了一种基于Neo4j的领域本体RDF图数据存储方法,研究了领域本体RDF有向标记图结构与Neo4j图数据库存储模型的关系,结合民航突发事件应急管理领域本体的实例查询,给出了RDF图与Neo4j之间的映射关系及其实现过程。实验验证了Neo4j图数据库在满足领域本体RDF图数据查询的同时进一步提高了查询的效率,为大数据平台下的RDF图数据语义检索与推理提供了方法支撑。
-
关键词
民航突发事件
领域本体
RDF图数据
Neo4j
映射
-
Keywords
civil aviation emergency case
domain ontology
RDF gragh data
Neo4j
mapping
-
分类号
TP313.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一个通用双向数据库复制的解决方案
被引量:3
- 3
-
-
作者
徐波
戴勇
-
机构
南京航空航天大学机电学院
-
出处
《计算机应用》
CSCD
北大核心
2003年第9期141-142,共2页
-
文摘
提出一种在同类SQLServer数据库间进行自定义数据库复制的基本设计方案。该方案具有较强通用性,除支持基本数据库复制,还能实现应用程序对复制过程的精确控制以及具有跟踪数据库记录变化的能力。
-
关键词
数据库
双向复制
数据库同步
-
Keywords
database
bidirectional replication
database synchronization
-
分类号
TP313.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名论综合动态数据库的建立与应用
被引量:1
- 4
-
-
作者
张维群
王佐仁
-
机构
西安财经学院统计学院
-
出处
《统计与信息论坛》
CSSCI
2008年第1期72-75,共4页
-
基金
全国统计科学研究项目<周期性普查经常性调查数据资料的综合运用研究>(LX2005-Y36)
西安统计研究院研究项目<宏观经济动态模型应用研究>(06JD04)
-
文摘
利用周期性普查数据与经常性调查数据建立的综合动态数据库具有数据全面、质量较高等优点。针对该数据库数据不完整、可能是不等距的时间序列数据等特点,提出基于周期性普查数据对经常性调查数据修正的时序建模与应用的思路以及周期性普查指标的数据插补方法与应用思想,通过描述综合动态数据库综合运用的流程,说明该数据库的综合运用实质是一个逐步完善数据库的过程。
-
关键词
周期性普查和经常性调查
综合动态数据库
数据修正与插补
应用流程
-
Keywords
periodic and regular survey
comprehensive dynamic data base
data correction
insert andcomplement
application flow
-
分类号
TP313.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于改进的Wap算法的Web序列模式的研究
被引量:1
- 5
-
-
作者
王慧
张骏温
-
机构
北京交通大学计算机与信息技术学院
-
出处
《计算机科学》
CSCD
北大核心
2012年第2期206-208,239,共4页
-
基金
核高基重大专项项目(2009ZX01045-005-001)资助
-
文摘
序列模式挖掘是Web日志挖掘中的一个重要范畴。针对Wap算法中递归构建大量条件树的这一缺陷,提出了一种改进算法NGCWAP。NGCWAP算法采用前序遍历号和后序遍历号来跟踪频繁序列分布在哪些后缀树集中,避免了条件树的构建,从而减少了内存消耗。通过实验验证了改进算法的正确性和高效性。
-
关键词
数据挖掘
WEB日志挖掘
Wap算法
频繁序列
-
Keywords
Data mining
Web log mining
Wap algorithm
Frequent sequences
-
分类号
TP313.13
[自动化与计算机技术—计算机软件与理论]
-