-
题名利用数据库技术实现的可扩展的分类算法
被引量:14
- 1
-
-
作者
刘红岩
陆宏钧
陈剑
-
机构
清华大学经济管理学院
香港科技大学计算机系
-
出处
《软件学报》
EI
CSCD
北大核心
2002年第6期1075-1081,共7页
-
基金
国家重点基础研究发展规划973资助项目(G1998030414)
清华大学985基础研究基金资助项目~~
-
文摘
重点研究将数据挖掘中的分类技术与数据库技术紧密结合的高效的可扩展的分类算法.提出一种基于分组记数技术构造分类器的方法,利用数据库系统的结构化查询语言来实现主要计算任务.为了提高算法的执行效率,还提出了优化策略和冗余规则的剪裁策略,并将分类规则的发现过程与相关属性的选择方法有机地结合在一起.使用这些方法和策略,分类算法能够从大规模数据集中快速地发现一组简洁的规则.除了具有与现有分类算法相当的准确度和较高的执行效率以外,该分类算法还具有良好的基于训练集元组个数和属性个数两方面的可扩展性和易于实现的特点.
-
关键词
数据库
可扩展
分类算法
数据挖掘
结构化查询语言
知识发现
-
Keywords
data mining
classification
RDBMS (relational database management system)
sql (structured query language)
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于关系数据库的频繁项集挖掘算法
被引量:6
- 2
-
-
作者
王治和
-
机构
西北师范大学数学与信息科学学院
-
出处
《计算机科学》
CSCD
北大核心
2006年第9期159-160,198,共3页
-
文摘
频繁项集的挖掘是数据挖掘中的一个十分重要的组成部分,目前对于事务数据库频繁项集的挖掘算法研究较多。本文根据事务数据库中布尔型频繁项集挖掘的理论和方法,再结合关系数据库的特殊性。利用标准SQL语言提出了一种新的在关系数据库中挖掘频繁项集的简易算法。实验证明该算法具有较高的效率。
-
关键词
数据挖掘
关系数据库
频繁项集
sql语言
-
Keywords
data mining,relational database,frequent itemsets,sql language
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-