-
题名统计粗糙集
被引量:2
- 1
-
-
作者
陈俞
赵素云
陈红
李翠平
孙辉
-
机构
数据工程与知识工程教育部重点实验室(中国人民大学)
中国人民大学信息学院计算机系
-
出处
《软件学报》
EI
CSCD
北大核心
2016年第7期1645-1654,共10页
-
基金
国家重点基础研究发展计划(973)(2012CB316205)
国家高技术研究发展计划(863)(2014AA015204)
+3 种基金
国家自然科学基金(61532021
61202114
61272137)
中国人民大学科学研究基金(15XNLQ06)~~
-
文摘
现有的模糊粗糙集方法,由于其基础理论复杂度的桎梏,无法应用到大规模数据集上.考虑到随机抽样是一种可以极大地减少运算量的统计学方法,将随机抽样引入到经典的模糊粗糙集理论中,建立了一种统计粗糙集模型.首先,提出了统计上、下近似的概念,它相比经典模糊粗糙集模型的优势在于,以随机抽样得到的小容量样本代替了大规模全集,从而显著降低了计算量.而且,随着全集数量的增大,抽样样本数量并不会显著增大.此外,还讨论了统计上、下近似的性质,揭示统计上、下近似和经典上、下近似之间的关系.并且,提出了一个定理,该定理保证了统计下近似与经典下近似的取值统计误差在允许的范围内.最后,通过数值实验验证了统计下近似在计算时间上的显著优势.
-
关键词
随机抽样
近似算子
统计粗糙集
模糊粗糙集
-
Keywords
random sampling
approximate operator
statistical rough set
fuzzy rough set
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于随机抽样的模糊粗糙约简
被引量:5
- 2
-
-
作者
陈俞
赵素云
李雪峰
陈红
李翠平
-
机构
中国人民大学信息学院
数据工程与知识工程教育部重点实验室(中国人民大学)
中国人民大学环境学院
-
出处
《软件学报》
EI
CSCD
北大核心
2017年第11期2825-2835,共11页
-
基金
国家重点研发计划(2016YFB1000702)
国家重点基础研究发展计划(973)(2014CB340402)
+4 种基金
国家高技术研究发展计划(863)(2014AA015204)
国家自然科学基金(61772536,61772537,61702522,61532021)
国家社会科学基金(12&ZD220)
中国人民大学科学研究基金(中央高校基本科研业务费专项资金)(15XNLQ06)
国家高等学校学科创新引智计划(111)~~
-
文摘
传统的属性约简由于其时间复杂度和空间复杂度过高,几乎无法应用到大规模的数据集中.将随机抽样引入传统的模糊粗糙集中,使得属性约简的效率大幅度提升.首先,在统计下近似的基础上提出一种统计属性约简的定义.这里的约简不是原有意义上的约简,而是保持基于统计下近似定义的统计辨识度不变的属性子集.然后,采用抽样的方法计算统计辨识度的样本估计值,基于此估计值可以对统计属性重要性进行排序,从而可以设计一种快速的适用于大规模数据的序约简算法.由于随机抽样集以及统计近似概念的引入,该算法从时间和空间上均降低了约简的计算复杂度,同时又保持了数据集中信息含量几乎不变.最后,数值实验将基于随机抽样的序约简算法和两种传统的属性约简算法从以下3个方面进行了对比:计算属性约简时间消耗、计算属性约简空间消耗、约简效果.对比实验验证了基于随机抽样的序约简算法在时间与空间上的优势.
-
关键词
模糊粗糙集
随机抽样
属性约简
统计粗糙集
-
Keywords
fuzzy rough set
random sampling
attribute reduction
statistical rough set
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-