-
题名最大化独立有效分类信息率的属性选择
- 1
-
-
作者
柳叶
代建华
陈姣龙
-
机构
湖南师范大学智能计算与语言信息处理湖南省重点实验室
湖南师范大学信息科学与工程学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2022年第11期2619-2627,共9页
-
基金
国家自然科学基金(61976089,61473259)
湖南省科技计划项目(2018RS3065,2018TP1018)
湖南省研究生科研创新项目(CX20200552)。
-
文摘
粗糙集中的属性选择有着十分重要的应用价值。现有的属性选择方法大多忽视了衡量待选属性所提供的分类信息和冗余信息,以及新增待选属性时已选属性所保留的分类信息三者之间的关联。因此,首先利用传统互信息,定义了有效分类信息率的属性重要性评估函数,并提出了一种基于有效分类信息率的属性选择方法。该属性选择方法可以有效地选择能提供大量有效分类信息同时携带较少冗余信息的待选属性。另外,考虑到新增待选属性对已选属性所保留的分类信息的影响,进一步提出了独立有效分类信息率的概念,并构造一种基于独立分类有效信息率的改进属性选择方法。该改进的属性选择方法能够有助于平衡属性的有效分类信息和冗余信息的关系,同时提高属性子集的整体识别能力。最后,从分类性能和统计学检验等方面分别与现有的属性选择方法进行了对比实验,实验结果表明了所提出的两种属性选择方法的有效性。
-
关键词
粗糙集理论
属性选择
独立有效分类信息率
互信息
-
Keywords
rough set theory
attribute selection
independent-and-effective classification information ratio
mutual information
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于图文有效信息量的网页正文定位
被引量:2
- 2
-
-
作者
梁正友
欧杰
俞闽敏
-
机构
广西大学计算机与电子信息学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第23期276-278,共3页
-
基金
广西自然科学基金资助项目(桂科自0832059)
-
文摘
在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准确率。
-
关键词
正文定位
最小正文子树
有效信息率
网页
图文
-
Keywords
main text localization
minimal main text sub-tree
effective information ratio
webpage
image and text
-
分类号
N945
[自然科学总论—系统科学]
-
-
题名基于网页格式信息量的博客文章和评论抽取模型
被引量:15
- 3
-
-
作者
曹冬林
廖祥文
许洪波
白硕
-
机构
中国科学院计算技术研究所网络科学与技术研究部
中国科学院研究生院
厦门大学智能科学系
-
出处
《软件学报》
EI
CSCD
北大核心
2009年第5期1282-1291,共10页
-
基金
国家重点基础研究发展计划(973)Nos.2004CB318109,2007CB311100
国家高技术研究发展计划(863)No.2007AA01Z441~~
-
文摘
从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算最小切分位置信息量来切分正文中的文章和评论.该模型具有与语言无关的特点,因此具有一定的通用性.实验结果表明,该模型在博客正文定位和正文切分方面达到了较高的精确率.
-
关键词
博客信息抽取
最小正文子树
有效信息率
网页格式信息
视觉信息
切分位置信息量
-
Keywords
blog information extraction, minimal main text subtree
effective information ratio
Web format information
vision information
information quantity of separate position
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-