期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
最大化独立有效分类信息率的属性选择
1
作者 柳叶 代建华 陈姣龙 《计算机科学与探索》 CSCD 北大核心 2022年第11期2619-2627,共9页
粗糙集中的属性选择有着十分重要的应用价值。现有的属性选择方法大多忽视了衡量待选属性所提供的分类信息和冗余信息,以及新增待选属性时已选属性所保留的分类信息三者之间的关联。因此,首先利用传统互信息,定义了有效分类信息率的属... 粗糙集中的属性选择有着十分重要的应用价值。现有的属性选择方法大多忽视了衡量待选属性所提供的分类信息和冗余信息,以及新增待选属性时已选属性所保留的分类信息三者之间的关联。因此,首先利用传统互信息,定义了有效分类信息率的属性重要性评估函数,并提出了一种基于有效分类信息率的属性选择方法。该属性选择方法可以有效地选择能提供大量有效分类信息同时携带较少冗余信息的待选属性。另外,考虑到新增待选属性对已选属性所保留的分类信息的影响,进一步提出了独立有效分类信息率的概念,并构造一种基于独立分类有效信息率的改进属性选择方法。该改进的属性选择方法能够有助于平衡属性的有效分类信息和冗余信息的关系,同时提高属性子集的整体识别能力。最后,从分类性能和统计学检验等方面分别与现有的属性选择方法进行了对比实验,实验结果表明了所提出的两种属性选择方法的有效性。 展开更多
关键词 粗糙集理论 属性选择 独立有效分类信息率 信息
在线阅读 下载PDF
基于图文有效信息量的网页正文定位 被引量:2
2
作者 梁正友 欧杰 俞闽敏 《计算机工程》 CAS CSCD 北大核心 2011年第23期276-278,共3页
在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量... 在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准确率。 展开更多
关键词 正文定位 最小正文子树 有效信息率 网页 图文
在线阅读 下载PDF
基于网页格式信息量的博客文章和评论抽取模型 被引量:15
3
作者 曹冬林 廖祥文 +1 位作者 许洪波 白硕 《软件学报》 EI CSCD 北大核心 2009年第5期1282-1291,共10页
从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算... 从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算最小切分位置信息量来切分正文中的文章和评论.该模型具有与语言无关的特点,因此具有一定的通用性.实验结果表明,该模型在博客正文定位和正文切分方面达到了较高的精确率. 展开更多
关键词 博客信息抽取 最小正文子树 有效信息率 网页格式信息 视觉信息 切分位置信息
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部