题名 基于IB方法的无冗余多视角聚类
被引量:6
1
作者
娄铮铮
叶阳东
刘瑞娜
机构
郑州大学信息工程学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第9期1865-1875,共11页
基金
国家自然科学基金项目(61170223
61202207)
国家自然科学基金联合基金项目(U1204610)
文摘
针对数据中多视角模式挖掘的问题,提出一个基于IB方法的无冗余多视角聚类算法:NrMIB.该算法一方面采用IB思想来最大化地保存聚类结果中的信息量,以确保高质量的聚类结果;另一方面通过最小化聚类结果与已知数据划分模式间的互信息来确保新的聚类结果相对于已知划分模式是无冗余的.NrMIB算法既适宜于分析共现数据,又适宜于分析欧氏空间非共现数据,可挖掘出数据中线性及非线性可分模式,无需额外参数来估算欧氏空间的信息量.在人工构造数据模式识别、人脸识别和文档聚类上的实验结果表明,NrMIB算法可有效地挖掘出数据中所蕴含的多个合理划分模式,性能优于传统单视角聚类算法及3个现有的无冗余多视角聚类算法.
关键词
聚类
无冗余多视角
ib 方法
互信息
平均微分熵
Keywords
clustering
non-redundant multi-view
information bottleneck (ib) method
mutualinformation l meanNN differential entropy
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于数据选择模型的IB算法
被引量:2
2
作者
娄铮铮
杨晨
叶阳东
机构
郑州大学信息工程学院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2014年第9期1839-1846,共8页
基金
国家自然科学基金(No.61170223)
文摘
针对数据对象自身模式特征明确程度的不同给IB(Information Bottleneck)方法数据分析带来的问题,定义一个"基于明确因素"的数据选择模型,使得IB方法可从数据集中选取模式特征较为明确的数据对象并对其进行模式分析,提出DSIB(Data Selection Information Bottleneck)算法.DSIB算法采用数据压缩过程中所产生的信息损失作为数据对象模式特征是否明确的判定条件,使用"边选择边学习"的顺序"抽取-合并"策略来优化DSIB目标函数.实验结果表明:随着数据选择标准的不断提高,DSIB算法在提高数据分析精度的同时所牺牲的召回率较小;与未做选择的数据分析算法相比,DSIB算法可更好地识别出数据中所固有的内在模式.
关键词
ib 方法
数据选择
簇
模式特征
Keywords
information bottleneck (ib) method
data selection
cluster
patterns
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于最大化交叉互信息的对称IB算法
被引量:3
3
作者
娄铮铮
叶阳东
机构
郑州大学信息工程学院
出处
《计算机学报》
EI
CSCD
北大核心
2016年第8期1515-1527,共13页
基金
国家自然科学基金(61170223
61502434)资助
文摘
对称IB(Symmetric Information Bottleneck)通过行、列压缩变量之间的相互协作来挖掘数据中的双向压缩模式.由于行、列压缩变量不能完全承载行、列基层变量中所蕴含的特征信息,从而导致对称IB所得的数据双向压缩模式与基层变量所蕴含的内在模式之间存在一定的偏离.针对该问题,通过最大化地保存压缩变量与基层变量交叉之间的互信息,将基层变量引入到数据的双向压缩中,使它们协助压缩变量共同来学习联合分布中的双向压缩模式,提出交叉对称IB:ICSIB(Inter-Correlated Symmetric Information Bottleneck).ICSIB算法采用交错的顺序"抽取-合并"迭代过程来优化压缩变量与基层变量交叉之间的互信息,可保证得到目标函数的一个局部优解.实验结果表明,在基层特征变量的协助下,ICSIB算法得到的数据双向压缩模式更接近于数据中真实的内在模式,并可有效地应用于数据的联合聚类中.
关键词
ib 方法
多变量ib
对称ib
双向压缩
联合聚类
数据挖掘
Keywords
information bottleneck (ib )method
multivariate ib
symmetric ib
double compressing
co-clustering
data mining
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于变异的迭代sIB算法
被引量:5
4
作者
朱真峰
叶阳东
Gang Li
机构
郑州大学信息工程学院
澳大利亚迪肯大学信息技术学院墨尔本Vic
出处
《计算机研究与发展》
EI
CSCD
北大核心
2007年第11期1832-1838,共7页
基金
国家自然科学基金项目(600332020
60674001)~~
文摘
IB方法使用源变量和相关变量的联合概率分布对源变量进行最大化压缩,使压缩变量最大化地保存相关变量的信息.连续IB算法(sIB)是一种较好的、应用较多的IB算法之一,但该算法存在效率低、优化不充分等问题.为了解决sIB在应用中存在的这些问题,提出了一种基于变异的迭代sIB算法(isIB).isIB算法首先从相关实验中选取合理的变异率;基于该变异率,该算法从sIB算法所产生的初始解向量中随机选取相应比例的位置,对其中的类标号进行随机变异并优化;再通过多次迭代获得了相应的优化解.实验表明在数据集相同、基本sIB算法调用次数相同的条件下,isIB算法相对于sIB算法具有运行效率高、解更优化的特点.
关键词
ib 方法
Sib 算法
变异
迭代
互信息
Keywords
ib method
slB algorithm
mutate
iteration
mutual information
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 一种面向非平衡数据的多簇IB算法
被引量:2
5
作者
江鹏
叶阳东
娄铮铮
机构
郑州大学信息工程学院
出处
《计算机科学》
CSCD
北大核心
2016年第7期245-250,共6页
基金
国家自然科学基金项目:多变量IB方法及算法的研究(61170223)
国家自然科学基金联合基金项目:可扩展迁移学习中跨媒体复杂问题自动映射研究(U1204610)资助
文摘
信息瓶颈(Information Bottleneck,IB)方法在处理非平衡数据集时,倾向于将大簇中的数据对象划分到数据规模较小的小簇中,造成了聚类效果不理想的问题。针对该问题,提出了一种面向非平衡数据的多簇信息瓶颈算法(McIB)。McIB算法采用向下抽样方法来降低非平衡数据集的倾斜度,使用先划分再学习后合并的策略来优化IB算法处理非平衡数据的合并抽取过程。整个算法包含3步:首先根据分离标准来确定抽样比例参数;然后对数据进行初步的聚类,生成可信赖的多个簇;最后再利用簇之间的相似性对簇进行合并,组织多个簇代表每个实际的簇来得到最终的聚类结果。实验结果表明:所提算法能够有效地解决IB方法在非平衡数据集上的"均匀效应"问题;与其他聚类算法相比,McIB算法的性能更优。
关键词
聚类
ib 算法
非平衡数据
多簇
簇合并
Keywords
Clustering, information bottleneck method , Imbalanced data, Multi-clusters, Cluster merging
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 融合扩展信息瓶颈理论的话题关联检测方法研究
被引量:4
6
作者
杨玉珍
刘培玉
费绍栋
张成功
机构
山东师范大学信息科学与工程学院
山东省分布式计算机软件新技术重点实验室
山东财经大学图书馆
出处
《自动化学报》
EI
CSCD
北大核心
2014年第3期471-479,共9页
基金
国家自然科学基金(60873247)
山东省自然基金(ZR2012FM038)
山东省科技发展计划(2012GGB01194)资助~~
文摘
话题关联检测的关键任务在于判断给定报道对是否属于同一话题.现有判断方法往往忽略种子事件与其直接相关事件之间的层次关系.为此,通过分析报道内部语义分布规律及篇章结构,并依据语义分布规则,利用语义分布规律改进信息瓶颈(Information bottleneck,IB)算法,用于子话题逻辑语义单元的划分,并利用这些逻辑语义单元表示报道,进行话题关联检测.实验证明该方法有较快的收敛速度,并在一定程度上提高了系统性能.
关键词
关联检测
逻辑语义单元
信息瓶颈
单元特征
Keywords
Link detection, logical semantic unit, information bottleneck (ib ), unit features
分类号
TP274
[自动化与计算机技术—检测技术与自动化装置]
题名 基于信息瓶颈方法的出租车空载聚集区聚类算法
被引量:5
7
作者
姬波
叶阳东
肖煜
机构
郑州大学信息工程学院计算机科学技术系
河海大学商学院
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第9期2139-2143,共5页
基金
国家自然科学基金项目(61170223)资助
文摘
在交通物联网中,出租车以其方便、快捷的特性扮演着重要角色.但是,出租车服务的动态、随机和异步并发的特性使得其难以采用微分、差分等数学方法描述.其中,出租车空载问题是公认的智能交通的最大难题之一.提出在GPS数据的基础上,基于信息瓶颈方法来聚类城市内出租车的空载聚集区域,从而指导空载车辆规避这些区域,以此达到提高出租车载客率的效果.出租车空载聚集区聚类算法将出租车视为原变量,GPS数据视为相关变量.目标是寻求压缩变量,在尽可能压缩出租车簇的个数的同时,最大化保留空载聚集区域的相关信息.在某城市出租车的真实GPS数据集上的相关实验表明,算法可以准确识别空载聚集区.
关键词
物联网
智能交通
空载出租车
信息瓶颈方法
聚类
Keywords
internet of things
intelligent transportation
empty taxi
information bottleneck method
clustering
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于信息瓶颈聚类的多聚焦图像融合
被引量:1
8
作者
陈志刚
陈军
机构
中南大学信息科学与工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2010年第15期162-164,192,共4页
基金
国家自然科学基金No.60873082~~
文摘
提出一种基于信息瓶颈聚类的多聚焦图像融合方法。该方法采用信息瓶颈算法对源图像进行聚类分析,获得联合的聚类表示;由非下采样Contourlet变换对源图像进行多分辨率分解,通过联合聚类表示指导各频域系数融合;采用非下采样Contourlet逆变换重构获得融合图像。实验结果表明,该方法具有良好的客观评价性能和主观视觉效果。
关键词
图像融合
信息瓶颈算法
非下采样CONTOURLET变换
Keywords
image fusion
information bottleneck method
non-sampled contourlet transform
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于信息瓶颈的变压器故障诊断算法
9
作者
路光辉
姬波
雍明超
周钟
牧继清
机构
许继集团有限公司
郑州大学信息工程学院
出处
《计算机工程与设计》
北大核心
2015年第8期2271-2276,共6页
基金
国家自然科学基金项目(61170223)
国家自然科学基金河南人才培养联合基金项目(U1204610)
河南省科技攻关计划基金项目(132102210404)
文摘
为保证电网安全运行,解决变压器故障早期预警问题,提出一种基于信息瓶颈的变压器故障诊断方法。该方法分为两个阶段,采用信息瓶颈方法对数据进行聚类,得到簇内相似性最大的结果簇;通过簇内训练样本的简单多数投票,确定待测样本的故障类别。实际数据集上的实验结果表明,该方法是可行有效的,相比大卫三角形法、贝叶斯算法和神经网络算法,该算法的分类结果正确率分别提高了14.65%、25.00%和11.23%。
关键词
变压器
诊断算法
信息瓶颈
聚类
大卫三角形方法
Keywords
transformer
fault diagnosis algorithm
information bottleneck
cluster
Duval method
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]