-
题名基于标签关联性的分层分类共有与固有特征选择
被引量:8
- 1
-
-
作者
林耀进
白盛兴
赵红
李绍滋
胡清华
-
机构
闽南师范大学计算机学院
数据科学与智能应用福建省高校重点实验室(闽南师范大学)
厦门大学人工智能系
天津大学智能与计算学部
-
出处
《软件学报》
EI
CSCD
北大核心
2022年第7期2667-2682,共16页
-
基金
国家自然科学基金(62076116,61672272,61925602,61732011)
-
文摘
在大数据时代,数据的样本数量、特征维度和类别数量都在急剧增加,且样本类别间通常存在着层次结构.如何对层次结构数据进行特征选择具有重要意义.近年来,已有相关特征选择算法提出,然而现有算法未充分利用类别的层次结构信息,且忽略了不同类节点具有共有与固有属性的特点.据此,提出了基于标签关联性的分层分类共有与固有特征选择算法.该算法利用递归正则化对层次结构的每个内部节点选择对应的固有特征,并充分利用层次结构分析标签关联性,进而利用正则化惩罚项学习各子树的共有特征.该模型不仅能够处理树结构层次化数据,也能直接处理更为复杂常见的有向无环图结构的层次化数据.在6个树结构数据集和4个有向无环图结构数据集上的实验结果,验证了该算法的有效性.
-
关键词
特征选择
分层分类
共有特征
固有特征
递归正则化
-
Keywords
feature selection
hierarchical classification
common features
specific feature
recursive regularization
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名由粗到细的分层特征选择
被引量:7
- 2
-
-
作者
刘浩阳
林耀进
刘景华
吴镒潾
毛煜
李绍滋
-
机构
闽南师范大学计算机学院
数据科学与智能应用福建省高等学校重点实验室(闽南师范大学)
华侨大学计算机科学与技术学院
厦门大学人工智能系
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2022年第11期2778-2789,共12页
-
基金
国家自然科学基金面上项目(No.62076116)
福建省自然科学基金重点项目(No.2021J02049)。
-
文摘
利用数据类别间层次结构关系进行分类学习任务广泛存在于疾病诊断、图像标注等领域.然而,数据特征空间的高维性,使得分层分类学习面临着时间复杂度高和存储负担大等问题.另外,现有研究工作都假设训练集标记粒度是充分细化,与实际分层分类学习中划分细粒度标记代价高,类别标记间存在语义歧义性等矛盾.为解决上述问题,提出一种由粗到细的分层特征选择算法.该算法考虑类内一致性和兄弟节点间的差异性以选择有代表性特征,同时在特征选择的过程中实现预测训练样本未知的细粒度标记.在7个基准数据集上的实验结果表明,所提算法的分类性能优于一些先进的对比算法,且能处理标记粒度不够细化的情况.
-
关键词
特征选择
分层分类
标记层次结构
标记粒度
递归正则化
稀疏优化
全局最优解
-
Keywords
feature selection
hierarchical classification
label hierarchical structure
label granularity
recursive regularization
sparse optimization
global optimal solution
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-