期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于动态阈值和差异性检验的自训练算法
1
作者 吕佳 邱鸿波 肖锋 《智能系统学报》 CSCD 北大核心 2024年第4期839-852,共14页
针对自训练算法在迭代训练分类器的过程中存在难以有效选取高置信度样本以及误标记样本错误累积的问题,本文提出了基于动态阈值和差异性检验的自训练算法。引入样本的局部离群因子,据此剔除有标签样本中的离群点以及分类标注无标签样本... 针对自训练算法在迭代训练分类器的过程中存在难以有效选取高置信度样本以及误标记样本错误累积的问题,本文提出了基于动态阈值和差异性检验的自训练算法。引入样本的局部离群因子,据此剔除有标签样本中的离群点以及分类标注无标签样本,依据标注分批次处理无标签样本,以使模型更易选取到高置信度的无标签样本;根据新增伪标签样本的数量和对比隶属度的变化,设计一种动态隶属度阈值函数,提升高置信度样本的质量;定义密集距离度量样本间的差异性,分别计算伪标签样本与同类和不同类样本之间的密集距离之和,从而找出不确定度高的伪标签样本,并将此类样本并入下轮训练的无标签样本集中,缓解误标记样本错误累积的问题。实验结果表明,该算法在12个UCI基准数据集上均取得理想效果。 展开更多
关键词 自训练算法 误标记样本 高置信度样本 动态阈值 差异性检验 局部离群因子 对比隶属度 密集距离
在线阅读 下载PDF
结合密度峰值和改进自然邻居的自训练算法 被引量:2
2
作者 吕佳 刘强 李帅军 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第5期805-815,共11页
自训练算法是一种经典的半监督学习算法.针对自训练算法在训练时很难有效地发现高置信度无标记样本、训练过程中样本容易被错误标记等问题,提出了结合密度峰值和改进自然邻居的自训练算法.该算法利用密度峰值聚类算法的密度信息和由自... 自训练算法是一种经典的半监督学习算法.针对自训练算法在训练时很难有效地发现高置信度无标记样本、训练过程中样本容易被错误标记等问题,提出了结合密度峰值和改进自然邻居的自训练算法.该算法利用密度峰值聚类算法的密度信息和由自然邻居算法得到的自然邻居集来计算样本的离群指数,结合表示全局特征的全局密度和表示局部特征的离群指数设定样本的权重并剔除离群点.在自训练算法逐步扩充有标记样本集的过程中,利用加权的自然邻居噪声过滤器找出误标记样本,并通过计算样本的不确定性找出高不确定性的样本,由主动学习给出准确标记.提出的算法不仅降低了离群点对算法性能的影响,而且有效解决了错误标记的问题,处理了不易标记的边界样本.实验表明,该算法在UCI基准数据集和噪声数据集上均取得了理想的效果. 展开更多
关键词 半监督学习 自训练算法 密度峰值聚类 自然邻居 噪声过滤器
在线阅读 下载PDF
基于改进自训练算法的半监督GPR软测量建模 被引量:5
3
作者 史旭东 熊伟丽 《控制工程》 CSCD 北大核心 2020年第3期451-455,共5页
为了充分利用实际工业过程中大量无标签数据中的信息,提出了一种基于改进自训练算法的高斯过程回归(GPR)软测量建模方法。首先,利用相似度估计无标签样本缺失的主导变量值;然后,根据估计值对有标签数据集的影响,对估计样本集中的数据进... 为了充分利用实际工业过程中大量无标签数据中的信息,提出了一种基于改进自训练算法的高斯过程回归(GPR)软测量建模方法。首先,利用相似度估计无标签样本缺失的主导变量值;然后,根据估计值对有标签数据集的影响,对估计样本集中的数据进行筛选;最后,将泛化能力强的样本加入有标签样本集中,得到重构训练样本集并进行软测量建模。通过脱丁烷塔塔底丁烷浓度预测的仿真实验,验证了所提方法的可行性和有效性。 展开更多
关键词 软测量建模 半监督 自训练算法 高斯过程回归
在线阅读 下载PDF
基于改进主动学习和自训练的联合算法 被引量:1
4
作者 吕佳 傅屈寒 《北京师范大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第1期25-32,共8页
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法... 针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势. 展开更多
关键词 主动学习 自训练算法 密度峰值聚类 联合算法 隶属度
在线阅读 下载PDF
结合主动学习与置信度投票的集成自训练方法 被引量:8
5
作者 黎隽男 吕佳 《计算机工程与应用》 CSCD 北大核心 2016年第20期167-171,230,共6页
基于集成学习的自训练算法是一种半监督算法,不少学者通过集成分类器类别投票或平均置信度的方法选择可靠样本。基于置信度的投票策略倾向选择置信度高的样本或置信度低但投票却一致的样本进行标记,后者这种情形可能会误标记靠近决策边... 基于集成学习的自训练算法是一种半监督算法,不少学者通过集成分类器类别投票或平均置信度的方法选择可靠样本。基于置信度的投票策略倾向选择置信度高的样本或置信度低但投票却一致的样本进行标记,后者这种情形可能会误标记靠近决策边界的样本,而采用异构集成分类器也可能会导致各基分类器对高置信度样本的类别标记不同,从而无法将其有效加入到有标记样本集。提出了结合主动学习与置信度投票策略的集成自训练算法用来解决上述问题。该算法合理调整了投票策略,选择置信度高且投票一致的无标记样本加以标注,同时利用主动学习对投票不一致而置信度较低的样本进行人工标注,以弥补集成自训练学习只关注置信度高的样本,而忽略了置信度低的样本的有用信息的缺陷。在UCI数据集上的对比实验验证了该算法的有效性。 展开更多
关键词 集成自训练算法 主动学习 加权K最近邻(KNN) 朴素贝叶斯 置信度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部