期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于Tri-Training和数据剪辑的半监督聚类算法 被引量:30
1
作者 邓超 郭茂祖 《软件学报》 EI CSCD 北大核心 2008年第3期663-673,共11页
提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术... 提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术对seeds集扩大过程中产生的误标记噪声数据进行修正、净化,以提高seeds集质量.实验结果表明,所提出的基于Tri-training和数据剪辑的DE-Tri-training半监督聚类新算法能够有效改善seeds集对聚类中心的初始化效果,提高聚类性能. 展开更多
关键词 半监督聚类 半监督分类 K-均值 seeds集 TRI-TRAINING depuration数据剪辑
在线阅读 下载PDF
基于自适应数据剪辑策略的Tri-training算法 被引量:15
2
作者 邓超 郭茂祖 《计算机学报》 EI CSCD 北大核心 2007年第8期1213-1226,共14页
Tri-training能有效利用无标记样例提高泛化能力.针对Tri-training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri-training(Tri-training with Adaptive Data Editing)新算法.它不仅利用Remove O... Tri-training能有效利用无标记样例提高泛化能力.针对Tri-training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri-training(Tri-training with Adaptive Data Editing)新算法.它不仅利用Remove Only剪辑操作对每次迭代可能产生的误标记样例识别并移除,更重要的是采用自适应策略来确定Remove Only触发与抑制的恰当时机.文中证明,PAC理论下自适应策略中一系列判别充分条件可同时确保新训练集规模迭代增大和新假设分类错误率迭代降低更多.UCI数据集上实验结果表明:ADE-Tri-training具有更好的分类泛化性能和健壮性. 展开更多
关键词 半监督学习 数据剪辑 自适应策略 PAC可学习 TRI-TRAINING
在线阅读 下载PDF
WilsonTh数据剪辑在邻域粗糙协同分类中的应用 被引量:2
3
作者 张维 苗夺谦 李峰 《计算机科学与探索》 CSCD 2014年第9期1092-1100,共9页
邻域粗糙协同分类模型结合了邻域粗糙集和协同学习理论,可以处理连续型数据,并可有效利用无标记数据提高分类的性能。但在学习过程中,无标记数据常被错误地标记,从而给训练集引入噪声数据,并导致分类性能不稳定。针对该问题,探讨了Wilso... 邻域粗糙协同分类模型结合了邻域粗糙集和协同学习理论,可以处理连续型数据,并可有效利用无标记数据提高分类的性能。但在学习过程中,无标记数据常被错误地标记,从而给训练集引入噪声数据,并导致分类性能不稳定。针对该问题,探讨了WilsonTh数据剪辑在邻域粗糙协同分类模型中的应用。在每一次迭代学习过程中,分类器给无标记数据加上类别标记后,应用WilsonTh数据剪辑选出最大可能标记正确的样本加入训练集,分类器在扩大的训练集上再训练以获得更好的性能。UCI数据集上实验结果表明,WilsonTh数据剪辑能有效地提高加入训练集的数据质量,从而增强邻域粗糙协同分类的性能。 展开更多
关键词 WilsonTh数据剪辑 邻域粗糙集 邻域互信息 协同学习 连续型数据
在线阅读 下载PDF
M+B型三值光学加法器的数据剪辑技术 被引量:1
4
作者 沈云付 张凯凯 蒋本朋 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第4期440-448,共9页
在电子计算机中,由于进位的存在使得多位数的加法效率并没有显著地提升,而光学方法则显示了其并行性和无进位的优势.在M+B型加法的运算法则和C、P、R 3个三值变换工作的基础上,对相关的数据剪辑技术进行了研究(M表示MSD数,B表示二进制... 在电子计算机中,由于进位的存在使得多位数的加法效率并没有显著地提升,而光学方法则显示了其并行性和无进位的优势.在M+B型加法的运算法则和C、P、R 3个三值变换工作的基础上,对相关的数据剪辑技术进行了研究(M表示MSD数,B表示二进制数).提出了M+B型加法的数据剪辑技术策略,并用软件模拟了3个三值变换以及数据的截断和拼接,验证了该方法的正确性和可实现性. 展开更多
关键词 三值光学计算机 MSD 加法器 数据剪辑 累加器
在线阅读 下载PDF
结合半监督聚类和数据剪辑的自训练方法 被引量:7
5
作者 吕佳 黎隽男 《计算机应用》 CSCD 北大核心 2018年第1期110-115,共6页
针对自训练方法在迭代中选出的置信度高的无标记样本所含信息量不大和自训练方法容易误标记无标记样本的问题,提出了一种结合半监督聚类和数据剪辑的Naive Bayes自训练方法。该自训练方法在每次迭代的时候,首先利用少量的有标记样本和... 针对自训练方法在迭代中选出的置信度高的无标记样本所含信息量不大和自训练方法容易误标记无标记样本的问题,提出了一种结合半监督聚类和数据剪辑的Naive Bayes自训练方法。该自训练方法在每次迭代的时候,首先利用少量的有标记样本和大量的无标记样本进行半监督聚类,从而选出聚类隶属度高的无标记样本作Naive Bayes分类;然后利用数据剪辑技术来过滤掉聚类隶属度高而被Naive Bayes误分类的无标记样本。该数据剪辑技术能够同时利用有标记样本和无标记样本信息进行噪声过滤,解决了传统数据剪辑技术的性能可能因有标记样本数量匮乏而下降的问题。通过在UCI数据集上的对比实验,证明了所提算法的有效性。 展开更多
关键词 自训练 半监督学习 半监督聚类 数据剪辑 最近邻
在线阅读 下载PDF
基于MPEG-1/2视频的音频同步剪辑算法 被引量:1
6
作者 王立平 罗森林 成华 《北京理工大学学报》 EI CAS CSCD 北大核心 2002年第6期746-749,共4页
根据MPEG-1/2码流的特点,实现视音频同步编辑算法.通过对MPEG-1/2视音频码流的分析,利用两者的PTS值实现了基于MPEG-1/2码流PES层的非线性视音频同步编辑,并详述了剪辑算法.该算法无音频编解码操作,实时性好,不存在音频质量损失问题;对... 根据MPEG-1/2码流的特点,实现视音频同步编辑算法.通过对MPEG-1/2视音频码流的分析,利用两者的PTS值实现了基于MPEG-1/2码流PES层的非线性视音频同步编辑,并详述了剪辑算法.该算法无音频编解码操作,实时性好,不存在音频质量损失问题;对于少数次的剪辑同步效果很好.该算法实用性强,现已将该算法模块应用于非线性编辑系统中. 展开更多
关键词 非线性编辑系统 MPEG-1/2码流 视音频同步剪辑算法 数据压缩 数据传输
在线阅读 下载PDF
高光谱遥感图像DE-self-training半监督分类算法 被引量:8
7
作者 王俊淑 江南 +3 位作者 张国明 胡斌 李杨 吕恒 《农业机械学报》 EI CAS CSCD 北大核心 2015年第5期239-244,共6页
提出了一种高光谱遥感图像半监督分类算法DE-self-training。利用少量标记样本作为初始训练集,基于改进的Self-training算法构建初始分类器,对未标记样本进行预测;然后从分类结果中按一定比例随机选取部分样本,连同其类别标记一起加入... 提出了一种高光谱遥感图像半监督分类算法DE-self-training。利用少量标记样本作为初始训练集,基于改进的Self-training算法构建初始分类器,对未标记样本进行预测;然后从分类结果中按一定比例随机选取部分样本,连同其类别标记一起加入训练集中,再用扩大的训练集重新训练分类器,并对剩余的未标记样本进行预测。如此迭代地进行训练-预测-挑选样本扩大训练集过程。同时,在迭代训练过程中,运用基于最近邻域规则的数据剪辑策略对扩大训练集时产生的误标记样本进行过滤,以保证训练集的质量,不断迭代地训练出更精确的分类器,最终使所有未标记样本都获得类别标记。以AVIRIS Indian Pines和Hyperion EO-1 Botswana作为实验数据对DE-self-training算法进行测试,并与基于支持向量机的分类结果作比对。实验表明,DE-self-training算法可以在标记样本数量有限条件下,充分挖掘未标记样本的有用信息,使总体分类精度和Kappa系数都有不同程度的提高。 展开更多
关键词 高光谱遥感图像 半监督分类 数据剪辑
在线阅读 下载PDF
基于改进随机森林算法的电力业务实时流量分类方法 被引量:11
8
作者 许勇刚 张建业 +3 位作者 龚小刚 姜珂 周欢 殷继英 《电力系统保护与控制》 EI CSCD 北大核心 2016年第24期82-89,共8页
为了更有效地对电力业务系统安全接入过程中日渐增多的流量进行实时分类,提高电力系统的业务处理速度,提出了一种基于改进随机森林算法的电力业务实时流量分类方法。在分析电力业务安全接入实时流量特征的基础上,改进传统随机森林算法,... 为了更有效地对电力业务系统安全接入过程中日渐增多的流量进行实时分类,提高电力系统的业务处理速度,提出了一种基于改进随机森林算法的电力业务实时流量分类方法。在分析电力业务安全接入实时流量特征的基础上,改进传统随机森林算法,基于分类间隔加权对随机森林进行修剪来提高分类实时性;对新的样本数据进行数据剪辑来提高分类的准确性。在此改进算法的基础上设计了电力业务安全接入实时流量分类流程。最后以某省电力公司安全接入实时流量分类为例,验证了所提方法的准确性和实时性。 展开更多
关键词 随机森林 数据剪辑 分类间隔 电力业务 流量分类
在线阅读 下载PDF
两种提高决策树性能的算法研究 被引量:2
9
作者 李卿 狄文辉 楼新远 《计算机工程与设计》 CSCD 北大核心 2008年第15期3989-3990,4057,共3页
为了克服用重复剪辑近邻法筛选训练样本集产生样本被误剔除进而增大决策树的判决风险和误判概率的问题,提出一种新的方法-引入拒绝阀值的重复剪辑近邻法,并从理论上分析了它降低判决风险和误判概率的原理。通过实验比较这两种方法发现,... 为了克服用重复剪辑近邻法筛选训练样本集产生样本被误剔除进而增大决策树的判决风险和误判概率的问题,提出一种新的方法-引入拒绝阀值的重复剪辑近邻法,并从理论上分析了它降低判决风险和误判概率的原理。通过实验比较这两种方法发现,引入拒绝阀值的重复剪辑近邻法在降低判决风险和误判概率上要优于重复剪辑近邻法;而在决策树的规模和分类错误率上,重复剪辑近邻法的精度要优于引入拒绝阀值的重复剪辑近邻法。 展开更多
关键词 数据挖掘 决策树 引入拒绝阀值的重复剪辑近邻法 重复剪辑近邻法 样本筛选
在线阅读 下载PDF
基于冗余实例对消除算法的实例选择 被引量:2
10
作者 刘璐 高强 +1 位作者 刘衍珩 孙鑫 《计算机工程》 CAS CSCD 2014年第1期177-180,共4页
实例选择能有效移除数据中的噪声和冗余数据,但现有方法难以在提高泛化能力的同时实现约简。针对该问题,提出一种冗余实例对消除算法用于实例选择。给出最近同类实例对的概念,计算数据集中存在的最近同类实例对,并移除满足条件的实例,... 实例选择能有效移除数据中的噪声和冗余数据,但现有方法难以在提高泛化能力的同时实现约简。针对该问题,提出一种冗余实例对消除算法用于实例选择。给出最近同类实例对的概念,计算数据集中存在的最近同类实例对,并移除满足条件的实例,在11个不同数据集上进行的仿真实验结果表明,经过该算法处理后的数据集在分类准确率和存储压缩率上较原始样本集有明显提升。对比剪辑最近邻规则算法,该算法能够在保持分类准确率的同时提高平均存储压缩率35%以上,并完整保留原始样本集的数据分布特征,在分类准确率和存储压缩率上取得折中。 展开更多
关键词 实例选择 最近同类实例对 k最近邻 剪辑最近邻规则算法 数据约简 机器学习
在线阅读 下载PDF
改进的协同训练半监督SVM在油层识别中的应用 被引量:2
11
作者 潘用科 贺紫平 +1 位作者 夏克文 牛文佳 《郑州大学学报(工学版)》 CAS 北大核心 2022年第1期14-19,26,共7页
实际石油测井中有标签数据获取代价昂贵,而大量低廉的无标签数据未被使用,如何利用有限的有标签样本及大量的无标签样本获取准确的油层分布有待解决。半监督学习方法因能同时利用少量有标签样本及大量无标签样本便可获取良好的分类模型... 实际石油测井中有标签数据获取代价昂贵,而大量低廉的无标签数据未被使用,如何利用有限的有标签样本及大量的无标签样本获取准确的油层分布有待解决。半监督学习方法因能同时利用少量有标签样本及大量无标签样本便可获取良好的分类模型而被广泛应用。因此,基于半监督支持向量机(S3VM),提出一种改进的基于量子行为粒子群优化(QPSO)的协同训练S3VM油层识别算法(QPSO-CS3VM)。首先引入多视图的协同训练策略,构造2个独立的初始分类器提高识别精度;然后为提高初始分类精度,引入了量子行为粒子群算法以优化S3VM;最后引入一种改进的近邻数据剪辑方法用于预测无标签样本伪标签的置信度,从而避免因错分样本导致的模型性能恶化的问题。通过对具有代表性的两口井的测井数据进行油层识别,结果表明:改进的协同训练半监督SVM相较于传统的协同训练算法在两口井中的识别率分别提升了5.00百分点和3.12百分点。所提算法油层识别精度较高,有一定的实际应用意义。 展开更多
关键词 半监督支持向量机 协同训练 量子行为粒子群优化 数据剪辑 油层识别
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部