期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
采用平衡函数的大规模多标签文本分类 被引量:1
1
作者 陈钊鸿 洪智勇 +1 位作者 余文华 张昕 《计算机工程与应用》 CSCD 北大核心 2024年第4期163-172,共10页
大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方... 大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方法。该方法使用BERT预训练模型对文本进行词嵌入处理,进一步使用预训练模型中多层编码器的拼接输出作为文本向量表示,获取了丰富的文本语义信息,提高了模型收敛速度。最后采用平衡函数针对预测标签的训练损失赋予不同的衰减权重,提高了方法在尾部标签分类上的学习能力。在Eurlex-4K和Wiki10-31K数据集上的实验结果表明,评价指标P@1、P@3和P@5上分别达到86.95%、74.12%、61.43%和88.57%、77.46%、67.90%。 展开更多
关键词 自然语言处理 大规模多标签文本分类 BERT 平衡函数 深度学习
在线阅读 下载PDF
用于大规模深度卷积分类网络DOA估计的标签分解方法 被引量:9
2
作者 吴双 袁野 +2 位作者 马育红 黄敬健 袁乃昌 《信号处理》 CSCD 北大核心 2021年第1期1-10,共10页
为了有效地解决使用深度神经网络求解波达方向(DOA)估计涉及到的大规模分类器的训练和部署实现,本文提出将传统的one-hot分类器分解为多个类别互质的小分类器,然后联合使用多个互质分类器的分类结果重构原始one-hot标签。首先使用标签分... 为了有效地解决使用深度神经网络求解波达方向(DOA)估计涉及到的大规模分类器的训练和部署实现,本文提出将传统的one-hot分类器分解为多个类别互质的小分类器,然后联合使用多个互质分类器的分类结果重构原始one-hot标签。首先使用标签分解,将原始标签分解为多个互质的小标签,小标签对应的类别为原始类别对质数取余数的结果。其次,通过独立并行地训练每一个互质分类器,降低了大类别条件下分类器的训练难度。仿真结果表明,相比one-hot分类器,互质分类器网络的复杂度低,易于训练。另外,使用互质分类器进行DOA估计能够实现超分辨并且估计的精度比one-hot分类器以及稀疏贝叶斯学习等方法更高。 展开更多
关键词 波达方向估计 深度卷积神经网络 标签分解 大规模分类问题
在线阅读 下载PDF
大规模层次分类中的候选类别搜索 被引量:19
3
作者 何力 丁兆云 +1 位作者 贾焰 韩伟红 《计算机学报》 EI CSCD 北大核心 2014年第1期41-49,共9页
大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,... 大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,但结果表明候选类别搜索成为了其中瓶颈.文中首先对候选搜索问题的计算复杂性进行了分析,证明了该问题是NP难的,接下来提出了一个基于贪心策略的启发式候选搜索算法,并且证明了该贪心策略在求解过程中是一个局部最优选择.作者采用DMOZ目录中的简体中文网页数据进行了实验论证,实验结果显示,相比已有算法,文中提出的候选类别搜索算法在候选类别搜索的准确率上提高了大约7.5%. 展开更多
关键词 文本分类 大规模层次分类 类别层次 候选类别 候选搜索问题 社交网络
在线阅读 下载PDF
大规模层次分类问题研究及其进展 被引量:14
4
作者 何力 贾焰 +2 位作者 韩伟红 谭霜 陈志坤 《计算机学报》 EI CSCD 北大核心 2012年第10期2101-2115,共15页
随着信息技术的发展,互联网数据急剧增长.为了有效地组织和管理这些海量网页信息,通常按照一个大规模的概念或主题类别层次对网络上的信息进行分类,以更好地搜索和访问这些网络资源.在这个过程中,大规模层次分类问题研究如何将互联网上... 随着信息技术的发展,互联网数据急剧增长.为了有效地组织和管理这些海量网页信息,通常按照一个大规模的概念或主题类别层次对网络上的信息进行分类,以更好地搜索和访问这些网络资源.在这个过程中,大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.该文对大规模层次分类问题进行了分析.首先,给出了大规模层次分类问题的定义,分析了大规模层次分类问题的求解策略;其次,对大规模层次分类问题的求解方法加以分类,在分类基础上,介绍了各种典型的求解方法并进行了对比;最后总结了各种大规模层次分类问题求解方法并指出了未来的研究方向. 展开更多
关键词 文本分类 大规模层次分类 类别层次 类别层次树
在线阅读 下载PDF
面向大规模类不平衡数据的变分高斯过程分类算法 被引量:6
5
作者 马彪 周瑜 贺建军 《大连理工大学学报》 EI CAS CSCD 北大核心 2016年第3期279-284,共6页
变分高斯过程分类器是最近提出的一种较有效的面向大规模数据的快速核分类算法,其在处理类不平衡问题时,对少数类样本的预测精度通常会较低.针对此问题,通过在似然函数中引入指数权重系数和构造包含相同数目正负类样本的诱导子集解决原... 变分高斯过程分类器是最近提出的一种较有效的面向大规模数据的快速核分类算法,其在处理类不平衡问题时,对少数类样本的预测精度通常会较低.针对此问题,通过在似然函数中引入指数权重系数和构造包含相同数目正负类样本的诱导子集解决原始算法的分类面向少数类偏移的问题,建立了一种可以有效处理大规模类不平衡问题的改进变分高斯过程分类算法.在10个大规模UCI数据集上的实验结果表明,改进算法在类不平衡问题上的精度较原始算法得到大幅提高. 展开更多
关键词 类不平衡问题 高斯过程 变分推理 大规模数据分类
在线阅读 下载PDF
基于快速SVM的大规模网络流量分类方法 被引量:5
6
作者 王涛 程良伦 《计算机应用研究》 CSCD 北大核心 2012年第6期2301-2305,共5页
支持向量机方法具有良好的分类准确率、稳定性与泛化性,在网络流量分类领域已有初步应用,但在面对大规模网络流量分类问题时却存在计算复杂度高、分类器训练速度慢的缺陷。为此,提出一种基于比特压缩的快速SVM方法,利用比特压缩算法对... 支持向量机方法具有良好的分类准确率、稳定性与泛化性,在网络流量分类领域已有初步应用,但在面对大规模网络流量分类问题时却存在计算复杂度高、分类器训练速度慢的缺陷。为此,提出一种基于比特压缩的快速SVM方法,利用比特压缩算法对初始训练样本集进行聚合与压缩,建立具有权重信息的新样本集,在损失尽量少原始样本信息的前提下缩减样本集规模,进一步利用基于权重的SVM算法训练流量分类器。通过大规模样本集流量分类实验对比,快速SVM方法能在损失较少分类准确率的情况下,较大程度地缩减流量分类器的训练时间以及未知样本的预测时间,同时,在无过度压缩前提下,其分类准确率优于同等压缩比例下的随机取样SVM方法。本方法在保留SVM方法较好分类稳定性与泛化性能的同时,有效提升了其应对大规模流量分类问题的能力。 展开更多
关键词 支持向量机 大规模流量分类 比特压缩 权重SVM 分类 分类准确率
在线阅读 下载PDF
基于全路径相似度的大规模层次分类算法
7
作者 朱建林 陈忠阳 +1 位作者 张永俊 孙存一 《计算机工程与设计》 北大核心 2019年第5期1300-1304,1333,共6页
为快速准确地实现大规模层次分类问题,提出词类区分度概念,并以此作为计算类向量的基础。基于类向量,以改进的Rocchio算法计算待分类文本与目标类的相似度,候选出N个最可能的目标类别;根据目标类别的层次拓扑结构,计算待分类文本与N个... 为快速准确地实现大规模层次分类问题,提出词类区分度概念,并以此作为计算类向量的基础。基于类向量,以改进的Rocchio算法计算待分类文本与目标类的相似度,候选出N个最可能的目标类别;根据目标类别的层次拓扑结构,计算待分类文本与N个目标类别的全路径相似度,确定分类类别。实验结果表明,该方法分类效果优于传统算法,其基于文本类全路径相似度的策略明显改善了单纯基于词类区分度的分类算法。 展开更多
关键词 词类区分度 全路径相似度 大规模层次分类 文本分类 化繁为简策略
在线阅读 下载PDF
SemFA:基于语义特征与关联注意力的大规模多标签文本分类模型 被引量:4
8
作者 王振东 董开坤 +1 位作者 黄俊恒 王佰玲 《计算机科学》 CSCD 北大核心 2023年第12期270-278,共9页
大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势... 大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势,忽略了文本不同粒度下细微的局部语义信息,同时标签与文本之间的潜在关联尚未得到稳健的建立与利用。对此,提出了一种基于语义特征与关联注意力的大规模多标签文本分类模型SemFA(An Extreme Multi-Label Text Classification Model Based on Semantic Features and Association-Attention)。在SemFA中,首先拼接多层编码器顶层输出作为全局特征。其次,结合卷积神经网络从多层编码器浅层向量中获取局部特征。综合丰富的全局信息和不同粒度下细微的局部信息获得更丰富、更准确的语义特征。最后,通过关联注意力机制建立标签特征与文本特征之间的潜在关联,引入关联损失作为潜在关联不断优化模型。在Eurlex-4K和Wiki10-31K两个公开数据集上的实验结果表明,SemFA优于大多数现有的XMTC模型,能有效地融合语义特征与关联注意力,提升整体的分类性能。 展开更多
关键词 自然语言处理 大规模多标签文本分类 语义特征 预训练模型 注意力机制
在线阅读 下载PDF
基于机器学习的文本分类技术研究进展 被引量:393
9
作者 苏金树 张博锋 徐昕 《软件学报》 EI CSCD 北大核心 2006年第9期1848-1859,共12页
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.... 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 展开更多
关键词 自动文本分类 机器学习 降维 核方法 未标注集 偏斜数据集 分级分类 大规模文本分类 Web页分类
在线阅读 下载PDF
基于类别层次结构的多层文本分类样本扩展策略 被引量:17
10
作者 李保利 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期357-366,共10页
针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构... 针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139,在10个参赛系统中位列第二。 展开更多
关键词 多层文本分类 大规模中文新闻分类 中文新闻信息分类 类别层次体系
在线阅读 下载PDF
基于边界样本选择的支持向量机加速算法 被引量:5
11
作者 胡小生 钟勇 《计算机工程与应用》 CSCD 北大核心 2017年第3期169-173,共5页
针对支持向量机(Support Vector Machine,SVM)处理大规模数据集的学习时间长、泛化能力下降等问题,提出基于边界样本选择的支持向量机加速算法。首先,进行无监督的K均值聚类;然后,在各个聚簇内依照簇的混合度、支持度因素应用K近邻算法... 针对支持向量机(Support Vector Machine,SVM)处理大规模数据集的学习时间长、泛化能力下降等问题,提出基于边界样本选择的支持向量机加速算法。首先,进行无监督的K均值聚类;然后,在各个聚簇内依照簇的混合度、支持度因素应用K近邻算法剔除非边界样本,获得最终的类别边界区域样本,参与SVM模型训练。在标准数据集上的实验结果表明,算法在保持传统支持向量机的分类泛化能力的同时,显著降低了模型训练时间。 展开更多
关键词 支持向量机 大规模分类 边界样本 聚类
在线阅读 下载PDF
基于流形判别分析的全局保序学习机 被引量:1
12
作者 张静 刘忠宝 《电子科技大学学报》 EI CAS CSCD 北大核心 2015年第6期911-916,共6页
当前主流分类方法在分类决策时无法同时考虑样本的全局特征和局部特征,而且大多算法仅关注各类样本的可分性,往往忽略样本之间的相对关系。为了解决上述问题,提出了基于流形判别分析的全局保序学习机。该方法引入流形判别分析来反映样... 当前主流分类方法在分类决策时无法同时考虑样本的全局特征和局部特征,而且大多算法仅关注各类样本的可分性,往往忽略样本之间的相对关系。为了解决上述问题,提出了基于流形判别分析的全局保序学习机。该方法引入流形判别分析来反映样本的全局特征和局部特征;通过保持各类样本中心的相对关系不变进而实现保持全体样本的先后顺序不变;借鉴核心向量机有关理论和方法,通过建立所提方法与核心向量机对偶形式的等价关系实现大规模分类。人工数据集和标准数据集上的比较实验验证了该方法的有效性。 展开更多
关键词 全局保序 大规模分类 流形判别分析 支持向量机
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部