期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
采用平衡函数的大规模多标签文本分类 被引量:1
1
作者 陈钊鸿 洪智勇 +1 位作者 余文华 张昕 《计算机工程与应用》 CSCD 北大核心 2024年第4期163-172,共10页
大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方... 大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方法。该方法使用BERT预训练模型对文本进行词嵌入处理,进一步使用预训练模型中多层编码器的拼接输出作为文本向量表示,获取了丰富的文本语义信息,提高了模型收敛速度。最后采用平衡函数针对预测标签的训练损失赋予不同的衰减权重,提高了方法在尾部标签分类上的学习能力。在Eurlex-4K和Wiki10-31K数据集上的实验结果表明,评价指标P@1、P@3和P@5上分别达到86.95%、74.12%、61.43%和88.57%、77.46%、67.90%。 展开更多
关键词 自然语言处理 大规模多标签文本分类 BERT 平衡函数 深度学习
在线阅读 下载PDF
SemFA:基于语义特征与关联注意力的大规模多标签文本分类模型 被引量:4
2
作者 王振东 董开坤 +1 位作者 黄俊恒 王佰玲 《计算机科学》 CSCD 北大核心 2023年第12期270-278,共9页
大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势... 大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势,忽略了文本不同粒度下细微的局部语义信息,同时标签与文本之间的潜在关联尚未得到稳健的建立与利用。对此,提出了一种基于语义特征与关联注意力的大规模多标签文本分类模型SemFA(An Extreme Multi-Label Text Classification Model Based on Semantic Features and Association-Attention)。在SemFA中,首先拼接多层编码器顶层输出作为全局特征。其次,结合卷积神经网络从多层编码器浅层向量中获取局部特征。综合丰富的全局信息和不同粒度下细微的局部信息获得更丰富、更准确的语义特征。最后,通过关联注意力机制建立标签特征与文本特征之间的潜在关联,引入关联损失作为潜在关联不断优化模型。在Eurlex-4K和Wiki10-31K两个公开数据集上的实验结果表明,SemFA优于大多数现有的XMTC模型,能有效地融合语义特征与关联注意力,提升整体的分类性能。 展开更多
关键词 自然语言处理 大规模多标签文本分类 语义特征 预训练模型 注意力机制
在线阅读 下载PDF
基于机器学习的文本分类技术研究进展 被引量:393
3
作者 苏金树 张博锋 徐昕 《软件学报》 EI CSCD 北大核心 2006年第9期1848-1859,共12页
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.... 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 展开更多
关键词 自动文本分类 机器学习 降维 核方法 未标注集 偏斜数据集 分级分类 大规模文本分类 Web页分类
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部