-
题名基于互信息解决多标签文本分类中的长尾问题
被引量:3
- 1
-
-
作者
潘理虎
李小华
张睿
谢斌红
杨楠
张林梁
-
机构
太原科技大学计算机科学与技术学院
山西交通科学研究院信息技术研究院
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第9期2664-2669,共6页
-
基金
山西省自然科学基金资助项目(201901D111258)
山西省智能软件与人机环境系统研究生联合培养示范基地项目(2022JD11)
山西省留学人员管理委员会资助项目。
-
文摘
针对当前解决多标签文本分类中长尾问题的方法多以破坏原本数据分布为代价,在真实数据上的泛化性能下降,无法有效地缓解样本的长尾分布的问题,提出了基于互信息解决长尾问题的多标签文本分类方法(MLTC-LD)。首先,创建关于标签样本的关系矩阵,计算标签样本间的依赖关系;其次,考虑标签样本间关系程度的强弱构造邻居选择器,将拥有强关系的邻居信息作为主要语义特征并作为先验信息;最后,通过图注意力神经网络将先验信息引入分类器,实现了借助分布头部数据丰富类的知识来提高尾部数据贫乏类性能的目标。在三个不同的数据集上将MLTC-LD与八个基线模型进行了广泛的比较分析。实验结果表明,MLTC-LD与最优的HGLRN相比精确度分别提高了3.5%、0.3%、1.5%,证明了该方法的有效性。
-
关键词
多标签文本分类
长尾问题
互信息
先验信息
-
Keywords
multi-label text classification(mltc)
long-tail problem
mutual information
prior information
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于层级图标签表示网络的多标签文本分类
被引量:2
- 2
-
-
作者
徐江玲
陈兴荣
-
机构
中国地质大学(武汉)数学与物理学院
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第2期388-392,407,共6页
-
文摘
多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来推进这一研究方向。一方面,构建的层级图标签表示,除了学习每个标签的局部语义外,还进一步研究多个标签共享的全局语义;另一方面,为了捕捉标签和文本内容间的联系并加以利用,使用标签文本注意机制来引导文本特征的学习过程。在三个多标签基准数据集上的实验表明,该模型与其他方法相比具有更好的分类性能。
-
关键词
多标签文本分类
标签相关性
层级图表示
标签组嵌入
标签文本注意力
-
Keywords
multi-label text classification(mltc)
correlation of label
graphical representation of the hierarchy
group embedding of label
label-text attention
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-