-
题名基于互信息解决多标签文本分类中的长尾问题
被引量:3
- 1
-
-
作者
潘理虎
李小华
张睿
谢斌红
杨楠
张林梁
-
机构
太原科技大学计算机科学与技术学院
山西交通科学研究院信息技术研究院
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第9期2664-2669,共6页
-
基金
山西省自然科学基金资助项目(201901D111258)
山西省智能软件与人机环境系统研究生联合培养示范基地项目(2022JD11)
山西省留学人员管理委员会资助项目。
-
文摘
针对当前解决多标签文本分类中长尾问题的方法多以破坏原本数据分布为代价,在真实数据上的泛化性能下降,无法有效地缓解样本的长尾分布的问题,提出了基于互信息解决长尾问题的多标签文本分类方法(MLTC-LD)。首先,创建关于标签样本的关系矩阵,计算标签样本间的依赖关系;其次,考虑标签样本间关系程度的强弱构造邻居选择器,将拥有强关系的邻居信息作为主要语义特征并作为先验信息;最后,通过图注意力神经网络将先验信息引入分类器,实现了借助分布头部数据丰富类的知识来提高尾部数据贫乏类性能的目标。在三个不同的数据集上将MLTC-LD与八个基线模型进行了广泛的比较分析。实验结果表明,MLTC-LD与最优的HGLRN相比精确度分别提高了3.5%、0.3%、1.5%,证明了该方法的有效性。
-
关键词
多标签文本分类
长尾问题
互信息
先验信息
-
Keywords
multi-label text classification(MLTC)
long-tail problem
mutual information
prior information
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-