一种去注意力机制的动态多层语义感知机被引量：2

A dynamic multi-layer semantics perceptron without attention mechanism

导出

摘要 Transformer在大规模数据集上取得了优异效果,但由于使用多头注意力使得模型过于复杂,且在小规模数据集上效果不理想.对于多头注意力替换的研究在图像处理领域已取得一些成果,但在自然语言处理领域还少有研究.为此,首先提出一种去注意力的多层语义感知机(multi-layer semantics perceptron,MSP)方法,其核心创新是使用token序列转换函数替换编码器中的多头注意力,降低模型复杂度,获得更好的语义表达;然后,提出一种动态深度控制框架(dynamic depth control framework,DDCF),优化模型深度,降低模型复杂度;最后,在MSP方法和DDCF的基础上,提出动态多层语义感知机(dynamic multi-layer semantics perceptron,DMSP)模型,在多种文本数据集上的对比实验结果表明,DMSP既能提升模型分类精度,又能有效降低模型复杂度,与Transformer比较,在模型深度相同的情况下,DMSP模型分类精度大幅提升,同时模型的参数量大幅降低. Transformer has achieved excellent results on large-scale data sets,but it is too complex due to utilizing Multi Head Attention(MHA),and its performance is poor on small-scale data sets.The study on the replacement of MHA is little in the field of natural language processing,although it has made great achievements in the field of image processing.Therefore,a method called multi-layer semantics perceptron(MSP)is proposed.Its major innovation is that instead of MHA,a simple token sequence transformation function is used,thus achieving a better semantic feature representation with lower complexity.Additionally,a dynamic depth control framework(DDCF)is proposed,which is able to optimize the depth of neural networks automatically,as a result the complexity of the model is reduced markedly.Finally,based on the MSP and the DDCF,the dynamic multi-layer semantics perceptron model(DMSP)is proposed.Compared with the Transformer model with same depth,the experimental results on multi-data sets show that the DMSP model achieves better performance significantly,meanwhile,its parameters declines sharply.

作者刘孝炎唐焕玲王育林窦全胜鲁明羽 LIU Xiao-yan;TANG Huan-ling;WANG Yu-lin;DOU Quan-sheng;LU Ming-yu(School of Computer Science and Technology,Shandong Technology and Business University,Yantai 264005,China;Co-Innovation Center of Shandong Colleges and Universities:Future Intelligent Computing,Yantai 264005,China;Key Laboratory of Intelligent Information Processing in Universities of Shandong,Shandong Technology and Business University,Yantai 264005,China;Information Science and Technology College,Dalian Maritime University,Dalian 116026,China)

机构地区山东工商学院计算机科学与技术学院山东省高等学校协同创新中心:未来智能计算山东工商学院山东省高校智能信息处理重点实验室大连海事大学信息科学技术学院

出处《控制与决策》 EI CSCD 北大核心 2024年第2期588-594,共7页 Control and Decision

基金国家自然科学基金项目(61976124,61976125,62176140)。

关键词特征表示语义感知机动态深度控制 TRANSFORMER 文本分类 feature representation semantics perceptron dynamic depth control Transformer text categorization

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

作者简介刘孝炎(1997−),男,硕士生,从事机器学习、人工智能、数据挖掘等研究,E-mail:lxy15058247683@aliyun.com;通讯作者:唐焕玲(1970−),女,教授,博士,从事机器学习、人工智能、数据挖掘等研究,E-mail:thL01@163.com;王育林(1998−),男,硕士生,从事机器学习、人工智能、数据挖掘等研究,E-mail:ylinwang@yeah.net;窦全胜(1971−),男,教授,博士,从事机器学习、人工智能、演化计算等研究,E-mail:li_dou@163.com;鲁明羽(1963−),男,教授,博士生导师,从事机器学习、人工智能、数据挖掘等研究,E-mail:lumingyu@dlmu.edu.cn.

引文网络
相关文献

参考文献2

1唐焕玲,鲁明羽,邬俊.基于投票信息熵的AdaBoost改进算法[J].控制与决策,2010,25(4):487-492. 被引量：5
2唐焕玲,宋双梅,刘孝炎,窦全胜,鲁明羽.基于u-wordMixup的半监督深度学习模型[J].控制与决策,2023,38(6):1646-1652. 被引量：1

二级参考文献15

1唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
2李闯,丁晓青,吴佑寿.一种改进的AdaBoost算法——AD AdaBoost[J].计算机学报,2007,30(1):103-109. 被引量：54
3Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting [J]. J of Computer and System Sciences, 1997, 55(1): 119-139.
4Schapire R E, Singer Y. BoosTexter: A boosting-based system for text categorization [J]. Machine Learning, 2000, 39(2/3): 135-168.
5Zhou Z H, Jiang Y. NeC4.5: Neural ensemble based C4.5 [J]. IEEE Trans on Knowledge and Data Engineering, 2004, 16(6): 770-773.
6Ting K M, Zheng Z. Improving the performance of boosting for naive Bayesian classification [C]. Proc of the 3rd PAKDD. Berlin: Springer Verlag, 1999: 296-305.
7Sebastiani F. Machine learning in automated text categorization [J]. ACM Computing Surveys, 2002, 34(1): 1-47.
8Dagan I, Engelson S. Committee-based sampling for training probabilistic classifiers [C]. Proc of the 12th Int Conf on Machine Learning. Tahoe, 1995: 150-157.
9Kuncheva L I, Whitaker C J. Measures of diversity in classifier ensembles[J]. Machine Learning 2003, 51(2): 181-207.
10朱靖波,王会珍,张希娟.面向文本分类的混淆类判别技术[J].软件学报,2008,19(3):630-639. 被引量：9

共引文献4

1雷蕾,王晓丹.基于损失函数的AdaBoost改进算法[J].计算机应用,2012,32(10):2916-2919. 被引量：2
2田一明,陈伟,单新颖.基于优化Adaboost迭代过程的SVM集成算法[J].无线互联科技,2017,14(15):106-108.
3翟夕阳,王晓丹,李睿,贾琪.基于信息熵的RVM-AdaBoost组合分类器[J].计算机工程与应用,2018,54(5):138-143. 被引量：5
4唐焕玲,宋双梅,刘孝炎,窦全胜,鲁明羽.基于u-wordMixup的半监督深度学习模型[J].控制与决策,2023,38(6):1646-1652. 被引量：1

同被引文献22

1杨月.数字图书馆交互式信息分类检索模型设计[J].科技通报,2021,37(12):112-116. 被引量：3
2宋贽,刘艳春,陶桂洪.阶段Ⅱ联合检测过程位置和尺度的非参数EWMA控制图（英文）[J].应用概率统计,2019,35(6):639-653. 被引量：1
3兰慧红.基于用户兴趣模型的个性化跨语言查询扩展研究[J].信息系统工程,2020(3):143-145. 被引量：1
4胡雪君,王建江,崔南方.基于统计过程控制的两阶段缓冲监控方法[J].控制与决策,2020,35(6):1453-1462. 被引量：20
5曲琳琳.查询翻译方法研究——以汉英跨语言信息检索为例[J].情报科学,2021,39(8):132-138. 被引量：5
6叶雪,梁娟.基于平行语料库的英汉跨语言信息检索设计研究[J].电子设计工程,2021,29(17):135-138. 被引量：5
7王余行,党延忠,徐照光.针对论坛数据特点的汽车质量问题挖掘[J].中国管理科学,2021,29(9):201-212. 被引量：9
8张秀云.基于用户日志双向聚类的跨语言信息检索系统设计[J].现代电子技术,2021,44(24):158-162. 被引量：5
9葛运东,陈洪梅,姚建民.跨语言文献检索系统研究[J].情报探索,2022(1):69-72. 被引量：2
10戎军涛.用户认知导向的动态信息检索模型构建[J].图书馆,2022(1):69-76. 被引量：10

引证文献2

1王滨,郭黎娜.基于改进CMDAM信息检索模型的翻译机器人质量提升研究[J].自动化与仪器仪表,2024(10):278-281.
2宋贽,王晗,张久军,胡雪龙.融合主题模型与文本特征的汽车质量多维动态监测与诊断[J].控制与决策,2025,40(9):2879-2890.

1CNCC上我们聊过的关于大模型的那些事[J].计算机技术与发展,2024,34(3).
2洪越,王申涛.基于YOLOv5改进模型的农田害虫检测算法[J].信息与电脑,2023,35(23):75-79.
3Wei Zheng,Ruonan Gu,Xiaoxue Wu,Lipeng Gao,Han Li.Personalized Learning Path Recommendations for Software Testing Courses Based on Knowledge Graphs[J].计算机教育,2023(12):63-70.
4牛成文,侯华鑫,谢雯媛,王秀丽,殷汝枭,曲建平,王己光,周波.基于改进YOLOv7的线虫智能识别研究[J].山东农业大学学报(自然科学版),2024,55(1):100-107.
5梁田,杨洪吉,狄文佳.供者来源游离DNA在肝移植领域相关研究与应用进展[J].实用医院临床杂志,2024,21(1):200-203.
6马青宇,邵松帅,刘博旭,孙哲,龚光富,孙知信.基于改进麻雀搜索算法的冷链物流路径优化[J].计算机技术与发展,2024,34(3):125-132. 被引量：3
7赖镜安,陈紫强,孙宗威,裴庆祺.基于YOLOv5的轻量级雾天目标检测方法[J].计算机工程与应用,2024,60(6):78-88. 被引量：6
8何健郡,李子印,马咸莹.基于目标颜色基及梯度方向匹配的菌落分割计数算法[J].微生物学报,2024,64(3):953-967.
9周永钦,王勇,王瑛.基于多尺度特征及注意力机制的轻量化PCB缺陷检测方法[J].计算机与现代化,2024(2):88-92. 被引量：1
10贺红,吉利.浅谈正畸临床矫治新技术——球托止动定位轻力5s系统[J].国际口腔医学杂志,2024,51(2):125-136.

控制与决策

2024年第2期

浏览历史

内容加载中请稍等...

一种去注意力机制的动态多层语义感知机被引量：2

参考文献2

二级参考文献15

共引文献4

同被引文献22

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种去注意力机制的动态多层语义感知机 被引量：2

参考文献2

二级参考文献15

共引文献4

同被引文献22

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种去注意力机制的动态多层语义感知机被引量：2