-
题名基于细粒度字词特征的中文作者识别模型
- 1
-
-
作者
赵宏
张陈鹏
王奡隆
张扬
-
机构
兰州理工大学计算机与通信学院
-
出处
《兰州理工大学学报》
北大核心
2025年第3期99-106,共8页
-
基金
国家自然科学基金(62166025)
甘肃省重点研发计划(21YF5GA073)。
-
文摘
现有作者识别模型大多针对英文建立,但由于中文与英文在语法和语言组成要素方面的差异,英文作者识别模型用于中文文本时会出现较大的偏差.为解决中文作者识别的问题,提出一种适配中文特点的模型,称为细粒度字词特征的中文作者识别模型.该模型使用并行卷积提取1至4字词的细粒度特征,结合注意力机制进行权重分配,最后通过分类器实现中文作者识别.实验结果表明,该模型与BERT、文本卷积网络(TextCNN)、循环神经网络(RNN)等基线模型相比,在三个中文作者识别数据集上的准确率平均提高2.09%、7.2%和6.71%,具有较高的实用价值.
-
关键词
中文作者识别
BERT
注意力机制
并行卷积层
细粒度特征
-
Keywords
Chinese authorship identification
BERT
attention mechanism
parallel convolutional layers
fine-grained feature
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-