-
题名融合多特征和句法引导的中文命名实体识别
- 1
-
-
作者
李莉
奚雪峰
盛胜利
崔志明
周悦尧
-
机构
苏州科技大学电子与信息工程学院
苏州市科技局苏州市虚拟现实智能交互及应用重点实验室
苏州科技大学苏州智慧城市研究院
德州理工大学计算机学院
-
出处
《计算机工程与设计》
北大核心
2024年第11期3448-3456,共9页
-
基金
国家自然科学基金项目(61876217、62176175)
江苏省“六大人才高峰”高层次人才基金项目(XYDXX-086)
苏州市科技计划基金项目(SGC2021078)。
-
文摘
针对基于字符的中文命名实体识别模型中所存在一词多义和实体边界潜在词歧义的问题,提出一种融合多层语义特征和句法依存引导的中文NER模型。将句法依存引导的注意力机制与双向长短期记忆网络(BiLSTM)结合,获得字特征向量。通过迭代卷积神经网络(IDCNN)提取汉字独有特征:部首与拼音。采用协同注意力机制对句法依存引导的多种向量进行特征融合。使用CRF层来获得最佳标记序列。在多个公开数据集上的实验结果表明了模型的有效性。
-
关键词
中文命名实体识别
多特征融合
句法依存树
BERT
协同注意力机制
一词多义
潜在词歧义
-
Keywords
Chinese named entity recognition
multi-feature fusion
syntactic dependency tree
BERT
cooperative attention mechanism
polysemy
latent word ambiguity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于类名引导的弱监督文本分类
被引量:1
- 2
-
-
作者
周悦尧
奚雪峰
崔志明
盛胜利
仇亚进
-
机构
苏州科技大学电子与信息工程学院
苏州市科技局苏州市虚拟现实智能交互及应用重点实验室
苏州科技大学苏州智慧城市研究院
德州理工大学计算机学院
-
出处
《计算机工程与设计》
北大核心
2023年第8期2329-2336,共8页
-
基金
国家自然科学基金项目(61876217、62176175)
江苏省“六大人才高峰”高层次人才基金项目(XYDXX-086)
苏州市科技计划基金项目(SGC2021078)。
-
文摘
针对弱监督文本分类过于依赖专家生成种子词的局限,提出一种基于类名引导生成种子词的弱监督文本分类方法。使用Skip-Gram模型学习单词的向量表示,借助vMF(von Mises Fisher)分布对用户提供的类名与语料库之间的关系进行建模,综合考虑语义相关性和语义特异性,由此生成一组高质量的种子词,无需依赖专家经验;迭代使用种子词生成伪标签和文档分类器;扩展种子词,进一步提升模型性能。在NYT和20 Newsgroups两个公开数据集上的实验结果(F1-score)表明了所提弱监督文本分类方法的有效性。
-
关键词
弱监督
文本分类
词向量
冯米塞尔分布
语义相关性
语义特异性
深度学习
-
Keywords
weakly supervision
text classification
word embedding
vMF distribution
semantic relevance
semantic specificity
deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-