-
题名基于领域知识的增强约束词向量
被引量:2
- 1
-
-
作者
王恒升
刘通
任晋
-
机构
中南大学机电工程学院
中南大学高性能复杂制造国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2019年第4期37-47,共11页
-
基金
国家973计划(2013CB035504)
-
文摘
词向量是一种词语的数字化的表达。基于神经网络模型,利用语料中词语之间的上下文关系这一约束条件,通过大量训练得到词向量。词向量在表达词的语义上的表现给人以无限的希望与想象空间,基于词向量的文本分类、人机对话、智能检索等得到了广泛的研究。该文针对校园信息查询的特定应用,建立了所涉及词语的分类本体,除了利用语料中词语上下文关系外,还将本体知识作为约束条件进行词向量的训练,增强了词向量的语义表达。基于skip-gram模型,采用多任务的神经网络训练方法,在自己收集的语料上训练得到了针对领域的词向量。实验表明,基于领域知识的增强约束词向量能够更准确地表达词的语义信息。
-
关键词
增强约束词向量
语义表达
本体知识
-
Keywords
constraint-enhanced word embedding
semantic expression
ontology knowledge
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于情感增强词向量的朝鲜语情感分析方法
- 2
-
-
作者
金国哲
-
机构
延边大学工学院计算机科学与技术系
-
出处
《计算机工程与设计》
北大核心
2018年第9期2902-2906,共5页
-
基金
吉林省教育厅"十三五"科学技术研究重点基金项目(吉教科合字[2016]第250号)
-
文摘
现有的句子级情感分析方法把重点放在针对句子的语义及情感倾向建模上,忽略了词向量的情感倾向性信息。针对这一问题,提出一种情感分析方法 SE-LSTM,并将该方法应用于朝鲜语情感分析任务中。以句子片段的情感评分作为目标,训练多层神经网络,得到情感增强词向量,将之作为LSTM网络的输入,预测句子的情感分类。实验结果表明,与传统的LSTM或CNN模型相比,融合了情感增强词向量的LSTM模型将F1值分别提高了2.55个百分点和1.94个百分点。
-
关键词
情感增强词向量
长短期记忆网络
朝鲜语
情感分析
自然语言处理
-
Keywords
sentiment enhanced word vector
LSTM
Korean language
sentiment analysis
natural language processing
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词性特征的CNN_BiGRU文本分类模型
被引量:6
- 3
-
-
作者
张小川
刘连喜
戴旭尧
刘璐
-
机构
重庆理工大学两江人工智能学院
重庆理工大学计算机科学与工程学院
-
出处
《计算机应用与软件》
北大核心
2021年第11期155-161,共7页
-
基金
国家自然科学基金项目(61702063)。
-
文摘
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足。针对上述问题,提出一种基于词性特征的CNNBiGRU文本分类模型。引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测。实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力。
-
关键词
词性特征
词性向量
增强词向量
CNN网络
BiGRU网络
CNN--_BiGRU模型
-
Keywords
Part of speech feature
Part of speech vector
Enhancement word vector
CNN network
BiGRU network
CNN-BiGRU model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于BERT和知识蒸馏的航空维修领域命名实体识别
被引量:5
- 4
-
-
作者
顾佼佼
翟一琛
姬嗣愚
宗富强
-
机构
海军航空大学
[
-
出处
《电子测量技术》
北大核心
2023年第3期19-24,共6页
-
文摘
针对军事航空维修领域命名实体识别训练数据少,标注成本高的问题,改进提出一种基于预训练BERT的命名实体识别方法,借鉴远程监督思想,对字符融合远程标签词边界特征得到特征融合向量,送入BERT生成动态字向量表示,连接CRF模型得到序列的全局最优结果,在自建数据集上进行实验,F1值达到0.861。为压缩模型参数,使用训练好的BERT-CRF模型生成伪标签数据,结合知识蒸馏技术指导参数量较少的学生模型BiGRU-CRF进行训练。实验结果表明,与教师模型相比,学生模型以损失2%的F1值为代价,参数量减少了95.2%,运算推理时间缩短了47%。
-
关键词
航空维修文本
命名实体识别
BERT
知识蒸馏
伪标签增强
词向量增强
-
Keywords
aviation maintenance text
named entity identification
BERT
knowledge distillation
pseudo label enhancement
word vector enhancement
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-