-
题名基于笔画中文字向量模型设计与研究
被引量:13
- 1
-
-
作者
赵浩新
俞敬松
林杰
-
机构
北京大学软件与微电子学院
中国人民大学信息学院
-
出处
《中文信息学报》
CSCD
北大核心
2019年第5期17-23,共7页
-
文摘
中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示。为此,该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec,扩展Word2Vec模型CBOW结构,使用卷积神经网络替换上下文信息矩阵、词向量矩阵,引入注意力机制,旨在模拟笔画构造汉字的规律,通过笔画直接生成字向量。将Stroke2Vec模型与Word2Vec、GloVe模型在命名实体识别任务上进行评测对比。实验结果显示,Stroke2Vec模型F1值达到81.49%,优于Word2Vec 1.21%,略优于GloVe模型0.21%,而Stroke2Vec产生的字向量结合Word2Vec模型结果,在NER上F1值为81.55%。
-
关键词
字向量
笔画
连续词袋模型
-
Keywords
character embedding
stroke
CBOW
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文领域情感词典自适应学习方法
被引量:15
- 2
-
-
作者
叶霞
曹军博
许飞翔
郭鸿燕
尹列东
-
机构
火箭军工程大学作战保障学院
中国航天科工集团第二研究院
-
出处
《计算机工程与设计》
北大核心
2020年第8期2231-2237,共7页
-
基金
国家自然科学基金项目(61702525)。
-
文摘
针对领域情感词典的局限性,提出一种中文领域情感词典自适应学习方法。从中文基础情感词典中选取少量种子词,采用基于CBOW模型和基于句法规则两种抽取方法,对领域语料库进行候选情感词的抽取,通过改进的SO_PMI算法对得到的候选情感词进行情感极性判定,形成领域正负情感词典。实验结果表明,该方法能够自适应生成领域情感词典,情感词识别准确率较高,该模型在中文情感分析应用中取得了较好的效果。
-
关键词
情感分析
领域情感词典
情感极性
CBOW连续词袋模型
PMI算法
-
Keywords
sentiment analysis
domain sentiment dictionary
sentiment polarity
CBOW model
PMI algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种采用对抗学习的跨项目缺陷预测方法
被引量:6
- 3
-
-
作者
邢颖
钱晓萌
管宇
章世豪
赵梦赐
林婉婷
-
机构
北京邮电大学人工智能学院
北京邮电大学现代邮政学院(自动化学院)
-
出处
《软件学报》
EI
CSCD
北大核心
2022年第6期2097-2112,共16页
-
基金
国家自然科学基金(61702044)
国家重点研发计划课题(2017YFD0401001)。
-
文摘
跨项目缺陷预测(cross-project defect prediction, CPDP)已经成为软件工程数据挖掘领域的一个重要研究方向,它利用其他项目的缺陷代码来建立预测模型,解决了模型构建过程中的数据不足问题.然而源项目和目标项目的代码文件之间存在着数据分布的差异,导致跨项目预测效果不佳.基于生成式对抗网络(generative adversarial network,GAN)中的对抗学习思想,在鉴别器的作用下,通过改变目标项目特征的分布,使其接近于源项目特征的分布,从而提升跨项目缺陷预测的性能.具体来说,提出的抽象连续生成式对抗网络(abstract continuous generative adversarial network, AC-GAN)方法包括数据处理和模型构建两个阶段:(1)首先将源项目和目标项目的代码转换为抽象语法树(abstract syntax tree,AST)的形式,然后以深度优先方式遍历抽象语法树得出节点序列,再使用连续词袋模型(continuous bag-of-words model,CBOW)生成词向量,依据词向量表将节点序列转化为数值向量;(2)处理后的数值向量被送入基于GAN网络结构的模型进行特征提取和数据迁移,然后使用二分类器来判断目标项目代码文件是否有缺陷. AC-GAN方法在15组源-目标项目对上进行了对比实验,实验结果表明了该方法的有效性.
-
关键词
跨项目缺陷预测
生成式对抗网络
连续词袋模型
抽象语法树
-
Keywords
cross-project defect prediction
generative adversarial network(GAN)
bag-of-words model
abstract syntax tree(AST)
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于改进的CBOW与ABiGRU的文本分类研究
被引量:6
- 4
-
-
作者
张宇艺
左亚尧
陈小帮
-
机构
广东工业大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2019年第24期135-140,170,共7页
-
基金
广东省科技计划公益研究(No.17ZK0226)
-
文摘
文本的表示与文本的特征提取是文本分类需要解决的核心问题,基于此,提出了基于改进的连续词袋模型(CBOW)与ABiGRU的文本分类模型。该分类模型把改进的CBOW模型所训练的词向量作为词嵌入层,然后经过卷积神经网络的卷积层和池化层,以及结合了注意力(Attention)机制的双向门限循环单元(BiGRU)神经网络充分提取了文本的特征。将文本特征向量输入到softmax分类器进行分类。在三个语料集中进行的文本分类实验结果表明,相较于其他文本分类算法,提出的方法有更优越的性能。
-
关键词
深度学习
连续词袋模型(CBOW)
注意力机制
神经网络
文本分类
-
Keywords
deep learning
Continuous Bag-of-Word(CBOW)
attention mechanism
neural network
text classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-