-
题名融合单词贡献度与Word2Vec词向量的文档表示
被引量:17
- 1
-
-
作者
彭俊利
谷雨
张震
耿小航
-
机构
杭州电子科技大学通信信息传输与融合技术国防重点学科实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第4期62-67,共6页
-
基金
国家自然科学基金(61673146)。
-
文摘
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合。在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单词贡献度生成文档向量。实验结果表明,该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TF-IDF、均值Word2Vec、PTF-IDF加权Word2Vec模型等传统方法,同时其对英文文本也能进行有效分类。
-
关键词
单词贡献度
Word2Vec词向量
词嵌入
文档表示
文本分类
-
Keywords
Term Contribution(TC)
Word2Vec word vector
word embedding
document representation
text classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于EE与改进DBN的国家双边关系预测
- 2
-
-
作者
彭俊利
姜晓夏
张震
谷雨
-
机构
杭州电子科技大学通信信息传输与融合技术国防重点学科实验室
中国电子科技集团公司第二十八研究所信息系统工程重点实验室
-
出处
《计算机工程与设计》
北大核心
2021年第7期2044-2051,共8页
-
基金
国家自然科学基金项目(61673146)。
-
文摘
为获得国家间双边关系预测的因果关系模型,提出一种融合事件抽取(event extraction,EE)、时序贡献度(time contributions,TCs)与动态贝叶斯网络(dynamic Bayesian networks,DBN)的国家双边关系预测方法。基于事件抽取技术对爬取的新闻数据抽取事件句、事件类型等要素。按月划分新闻数据,提取特征词,根据频次等计算每月的时序贡献度。基于专家制定的事件分值表与事件抽取结果构建国家双边关系数据集,将其输入融合时序贡献度的DBN模型训练结构和参数。以南海争端为例,构建了中国与其他参与国的双边关系预测模型,实验结果表明了方法的可行性。
-
关键词
国家双边关系
动态贝叶斯网络
事件抽取
单词贡献度
时序贡献度
-
Keywords
international bi-lateral political relations
dynamic Bayesian networks
event extraction
term contribution
time contributions
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-