-
题名单词嵌入——自然语言的连续空间表示
被引量:10
- 1
-
-
作者
陈恩红
邱思语
许畅
田飞
刘铁岩
-
机构
中国科学技术大学计算机科学与技术系
南开大学计算机科学与信息安全系
微软亚洲研究院
-
出处
《数据采集与处理》
CSCD
北大核心
2014年第1期19-29,共11页
-
文摘
单词嵌入是指运用机器学习的方法,将位于高维离散空间(维数为词典单词数目)中的每个单词映射到低维连续空间的实数向量的技术。在很多文本处理的任务中,单词嵌入提供了更好的语义级别的单词特征表示,从而为文本处理任务带来了诸多便利。同时,大数据时代海量的未标注文本数据,以及以深度学习为代表的机器学习技术的发展使高效的单词嵌入技术成为可能。本文将给出单词嵌入的定义以及实际意义,同时将综述目前单词嵌入技术的几种典型方法,包括基于神经网络的方法、基于受限玻尔兹曼机的方法以及基于单词与上下文共生矩阵分解的方法。本文将详细介绍不同模型的数学定义、物理意义以及训练方法,并给出他们之间的比较。
-
关键词
机器学习
自然语言
单词嵌入
文本处理
-
Keywords
machine learning natural language word embedding
text processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于混合编程模型的支持向量机训练并行化
被引量:2
- 2
-
-
作者
李涛
刘学臣
张帅
王恺
杨愚鲁
-
机构
南开大学计算机科学与信息安全系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第5期1098-1108,共11页
-
基金
国家自然科学青年基金项目(61212005
61201424)
+2 种基金
天津市自然科学基金项目(12JCYBJC10100)
中央高校基本科研业务费专项资金项目(65012101
65012131)
-
文摘
支持向量机(support vector machine,SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method,IPM)的SVM训练具有空间占用小、迭代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储空间所带来的双重挑战.针对此问题,提出利用CPU-GPU异构系统进行大规模SVM训练的混合并行机制.首先利用计算统一设备架构(compute unified device architecture,CUDA)对基于内点法的SVM训练算法的计算密集部分并行化,并改进算法使其适合利用cuBLAS线性代数库加以实现,提高训练速度;然后利用消息传递接口(message passing interface,MPI)在集群系统上实现CUDA加速后算法的分布并行化,利用分布存储有效地增加所处理数据集规模并减少训练时间;进而基于Fermi架构支持的页锁定内存技术,打破了GPU设备存储容量不足对数据集规模的限制.结果表明,利用消息传递接口(MPI)和CUDA混合编程模型以及页锁定内存数据存储策略,能够在CPU-GPU异构系统上实现大规模数据集的高效并行SVM训练,提升其在大数据处理领域的计算性能和应用能力.
-
关键词
支持向量机训练
计算统一设备架构
消息传递接口
页锁定内存
CPU-GPU异构系统
-
Keywords
support vector machine (SVM) training
compute unified device architecture (CUDA)
message passing interface (MPI)
page-locked host memory
CPU-GPU heterogeneous system
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-