-
题名基于词嵌入的词汇稀疏分布式编码方法
- 1
-
-
作者
吴开
武新乾
陈祖刚
张冀
-
机构
河南科技大学数学与统计学院
中国科学院空天信息创新研究院
-
出处
《中文信息学报》
北大核心
2025年第7期27-43,共17页
-
基金
国家自然科学基金(42201505)
海南省自然科学基金(622QN352)
+2 种基金
国家重点研发计划(2021YFF070420304)
河南省重大科技专项——龙门实验室重大项目(231100220300)
河南省科技研发计划联合基金重点项目(225200810029、225200810033)。
-
文摘
词嵌入被用作各种自然语言处理和信息检索任务的构建块。它们在大型语料库上进行训练,在各种自然语言任务中表现优异,但不适用于需要二值输入的层次时间记忆模型、伯努利朴素贝叶斯模型等机器学习模型,且用浮点数表示的词向量会占用大量内存空间。该研究基于非参数和非线性映射的编码结构,提出了一种新的二值化词向量的稀疏分布式编码方法,在尽可能降低语义精度损失的同时提高计算效率。在词语义相似度、词类比和词概念分类任务中使用多个中文和英文数据集进行实验。结果表明,该文所提编码方法在词语相似度任务上优于语义折叠方法,在词语概念分类任务中相较于原始词嵌入方法,精度损失仅为1%~4%。此外,在Top-K查询任务中,该方法的执行速度更快,所生成的词向量在内存占用方面仅为原始词向量的几分之一,内存消耗减少至1/5~1/3倍。
-
关键词
词嵌入
分位数转换
非线性映射
稀疏二进制编码
内存优化
-
Keywords
word embeddings
quantile transform
nonlinear mapping
sparse binary encoding
memory optimization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-