期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于词嵌入的词汇稀疏分布式编码方法
1
作者 吴开 武新乾 +1 位作者 陈祖刚 张冀 《中文信息学报》 北大核心 2025年第7期27-43,共17页
词嵌入被用作各种自然语言处理和信息检索任务的构建块。它们在大型语料库上进行训练,在各种自然语言任务中表现优异,但不适用于需要二值输入的层次时间记忆模型、伯努利朴素贝叶斯模型等机器学习模型,且用浮点数表示的词向量会占用大... 词嵌入被用作各种自然语言处理和信息检索任务的构建块。它们在大型语料库上进行训练,在各种自然语言任务中表现优异,但不适用于需要二值输入的层次时间记忆模型、伯努利朴素贝叶斯模型等机器学习模型,且用浮点数表示的词向量会占用大量内存空间。该研究基于非参数和非线性映射的编码结构,提出了一种新的二值化词向量的稀疏分布式编码方法,在尽可能降低语义精度损失的同时提高计算效率。在词语义相似度、词类比和词概念分类任务中使用多个中文和英文数据集进行实验。结果表明,该文所提编码方法在词语相似度任务上优于语义折叠方法,在词语概念分类任务中相较于原始词嵌入方法,精度损失仅为1%~4%。此外,在Top-K查询任务中,该方法的执行速度更快,所生成的词向量在内存占用方面仅为原始词向量的几分之一,内存消耗减少至1/5~1/3倍。 展开更多
关键词 词嵌入 分位数转换 非线性映射 稀疏二进制编码 内存优化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部