期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
科技领域词汇语义表示的稳定性研究:多种词嵌入模型对比
被引量:
2
1
作者
陈果
徐赞
+2 位作者
洪思琪
吴嘉桓
肖璐
《情报学报》
CSSCI
CSCD
北大核心
2024年第12期1440-1452,共13页
在科技文献情报分析领域,词汇语义分析至关重要。分布式词嵌入技术可以有效学习词汇的语义表示,近年来逐渐成为科技词汇语义分析的共性基础技术。然而,主流词嵌入模型的随机初始化操作使得即使在相同的语料上,每次训练产生的词汇语义向...
在科技文献情报分析领域,词汇语义分析至关重要。分布式词嵌入技术可以有效学习词汇的语义表示,近年来逐渐成为科技词汇语义分析的共性基础技术。然而,主流词嵌入模型的随机初始化操作使得即使在相同的语料上,每次训练产生的词汇语义向量都有不同程度的偏差,干扰了下游语义分析任务结果的可靠性与可复现能力。为了厘清模型和各因素对词汇语义表示结果稳定性的干扰程度,本文开展多种对比实验,以量化指导后续技术选型。本文综合考虑了领域数据集大小、模型种类、训练算法、关键词频次、向量维度、上下文窗口大小等影响因素,设计了基于语义场重叠的稳定性评估指标和相应的实验方案。在“人工智能”“免疫学”“货币政策”“量子纠缠”4个领域的MAG(Microsoft Academic Graph)论文语料集上,针对论文关键词开展多种模型词嵌入模型(Word2Vec、GloVe和fastText),训练并比较各种结果的稳定性。4个领域的研究结果均表明,在一定范围内,数据集越大,语义表示的稳定性越好,但GloVe例外;考虑语料规模、待分析关键词频次、词形相似等因素时,词嵌入模型的稳定性各有不同;向量维度为300,上下文窗口为5是较为合适的选择。最后,本文给出了多种因素组合下建议选择的词嵌入模型与技术,为后续科技词汇语义分析研究提供了量化证据和借鉴。
展开更多
关键词
科技情报分析
领域知识分析
词汇
语义
语义表示稳定性
词嵌入模型
在线阅读
下载PDF
职称材料
题名
科技领域词汇语义表示的稳定性研究:多种词嵌入模型对比
被引量:
2
1
作者
陈果
徐赞
洪思琪
吴嘉桓
肖璐
机构
南京理工大学经济管理学院
南京财经大学新闻学院
出处
《情报学报》
CSSCI
CSCD
北大核心
2024年第12期1440-1452,共13页
基金
国家自然科学基金青年科学基金项目“基于语义分析的自媒体政策信息传播失真识别与协同纠偏研究”(72404121)
江苏省社会科学基金项目“不完备文献资源上的科技情报分析方法体系构建”(24TQB001)。
文摘
在科技文献情报分析领域,词汇语义分析至关重要。分布式词嵌入技术可以有效学习词汇的语义表示,近年来逐渐成为科技词汇语义分析的共性基础技术。然而,主流词嵌入模型的随机初始化操作使得即使在相同的语料上,每次训练产生的词汇语义向量都有不同程度的偏差,干扰了下游语义分析任务结果的可靠性与可复现能力。为了厘清模型和各因素对词汇语义表示结果稳定性的干扰程度,本文开展多种对比实验,以量化指导后续技术选型。本文综合考虑了领域数据集大小、模型种类、训练算法、关键词频次、向量维度、上下文窗口大小等影响因素,设计了基于语义场重叠的稳定性评估指标和相应的实验方案。在“人工智能”“免疫学”“货币政策”“量子纠缠”4个领域的MAG(Microsoft Academic Graph)论文语料集上,针对论文关键词开展多种模型词嵌入模型(Word2Vec、GloVe和fastText),训练并比较各种结果的稳定性。4个领域的研究结果均表明,在一定范围内,数据集越大,语义表示的稳定性越好,但GloVe例外;考虑语料规模、待分析关键词频次、词形相似等因素时,词嵌入模型的稳定性各有不同;向量维度为300,上下文窗口为5是较为合适的选择。最后,本文给出了多种因素组合下建议选择的词嵌入模型与技术,为后续科技词汇语义分析研究提供了量化证据和借鉴。
关键词
科技情报分析
领域知识分析
词汇
语义
语义表示稳定性
词嵌入模型
Keywords
science intelligence analysis
domain knowledge analysis
lexical semantic
semantic representation stability
word embedding models
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
G301 [文化科学]
G254 [文化科学—图书馆学]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
科技领域词汇语义表示的稳定性研究:多种词嵌入模型对比
陈果
徐赞
洪思琪
吴嘉桓
肖璐
《情报学报》
CSSCI
CSCD
北大核心
2024
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部