期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
科技领域词汇语义表示的稳定性研究:多种词嵌入模型对比 被引量:2
1
作者 陈果 徐赞 +2 位作者 洪思琪 吴嘉桓 肖璐 《情报学报》 CSSCI CSCD 北大核心 2024年第12期1440-1452,共13页
在科技文献情报分析领域,词汇语义分析至关重要。分布式词嵌入技术可以有效学习词汇的语义表示,近年来逐渐成为科技词汇语义分析的共性基础技术。然而,主流词嵌入模型的随机初始化操作使得即使在相同的语料上,每次训练产生的词汇语义向... 在科技文献情报分析领域,词汇语义分析至关重要。分布式词嵌入技术可以有效学习词汇的语义表示,近年来逐渐成为科技词汇语义分析的共性基础技术。然而,主流词嵌入模型的随机初始化操作使得即使在相同的语料上,每次训练产生的词汇语义向量都有不同程度的偏差,干扰了下游语义分析任务结果的可靠性与可复现能力。为了厘清模型和各因素对词汇语义表示结果稳定性的干扰程度,本文开展多种对比实验,以量化指导后续技术选型。本文综合考虑了领域数据集大小、模型种类、训练算法、关键词频次、向量维度、上下文窗口大小等影响因素,设计了基于语义场重叠的稳定性评估指标和相应的实验方案。在“人工智能”“免疫学”“货币政策”“量子纠缠”4个领域的MAG(Microsoft Academic Graph)论文语料集上,针对论文关键词开展多种模型词嵌入模型(Word2Vec、GloVe和fastText),训练并比较各种结果的稳定性。4个领域的研究结果均表明,在一定范围内,数据集越大,语义表示的稳定性越好,但GloVe例外;考虑语料规模、待分析关键词频次、词形相似等因素时,词嵌入模型的稳定性各有不同;向量维度为300,上下文窗口为5是较为合适的选择。最后,本文给出了多种因素组合下建议选择的词嵌入模型与技术,为后续科技词汇语义分析研究提供了量化证据和借鉴。 展开更多
关键词 科技情报分析 领域知识分析 词汇语义 语义表示稳定性 词嵌入模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部