期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于主动学习和持续学习的同义词挖掘模型 被引量:1
1
作者 潘桢皓 关东海 +1 位作者 袁伟伟 郭然 《计算机应用》 CSCD 北大核心 2024年第S01期18-23,共6页
要提升同义词挖掘的效果通常需要现成的相关领域同义词库的支持。由于相关领域同义词库极其稀缺,给模型优化带来了阻碍。针对缺少相关领域同义词库而导致模型在相关领域的同义词挖掘效果难以持续提升的问题,提出了基于主动学习和持续学... 要提升同义词挖掘的效果通常需要现成的相关领域同义词库的支持。由于相关领域同义词库极其稀缺,给模型优化带来了阻碍。针对缺少相关领域同义词库而导致模型在相关领域的同义词挖掘效果难以持续提升的问题,提出了基于主动学习和持续学习的同义词挖掘模型(SYN-AC)。首先,基于主动学习的方法获取专家标记数据,设计了一个新的损失函数并利用标记后的数据去微调模型;其次,为了减少时间和空间消耗,采用了持续学习的方法,使模型在只使用当前组标记的数据进行训练的情况下,也能不断提高同义词挖掘效果,而不需要每次都使用所有标记数据对模型重新微调。使用了3个数据集模拟专家标记的过程,实验结果表明,在其中2个数据集上比效果最好的BERT(Bidirectional Encoder Representations from Transformers)模型F1值分别提升了9.34个百分点和2.75个百分点。验证了SYN-AC能够有效提高同义词挖掘的效果。 展开更多
关键词 同义词挖掘 主动学习 持续学习 BERT 余弦相似度
在线阅读 下载PDF
基于专利搜索日志的同义词挖掘 被引量:1
2
作者 王颖 都云程 +1 位作者 卢献华 吕学强 《计算机工程与设计》 CSCD 北大核心 2013年第3期1029-1033,共5页
针对专利搜索日志中同义词出现的特点,改进了词共现相似度算法,提出了一种基于专利搜索日志的同义词挖掘方法。利用专利搜索日志中同义词出现的规律挖掘同义词集的结构模板,根据这些模板抽取出候选同义词集,利用改进的词共现方法计算词... 针对专利搜索日志中同义词出现的特点,改进了词共现相似度算法,提出了一种基于专利搜索日志的同义词挖掘方法。利用专利搜索日志中同义词出现的规律挖掘同义词集的结构模板,根据这些模板抽取出候选同义词集,利用改进的词共现方法计算词汇相似度。对称共现的词对正确率达到85.66%,召回率达到78.98%,F值0.82。该方法可用于专利搜索引擎中提高专利检索的效率。 展开更多
关键词 专利搜索日志 同义词挖掘 结构模板 候选同义词 词共现相似度
在线阅读 下载PDF
一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法 被引量:1
3
作者 张浩宇 王戟 《自动化学报》 EI CAS CSCD 北大核心 2023年第6期1181-1194,共14页
同义词挖掘是自然语言处理中一项重要任务.为了构建大规模训练语料,现有研究利用远程监督、点击图筛选等方式抽取同义词种子,而这几种方式都不可避免地引入了噪声标签,从而影响高质量同义词挖掘模型的训练.此外,由于大量实体词所具有的... 同义词挖掘是自然语言处理中一项重要任务.为了构建大规模训练语料,现有研究利用远程监督、点击图筛选等方式抽取同义词种子,而这几种方式都不可避免地引入了噪声标签,从而影响高质量同义词挖掘模型的训练.此外,由于大量实体词所具有的少样本特性、领域分布差异性和预训练词向量训练目标与同义词挖掘任务的不一致性,在同义词挖掘任务中,词级别的预训练词向量很难产生高质量的实体语义表示.为解决这两个问题,提出了一种利用成对字向量和噪声鲁棒学习框架的同义词挖掘模型.模型利用预训练的成对字向量增强实体语义表示,并利用自动标注的噪声标签通过交替优化的方式,估计真实标签的分布并产生伪标签,希望通过这些改进提升模型的表示能力和鲁棒性.最后,使用WordNet分析和过滤带噪声数据集,并在不同规模、不同领域的同义词数据集上进行了实验验证.实验结果和分析表明,该同义词挖掘模型在各种数据分布和噪声比例下,与有竞争力的基准方法相比,均提升了同义词判别和同义词集合生成的效果. 展开更多
关键词 同义词挖掘 噪声标签学习 自然语言处理 成对字向量 信息抽取
在线阅读 下载PDF
基于同义词词林和预训练词向量的微调方法 被引量:2
4
作者 佘琪星 王必聪 +2 位作者 刘铭 秦兵 王莉峰 《中文信息学报》 CSCD 北大核心 2020年第10期27-32,共6页
同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向... 同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向量技术的发展,基于分布式表示的方法存在一种简单高效的方案,即直接对预训练好的词向量计算相似度,将此表示为语义相似度。然而,这样的思路并没有利用到现有的同义词对这一外部知识。该文提出基于《同义词词林》的词向量微调方法,利用同义词对信息,增强预训练词向量的语义表示。经过实验,该微调方法能很好地完成同义词对的判别。 展开更多
关键词 同义词挖掘 预训练词向量 语义表示 微调
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部