期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
面向稠密检索的伪相关反馈方法 被引量:2
1
作者 胡文浩 罗景 涂新辉 《计算机应用》 CSCD 北大核心 2023年第4期1036-1042,共7页
伪相关反馈(PRF)机制是一种自动化的查询扩展(QE)技术,它利用原始查询和初次检索中前N篇文档蕴含的信息构建更加准确的查询,从而进一步提高信息检索系统的性能。但是,现有的面向稠密检索的PRF方法由于对文本的截断处理容易造成语义信息... 伪相关反馈(PRF)机制是一种自动化的查询扩展(QE)技术,它利用原始查询和初次检索中前N篇文档蕴含的信息构建更加准确的查询,从而进一步提高信息检索系统的性能。但是,现有的面向稠密检索的PRF方法由于对文本的截断处理容易造成语义信息的缺失,而且在检索阶段的空间复杂度较高。针对上述问题,提出了一种基于段落级粒度且适用于长文本稠密检索的PRF方法 Dense-PRF。首先,通过计算语义距离从初次检索的前N篇文档中获得相关段落的向量;其次,对相关段落向量进行平均池化以得到QE项向量;然后,按照权重结合原始查询向量和QE项向量构建新的查询向量;最后,根据新的查询向量得到最终检索结果。在Robust04和WT2G两个经典长文本测试集上将Dense-PRF与基线模型进行了对比实验,相较于模型RepBERT+BM25,Dense-PRF在前20篇文档的准确率和归一化折现累计效益(NDCG)指标上分别提升了1.66、1.32个百分点和2.30、1.91个百分点。实验结果表明Dense-PRF能有效缓解查询与文档词汇不匹配的问题,并提升检索精度。 展开更多
关键词 伪相关反馈 查询扩展 信息检索 稠密检索 长文本
在线阅读 下载PDF
基于查询语义特性的稠密文本检索模型
2
作者 赵铁柱 林伦凯 杨秋鸿 《计算机应用研究》 CSCD 北大核心 2024年第5期1388-1393,共6页
针对现有稠密文本检索模型(dense passage retrieval,DPR)存在的负采样效率低、易产生过拟合等问题,提出了一种基于查询语义特性的稠密文本检索模型(Q-DPR)。首先,针对模型的负采样过程,提出了一种基于近邻查询的负采样方法。该方法通... 针对现有稠密文本检索模型(dense passage retrieval,DPR)存在的负采样效率低、易产生过拟合等问题,提出了一种基于查询语义特性的稠密文本检索模型(Q-DPR)。首先,针对模型的负采样过程,提出了一种基于近邻查询的负采样方法。该方法通过检索近邻查询,快速地构建高质量的负相关样本,以降低模型的训练成本。其次,针对模型易产生过拟合的问题,提出了一种基于对比学习的查询自监督方法。该方法通过建立查询间的自监督对比损失,缓解模型对训练标签的过拟合,从而提升模型的检索准确性。Q-DPR在面向开放领域问答的大型数据集MSMARCO上表现优异,取得了0.348的平均倒数排名以及0.975的召回率。实验结果证明,该模型成功地降低了训练的开销,同时也提升了检索的性能。 展开更多
关键词 查询 稠密文本检索 近邻 对比学习 自监督
在线阅读 下载PDF
基于多粒度语义融合的信息检索方法 被引量:3
3
作者 赵征宇 罗景 涂新辉 《计算机应用》 CSCD 北大核心 2024年第6期1775-1780,共6页
信息检索(IR)是一种通过特定的技术和方法组织、处理信息,以满足用户的信息需求的过程。近年来,基于预训练模型的稠密检索方法取得了巨大的成功;然而,这些方法只利用了文本和词语的向量表征计算查询与文档相关度,忽略了它们短语层面间... 信息检索(IR)是一种通过特定的技术和方法组织、处理信息,以满足用户的信息需求的过程。近年来,基于预训练模型的稠密检索方法取得了巨大的成功;然而,这些方法只利用了文本和词语的向量表征计算查询与文档相关度,忽略了它们短语层面间的语义信息。针对该问题,提出一种名为MSIR(Multi-Scale IR)的IR方法。所提方法通过融合查询与文档中多种不同粒度的语义信息提高IR性能。首先,构建查询和文档中词语、短语和文本这3个粒度的语义单元;其次,利用预训练模型对这3个语义单元分别进行编码获得它们的语义表征;最后,利用语义表征计算查询和文档相关度。在Corvid-19、TREC2019和Robust04这3个不同大小的经典数据集上进行了对比实验。与ColBERT(ranking model based on Contextualized late interaction over BERT(Bidirectional Encoder Representation from Transformers))相比,MSIR在Robust04数据集的P@10、P@20、NDCG@10和NDCG@20指标上均实现了约8%的提升,同时在Corvid-19和TREC2019数据集上也取得了一定的改进。实验结果表明,MSIR能够成功融合多种语义粒度,提升检索精度。 展开更多
关键词 语义融合 信息检索 稠密检索 预训练模型 文本检索
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部