近年来,科学文献呈现增速迅猛、内容复杂、主题细化等特点,给文献分类任务带来了挑战。在此背景下,推动文献自动分类技术的发展,实现科学文献在《中国图书馆分类法》上的正确分类对于信息资源的智能化管理和科学研究的效率化检索具有重...近年来,科学文献呈现增速迅猛、内容复杂、主题细化等特点,给文献分类任务带来了挑战。在此背景下,推动文献自动分类技术的发展,实现科学文献在《中国图书馆分类法》上的正确分类对于信息资源的智能化管理和科学研究的效率化检索具有重要意义。本文提出了多重特征关联和图注意力网络融合的层次分类(hierarchical text clas‐sification networks based on multiple feature correlation and graph attention network,HTCN-MCGAT)模型。该模型由三个模块组成。首先是文献表示与增强模块。为适配文献分类任务,采用表示和增强两阶段流程,重新设计BERT(bi‐directional encoder representation from transformers)预训练模型的微调阶段,使其能够从文献摘要、标题和关键词的内部字符关联以及外部文档关联两个级别实现当前文献的增强表示。其次是标签关联建模模块。使用图注意力网络实现标签语义和层次结构的关系建模。最后是层次交互分类模块。先构建文献和标签的层次融合注意力机制,实现特征空间的文献语义信息与符号空间的层次标签信息的特征关联;再基于多任务学习视角,通过全局和局部信息融合的层次分类网络实现文献分类。本文以中文医学文献作为研究对象,设计系列实验,相较于逐层和平面多分类方法,HTCN-MCGAT模型在F1-score上提高了4.34%~13.21%。此外,还通过样例分析综合验证了本文模型的有效性。本文从特征关联丰富化和层次关系建模两方面对文献分类模型展开优化,在文献分类任务中发挥了较好的应用价值,未来可以推广至更多具有层次结构的分类任务领域。展开更多
现有知识发现研究难以兼顾不同领域知识的精准性与模糊性,也缺乏描述和定义模糊本体的语言工具,本文从知识模糊性角度出发,提出一种基于OWL(ontology web language)语言的模糊本体表现模型,通过SWRL(semantic web rule language)语言表...现有知识发现研究难以兼顾不同领域知识的精准性与模糊性,也缺乏描述和定义模糊本体的语言工具,本文从知识模糊性角度出发,提出一种基于OWL(ontology web language)语言的模糊本体表现模型,通过SWRL(semantic web rule language)语言表示精确规则和模糊规则,并结合概念对和隶属度将模糊知识转换成精确知识实现本体融合推理,构建面向知识发现的模糊本体融合和推理模型。选取药物相互作用这一典型领域的Drugs与Drugbank数据库中肿瘤及精神卫生疾病相关的药物数据对模型进行验证,研究结果表明,可在保持准确率水平的情况下,将对药物相互作用知识发现尤为重要的召回率显著提高至89.94%。本文提出的模糊本体模型可以同时描述精确知识和模糊知识,简化了对模糊知识的表示和处理。展开更多
[目的/意义]大语言模型(Large Language Model,LLM)正在引领信息检索领域经历从简单的文档检索走向全面满足用户信息需求的新阶段,审视和探讨LLM在这一转型过程中的演化趋势及其未来发展,对于LLM赋能信息检索领域的理论模式创新与实践...[目的/意义]大语言模型(Large Language Model,LLM)正在引领信息检索领域经历从简单的文档检索走向全面满足用户信息需求的新阶段,审视和探讨LLM在这一转型过程中的演化趋势及其未来发展,对于LLM赋能信息检索领域的理论模式创新与实践应用延展有着重要意义。[研究设计/方法]研究选取信息检索领域的多个前沿学科会议,通过主题以及知识关联演化的双重视角分析,深入探究LLM等前沿技术如何推动信息检索领域的演化发展、知识重构以及创新应用,进而揭示在LLM影响下信息检索领域的未来发展方向。[结论/发现]受LLM驱动,信息检索领域的研究主题和知识结构正经历演变。研究范式层面注重人机协同新理念、技术伦理的重视、用户体验增强带来的范式融合。研究技术层面注重LLM的高效检索模型架构与工作流程优化、轻量级语言模型与LLM的协同发展以及LLM的开源及平权发展。然而,LLM赋能信息检索领域仍面临技术评测有效性困难、生成内容的可靠性存疑以及社会应用的复杂性较高等挑战。[创新/价值]将细粒度的知识关联网络引入演化分析框架,创新技术赋能领域研究的多维分析视角。同时从数据层面厘清和揭示信息检索领域的演化规律,明确领域未来发展。展开更多
文摘近年来,科学文献呈现增速迅猛、内容复杂、主题细化等特点,给文献分类任务带来了挑战。在此背景下,推动文献自动分类技术的发展,实现科学文献在《中国图书馆分类法》上的正确分类对于信息资源的智能化管理和科学研究的效率化检索具有重要意义。本文提出了多重特征关联和图注意力网络融合的层次分类(hierarchical text clas‐sification networks based on multiple feature correlation and graph attention network,HTCN-MCGAT)模型。该模型由三个模块组成。首先是文献表示与增强模块。为适配文献分类任务,采用表示和增强两阶段流程,重新设计BERT(bi‐directional encoder representation from transformers)预训练模型的微调阶段,使其能够从文献摘要、标题和关键词的内部字符关联以及外部文档关联两个级别实现当前文献的增强表示。其次是标签关联建模模块。使用图注意力网络实现标签语义和层次结构的关系建模。最后是层次交互分类模块。先构建文献和标签的层次融合注意力机制,实现特征空间的文献语义信息与符号空间的层次标签信息的特征关联;再基于多任务学习视角,通过全局和局部信息融合的层次分类网络实现文献分类。本文以中文医学文献作为研究对象,设计系列实验,相较于逐层和平面多分类方法,HTCN-MCGAT模型在F1-score上提高了4.34%~13.21%。此外,还通过样例分析综合验证了本文模型的有效性。本文从特征关联丰富化和层次关系建模两方面对文献分类模型展开优化,在文献分类任务中发挥了较好的应用价值,未来可以推广至更多具有层次结构的分类任务领域。
文摘现有知识发现研究难以兼顾不同领域知识的精准性与模糊性,也缺乏描述和定义模糊本体的语言工具,本文从知识模糊性角度出发,提出一种基于OWL(ontology web language)语言的模糊本体表现模型,通过SWRL(semantic web rule language)语言表示精确规则和模糊规则,并结合概念对和隶属度将模糊知识转换成精确知识实现本体融合推理,构建面向知识发现的模糊本体融合和推理模型。选取药物相互作用这一典型领域的Drugs与Drugbank数据库中肿瘤及精神卫生疾病相关的药物数据对模型进行验证,研究结果表明,可在保持准确率水平的情况下,将对药物相互作用知识发现尤为重要的召回率显著提高至89.94%。本文提出的模糊本体模型可以同时描述精确知识和模糊知识,简化了对模糊知识的表示和处理。
文摘[目的/意义]大语言模型(Large Language Model,LLM)正在引领信息检索领域经历从简单的文档检索走向全面满足用户信息需求的新阶段,审视和探讨LLM在这一转型过程中的演化趋势及其未来发展,对于LLM赋能信息检索领域的理论模式创新与实践应用延展有着重要意义。[研究设计/方法]研究选取信息检索领域的多个前沿学科会议,通过主题以及知识关联演化的双重视角分析,深入探究LLM等前沿技术如何推动信息检索领域的演化发展、知识重构以及创新应用,进而揭示在LLM影响下信息检索领域的未来发展方向。[结论/发现]受LLM驱动,信息检索领域的研究主题和知识结构正经历演变。研究范式层面注重人机协同新理念、技术伦理的重视、用户体验增强带来的范式融合。研究技术层面注重LLM的高效检索模型架构与工作流程优化、轻量级语言模型与LLM的协同发展以及LLM的开源及平权发展。然而,LLM赋能信息检索领域仍面临技术评测有效性困难、生成内容的可靠性存疑以及社会应用的复杂性较高等挑战。[创新/价值]将细粒度的知识关联网络引入演化分析框架,创新技术赋能领域研究的多维分析视角。同时从数据层面厘清和揭示信息检索领域的演化规律,明确领域未来发展。