图编辑距离(GED)是一种常用的图相似性度量函数,其精确计算为NP-hard问题。因此,近期研究者们提出诸多基于图神经网络的图相似度计算方法。现有方法在特征提取时忽略了两个图节点之间的跨图交互信息,并且缺乏对图中节点高阶关系的学习...图编辑距离(GED)是一种常用的图相似性度量函数,其精确计算为NP-hard问题。因此,近期研究者们提出诸多基于图神经网络的图相似度计算方法。现有方法在特征提取时忽略了两个图节点之间的跨图交互信息,并且缺乏对图中节点高阶关系的学习。针对以上问题,提出了一种基于跨图特征融合和结构感知注意力的图相似度计算模型(cross-graph feature fusion with structure-aware attention for graph similarity computation,CFSA)。首先,该模型提出了一种跨图节点特征学习方法,引入跨图注意力机制提取节点的跨图交互信息,并将节点的局部特征和跨图交互特征进行有效融合;其次,提出了一种结构感知型多头注意力机制,结合节点特征信息和图结构信息,有效捕捉节点间的高阶关系。在三个公共数据集上的实验结果表明,CFSA模型的预测准确率相较于现有模型分别提升4.8%、5.1%、15.8%,且在大多项性能指标上均有优势,证明了CFSA在GED预测任务上的有效性和效率。展开更多
当前信息抽取任务主要依赖大语言模型(LLM),而标书信息中广泛存在领域术语,模型缺乏相关先验知识,导致微调效率低且抽取性能不佳。此外,模型的抽取和泛化性能在很大程度上依赖于提示信息的质量和提示模板的构建方式。针对上述问题,提出...当前信息抽取任务主要依赖大语言模型(LLM),而标书信息中广泛存在领域术语,模型缺乏相关先验知识,导致微调效率低且抽取性能不佳。此外,模型的抽取和泛化性能在很大程度上依赖于提示信息的质量和提示模板的构建方式。针对上述问题,提出一种基于提示学习的标书信息抽取方法(TIEPL)。首先,利用生成式信息抽取的提示学习方法对LLM注入领域知识,以实现预训练和微调阶段的统一优化;其次,以LoRA(Low-Rank Adaption)微调方法为框架,单独设计提示训练旁路,并设计标书场景关键词提示模板,从而增强模型信息抽取与提示的双向关联。在自建的招中标数据集上的实验结果表明,相较于次优的UIE(Universal Information Extraction)方法,TIEPL的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation)和BLEU-4(BiLingual Evaluation Understudy)分别提高1.05和4.71个百分点,能更准确和完整地生成抽取结果,验证了所提方法在提高标书信息抽取准确性和泛化性方面的有效性。展开更多
单个较大非均匀超图聚类旨在将非均匀超图包含的节点划分为多个簇,使得同一簇内的节点更相似,而不同簇中的节点更不相似,具有广泛的应用场景。目前,最优的基于超图神经网络的非均匀超图聚类方法CIAH(co-cluster the interactions via at...单个较大非均匀超图聚类旨在将非均匀超图包含的节点划分为多个簇,使得同一簇内的节点更相似,而不同簇中的节点更不相似,具有广泛的应用场景。目前,最优的基于超图神经网络的非均匀超图聚类方法CIAH(co-cluster the interactions via attentive hypergraph neural network)虽然较好地学习了非均匀超图的关系信息,但仍存在两点不足:(1)对于局部关系信息的挖掘不足;(2)忽略了隐藏的高阶关系。因此,提出一种基于多尺度注意力和动态超图构建的非均匀超图聚类模型MADC(non-uniform hypergraph clustering combining multi-scale attention and dynamic construction)。一方面,使用多尺度注意力充分学习了超边中节点与节点之间的局部关系信息;另一方面,采用动态构建挖掘隐藏的高阶关系,进一步丰富了超图特征嵌入。真实数据集上的大量实验结果验证了MADC模型在非均匀超图聚类上的聚类准确率(accuracy,ACC)、标准互信息(normalized mutual information,NMI)和调整兰德指数(adjusted Rand index,ARI)均优于CIAH等所有Baseline方法。展开更多
文摘图编辑距离(GED)是一种常用的图相似性度量函数,其精确计算为NP-hard问题。因此,近期研究者们提出诸多基于图神经网络的图相似度计算方法。现有方法在特征提取时忽略了两个图节点之间的跨图交互信息,并且缺乏对图中节点高阶关系的学习。针对以上问题,提出了一种基于跨图特征融合和结构感知注意力的图相似度计算模型(cross-graph feature fusion with structure-aware attention for graph similarity computation,CFSA)。首先,该模型提出了一种跨图节点特征学习方法,引入跨图注意力机制提取节点的跨图交互信息,并将节点的局部特征和跨图交互特征进行有效融合;其次,提出了一种结构感知型多头注意力机制,结合节点特征信息和图结构信息,有效捕捉节点间的高阶关系。在三个公共数据集上的实验结果表明,CFSA模型的预测准确率相较于现有模型分别提升4.8%、5.1%、15.8%,且在大多项性能指标上均有优势,证明了CFSA在GED预测任务上的有效性和效率。
文摘当前信息抽取任务主要依赖大语言模型(LLM),而标书信息中广泛存在领域术语,模型缺乏相关先验知识,导致微调效率低且抽取性能不佳。此外,模型的抽取和泛化性能在很大程度上依赖于提示信息的质量和提示模板的构建方式。针对上述问题,提出一种基于提示学习的标书信息抽取方法(TIEPL)。首先,利用生成式信息抽取的提示学习方法对LLM注入领域知识,以实现预训练和微调阶段的统一优化;其次,以LoRA(Low-Rank Adaption)微调方法为框架,单独设计提示训练旁路,并设计标书场景关键词提示模板,从而增强模型信息抽取与提示的双向关联。在自建的招中标数据集上的实验结果表明,相较于次优的UIE(Universal Information Extraction)方法,TIEPL的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation)和BLEU-4(BiLingual Evaluation Understudy)分别提高1.05和4.71个百分点,能更准确和完整地生成抽取结果,验证了所提方法在提高标书信息抽取准确性和泛化性方面的有效性。