期刊文献+
共找到149篇文章
< 1 2 8 >
每页显示 20 50 100
基于隔行对照标注策略的少数民族古文献开发研究——以藏文古文献隔行标注为例
1
作者 龙从军 安波 赵维纳 《中文信息学报》 北大核心 2025年第3期49-58,共10页
少数民族古籍是我国古籍文献的重要组成部分,是中华文明不可或缺的文明成果。但受制于语言文字识读的限制,参与民族古籍整理、挖掘和开发利用的研究团队规模小,技术力量不足,民族古籍文献的利用和普及传播力度不够。基于此,该文提出民... 少数民族古籍是我国古籍文献的重要组成部分,是中华文明不可或缺的文明成果。但受制于语言文字识读的限制,参与民族古籍整理、挖掘和开发利用的研究团队规模小,技术力量不足,民族古籍文献的利用和普及传播力度不够。基于此,该文提出民族古籍隔行对照标注策略,旨在一定程度上解决文字识读困难,鼓励更多跨学科研究者参与民族古籍文献的研究,提高民族古籍开发效率。该文以藏文古文献为例,探索隔行标注策略,在人工标注一定规模语料的前提下,提出了基于多任务学习的隔行对照标注策略。该方法有效提升了隔行数据标注速度,减少了人工标注的工作量,有利于构建大规模的隔行对照数据库。实验结果表明,经过10000条标注语料训练后,该模型在分词行和标注行上分别取得70.9%和63.2%的F 1值,在翻译行上取得18.7%的BLEU值。基于隔行对照标注策略的方法显著地提升了民族古文献的研究范围和深度,避免了民族语本身带来的限制,为挖掘和弘扬中华民族传统文化贡献力量。 展开更多
关键词 藏文古文献 隔行标注 多任务学习 机器学习 民族古文献
在线阅读 下载PDF
多向堆叠记忆网络在证件图像篡改检测中的应用
2
作者 赵卫东 黄见 +1 位作者 张睿 吴乾奕 《小型微型计算机系统》 北大核心 2025年第2期346-352,共7页
随着金融线上业务的迅猛发展,篡改图像信息的问题在风控环节频繁出现.然而,现有的篡改检测模型在处理证件图片的准确性和应对环境干扰方面亟需加强.为解决这一问题,本文提出了一种二阶段篡改检测模型:在第1阶段中,通过将简单堆叠长短期... 随着金融线上业务的迅猛发展,篡改图像信息的问题在风控环节频繁出现.然而,现有的篡改检测模型在处理证件图片的准确性和应对环境干扰方面亟需加强.为解决这一问题,本文提出了一种二阶段篡改检测模型:在第1阶段中,通过将简单堆叠长短期记忆网络改进为多方向堆叠记忆网络,弥补了篡改特征对比方向单一的问题,并且兼顾了图像的位置信息,从而提高篡改鉴别准确率.第2阶段是在初步确定篡改区域后,基于篡改区域外围多层邻域的纹理特征,以注意力机制为核心推测中心区域纹理特征值,再与原中心区域纹理特征值对比筛选假阳性区域.实验表明,本文的改进方法是有效的. 展开更多
关键词 篡改检测 证件图像 多向堆叠记忆网络 多邻域纹理特征
在线阅读 下载PDF
高轨遥感卫星数传处理器设计与验证
3
作者 李永峰 李文东 +2 位作者 阎昆 刘晓飞 郑小松 《航天器工程》 北大核心 2025年第2期66-74,共9页
针对高轨遥感卫星获取信息成本高、成像分辨率低、星地链路带宽小、信号覆盖范围广的特点,提出一种数传处理器设计。采用高可靠数据接口、高保真图像压缩、多文件存储管理、自适应速率控制等多项关键技术,以较低的硬件资源开销实现了多... 针对高轨遥感卫星获取信息成本高、成像分辨率低、星地链路带宽小、信号覆盖范围广的特点,提出一种数传处理器设计。采用高可靠数据接口、高保真图像压缩、多文件存储管理、自适应速率控制等多项关键技术,以较低的硬件资源开销实现了多个设备间高速遥感数据的无误码交换,具有更优的图像压缩性能,在不增加额外硬件资源配置的前提下可支持多个任务的并行开展,并使传输通道的有效帧效率达到100%。文章提出的设计,高效实现了高轨遥感卫星的数据处理与传输需求,显著提升了高轨遥感卫星的应用效能。 展开更多
关键词 高轨遥感卫星 数传处理器 高保真图像压缩 多文件管理
在线阅读 下载PDF
面向可溯源文本生成的科技文献伪反馈训练数据合成研究
4
作者 马永强 刘家伟 高影繁 《情报学报》 北大核心 2025年第7期830-845,共16页
在学术文本中插入恰当的引文标识是学术写作的基本规范,可以帮助读者验证文本内容的真实性。引文标识符可以用于实现内容溯源、保证内容可验证性。在学术场景中,现有大语言模型普遍缺乏内置的内容溯源机制,导致所生成学术文本的可验证... 在学术文本中插入恰当的引文标识是学术写作的基本规范,可以帮助读者验证文本内容的真实性。引文标识符可以用于实现内容溯源、保证内容可验证性。在学术场景中,现有大语言模型普遍缺乏内置的内容溯源机制,导致所生成学术文本的可验证性不足。当前,借助领域数据集来优化大模型是主流的研究思路。然而,在优化模型可溯源性方面,基于人类撰写的学术文本所构建的训练集存在内在一致性不足、引文标注行为差异性大等问题,基于大模型的数据合成方法在数据多样性方面也存在局限性。为此,本文提出了一种面向可溯源学术文本的引文标识符体系与评测方法,用于分析大模型所生成学术文本的可溯源性。然后,从训练数据的角度,针对可溯源的学术文本生成,本文提出了一种两阶段伪反馈训练数据合成方法,兼顾大模型标注文本和人类标注文本的特性,构建高质量、多样化的训练数据。研究结果表明,采用本文构建的合成数据训练的小模型,能够生成更具可溯源性的学术文本;通过第二阶段的伪反馈进一步优化数据分布和任务多样性,有助于增强模型的泛化能力。 展开更多
关键词 大语言模型 数据合成 学术多文档摘要 文本可溯源性
在线阅读 下载PDF
基于NLP和图像分类模型的中文科技文献双模态分类方法
5
作者 王峥 丁熠 +1 位作者 陈海明 陈盈 《南京师大学报(自然科学版)》 北大核心 2025年第3期84-92,共9页
随着当前对科技文献管理和组织要求的急剧增加,对于更为可扩展、精确且自动化的文献分类方式的需求也更高.为了有效应对海量科技文献数据的分析难题,提出了融合YOLOv7图像分类模型和自然语言处理(NLP)模型的多模态文献分析引擎.该架构... 随着当前对科技文献管理和组织要求的急剧增加,对于更为可扩展、精确且自动化的文献分类方式的需求也更高.为了有效应对海量科技文献数据的分析难题,提出了融合YOLOv7图像分类模型和自然语言处理(NLP)模型的多模态文献分析引擎.该架构充分挖掘文档中的自然语言文本、描述性图像以及两者间的内在关联这3种关键信息,通过综合训练流程整合不同模态的深度学习网络,达成相较于单模态分类方法更优的分类精准度.同时,将所提方法应用到中文科技文献数据集,并依据中图分类号对文献进行了分类训练.结果表明,所提双模态文献分类方法具有更高的分类准确性,有助于企事业单位和研究机构在数据与知识管理方面的效率提升. 展开更多
关键词 科技文献分类 图像分类 多模态特征 自然语言处理 深度学习 YOLOv7
在线阅读 下载PDF
基于主题多视图表示的零样本实体检索方法
6
作者 齐丹丹 王长征 +6 位作者 郭少茹 闫智超 胡志伟 苏雪峰 马博翔 李时钊 李茹 《广西师范大学学报(自然科学版)》 北大核心 2025年第3期23-34,共12页
零样本实体检索旨在将实体提及(mention)链接到训练阶段未见过的实体,在多种自然语言处理任务中起关键作用。然而现有方法依然存在2个问题:1)仅使用实体描述的前k个句子来构建实体的多视图表示,导致实体多视图语义冗余与缺失,很难充分... 零样本实体检索旨在将实体提及(mention)链接到训练阶段未见过的实体,在多种自然语言处理任务中起关键作用。然而现有方法依然存在2个问题:1)仅使用实体描述的前k个句子来构建实体的多视图表示,导致实体多视图语义冗余与缺失,很难充分学习提及与实体之间的匹配关系;2)仅以提及为中心构造正负例,对提及与实体之间的对比关系覆盖度较低,导致其匹配错误。针对以上2个问题,本文提出基于主题的多视图实体表示(Topic-MVER)方法。该方法基于主题构建实体的多视图表示,并使用对比学习建模提及与实体之间的3种关系,提升提及和实体对表示的匹配性。该方法在ZESHEL和MedMentions数据集上的Recall@1分别达到48.13%和73.86%,较基线模型分别提升2.73和1.21个百分点,验证了本文方法的有效性。 展开更多
关键词 实体检索 零样本 长文本 主题多视图 对比学习
在线阅读 下载PDF
零信任环境下的多层次身份认证数据流安全检测算法 被引量:5
7
作者 顾健华 冯建华 +1 位作者 高泽芳 文成江 《现代电子技术》 北大核心 2025年第1期85-89,共5页
身份认证数据流中的敏感信息可能在传输过程中被攻击者截获,并用于恶意目的,导致隐私泄露、身份盗用等风险,为确保网络安全性,提高主体身份认证安全性,提出零信任环境下的多层次身份认证数据流安全检测算法。采用改进的文档指纹检测算... 身份认证数据流中的敏感信息可能在传输过程中被攻击者截获,并用于恶意目的,导致隐私泄露、身份盗用等风险,为确保网络安全性,提高主体身份认证安全性,提出零信任环境下的多层次身份认证数据流安全检测算法。采用改进的文档指纹检测算法实现多层次身份认证过程中主体和客体交互数据流安全监测。通过Rabin-Karp算法实现身份认证数据文档的分块,采用Winnow算法划分身份认证数据分块文档边界后,得到身份认证数据文档指纹,将其与指纹库中的指纹进行匹配对比,识别出多层次身份认证数据流中的异常数据,实现多层次身份认证数据流安全检测。实验结果表明,该算法具有较好的身份认证数据流安全检测能力,有效地降低了网络威胁频率,提升了网络安全性。 展开更多
关键词 零信任 多层次身份认证 数据流安全检测 文档指纹检测算法 Rabin-Karp算法 WINNOW算法
在线阅读 下载PDF
基于知识图谱中多维元路径的科技文档查询扩展
8
作者 徐建民 仝思梦 张国防 《计算机工程与科学》 北大核心 2025年第8期1493-1502,共10页
针对现有科技文档的查询扩展方法存在文档信息利用不充分、文档间关联关系未能有效利用等方面的局限性,提出一种基于知识图谱中多维元路径的科技文档查询扩展方法。首先,对伪相关反馈文档集进行处理得到候选扩展词集;其次,在对科技文档... 针对现有科技文档的查询扩展方法存在文档信息利用不充分、文档间关联关系未能有效利用等方面的局限性,提出一种基于知识图谱中多维元路径的科技文档查询扩展方法。首先,对伪相关反馈文档集进行处理得到候选扩展词集;其次,在对科技文档知识图谱进行分析的基础上,寻找合适的元路径表示用户查询与候选扩展词的关联关系,并基于节点间不同的元路径关联计算用户查询与候选扩展词之间的多维语义相关度;最后,融合多维语义相关度以及候选扩展词在伪相关反馈文档集中的权重选择最终扩展词,实现对用户查询的扩展。实验结果显示,与已有的查询扩展方法相比,基于知识图谱中多维元路径的科技文档查询扩展方法在mAP,DCG和NDCG上分别至少提升了9.21%,10%和11.7%。 展开更多
关键词 知识图谱 查询扩展 多维元路径 科技文档 信息检索
在线阅读 下载PDF
基于多尺度融合注意力的多视角文档图像篡改检测与定位
9
作者 孟思江 王宏霞 +1 位作者 曾强 周炀 《计算机科学》 北大核心 2025年第4期327-335,共9页
随着各类数字化平台的完善和应用,文档类图像在网络上得到了广泛传播。与此同时,图像处理技术的发展也增大了文档类图像被篡改的风险,保障文档图像的完整性和真实性变得至关重要。为了提高真实场景下文档类图像篡改区域定位的准确度,提... 随着各类数字化平台的完善和应用,文档类图像在网络上得到了广泛传播。与此同时,图像处理技术的发展也增大了文档类图像被篡改的风险,保障文档图像的完整性和真实性变得至关重要。为了提高真实场景下文档类图像篡改区域定位的准确度,提出了一种基于多尺度融合注意力的多视角文档类图像篡改检测与定位方法(Multi-View and Multi-Scale Fusion Attention Network,MM-Net),采用多视角编码器结合RGB图像、噪声信息和字符特征信息,充分地挖掘篡改特征。此外,MM-Net设计多尺度融合注意力模块以实现不同尺度的特征交互,增强文档图像中的关键内容信息,从而提高文档类图像篡改区域定位的精度。在大规模数据集DocTamper上的大量实验结果表明,MM-Net实现了更精确的文档类图像篡改区域定位,在测试数据集、跨域数据集FCD和SCD上的F1值分别达到了0.809,0.807和0.774,并表现出了良好的泛化性和鲁棒性。 展开更多
关键词 文档类图像篡改检测 深度学习 多尺度 数字图像取证 多视角
在线阅读 下载PDF
空地一体多源数据融合的历史建筑数字化关键技术研究
10
作者 陈志 李阳靖 +1 位作者 罗超 莫莹菲 《测绘通报》 北大核心 2025年第S1期179-184,共6页
为了更全面、准确地记录和保护历史建筑信息,提升数字化档案的精度和完整性,本文提出了一种融合倾斜摄影测量、三维激光扫描、VR全景采集等多种技术的历史建筑测绘方法。本文采用徕卡RTC360架站式扫描仪、飞马SLAM100手持扫描仪、大疆禅... 为了更全面、准确地记录和保护历史建筑信息,提升数字化档案的精度和完整性,本文提出了一种融合倾斜摄影测量、三维激光扫描、VR全景采集等多种技术的历史建筑测绘方法。本文采用徕卡RTC360架站式扫描仪、飞马SLAM100手持扫描仪、大疆禅思L1机载雷达等设备进行多源数据采集,结合Leica Register 360、大疆智图等软件进行点云拼接与融合处理,并利用CAD、Revit、3ds Max等工具完成了测绘建档与三维建模。实践证明,该方法能够有效整合不同技术的优势,弥补单一数据源的局限性,实现历史建筑从外立面到内部结构的精细化表达,同时提高测绘效率和模型精度。研究结果表明,多源数据融合技术可为历史建筑保护、修缮和数字化展示提供更可靠的数据支持,并为类似文化遗产的测绘工作提供参考。 展开更多
关键词 历史建筑测绘 多源数据融合 三维激光扫描 倾斜摄影 数字化建档
在线阅读 下载PDF
解耦知识蒸馏在文档级关系抽取中的应用
11
作者 刘乐 肖蓉 杨肖 《计算机科学》 北大核心 2025年第8期277-287,共11页
文档级关系抽取是自然语言处理领域中的一个重要研究方向,旨在从无结构或半结构的自然语言文档中提取实体之间的语义关系。提出了结合使用解耦知识蒸馏方法和交叉多头注意力机制来解决文档级关系抽取任务。首先,交叉多头注意机制不仅能... 文档级关系抽取是自然语言处理领域中的一个重要研究方向,旨在从无结构或半结构的自然语言文档中提取实体之间的语义关系。提出了结合使用解耦知识蒸馏方法和交叉多头注意力机制来解决文档级关系抽取任务。首先,交叉多头注意机制不仅能够并行关注不同注意力头中的元素,使模型在不同粒度和层级上进行信息的交流和整合,而且允许模型在计算头实体与尾实体之间的注意力时,同时考虑它们与关系之间的相关性,从而提升模型对复杂关系的理解能力,增强模型对实体特征表示的学习。此外,为了进一步优化模型性能,还引入了解耦知识蒸馏方法去适应远程监督数据。该方法将原始KL散度损失中的目标类别知识蒸馏损失TCKDL和非目标类别知识蒸馏损失NCKDL解耦为了两个可以通过超参数调整其权重重要性的独立部分,提高了知识蒸馏过程的灵活性和有效性,特别是在处理DocRED远程监督数据中的噪声时,能够更精准地进行知识迁移和学习。实验结果表明,所提模型在DocRED数据集上能够更有效地提取实体对之间的关系。 展开更多
关键词 自然语言处理 文档级关系抽取 DocRED 交叉多头注意力 解耦知识蒸馏 远程监督数据 KL散度
在线阅读 下载PDF
基于多粒度阅读器和图注意力网络的文档级事件抽取 被引量:2
12
作者 薛颂东 李永豪 赵红燕 《计算机应用研究》 CSCD 北大核心 2024年第8期2329-2335,共7页
文档级事件抽取面临论元分散和多事件两大挑战,已有工作大多采用逐句抽取候选论元的方式,难以建模跨句的上下文信息。为此,提出了一种基于多粒度阅读器和图注意网络的文档级事件抽取模型,采用多粒度阅读器实现多层次语义编码,通过图注... 文档级事件抽取面临论元分散和多事件两大挑战,已有工作大多采用逐句抽取候选论元的方式,难以建模跨句的上下文信息。为此,提出了一种基于多粒度阅读器和图注意网络的文档级事件抽取模型,采用多粒度阅读器实现多层次语义编码,通过图注意力网络捕获实体对之间的局部和全局关系,构建基于实体对相似度的剪枝完全图作为伪触发器,全面捕捉文档中的事件和论元。在公共数据集ChFinAnn和DuEE-Fin上进行了实验,结果表明提出的方法改善了论元分散问题,提升了模型事件抽取性能。 展开更多
关键词 多粒度阅读器 图注意力网络 文档级事件抽取
在线阅读 下载PDF
中-蒙-藏-维文多文档摘要数据集 被引量:1
13
作者 翁彧 邢天娇 +3 位作者 叶旭明 刘征 超木日力格 刘轩 《中国科学数据(中英文网络版)》 CSCD 2024年第4期85-96,共12页
是自然语言处理中的一个关键任务,也是理解和处理大量文档中核心内容的关键技术。尽管目前英文和中文的多文档研究已取得显著进展,低资源语言相关研究却因数据不足而相对滞后。因此,本研究在构建中文多文档摘要数据集的基础上,采取机器... 是自然语言处理中的一个关键任务,也是理解和处理大量文档中核心内容的关键技术。尽管目前英文和中文的多文档研究已取得显著进展,低资源语言相关研究却因数据不足而相对滞后。因此,本研究在构建中文多文档摘要数据集的基础上,采取机器翻译加专家校对的方式构建了蒙文、藏文和维文对齐语料,组成了中文、蒙文、藏文和维文版本的面向多文档摘要生成的数据集MMDS。每种语言包含1044个新闻簇(6234篇新闻文章),覆盖2018至2023年间的重大新闻事件。此外,通过人工评价确保了数据集的高质量,使其更加适用于多语言的深度学习模型训练和NLP研究。本数据集的发布,对于促进低资源语言信息处理的发展具有重要的价值。 展开更多
关键词 多文档摘要 数据集 蒙文 藏文 维文 低资源
在线阅读 下载PDF
基于审判逻辑步骤的裁判文书摘要生成方法 被引量:5
14
作者 余帅 宋玉梅 +2 位作者 秦永彬 黄瑞章 陈艳平 《计算机工程与应用》 CSCD 北大核心 2024年第4期113-121,共9页
面向裁判文书的司法摘要是提升裁判文书分析能力的关键技术。裁判文书作为审判活动的载体,精准地呈现了案件的审判逻辑,但目前针对裁判文书的摘要方法只关注裁判文书的序列化信息,忽视了裁判文书的逻辑结构,且不能有效解决文本过长、信... 面向裁判文书的司法摘要是提升裁判文书分析能力的关键技术。裁判文书作为审判活动的载体,精准地呈现了案件的审判逻辑,但目前针对裁判文书的摘要方法只关注裁判文书的序列化信息,忽视了裁判文书的逻辑结构,且不能有效解决文本过长、信息冗余等问题。提出基于审判逻辑步骤的裁判文书摘要生成方法,采取“抽取+生成”相结合的方式,在抽取部分利用多标签分类方法,依据人民法院审理案件的逻辑步骤抽取出“类型、诉请、事实、结果”四个句子集合,在生成部分由微调后的T5-PEGASUS模型得到摘要。利用基于内部知识的最大相似度匹配算法对“事实”部分的输入文本进行降噪处理,进一步改善了摘要效果。实验结果表明,相比于主流的指针生成网络模型,该方法在ROUGE-1、ROUGE-2和ROUGE-L的F1指标上分别提升了17.99个百分点、21.24个百分点、21.86个百分点,说明在司法摘要任务中引入逻辑结构能够提升性能。 展开更多
关键词 裁判文书 审判逻辑步骤 多标签分类 内部知识 生成式摘要
在线阅读 下载PDF
基于孪生网络文本语义匹配的多文档摘要
15
作者 钟琪 王中卿 王红玲 《中文信息学报》 CSCD 北大核心 2024年第5期107-116,共10页
多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式... 多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式摘要方法,该方法将孪生网络和预训练语言模型BERT相结合,构建一个文本语义匹配与文本摘要联合学习模型。该模型运用孪生网络从不同的视角考察任意两个文本单元之间的语义关联,学习文档集中碎片化的信息,进一步对重要信息进行评估,最后结合文本摘要模型选择出更能代表文档集主要内容的句子组织成摘要。实验结果表明,该文所提方法和当前主流的多文档抽取式摘要方法相比,在ROUGE评价指标上有较大提升。 展开更多
关键词 多文档抽取式摘要 语义关系 预训练语言模型
在线阅读 下载PDF
基于多阶段内容选择框架的无监督抽取式多文档摘要方法
16
作者 冯毅 宋明阳 +1 位作者 景丽萍 于剑 《中文信息学报》 CSCD 北大核心 2024年第11期46-56,共11页
多文档抽取式摘要任务(MDES)旨在从多个相关文档中提取一个简明且包含显著信息的摘要。通常,在同主题的多个文档中冗余信息不可避免,例如,因不同表达方式造成的重复描述等。现有大多数方法在抽取摘要时,仅关注显著性内容的检测或冗余信... 多文档抽取式摘要任务(MDES)旨在从多个相关文档中提取一个简明且包含显著信息的摘要。通常,在同主题的多个文档中冗余信息不可避免,例如,因不同表达方式造成的重复描述等。现有大多数方法在抽取摘要时,仅关注显著性内容的检测或冗余信息的过滤二者之一,导致摘要信息不全面、不准确。因此,在建模抽取式多文档摘要任务时如何权衡两者间的协作是个挑战。考虑到多文档领域缺乏大规模训练数据,该文提出了一个新的多阶段的多文档无监督文本摘要抽取模型,该模型在摘要级别上进行提取,并通过以下三个步骤依次解决冗余性去除问题和显著性检测问题:引入外部知识的噪声过滤机制、冗余感知的排序策略,以及显著性感知的重排序策略。实验结果表明,该文框架可在多文档数据集Multi-News上取得无监督方法的最优结果,并在两个单文档数据集上获得有竞争力的结果。 展开更多
关键词 多文档抽取式摘要 无监督方法 多阶段框架
在线阅读 下载PDF
结合预训练的多文档摘要:研究
17
作者 丁一 王中卿 《计算机科学》 CSCD 北大核心 2024年第S01期174-181,共8页
新闻文本摘要任务旨在从庞大复杂的新闻文本中快速准确地提炼出简明扼要的摘要。基于预训练语言模型对多文档摘要进行研究,重点研究结合预训练任务的具体模型训练方式对模型效果提升的作用,强化多文档之间的信息交流,以生成更全面、更... 新闻文本摘要任务旨在从庞大复杂的新闻文本中快速准确地提炼出简明扼要的摘要。基于预训练语言模型对多文档摘要进行研究,重点研究结合预训练任务的具体模型训练方式对模型效果提升的作用,强化多文档之间的信息交流,以生成更全面、更简练的摘要。对于结合预训练任务,提出对基线模型、预训练任务内容、预训练任务数量、预训练任务顺序的对比实验,探索标记了行之有效的预训练任务,总结归纳了强化多文档之间的信息交流的具体方法,精炼提出了简明高效的预训练流程。在公开新闻多文档数据集上进行训练和测试,实验结果表明预训练任务的内容、数量、顺序对ROUGE值都有一定提升,并且整合三者结论提出的特定预训练组合对ROUGE值有明显提升。 展开更多
关键词 新闻 摘要: 预训练 多文档 信息交流
在线阅读 下载PDF
基于异构图分层学习的细粒度多文档摘要抽取
18
作者 翁裕源 许柏炎 蔡瑞初 《计算机工程》 CAS CSCD 北大核心 2024年第3期336-344,共9页
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过... 抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。 展开更多
关键词 抽取式多文档摘要 细粒度建模 异构图 分层学习 语义关系 结构关系
在线阅读 下载PDF
基于异质图神经网络预训练的多标签文档分类研究
19
作者 吴家伟 方全 +1 位作者 胡骏 钱胜胜 《计算机科学》 CSCD 北大核心 2024年第1期143-149,共7页
多标签文档分类是一种将文档实例与相关标签相关联的技术,近年来受到越来越多研究者的关注。现有的多标签文档分类方法尝试探索文本之外的信息的融合,如文档元数据或标签结构。然而,这些方法要么简单地利用元数据的语义信息,要么没有考... 多标签文档分类是一种将文档实例与相关标签相关联的技术,近年来受到越来越多研究者的关注。现有的多标签文档分类方法尝试探索文本之外的信息的融合,如文档元数据或标签结构。然而,这些方法要么简单地利用元数据的语义信息,要么没有考虑标签的长尾分布,因此忽略了文档及其元数据之间的高阶关系和标签的分布规律等信息,从而影响到多标签文档分类的准确性。因此,文中提出一种新的基于异质图神经网络预训练的多标签文档分类方法。该方法通过构造文档与其元数据的异质图,采用两种对比学习预训练方法捕获文档与其元数据之间的关系,并通过平衡标签长尾分布的损失函数来提高多标签文档分类的准确性。在基准数据集上的实验结果表明,所提方法的准确率比Transformer提高了8%,比BertXML提高了4.75%,比MATCH提高了1.3%。 展开更多
关键词 多标签文档分类 元数据 异质图神经网络 预训练 长尾分布
在线阅读 下载PDF
引入主题节点的异构图舆情摘要方法
20
作者 宝日彤 曾淼瑞 孙海春 《科学技术与工程》 北大核心 2024年第23期9965-9972,共8页
微博等社交软件承载着网民对社会舆论事件的不同观点,如何在海量主题评论中识别出有价值的信息已经成为重要课题。提出了一种基于异构图的舆情摘要方法,有效提取热点事件的主流观点,便于引导化解互联网舆情危机。针对多文档摘要任务中... 微博等社交软件承载着网民对社会舆论事件的不同观点,如何在海量主题评论中识别出有价值的信息已经成为重要课题。提出了一种基于异构图的舆情摘要方法,有效提取热点事件的主流观点,便于引导化解互联网舆情危机。针对多文档摘要任务中难以捕捉跨文档语义关系的难点问题,将主题节点引入评论句子图从而挖掘出输入文档间的潜在语义关联。具体地,抽取评论的主题并构建包含主题节点的异构图模型,利用图注意力机制进行不同粒度节点语义信息的交互,最后结合最大边界相关算法进行候选摘要句子的抽取。实验结果显示,改进模型在英文通用Multi-News数据集上Rouge1、Rouge2、,RougeL分数分别提升了0.46%、0.46%、0.48%;与已有Textrank、Sumpip等热点模型对比,在自制微博评论数据集上该模型性能达到最好。 展开更多
关键词 多文档摘要 舆情摘要 主题节点 图注意力机制 微博评论摘要
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部