期刊文献+
共找到2,778篇文章
< 1 2 139 >
每页显示 20 50 100
激光打印文档扫描图像倾斜自适应矫正技术
1
作者 段园园 赵中原 《激光杂志》 北大核心 2025年第2期239-244,共6页
激光打印文档作为日常办公、学术研究及法律公证等领域的关键资料,其扫描图像的质量直接影响数字化信息的准确性和可用性。在实际的文档扫描过程中,受多种因素的影响,易导致扫描图像存在倾斜现象。为此,研究激光打印文档扫描图像倾斜自... 激光打印文档作为日常办公、学术研究及法律公证等领域的关键资料,其扫描图像的质量直接影响数字化信息的准确性和可用性。在实际的文档扫描过程中,受多种因素的影响,易导致扫描图像存在倾斜现象。为此,研究激光打印文档扫描图像倾斜自适应矫正技术。以激光打印扫描技术成像理论,描述文档图像在扫描过程中的像素转换关系;依据像素转换关系划分倾斜类型,以径向畸变向量为矫正目标,在非线性关系作用下建立矫正模型;经过矫正模型获取图像径向畸变参量,采用牛顿算法求解参数,实现激光打印文档扫描图像自适应矫正。结果表明:以6种倾斜变形扫描图像作为测试基准集,经过所研究方法的矫正后,图像与真实文档之间具有较高的相似性,局部变形得到明显改善。 展开更多
关键词 激光打印文档 扫描图像 自适应矫正 图像倾斜
在线阅读 下载PDF
基于回指与逻辑推理的文档级关系抽取模型
2
作者 胡婕 吴翠 +1 位作者 孙军 张龑 《计算机应用》 北大核心 2025年第5期1496-1503,共8页
在文档级关系抽取(DocRE)任务中,现有模型主要侧重于学习文档中实体间的交互,忽略了对实体内部结构的学习,并很少关注到文档中的代词指代识别问题以及对逻辑规则的应用,这导致模型对文档中实体间关系的建模不够准确。因此,基于Transfor... 在文档级关系抽取(DocRE)任务中,现有模型主要侧重于学习文档中实体间的交互,忽略了对实体内部结构的学习,并很少关注到文档中的代词指代识别问题以及对逻辑规则的应用,这导致模型对文档中实体间关系的建模不够准确。因此,基于Transformer的架构融合关系回指图,建模实体间交互和实体内部结构,从而利用回指将更多上下文信息聚合到相应实体上以提高关系抽取的准确性。此外,采用数据驱动方式从关系注释中挖掘逻辑规则,增强对文本隐含逻辑关系的理解和推理能力。针对样本不平衡问题,引入加权长尾损失函数提高对稀有关系的识别准确性。在2个公开数据集DocRED(Document-level Relation Extraction Dataset)和Re-DocRED(Revisiting Documentlevel Relation Extraction Dataset)上的实验结果表明,所提模型性能表现最优,在DocRED测试集上,基于BERT编码器的模型的IgnF1和F1值比基线模型ATLOP(Adaptive Thresholding and Localized cOniext Pooling)分别提高了1.79和2.09个百分点,可见所提模型的综合性能较高。 展开更多
关键词 文档级关系抽取 关系回指图 逻辑规则 样本不平衡 加权长尾损失函数
在线阅读 下载PDF
融合局部上下文的双图文档级关系抽取方法 被引量:1
3
作者 闻克妍 纪婉婷 宋宝燕 《小型微型计算机系统》 北大核心 2025年第3期535-541,共7页
文档级关系抽取是一项复杂的自然语言处理任务,旨在识别出文档中存在的实体,并预测实体之间的关系.相较于句子级关系抽取任务,文档级关系抽取面临更大的挑战,因为它需要考虑整个文档的语义信息和句子间的逻辑关系.针对这一任务,提出了... 文档级关系抽取是一项复杂的自然语言处理任务,旨在识别出文档中存在的实体,并预测实体之间的关系.相较于句子级关系抽取任务,文档级关系抽取面临更大的挑战,因为它需要考虑整个文档的语义信息和句子间的逻辑关系.针对这一任务,提出了一种融合局部上下文信息的双图推理方法(BRM)用于文档级关系抽取.该方法首先识别文档中的实体提及,并构造了一个提及级别的异构图来表示这些提及以及它们之间的关系.在获得提及级别的表示后,方法进一步构建了一个实体级别的推理图,通过聚合提及级别的信息来形成实体级别的表示,以判断实体之间的关系.该方法在文档级关系抽取公开数据集DocRED上进行了实验.实验结果表明,与现有的文档级关系抽取方法相比,该方法能够更准确地识别实体并预测它们之间的关系. 展开更多
关键词 文档级关系抽取 局部上下文 双图推理 数据集成
在线阅读 下载PDF
融合实体与窗口注意力的文档级金融关系抽取
4
作者 朱安东 张晓龙 +3 位作者 林晓丽 刘宇 刘茂福 高峰 《中文信息学报》 北大核心 2025年第6期77-84,共8页
文档级金融领域的关系抽取对于构建领域内的知识图谱具有决定性作用。该文针对金融领域上市公司公告的中文数据开展研究,提出了融合实体与窗口注意力的模型,使用了基于滑动窗口的数据预处理优化策略,对长文本(512~2048)进行分割,从而解... 文档级金融领域的关系抽取对于构建领域内的知识图谱具有决定性作用。该文针对金融领域上市公司公告的中文数据开展研究,提出了融合实体与窗口注意力的模型,使用了基于滑动窗口的数据预处理优化策略,对长文本(512~2048)进行分割,从而解决了模型在长文本数据上效果差和受限于预训练模型最大输入长度(512)的问题。该模型把头-尾实体信息输入卷积神经网络进行实体信息交互以提取全局特征,同时对预训练模型输出的文档级注意力用固定窗口提取局部特征,将以上两种特征融合后输入到U形神经网络进行关系推理,最后通过双线性函数进行关系预测,解决了文档级关系抽取存在的头-尾实体跨句和实体重叠的问题。该文在自主扩展的FinDoc数据集上进行实验,验证了模型的有效性。 展开更多
关键词 文档 关系抽取 上市公司公告
在线阅读 下载PDF
文档级神经机器翻译综述
5
作者 吕星林 李军辉 +2 位作者 陶仕敏 杨浩 张民 《软件学报》 北大核心 2025年第1期152-183,共32页
机器翻译(machine translation,MT)研究旨在构建一个自动转换系统,将给定源语言序列自动地转换为具有相同语义的目标语言序列.由于机器翻译广阔的应用场景,使其成为自然语言理解领域乃至人工智能领域的一个重要的研究方向.近年来,端到... 机器翻译(machine translation,MT)研究旨在构建一个自动转换系统,将给定源语言序列自动地转换为具有相同语义的目标语言序列.由于机器翻译广阔的应用场景,使其成为自然语言理解领域乃至人工智能领域的一个重要的研究方向.近年来,端到端的神经机器翻译(neural machine translation,NMT)方法显著超越了统计机器翻译(statistical machine translation,SMT)方法,成为目前机器翻译研究的主流方法.然而,神经机器翻译系统通常以句子为翻译单位,在面向文档的翻译场景中,将文档中每个句子独立地进行翻译,会因脱离文档的篇章语境引起一些篇章级的错误,如词语错翻、句子间不连贯等.因此将文档级的信息融入到翻译的过程中去解决跨句的篇章级错误是更加自然和合理的做法,文档级的神经机器翻译(document-level neural machine translation,DNMT)的目标正是如此,成为机器翻译研究的热门方向.调研了近年来在文档级神经机器翻译研究方向的主要工作,从篇章评测方法、使用的数据集和模型方法等方面系统地对当前研究工作进行了归纳与阐述,目的是帮助研究者们快速了解文档级神经机器翻译研究现状以及未来的发展和研究方向.同时在文中也阐述了在文档级神经机器翻译的一些展望、困难和挑战,希望能带给研究者们一些启发. 展开更多
关键词 神经机器翻译 Transformer模型 文档上下文 篇章评测
在线阅读 下载PDF
图推理嵌入动态自注意力网络的文档级关系抽取
6
作者 李云洁 王丹阳 +2 位作者 刘海涛 汪华东 汪培庄 《智能系统学报》 北大核心 2025年第1期52-63,共12页
文档级关系抽取是指从文档中抽取所有具有语义关系的实体对并判断其关系类别,与句子级关系抽取不同,这里实体关系的确定需要根据文档中多个句子推理得到。现有方法主要采用自注意力进行文档级关系抽取,但是运用自注意力进行文档级关系... 文档级关系抽取是指从文档中抽取所有具有语义关系的实体对并判断其关系类别,与句子级关系抽取不同,这里实体关系的确定需要根据文档中多个句子推理得到。现有方法主要采用自注意力进行文档级关系抽取,但是运用自注意力进行文档级关系抽取需要面临两个技术挑战:即长文本语义编码存在的高计算复杂度和关系预测需要的复杂推理建模,故提出一种图推理嵌入动态自注意力网络(graph reasoning embedded dynamic self-attention network,GSAN)模型。该模型借助门限词选择机制动态选择重要词计算自注意力实现对长文本语义依赖的高效建模,同时考虑以选择词为全局语义背景与实体候选、文档节点一起构建文档图,将文档图的图推理聚合信息嵌入到动态自注意力模块中,实现模型对复杂推理建模的能力。在公开的文档级关系数据集CDR和DocRED上的实验结果表明,文中提出的模型较其他基线模型有显著提升。 展开更多
关键词 文档级关系抽取 图推理 动态自注意力网络 自注意力机制 门限词选择机制 文档 图注意力网络 关键词
在线阅读 下载PDF
视觉富文档理解预训练综述 被引量:1
7
作者 张剑 李晖 +2 位作者 张晟铭 吴杰 彭滢 《计算机科学》 北大核心 2025年第1期259-276,共18页
视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档。现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理。这一过程即为视觉富文档理解,属于自然语言处理... 视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档。现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理。这一过程即为视觉富文档理解,属于自然语言处理和计算机视觉的交叉领域。近年来,视觉富文档理解领域的预训练技术在打破下游任务的训练壁垒和提升模型表现上取得了重大的进展。然而,目前对现有的预训练模型的归纳总结和深入分析仍然有所欠缺。为此,对视觉富文档理解领域预训练技术的相关研究进行了全面总结。首先,介绍了预训练技术的数据预处理阶段,包括预训练数据集和光学字符识别引擎。然后,对预训练技术的模型预训练阶段进行了阐述,提炼出单模态表示学习、多模态特征融合和预训练任务3个关键的技术模块,并基于上述模块归纳了预训练模型之间的共性和差异。此外,简要介绍了多模态大模型在视觉富文档理解领域的应用。接着,对预训练模型在下游任务上的表现进行了对比分析。最后,探讨了预训练技术面临的挑战和未来的研究方向。 展开更多
关键词 文档智能 预训练模型 自然语言处理 计算机视觉 深度学习
在线阅读 下载PDF
基于三图特征推理的文档级关系抽取
8
作者 龚俊豪 李卫疆 《中文信息学报》 北大核心 2025年第5期91-101,共11页
文档级关系抽取需要对整个文档进行充分理解,整合多个句子内和多个句子间的信息,捕获实体之间复杂的交互。为了解决该问题,并进一步提高推理准确性,该文提出了一个基于多粒度特征的文档级关系抽取模型三图特征推理网络(TFGIN),该模型通... 文档级关系抽取需要对整个文档进行充分理解,整合多个句子内和多个句子间的信息,捕获实体之间复杂的交互。为了解决该问题,并进一步提高推理准确性,该文提出了一个基于多粒度特征的文档级关系抽取模型三图特征推理网络(TFGIN),该模型通过构建三个不同粒度的图,模拟提及间的复杂交互,聚合对应的实体信息并捕捉句子层次的重要特征,最后以多层次的特征信息结合注意力机制推断实体之间的关系。在公共数据集DocRED上进行的实验表明,模型TFGIN在精度上优于其他当前的文档级关系抽取方法。 展开更多
关键词 文档 关系抽取 提及级图 实体级图 句子级图
在线阅读 下载PDF
利用词链提高文档级神经机器翻译的词汇翻译一致性
9
作者 雷翔宇 李军辉 《中文信息学报》 北大核心 2025年第2期72-79,共8页
近年来,各种上下文感知模块的引入,使得文档级神经机器翻译(Document-level Neural Machine Translation,DNMT)取得了令人瞩目的进步。受“一个语篇一个翻译(one translation per discourse)”的启发,该文在代表性DNMT模型G-Transforme... 近年来,各种上下文感知模块的引入,使得文档级神经机器翻译(Document-level Neural Machine Translation,DNMT)取得了令人瞩目的进步。受“一个语篇一个翻译(one translation per discourse)”的启发,该文在代表性DNMT模型G-Transformer的基础上,提出一种有效的方法对源端文档中重复出现的词汇进行建模以缓解词汇翻译不一致问题。具体来说,首先获取源端文档中每个单词的词链;然后,使用词链注意力机制以交换同一词链单词之间的上下文信息,从而增强词汇翻译一致性。基于汉?英和德?英文档级翻译任务的实验结果表明,该文的办法不仅显著缓解了词汇翻译不一致的问题,而且提高了翻译性能。 展开更多
关键词 文档级神经机器翻译 词汇翻译一致性 词链
在线阅读 下载PDF
基于实体表示增强的文档级关系抽取
10
作者 王海杰 张广鑫 +1 位作者 史海 陈树 《计算机应用》 北大核心 2025年第6期1809-1816,共8页
针对现有的文档级关系抽取(DocRE)任务的实体表示学习存在的忽视实体提及差异性和缺少实体对关系抽取复杂度的计算范式的问题,提出一种基于实体表示增强的DocRE模型(DREERE)。首先,利用注意力机制评估实体提及在判定不同实体对关系时的... 针对现有的文档级关系抽取(DocRE)任务的实体表示学习存在的忽视实体提及差异性和缺少实体对关系抽取复杂度的计算范式的问题,提出一种基于实体表示增强的DocRE模型(DREERE)。首先,利用注意力机制评估实体提及在判定不同实体对关系时的差异性,得到更灵活的实体表示;其次,利用编码器计算得到的实体对句子重要性分布评估实体对关系抽取的复杂度,再选择性地利用实体对之间的两跳信息增强实体对的表示;最后,在3个流行的数据集DocRED、Re-DocRED和DWIE上进行实验。结果显示,与最优基线模型(如ATLOP(Adaptive Thresholding and Localized cOntext Pooling)、E2GRE(Entity and Evidence Guided Relation Extraction))相比,DREERE的F1值分别提高了0.06、0.14和0.23个百分点,忽略训练集出现的三元组而计算得到的F1分数(ign-F1)值分别提高了0.07、0.09和0.12个百分点,可见该模型能够有效获取文档里的实体语义信息。 展开更多
关键词 文档级关系抽取 注意力机制 证据搜索 表示学习 两跳信息
在线阅读 下载PDF
基于TextRank和自注意力的长文档无监督抽取式摘要
11
作者 邢玲 程兵 闫强 《计算机应用与软件》 北大核心 2025年第3期274-283,共10页
针对中文长文档自动文本摘要问题,提出将TextRank与自注意力相融合的两种模型:TRAI和TRAO。TRAI将基于统计共现字数得到的句子相似性同基于自注意力得到的句子相关性进行加权求和,作为TextRank边的权重参与迭代计算,对句子进行打分。TRA... 针对中文长文档自动文本摘要问题,提出将TextRank与自注意力相融合的两种模型:TRAI和TRAO。TRAI将基于统计共现字数得到的句子相似性同基于自注意力得到的句子相关性进行加权求和,作为TextRank边的权重参与迭代计算,对句子进行打分。TRAO利用TextRank对句子打分;利用自注意力重新表示每个句子融合整个文档信息的分布式向量,在此基础上计算句子间余弦相似度,作为TextRank边的权重参与迭代计算,给句子打分;将两种得分加权求和作为句子最终得分。两种模型均根据得分对句子进行排序得到候选摘要。为去除摘要冗余性,利用最大边界相关法(Maximal Marginal Relevance,MMR)在候选摘要中选取摘要句子。将提出的两种模型在构建的长文档上进行实验,与TextRank方法相比,所提方法在ROUGE评价指标上有显著提高。 展开更多
关键词 中文长文本摘要 TextRank 自注意力机制 分布式向量表示 语义信息 融合文档信息
在线阅读 下载PDF
基于伪文档与全局信息互补的文档级关系抽取
12
作者 胡建洋 高永彬 +1 位作者 沈马磊 张开昱 《计算机工程与设计》 北大核心 2025年第5期1403-1409,共7页
针对文档级关系抽取中文本处理复杂性高且抽取过程存在噪音的问题,提出一种基于伪文档与全局信息互补的文档级关系抽取方法。通过BERT模型对文档进行编码,使用实体间门控计算模块与语义分割模块抽取原始文档中的关系;使用伪文档抽取模... 针对文档级关系抽取中文本处理复杂性高且抽取过程存在噪音的问题,提出一种基于伪文档与全局信息互补的文档级关系抽取方法。通过BERT模型对文档进行编码,使用实体间门控计算模块与语义分割模块抽取原始文档中的关系;使用伪文档抽取模块过滤文档中无用的句子,抽取伪文档中的实体间关系;将原始文档关系抽取模块与伪文档关系抽取模块的抽取结果进行融合。实验结果表明,所提方法能够有效提高长文本关系抽取的准确率。 展开更多
关键词 文档 文档 全局信息互补 实体间门控计算 语义分割 关系抽取 结果融合
在线阅读 下载PDF
基于知识图谱中多维元路径的科技文档查询扩展
13
作者 徐建民 仝思梦 张国防 《计算机工程与科学》 北大核心 2025年第8期1493-1502,共10页
针对现有科技文档的查询扩展方法存在文档信息利用不充分、文档间关联关系未能有效利用等方面的局限性,提出一种基于知识图谱中多维元路径的科技文档查询扩展方法。首先,对伪相关反馈文档集进行处理得到候选扩展词集;其次,在对科技文档... 针对现有科技文档的查询扩展方法存在文档信息利用不充分、文档间关联关系未能有效利用等方面的局限性,提出一种基于知识图谱中多维元路径的科技文档查询扩展方法。首先,对伪相关反馈文档集进行处理得到候选扩展词集;其次,在对科技文档知识图谱进行分析的基础上,寻找合适的元路径表示用户查询与候选扩展词的关联关系,并基于节点间不同的元路径关联计算用户查询与候选扩展词之间的多维语义相关度;最后,融合多维语义相关度以及候选扩展词在伪相关反馈文档集中的权重选择最终扩展词,实现对用户查询的扩展。实验结果显示,与已有的查询扩展方法相比,基于知识图谱中多维元路径的科技文档查询扩展方法在mAP,DCG和NDCG上分别至少提升了9.21%,10%和11.7%。 展开更多
关键词 知识图谱 查询扩展 多维元路径 科技文档 信息检索
在线阅读 下载PDF
基于多尺度融合注意力的多视角文档图像篡改检测与定位
14
作者 孟思江 王宏霞 +1 位作者 曾强 周炀 《计算机科学》 北大核心 2025年第4期327-335,共9页
随着各类数字化平台的完善和应用,文档类图像在网络上得到了广泛传播。与此同时,图像处理技术的发展也增大了文档类图像被篡改的风险,保障文档图像的完整性和真实性变得至关重要。为了提高真实场景下文档类图像篡改区域定位的准确度,提... 随着各类数字化平台的完善和应用,文档类图像在网络上得到了广泛传播。与此同时,图像处理技术的发展也增大了文档类图像被篡改的风险,保障文档图像的完整性和真实性变得至关重要。为了提高真实场景下文档类图像篡改区域定位的准确度,提出了一种基于多尺度融合注意力的多视角文档类图像篡改检测与定位方法(Multi-View and Multi-Scale Fusion Attention Network,MM-Net),采用多视角编码器结合RGB图像、噪声信息和字符特征信息,充分地挖掘篡改特征。此外,MM-Net设计多尺度融合注意力模块以实现不同尺度的特征交互,增强文档图像中的关键内容信息,从而提高文档类图像篡改区域定位的精度。在大规模数据集DocTamper上的大量实验结果表明,MM-Net实现了更精确的文档类图像篡改区域定位,在测试数据集、跨域数据集FCD和SCD上的F1值分别达到了0.809,0.807和0.774,并表现出了良好的泛化性和鲁棒性。 展开更多
关键词 文档类图像篡改检测 深度学习 多尺度 数字图像取证 多视角
在线阅读 下载PDF
解耦知识蒸馏在文档级关系抽取中的应用
15
作者 刘乐 肖蓉 杨肖 《计算机科学》 北大核心 2025年第8期277-287,共11页
文档级关系抽取是自然语言处理领域中的一个重要研究方向,旨在从无结构或半结构的自然语言文档中提取实体之间的语义关系。提出了结合使用解耦知识蒸馏方法和交叉多头注意力机制来解决文档级关系抽取任务。首先,交叉多头注意机制不仅能... 文档级关系抽取是自然语言处理领域中的一个重要研究方向,旨在从无结构或半结构的自然语言文档中提取实体之间的语义关系。提出了结合使用解耦知识蒸馏方法和交叉多头注意力机制来解决文档级关系抽取任务。首先,交叉多头注意机制不仅能够并行关注不同注意力头中的元素,使模型在不同粒度和层级上进行信息的交流和整合,而且允许模型在计算头实体与尾实体之间的注意力时,同时考虑它们与关系之间的相关性,从而提升模型对复杂关系的理解能力,增强模型对实体特征表示的学习。此外,为了进一步优化模型性能,还引入了解耦知识蒸馏方法去适应远程监督数据。该方法将原始KL散度损失中的目标类别知识蒸馏损失TCKDL和非目标类别知识蒸馏损失NCKDL解耦为了两个可以通过超参数调整其权重重要性的独立部分,提高了知识蒸馏过程的灵活性和有效性,特别是在处理DocRED远程监督数据中的噪声时,能够更精准地进行知识迁移和学习。实验结果表明,所提模型在DocRED数据集上能够更有效地提取实体对之间的关系。 展开更多
关键词 自然语言处理 文档级关系抽取 DocRED 交叉多头注意力 解耦知识蒸馏 远程监督数据 KL散度
在线阅读 下载PDF
中国石油境外文档一体化探索与实践
16
作者 唐振华 《中国档案》 北大核心 2025年第3期38-39,共2页
中油国际公司是中国石油天然气集团授权专门负责海外油气投资与经营作业的专业子公司,在全球多个国家运营81个项目,形成了完整油气产业链。中油国际公司深入学习贯彻习近平新时代中国特色社会主义思想,将境外档案工作作为企业国际化现... 中油国际公司是中国石油天然气集团授权专门负责海外油气投资与经营作业的专业子公司,在全球多个国家运营81个项目,形成了完整油气产业链。中油国际公司深入学习贯彻习近平新时代中国特色社会主义思想,将境外档案工作作为企业国际化现代化的重要内容。 展开更多
关键词 习近平新时代中国特色社会主义思想 企业国际化 文档一体化 海外油气投资 产业链 子公司 境外档案 探索与实践
在线阅读 下载PDF
基于多粒度阅读器和图注意力网络的文档级事件抽取 被引量:2
17
作者 薛颂东 李永豪 赵红燕 《计算机应用研究》 CSCD 北大核心 2024年第8期2329-2335,共7页
文档级事件抽取面临论元分散和多事件两大挑战,已有工作大多采用逐句抽取候选论元的方式,难以建模跨句的上下文信息。为此,提出了一种基于多粒度阅读器和图注意网络的文档级事件抽取模型,采用多粒度阅读器实现多层次语义编码,通过图注... 文档级事件抽取面临论元分散和多事件两大挑战,已有工作大多采用逐句抽取候选论元的方式,难以建模跨句的上下文信息。为此,提出了一种基于多粒度阅读器和图注意网络的文档级事件抽取模型,采用多粒度阅读器实现多层次语义编码,通过图注意力网络捕获实体对之间的局部和全局关系,构建基于实体对相似度的剪枝完全图作为伪触发器,全面捕捉文档中的事件和论元。在公共数据集ChFinAnn和DuEE-Fin上进行了实验,结果表明提出的方法改善了论元分散问题,提升了模型事件抽取性能。 展开更多
关键词 多粒度阅读器 图注意力网络 文档级事件抽取
在线阅读 下载PDF
基于注意力机制语义增强的文档级关系抽取 被引量:1
18
作者 柳先辉 吴文达 +1 位作者 赵卫东 侯文龙 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第5期822-828,共7页
文档级关系抽取旨在从文档中抽取出多个实体对之间的关系,具有较高的复杂性。针对文档级关系抽取中的多实体、关系相关性、关系分布不平衡等问题,提出了一种基于注意力机制(Attention)语义增强的文档级关系抽取方法,能够实现实体对之间... 文档级关系抽取旨在从文档中抽取出多个实体对之间的关系,具有较高的复杂性。针对文档级关系抽取中的多实体、关系相关性、关系分布不平衡等问题,提出了一种基于注意力机制(Attention)语义增强的文档级关系抽取方法,能够实现实体对之间关系的推理。具体来说,首先在数据编码模块改进编码策略,引入更多实体信息,通过编码网络捕获文档的语义特征,获得实体对矩阵;然后,设计了一个基于Attention门控机制的U-Net网络,对实体对矩阵进行局部信息捕获和全局信息汇总,实现语义增强;最后,使用自适应焦点损失函数缓解关系分布不平衡的问题。在4个公开的文档级关系抽取数据集(DocRED、CDR、GDA和DWIE)上评估了Att-DocuNet模型并取得了良好的实验结果。 展开更多
关键词 文档级关系抽取 注意力机制 语义增强 焦点损失
在线阅读 下载PDF
基于双粒度图的文档级关系抽取
19
作者 廖涛 张国畅 张顺香 《计算机工程》 CAS CSCD 北大核心 2024年第10期164-173,共10页
文档级关系抽取是指在非结构性文本中抽取实体对之间的关系。针对当前文档级关系抽取方法未能充分利用文档语义信息且难以处理文档的噪声干扰问题,提出一种基于双粒度文档图的关系抽取模型,采用一种新型的构图思路以及降噪方法,分别在... 文档级关系抽取是指在非结构性文本中抽取实体对之间的关系。针对当前文档级关系抽取方法未能充分利用文档语义信息且难以处理文档的噪声干扰问题,提出一种基于双粒度文档图的关系抽取模型,采用一种新型的构图思路以及降噪方法,分别在句间和句内两个层面进行设计。首先,在句间层面使用修辞语篇关系实体提及关系构建修辞语篇关系图RST-graph,采用异步降噪方式生成粗粒度文档图(CGD-graph),缓解了因实体对的句间关系路径长于句内关系路径造成的结构性误剪枝问题。然后,在句内层面采用依存句法关系对文档中的句子进行解析,构造依存句法树(SDT),增强句内语义信息。最后,将SDT和CGD-graph中存在的公共锚点相连接,构造细粒度文档图(FGD-graph)。实验结果表明,与去噪图推理(DGI)模型相比,该模型的lgn F1值和F1值分别提升了0.40和0.51个百分点,并且在实体对的多标签关系上随着标签数量的增多抽取效果提升较为显著。 展开更多
关键词 文档 关系抽取 双粒度文档 异步降噪 修辞语篇关系 依存句法关系
在线阅读 下载PDF
跨文档类型的语义元数据支持方法 被引量:1
20
作者 王詠萱 李宁 田英爱 《计算机工程与设计》 北大核心 2024年第11期3507-3513,共7页
针对当前可编辑的流式文档在语义元数据支持方面的不足,设计一种在流式文档中记录语义元数据的方法,允许语义元数据随文档内容的编辑而修改,并与文档内容保持同步。为从流式文档中导出独立的元数据内容,提出一种元数据到文本位置的定位... 针对当前可编辑的流式文档在语义元数据支持方面的不足,设计一种在流式文档中记录语义元数据的方法,允许语义元数据随文档内容的编辑而修改,并与文档内容保持同步。为从流式文档中导出独立的元数据内容,提出一种元数据到文本位置的定位方法,避免数据冗余。为实现元数据的共享,提出一种流式文档到版式文档的元数据支持方法,充分发挥元数据的作用。通过实际系统的构建验证了所述方法的可行性。研究成果对于文档的自动理解和智能化处理具有应用价值。 展开更多
关键词 语义元数据 元数据转换 流式文档 固定版式文档 元数据定位 元数据嵌入 元数据提取
在线阅读 下载PDF
上一页 1 2 139 下一页 到第
使用帮助 返回顶部