期刊文献+
共找到352篇文章
< 1 2 18 >
每页显示 20 50 100
我国文献修复职业稳定性因素分析及发展策略研究
1
作者 张美芳 臧丹阳 +1 位作者 李萌 宋欣 《北京档案》 北大核心 2025年第5期22-28,共7页
文献修复职业的职能及职责有别于其他行业或档案馆与图书馆其他岗位,对专业及技术要求高。论文利用31个省(区、市)的调查数据,分析了当前我国文献修复人员从业现状,并基于Logit模型对影响修复职业稳定性的主要因素进行了分析,同时运用SP... 文献修复职业的职能及职责有别于其他行业或档案馆与图书馆其他岗位,对专业及技术要求高。论文利用31个省(区、市)的调查数据,分析了当前我国文献修复人员从业现状,并基于Logit模型对影响修复职业稳定性的主要因素进行了分析,同时运用SPSS 26.0对调研结果进行回归分析,结果得出,修复人员学历、职业兴趣、成就感、社会评价、升迁机会等与选择并坚守修复职业直接相关。论文揭示了在社会及大众对文献修复职业认可度不断提高的背景下自身职业发展变化的根源,以便调整修复人才培养方式,促进文献保护与修复队伍不断壮大。 展开更多
关键词 文献修复 人才结构 LOGIT模型 人才培养
在线阅读 下载PDF
基于大模型指令微调的公文生成方法
2
作者 梁瑞威 蔡子杰 +3 位作者 方荟 龙云飞 孔祥增 徐戈 《中文信息学报》 北大核心 2025年第5期164-176,共13页
公文在政府和企业机构中扮演着重要角色,其撰写严格遵循特定的格式和规范,且内容必须准确、清晰、逻辑严谨。然而,传统的公文撰写过程耗时烦琐,需要经验丰富的写作人员才能胜任。目前,公文写作数据集稀缺,且尚无大模型公文生成的研究。... 公文在政府和企业机构中扮演着重要角色,其撰写严格遵循特定的格式和规范,且内容必须准确、清晰、逻辑严谨。然而,传统的公文撰写过程耗时烦琐,需要经验丰富的写作人员才能胜任。目前,公文写作数据集稀缺,且尚无大模型公文生成的研究。因此,该文介绍了一种基于大模型的指令微调方法,旨在提高公文写作质量和效率。具体来说,我们基于少量真实公文样本,结合公文专家的指导,设计了提示模板,引导ChatGPT生成了625对样本实例,并将这些实例构建成面向公文写作任务的指令数据集,解决了当前公文领域缺乏写作任务指令数据集的问题。随后,我们使用这一指令数据集对大模型进行了参数高效微调,并为公文写作评测设计了评估标准。实验结果表明,对四个基座模型进行微调,性能得到显著提升,在百分制人工评估标准下,基座模型Qwen-1.8B-Chat经LoRA微调后平均得分从74.32分提升到84.64分,证明了大模型经过领域数据集指令微调后能有效提高公文写作质量。 展开更多
关键词 公文写作 大模型 指令微调 写作评测
在线阅读 下载PDF
视觉富文档理解预训练综述 被引量:1
3
作者 张剑 李晖 +2 位作者 张晟铭 吴杰 彭滢 《计算机科学》 北大核心 2025年第1期259-276,共18页
视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档。现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理。这一过程即为视觉富文档理解,属于自然语言处理... 视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档。现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理。这一过程即为视觉富文档理解,属于自然语言处理和计算机视觉的交叉领域。近年来,视觉富文档理解领域的预训练技术在打破下游任务的训练壁垒和提升模型表现上取得了重大的进展。然而,目前对现有的预训练模型的归纳总结和深入分析仍然有所欠缺。为此,对视觉富文档理解领域预训练技术的相关研究进行了全面总结。首先,介绍了预训练技术的数据预处理阶段,包括预训练数据集和光学字符识别引擎。然后,对预训练技术的模型预训练阶段进行了阐述,提炼出单模态表示学习、多模态特征融合和预训练任务3个关键的技术模块,并基于上述模块归纳了预训练模型之间的共性和差异。此外,简要介绍了多模态大模型在视觉富文档理解领域的应用。接着,对预训练模型在下游任务上的表现进行了对比分析。最后,探讨了预训练技术面临的挑战和未来的研究方向。 展开更多
关键词 文档智能 预训练模型 自然语言处理 计算机视觉 深度学习
在线阅读 下载PDF
基于滑动窗口策略的大语言模型检索增强生成系统
4
作者 毕枫林 张豈明 +5 位作者 张嘉睿 王衍童 陈阳 张琰彬 王伟 周烜 《计算机研究与发展》 北大核心 2025年第7期1597-1610,共14页
提出了一种基于滑动窗口策略的检索增强生成系统,旨在提升大语言模型(large language models,LLMs)输出的事实准确性和可靠性.该系统通过在索引阶段应用滑动窗口机制,有效解决了传统固定大小上下文窗口和静态检索方法的局限性.研究提出... 提出了一种基于滑动窗口策略的检索增强生成系统,旨在提升大语言模型(large language models,LLMs)输出的事实准确性和可靠性.该系统通过在索引阶段应用滑动窗口机制,有效解决了传统固定大小上下文窗口和静态检索方法的局限性.研究提出3种具体的滑动窗口策略以有效处理和分割文本,包括:固定窗口大小和固定步长分割(fixed window size and fixed step length split,FFS)、动态窗口大小和固定步长分割(dynamic window size and fixed step length split,DFS)以及动态窗口大小和动态步长分割(dynamic window size and dynamic step length split,DDS).此外,研究还探讨了使用多查询技术进一步提高检索的准确性和相关性.实验评估使用LLaMA-3模型在多个数据集上进行,结果表明系统在窗口大小为1024和步长为3的配置下达到最佳性能,该配置显著提高了F1得分,体现了在文档段长度和滑动窗口步长之间保持平衡的重要性.滑动窗口策略有效保留了上下文信息,减少了信息丢失,并展示了在不同数据集和查询类型中的适应性. 展开更多
关键词 检索增强生成 滑动窗口机制 大语言模型 信息检索 文档问答
在线阅读 下载PDF
数据增强与规则引导的大语言模型电网法律答辩文书生成
5
作者 黄成燕 查小云 +1 位作者 丁群晏 胡伟 《国防科技大学学报》 北大核心 2025年第4期180-188,共9页
为提升大语言模型在少样本环境下生成电网法律文书的能力,结合数据增强与规则引导技术,提出一种基于大语言模型的少样本法律文书生成方法,解决了电网企业法律文书生成中样本稀缺、专业性强、实践经验复杂等问题。实验结果表明,该方法在... 为提升大语言模型在少样本环境下生成电网法律文书的能力,结合数据增强与规则引导技术,提出一种基于大语言模型的少样本法律文书生成方法,解决了电网企业法律文书生成中样本稀缺、专业性强、实践经验复杂等问题。实验结果表明,该方法在电网法律答辩文书生成任务中取得了优异效果,有效提升了模型生成文本的质量与专业性。 展开更多
关键词 法律答辩文书生成 少样本 大语言模型 规则引导 数据增强
在线阅读 下载PDF
面向可溯源文本生成的科技文献伪反馈训练数据合成研究
6
作者 马永强 刘家伟 高影繁 《情报学报》 北大核心 2025年第7期830-845,共16页
在学术文本中插入恰当的引文标识是学术写作的基本规范,可以帮助读者验证文本内容的真实性。引文标识符可以用于实现内容溯源、保证内容可验证性。在学术场景中,现有大语言模型普遍缺乏内置的内容溯源机制,导致所生成学术文本的可验证... 在学术文本中插入恰当的引文标识是学术写作的基本规范,可以帮助读者验证文本内容的真实性。引文标识符可以用于实现内容溯源、保证内容可验证性。在学术场景中,现有大语言模型普遍缺乏内置的内容溯源机制,导致所生成学术文本的可验证性不足。当前,借助领域数据集来优化大模型是主流的研究思路。然而,在优化模型可溯源性方面,基于人类撰写的学术文本所构建的训练集存在内在一致性不足、引文标注行为差异性大等问题,基于大模型的数据合成方法在数据多样性方面也存在局限性。为此,本文提出了一种面向可溯源学术文本的引文标识符体系与评测方法,用于分析大模型所生成学术文本的可溯源性。然后,从训练数据的角度,针对可溯源的学术文本生成,本文提出了一种两阶段伪反馈训练数据合成方法,兼顾大模型标注文本和人类标注文本的特性,构建高质量、多样化的训练数据。研究结果表明,采用本文构建的合成数据训练的小模型,能够生成更具可溯源性的学术文本;通过第二阶段的伪反馈进一步优化数据分布和任务多样性,有助于增强模型的泛化能力。 展开更多
关键词 大语言模型 数据合成 学术多文档摘要 文本可溯源性
在线阅读 下载PDF
基于大语言模型的API使用约束知识构建
7
作者 刘根壕 张能 郑子彬 《计算机工程》 北大核心 2025年第8期74-85,共12页
API(Application Programming Interface)使用约束是开发者在调用API时必须遵守的条件或限制,以确保正确使用并避免API误用。API文档是提取这些约束的重要来源。现有的基于自然语言处理(NLP)的API使用约束提取方法通常依赖于句法模式,... API(Application Programming Interface)使用约束是开发者在调用API时必须遵守的条件或限制,以确保正确使用并避免API误用。API文档是提取这些约束的重要来源。现有的基于自然语言处理(NLP)的API使用约束提取方法通常依赖于句法模式,但对复杂并列句的处理能力有限,且对语法模式要求严格。为此,提出一种基于大语言模型(LLM)的API使用约束知识提取方法,记为AUCK。AUCK首先对Java API文档进行预处理,提取包含API使用约束的句子;其次,总结并列句的句法模式并设计相应案例,指导LLM将并列句拆分为简单句;最后,针对简单句总结出三元组句法模式,并设计案例指导LLM提取API使用约束三元组。实验结果表明,在Java API文档上,AUCK的准确率和召回率分别达到92.23%和93.14%,显著优于现有方法DRONE(准确率为80.61%,召回率为86.81%)、主流三元组提取工具OpenIE(准确率为76.92%,召回率为52.63%)以及大语言模型ChatGPT-3.5(准确率为82.23%,召回率为67.71%)。此外,将AUCK应用于Android和Python API文档的实验结果验证了其良好的迁移能力。 展开更多
关键词 Java API文档 API使用约束 大语言模型 并列句拆解 三元组提取 知识提取
在线阅读 下载PDF
基于多线程UI-Model的远程实时交互教学系统 被引量:2
8
作者 冯柏力 霍剑青 +1 位作者 杨旭 王晓蒲 《中国科学技术大学学报》 CAS CSCD 北大核心 2010年第3期254-258,共5页
针对远程实时交互系统中亟待解决的交互功能扩充与复用及通用文档共享的问题,提出了多线程UI-Model体系结构,利用用户界面委托层,对传统的UI-Model体系结构进行了改进,实现了远程实时交互教学系统中交互功能的扩充与交互模块的复用;应... 针对远程实时交互系统中亟待解决的交互功能扩充与复用及通用文档共享的问题,提出了多线程UI-Model体系结构,利用用户界面委托层,对传统的UI-Model体系结构进行了改进,实现了远程实时交互教学系统中交互功能的扩充与交互模块的复用;应用基于WebBrowser控件实现了通用文档共享模块,并结合GDI+的应用实现了在文档共享中同步绘图交互的功能.利用多线程UI-Model体系结构设计和实现了一种易扩展、可复用的具有文字、视频、电子白板、文档共享等多种实时交互功能的远程实时交互教学系统. 展开更多
关键词 多线程UI-model 文档共享 实时交互
在线阅读 下载PDF
学科核心素养导向下高职学生项目式学习增值评价模型应用——以“国际商务单证实务”课程为例
9
作者 黄伟诚 王慧颖 《黑龙江生态工程职业学院学报》 2025年第1期123-130,共8页
为科学评估高职院校学生项目式学习的进步幅度,采用实证研究方法,以学科核心素养的培养为导向,应用已建构的增值评价模型探索了实施过程。以教学数据为驱动,在“国际商务单证实务”课程项目学习中,开发测量量表,将学科核心素养的各级指... 为科学评估高职院校学生项目式学习的进步幅度,采用实证研究方法,以学科核心素养的培养为导向,应用已建构的增值评价模型探索了实施过程。以教学数据为驱动,在“国际商务单证实务”课程项目学习中,开发测量量表,将学科核心素养的各级指标量化计分,进行增值评价各节点(起点、第一跳、第二跳、第三跳)的前后测对比分析并给予等级判断。研究发现,不同学生在各个维度上的增值存在显著差异,然而班级整体在学科核心素养各指标上的平均增值均显示出稳步提升的趋势。研究表明,该增值评价模型能够较准确评估学生的学习增值,教师根据增值评价结果采取的个性化辅导和支持可以帮助学生实现学科核心素养正向的增值,促进学生综合素质的全面发展。 展开更多
关键词 学科核心素养 项目式学习 增值评价模型 国际商务单证实务 三级跳评价
在线阅读 下载PDF
基于iTopicModel的关联文本分类算法
10
作者 梁鹏鹏 柴玉梅 王黎明 《计算机工程》 CAS CSCD 北大核心 2011年第21期124-125,130,共3页
针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类... 针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类。实验结果表明,当文档间的关联关系对类信息影响较大时,TC-iTM的分类性能优于传统文本分类方法。 展开更多
关键词 文本分类 文档网络 主题模型 EM算法
在线阅读 下载PDF
富文本协同编辑中基于树型结构地址空间转换的一致性维护
11
作者 刘亚 韩建功 +1 位作者 高丽萍 曲博 《小型微型计算机系统》 CSCD 北大核心 2024年第2期367-373,共7页
协同编辑通过多用户远程实时编辑,最大程度的支持团队之间的协作和交流.撤销操作作为协同编辑的一个重要特性,通过错误恢复简化协作编辑过程中产生的错误或者意外操作的处理过程.富文本编辑采用树型结构来进行文档管理,从而产生了较线... 协同编辑通过多用户远程实时编辑,最大程度的支持团队之间的协作和交流.撤销操作作为协同编辑的一个重要特性,通过错误恢复简化协作编辑过程中产生的错误或者意外操作的处理过程.富文本编辑采用树型结构来进行文档管理,从而产生了较线性文档更为复杂的并发操作环境和冲突消解场景.为了解决富文本文档中的并发操作环境与撤销操作冲突问题,本文提出了一种新颖的基于树型结构的地址空间转换方法,采用基于位置的节点寻址方案和节点属性值计数器策略,能更方便地支持撤销操作与更改操作.此外,本文还给出了树型结构地址空间的结果一致性的正确性证明及详细的案例分析,并开发了Web平台下实时协同富文本编辑原型系统AST-RichText,进一步验证了该方法的可行性. 展开更多
关键词 计算机支持的协同工作 实时协同编辑 地址空间转换 一致性模型 UNDO 树型文档
在线阅读 下载PDF
政策文献量化研究中的PMC指数模型应用述评 被引量:17
12
作者 方思越 刘清 《现代情报》 CSSCI 北大核心 2024年第4期168-176,共9页
[目的/意义]PMC指数模型是政策文献量化研究的重要方法之一,相关研究成果丰富,需要系统总结,以促进该方法的进一步发展。[方法/过程]使用文献计量方法,分析国内应用PMC指数模型的现状,整理出PMC指数模型的一般流程,对流程中各步骤的实... [目的/意义]PMC指数模型是政策文献量化研究的重要方法之一,相关研究成果丰富,需要系统总结,以促进该方法的进一步发展。[方法/过程]使用文献计量方法,分析国内应用PMC指数模型的现状,整理出PMC指数模型的一般流程,对流程中各步骤的实践状况进行描述,并展开如何更合理使用该模型的讨论。[结果/结论]PMC指数模型应用于政策评价是一种狭义的评价,对其合理使用需要明确这一定位,构建科学的指标体系,保证应用过程中政策文本的前后一致性。 展开更多
关键词 政策文献量化 PMC指数模型 计量分析 综述
在线阅读 下载PDF
基于文本摘要的无监督关键词抽取方法
13
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 长文档建模 文档主题分析 语义处理 权重优化 向量相似性
在线阅读 下载PDF
基于改进自注意力机制和表示学习的分层文档分类方法
14
作者 廖兴滨 钱杨舸 +1 位作者 王乾垒 秦小林 《计算机科学》 CSCD 北大核心 2024年第2期238-244,共7页
文档分类的一项基本工作是研究如何高效地表示输入特征,句子和文档向量表示也可以辅助自然语言处理的下游任务,如文本情感分析和数据泄露预防等。特征表示也逐渐成为文档分类问题的性能瓶颈和模型可解释性的关键之一。针对现有分层模型... 文档分类的一项基本工作是研究如何高效地表示输入特征,句子和文档向量表示也可以辅助自然语言处理的下游任务,如文本情感分析和数据泄露预防等。特征表示也逐渐成为文档分类问题的性能瓶颈和模型可解释性的关键之一。针对现有分层模型面临的大量重复计算以及可解释性缺乏的问题,提出了一种分层文档分类模型,并研究了句子和文档表示方法对文档分类问题的性能影响。所提模型集成了使用改进自注意力机制融合输入特征向量的句子编码器和文档编码器,形成了一个层次结构,以实现对文档级数据的分层处理,在简化计算的同时增强了模型的可解释性。与仅使用预训练语言模型的特殊标记向量作为句子表示的模型相比,所提模型在5个公开文档分类数据集上实现了平均4%的性能提升,比使用词向量矩阵的注意力输出均值的模型提高了2%。 展开更多
关键词 句子表示 文档表示 注意力机制 文档分类 模型可解释性
在线阅读 下载PDF
基于气相色谱-质谱联用法的喷墨打印文件墨迹中挥发性溶剂历时性变化规律研究
15
作者 王千羽 赵鹏程 +3 位作者 崔岚 宋辉 李扬动 张祉悦 《分析测试学报》 CAS CSCD 北大核心 2024年第6期858-865,874,共9页
为解决司法鉴定领域中喷墨打印文件制成时间问题,利用气相色谱-质谱联用法(GC-MS)定性定量分析4种黑色喷墨打印文件墨迹中的挥发性溶剂成分。对同一时间打印的样品进行追踪测试,每间隔一定天数用打孔器取样,提取剂提取后进行GC-MS分析... 为解决司法鉴定领域中喷墨打印文件制成时间问题,利用气相色谱-质谱联用法(GC-MS)定性定量分析4种黑色喷墨打印文件墨迹中的挥发性溶剂成分。对同一时间打印的样品进行追踪测试,每间隔一定天数用打孔器取样,提取剂提取后进行GC-MS分析。通过内标法测定样品提取液中各组分的浓度,计算单位长度(mm)墨迹中挥发性溶剂含量C(ng/mm)并作为打印样品老化的定量单位。结果表明,4种打印样品中含有2-吡咯烷酮、1,5-戊二醇、2-甲基-1,3-丙二醇、N-羟乙基-2-吡咯烷酮、甘油和三甘醇6种挥发性溶剂成分。上述成分在文件形成时即开始挥发和转移,含量不断减少至某一数值时趋于稳定。利用测定的历经不同时间的打印样本中溶剂含量数据,建立了单组分溶剂与时间的非线性回归模型以及多组分溶剂与时间的多元线性回归模型,模型评价指标比较结果表明,对于溶剂组分数多的墨水使用多元线性回归模型的预测效果更好。 展开更多
关键词 喷墨打印 文件形成时间 回归模型 气相色谱-质谱联用法 挥发性物质
在线阅读 下载PDF
一种基于词加权LDA模型的恶意文件检测方法 被引量:1
16
作者 徐建国 王旭阳 《计算机应用与软件》 北大核心 2024年第3期313-320,共8页
恶意文件中往往含有出现频率较低、但表征能力更好的特征码,传统的方法未能将这一类特征提取出来。针对该问题,提出一种基于词加权LDA模型的恶意文件检测方法,该方法通过反汇编对样本进行预处理,采用改进的KeyGraph算法(IKG)提取“重点... 恶意文件中往往含有出现频率较低、但表征能力更好的特征码,传统的方法未能将这一类特征提取出来。针对该问题,提出一种基于词加权LDA模型的恶意文件检测方法,该方法通过反汇编对样本进行预处理,采用改进的KeyGraph算法(IKG)提取“重点词”,这类词具有更好的特征表征能力,再利用优化的点互信息(OPMI),算出各“重点词”权重,构建词字典,然后将该词加权方法扩展到LDA模型,建立IKG-OPMI-LDA(IOL)模型完成分类,并采用Gibbs Sampling进行参数估计。实验结果表明,相较于其他方法,该方法的分类准确率有明显提高,分类效率更好,并且提取的特征具有更高的区分度,与主题相关度更高。 展开更多
关键词 恶意文件 LDA IKG 加权模型 文档分类
在线阅读 下载PDF
基于提示学习的小样本文献分类方法 被引量:4
17
作者 安波 《图书馆论坛》 CSSCI 北大核心 2024年第5期96-104,共9页
文章研究学术文献分类中的长尾现象和文献类别新增问题,提出基于提示学习的小样本文献分类方法,旨在实现低资源场景下的文献自动分类。借助大规模预训练语言模型的文本表示与生成能力,在提示学习框架下分析不同的提示模板、文献字段、... 文章研究学术文献分类中的长尾现象和文献类别新增问题,提出基于提示学习的小样本文献分类方法,旨在实现低资源场景下的文献自动分类。借助大规模预训练语言模型的文本表示与生成能力,在提示学习框架下分析不同的提示模板、文献字段、文献类别表示、样本数等对低资源文献分类的影响。实验结果表明:通过合理地设计提示模板、文献类别表示、文献字段等方式,模型能高效实现低资源场景下的文献分类(50-shot的分类F1值约85%),是传统文献分类算法的重要补充;但在处理细粒度文献分类时存在分类错误问题,需要完善。 展开更多
关键词 小样本学习 提示学习 文献分类 预训练语言模型
在线阅读 下载PDF
基于异构图分层学习的细粒度多文档摘要抽取
18
作者 翁裕源 许柏炎 蔡瑞初 《计算机工程》 CAS CSCD 北大核心 2024年第3期336-344,共9页
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过... 抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。 展开更多
关键词 抽取式多文档摘要 细粒度建模 异构图 分层学习 语义关系 结构关系
在线阅读 下载PDF
基于本体驱动的航空情报表格信息结构化研究 被引量:1
19
作者 赖欣 李思宁 +1 位作者 梁昌盛 张恒嫣 《计算机科学》 CSCD 北大核心 2024年第S01期693-699,共7页
航空资料汇编是国际民航组织推荐的呈现各国航空信息的主要载体,其中以表格数据形式汇总了大量航空数据与航空运行限制信息。为实现航空汇编资料的智能查询,以及对航空资料汇编中静态数据的挖掘与利用,需要对航空汇编资料中的表格信息... 航空资料汇编是国际民航组织推荐的呈现各国航空信息的主要载体,其中以表格数据形式汇总了大量航空数据与航空运行限制信息。为实现航空汇编资料的智能查询,以及对航空资料汇编中静态数据的挖掘与利用,需要对航空汇编资料中的表格信息予以特征提取与结构化处理。将航空资料汇编中表格信息作为研究对象,提出了一种基于本体驱动的航空情报表格信息结构化抽取方法。首先构建航空情报领域信息的本体框架,实现对领域知识统一规范的描述;其次,利用Document AI对表格文档的布局结构进行研究与预处理,并利用随机森林算法与条件随机场模型进行特征实体提取验证与分析。实验结果表明,所提方法能够有效提取航空情报表格中的特征实体,为航空情报领域静态数据深入挖掘提供参考。 展开更多
关键词 航空情报 本体 命名实体识别 条件随机场 随机森林 document AI
在线阅读 下载PDF
基于孪生网络文本语义匹配的多文档摘要
20
作者 钟琪 王中卿 王红玲 《中文信息学报》 CSCD 北大核心 2024年第5期107-116,共10页
多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式... 多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式摘要方法,该方法将孪生网络和预训练语言模型BERT相结合,构建一个文本语义匹配与文本摘要联合学习模型。该模型运用孪生网络从不同的视角考察任意两个文本单元之间的语义关联,学习文档集中碎片化的信息,进一步对重要信息进行评估,最后结合文本摘要模型选择出更能代表文档集主要内容的句子组织成摘要。实验结果表明,该文所提方法和当前主流的多文档抽取式摘要方法相比,在ROUGE评价指标上有较大提升。 展开更多
关键词 多文档抽取式摘要 语义关系 预训练语言模型
在线阅读 下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部