-
题名基于深度学习的视觉文档信息抽取研究综述
被引量:3
- 1
-
-
作者
吴泊心
仲国强
马龙龙
-
机构
中国海洋大学信息科学与工程学部
中国科学院软件研究所中文信息处理实验室
-
出处
《中文信息学报》
CSCD
北大核心
2023年第12期1-16,共16页
-
基金
“新一代人工智能”重大项目(2018AAA0100400)
山东省自然科学基金(ZR2020MF131)
+1 种基金
山东省重大基础研究项目(ZR2021ZD19)
青岛市科技计划项目(21-1-4-ny-19-nsh)。
-
文摘
视觉文档赋予文本丰富的多模态特征,如视觉特征、文本特征和布局特征等。视觉文档信息抽取旨在利用视觉文档的多模态特征更好地从文档内容中提取结构化的关键信息,已逐渐成为自然语言处理和计算机视觉技术的重要交叉领域,在商业、医疗、教育等行业应用广泛。随着深度学习技术的发展与突破,近期视觉文档信息抽取发展迅速,研究方法大致可分为两类,一类是基于有监督学习的方法,包括基于图的方法、基于网格的方法、端到端方法;另一类是基于自监督预训练和有监督微调的方法,逐渐成为主流的研究方向。该文概述了基于有监督学习的三类方法,基于自监督预训练和有监督微调方法的四个方面以及一些常用的公开数据集,最后总结并展望了未来可能的研究方向。
-
关键词
视觉文档信息抽取
多模态
预训练
深度学习
-
Keywords
visual document information extraction
multi-modal
pre-training
deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向私有问答系统的检索增强式大模型稳定输出方法
被引量:2
- 2
-
-
作者
李铂鑫
-
机构
小米人工智能实验室
中国科学院软件研究所中文信息处理实验室
-
出处
《计算机科学与探索》
北大核心
2025年第1期132-140,共9页
-
文摘
基于大模型的问答系统受大模型语义不一致性问题的影响,会出现“输出结果不稳定”的现象,从而制约着问答系统的安全性、鲁棒性和可信度,严重影响了用户体验。针对上述问题,提出一种面向私有问答系统的检索增强式大模型稳定输出方法。该方法通过优化提示词,让大模型首先输出num_k个用户查询的同义查询,然后输出答案;目的是在大模型输出答案时,可以参考已经输出的num_k个同义查询,从而使大模型的输出结果更加稳定。针对开源大模型因指令理解能力弱而出现的“同义查询生成数目不稳定、输出格式无法解析”等问题,提出通过数据蒸馏的方式,利用闭源大模型自动构建了一个开放域上的检索增强式指令数据集,在该指令集上对开源大模型进行微调。构建了一个私有问答场景下的评估集以验证该方法的有效性。在上述评估集上的实验结果表明,该方法在一致性指标和效果指标上,均显著优于基线方法。与基线方法相比,该方法的一致性指标ROUGE-1、ROUGE-2、ROUGE-L和BLEU分别提升了18.9、30.1、24.5和30.6个百分点,效果指标正确率提升了17.4个百分点。
-
关键词
大模型
检索增强生成
大模型稳定性
问答系统
-
Keywords
large language models
retrieval-augmented generation
stability of large language models
question-answering systems
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名图像的文本描述方法研究综述
被引量:6
- 3
-
-
作者
马龙龙
韩先培
孙乐
-
机构
中国科学院软件研究所中文信息处理实验室
-
出处
《中文信息学报》
CSCD
北大核心
2018年第4期1-12,共12页
-
基金
国家自然科学基金(61772505)
-
文摘
随着深度学习技术的兴起,自然语言处理与计算机视觉领域呈现相结合的趋势。作为融合视觉和语言的多模态研究任务,图像的文本描述可应用于基于文本内容的图像检索、网络图像分析等众多场景中,从而受到了研究界和企业界的广泛关注。图像的文本描述方法可归纳为三大类:基于生成的方法、基于检索的方法和基于编码—解码的方法。该文详细介绍了这三类方法各自具有代表性的工作,并进一步分析了各方法的优劣;然后对图像文本描述方法的相关数据集、评测标准和主要开源工具包进行了阐述;最后,分析了图像的文本描述中需要解决的关键技术问题。
-
关键词
图像的文本描述
生成
检索
编码—解码
-
Keywords
image captioning
generation
retrieval
encoder decoder
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一个面向中文古诗词理解难易度的人工标注数据集
- 4
-
-
作者
刘磊
何苯
孙乐
-
机构
中国科学院大学计算机科学与技术学院
中国科学院软件研究所中文信息处理实验室
-
出处
《中文信息学报》
CSCD
北大核心
2020年第11期9-18,48,共11页
-
基金
中国科学院大学优秀青年教师能力提升项目。
-
文摘
向读者推荐阅读难度合适的古诗词有助于提升读者的诗词鉴赏能力。现阶段,围绕古诗词可读性自动化分析的相关研究的突出局限之一是缺乏大规模高质量的数据集。针对该问题,该文研究面向古诗词可读性自动化分析的数据集构建。该文作者对外开放了包含1915篇古诗词的标注阅读理解难度的数据集(1)。该文首先将数据集划分成易中难三级,构建数据集APRD;然后进一步细化标注,构建六级分类数据集APRD+。抽取教材中的诗词组成标准集,以年级为标准难度级别,计算标准集与APRD、APRD+之间的Spearman相关性,Spearman系数分别为0.786与0.804,表明该数据集标记结果与标准集具有较高一致性。该文提取了字频、注释数等古诗词特征,采用SVM、随机森林等算法进行了初步古诗词阅读理解难易度分类测试。文内提出的古诗词可读性数据集与实验结果可作为后续研究的测试基准。
-
关键词
中文古诗词
可读性分析
-
Keywords
ancient Chinese poetry
readability analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于桥连接的词典学习方法的语义解析
被引量:2
- 5
-
-
作者
陈波
孙乐
韩先培
-
机构
中国科学院软件研究所中文信息处理实验室
-
出处
《中文信息学报》
CSCD
北大核心
2019年第5期24-30,共7页
-
基金
国家自然科学基金(61433015
61572477)
-
文摘
现阶段的语义解析方法大部分都基于组合语义,这类方法的核心就是词典。词典是词汇的集合,词汇定义了自然语言句子中词语到知识库本体中谓词的映射。语义解析一直面临着词典中词汇覆盖度不够的问题。针对此问题,该文在现有工作的基础上,提出了基于桥连接的词典学习方法,该方法能够在训练中自动引入新的词汇并加以学习,为了进一步提高新学习到的词汇的准确度,该文设计了新的词语—二元谓词的特征模板,并使用基于投票机制的核心词典获取方法。该文在两个公开数据集(WebQuestions和Free917)上进行了对比实验,实验结果表明,该文方法能够学习到新的词汇,提高词汇的覆盖度,进而提升语义解析系统的性能,特别是召回率。
-
关键词
语义解析
词典学习
组合语义
覆盖度
-
Keywords
semantic parsing
lexicon learning
compositional semantics
coverage
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于卷积降噪自编码器的藏文历史文献版面分析方法
被引量:13
- 6
-
-
作者
张西群
马龙龙
段立娟
刘泽宇
吴健
-
机构
北京工业大学信息学部
可信计算北京市重点实验室
中国科学院软件研究所中文信息处理实验室
大规模流数据集成与分析北京市重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2018年第7期67-73,81,共8页
-
基金
藏文历史文献数字化与共享关键技术平台(2016-ZJ-Y04)
青海省基础研究计划项目(2016-ZJ-740)
-
文摘
近年来,随着人们对历史和传统文化的保护和传承越来越重视,研究人员对历史文献数字化的兴趣也越来越高涨。版面分析是历史文献数字化的重要基础步骤,该文提出了一种基于卷积降噪自编码器的藏文历史文献版面分析方法。首先,将藏文历史文献图像进行超像素聚类获得超像素块;然后,利用卷积降噪自编码器提取超像素块的特征;最后,使用SVM分类器对藏文历史文献的超像素块进行分类预测,从而提取出藏文历史文献版面的各个部分。在藏文历史文献数据集上的实验表明,该方法能够对藏文历史文献的不同版面元素进行有效的分离。
-
关键词
藏文历史文献
版面分析
卷积降噪自编码器
超像素
-
Keywords
historical Tibetan documents
layout analysis
convolutional denoising autoencoder
superpixel
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向新类型人名识别的数据增强方法
被引量:5
- 7
-
-
作者
宋希良
韩先培
孙乐
-
机构
中国科学院软件研究所中文信息处理实验室
中国科学院大学
-
出处
《中文信息学报》
CSCD
北大核心
2019年第6期72-79,共8页
-
基金
国家自然科学基金(61433015,61572477,61772505)
中国科协青年人才托举工程(YESS20160177)
-
文摘
人名识别常被作为命名实体识别任务的一部分,与其他类型的实体同时进行识别。当前使用NER方法的人名识别依赖于训练语料对特定类型人名的覆盖,在遇到新类型人名时性能显著下降。针对上述问题,该文提出了一种基于数据增强(data augmentation)的方法,使用新类型人名实体替换的策略来生成伪训练数据,该方法能够有效提升系统对新类型人名的识别性能。为了选择有代表性的特定类型人名实体,该文提出了贪心的代表性子类型人名选择算法。在使用1998年《人民日报》数据自动生成的伪测试数据和人工标注的新闻数据的测试结果中,多个模型上人名识别的F1值分别提升了至少12个百分点和6个百分点。
-
关键词
人名识别
DATA
Augmentation
新类型人名
-
Keywords
person name recognition
data augmentation
new type of person name
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向高考历史科目试题的自动答题系统
被引量:1
- 8
-
-
作者
边宁
韩先培
何苯
孙乐
-
机构
中国科学院大学计算机科学与技术学院
中国科学院软件研究所中文信息处理实验室
-
出处
《中文信息学报》
CSCD
北大核心
2022年第4期137-145,共9页
-
基金
国家重点研究与发展计划项目(2018YFB1005100)。
-
文摘
高考是综合评估人类知识和能力水平的标准化考试,与传统的自动问答任务相比其挑战性更高。该文面向我国高考试题历史部分,基于深度神经网络技术,构建了历史科目试题自动答题系统。在答题系统中融合知识的一个主要挑战是知识的上下文相关性:对于一个问题,在知识库存储的大量知识中,只有少数知识与回答该问题相关。针对这一挑战,该文设计了一种结合知识检索与机器阅读理解的知识融合自动答题系统。该系统利用知识检索的相关排序能力和机器阅读理解模型的知识定位能力,有效地发现问题相关的知识,从而增强自动答题的效果。实验结果显示,该系统可有效地作答高考历史科目试题。
-
关键词
自动答题
机器阅读理解
知识检索
-
Keywords
automatic question answering
machine reading comprehension
knowledge retrieval
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-