-
题名多模态预训练模型在金融票据信息抽取中的应用
- 1
-
-
作者
颜政锦
叶正
葛君
-
机构
中南民族大学计算机科学学院&信息物理融合智能计算国家民委重点实验室
武汉纺织大学外经贸学院
-
出处
《计算机工程与应用》
北大核心
2025年第9期186-193,共8页
-
基金
教育部产学合作协同育人项目(202102191002)
中南民族大学引进人才项目(YZZ20001)
中央高校基本科研专项(CZZ24009)。
-
文摘
金融领域的票据信息抽取是一项复杂且具有挑战的任务,其目标是从金融文档中准确抽取票据所包含的关键信息。金融票据作为商业活动中重要的信息载体,其准确提取对于商业决策和财务分析具有重要意义。然而,由于票据格式的不规范性,在实际应用中可能导致关键信息的丢失,如数据中键值对不完整或缺失等问题,给金融票据信息抽取任务带来了挑战。当前,LayoutLMV3模型是主流的信息抽取的方法之一,它结合了自然语言处理和多模态技术,能够在大规模金融文档中进行信息抽取。但它在处理复杂布局的文档时准确性会下降,处理长文本时因包含大量的字符可能难以捕捉其中重要的信息。为了解决上述挑战和问题,以LayoutLMV3为基线模型,引入了P-Tuning V1技术,不仅能够解决特定问题(如金融票据中的键值关系),还具备适应不同情境和任务的能力,而且可以利用多模态的文本、图像和布局信息来更全面地理解票据内容。P-Tuning V1通过引入可训练的连续提示嵌入,即“prompt”,作为模型输入的一部分,用以表示文本数据中的“键”信息。同时,采用离散提示作为“值”的一部分,两者相结合构成完整的键值对。实验结果表明,相较于基于LayoutLMV3的方法,结合的新方法在Finance-Receipts数据集上取得了显著的提升,在F1得分上从95.95%提高到96.69%。
-
关键词
信息抽取
多模态
预训练
LayoutLMv3
P-Tuning
V1
-
Keywords
information extraction
multimodal
pre-training
LayoutLMv3
P-Tuning V1
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-