-
题名基于BERT的诉讼案件违法事实要素自动抽取
被引量:4
- 1
-
-
作者
崔斌
邹蕾
徐明月
-
机构
北京京航计算通讯研究所信息工程事业部
-
出处
《科学技术与工程》
北大核心
2021年第9期3669-3675,共7页
-
基金
国家重点研发计划(2018YFC0830800)。
-
文摘
针对诉讼案件违法事实要素抽取效果依赖领域专业知识的特点,提出一种基于transformer双向编码器表示(bidirectional encoder representations from transformer, BERT)的诉讼案件违法事实要素自动抽取方法。首先,通过构建领域知识并采用谷歌BERT预训练语言模型进行训练得到拟合诉讼案件领域数据的模型参数和中文预训练字嵌入向量作为模型的输入,得到具有上下文相关的语义表示,以提高词嵌入的上下文语义质量。其次,采用循环卷积神经网络对文本进行编码并获取在文本分类任务中扮演关键角色的信息,提升案件违法事实要素抽取的效果。最后,采用focal函数作为损失函数关注难以区分的样本。违法事实要素抽取的工作是通过对文本标签进行分类得到的。实验测试表明,该方法对诉讼案件要素抽取的F1值为86.41%,相比其他方法性能均有提高。对模型注入领域内知识,也可以提高模型抽取准确率。
-
关键词
诉讼案件
违法事实要素
BERT
预训练
领域内知识
-
Keywords
lawsuit cases
illegal fact elements
BERT
pre-training
domain knowledge
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-