中文司法领域的实体和关系抽取技术在提高办案效率方面具有重要作用,但现有的关系抽取模型缺乏领域知识且难以处理重叠实体,造成难以准确区分和提取实体与关系等问题.通过引入领域知识,提出一种法律信息增强模块,增强了用所提法律潜在...中文司法领域的实体和关系抽取技术在提高办案效率方面具有重要作用,但现有的关系抽取模型缺乏领域知识且难以处理重叠实体,造成难以准确区分和提取实体与关系等问题.通过引入领域知识,提出一种法律信息增强模块,增强了用所提法律潜在关系与全局对应(legal potential relationship and global correspondence,LPRGC)模型理解法律文本中术语、规则和上下文信息的能力,从而提高了实体和关系的识别准确性,进而提升了实体和关系抽取算法的性能.为解决重叠实体问题,设计了一种基于潜在关系和实体对齐的关系抽取方法.通过精确标注实体位置,筛选潜在关系,并利用全局矩阵对齐实体,解决重叠实体的关系抽取问题,能够更准确地捕捉到重叠实体之间的关系,并有效地将其映射到正确的实体对上,从而提高抽取结果的准确性.在中国法律智能技术评测数据集上进行实体和关系抽取实验,结果表明,LPRGC模型的准确率、召回率和F_(1)值分别为85.21%、81.19%和83.15%,均优于对比模型,特别是在处理实体重叠问题时,LPRGC模型在单实体重叠类型的抽取中,F_(1)值达到了81.45%;在多实体重叠类型的抽取中,F_(1)值达80.67%.LPRGC模型在实体和关系抽取的准确性上较现有方法有明显改进,在处理复杂法律文本中的实体重叠问题上取得了显著效果.展开更多
敏感信息命名实体识别(NER)是隐私保护的关键技术之一。然而,现有的NER方法在敏感信息领域的相关数据集稀缺,且传统技术存在准确率低、可移植性差等问题。为解决这些问题,首先,从互联网中爬取并人工标注含有敏感信息的文本语料,以构建...敏感信息命名实体识别(NER)是隐私保护的关键技术之一。然而,现有的NER方法在敏感信息领域的相关数据集稀缺,且传统技术存在准确率低、可移植性差等问题。为解决这些问题,首先,从互联网中爬取并人工标注含有敏感信息的文本语料,以构建敏感信息NER数据集SenResume;其次,提出一种基于实体掩码的数据增强模型E-MLM(Entity-based Masked Language Modeling),通过整词掩码技术生成新的数据样本,并扩充数据集以提升数据多样性;再次,提出RoBERTa-ResBiLSTM-CRF模型,该模型结合RoBERTa-WWM(Robustly optimized Bidirectional Encoder Representations from Transformers approach with Whole Word Masking)提取上下文特征以生成高质量的词向量编码,并利用残差双向长短期记忆(ResBiLSTM)增强文本特征;最后,通过多层残差网络提高训练效率和模型稳定性,并通过条件随机场(CRF)进行全局解码以提升序列标注的准确性。实验结果表明,E-MLM对数据集质量有显著的提升,并且提出的NER模型在原始和1倍扩充后的数据集上表现均为最优,F1分数分别为96.16%和97.84%。可见,E-MLM与残差网络的引入有利于提升敏感信息NER的准确度。展开更多
文摘中文司法领域的实体和关系抽取技术在提高办案效率方面具有重要作用,但现有的关系抽取模型缺乏领域知识且难以处理重叠实体,造成难以准确区分和提取实体与关系等问题.通过引入领域知识,提出一种法律信息增强模块,增强了用所提法律潜在关系与全局对应(legal potential relationship and global correspondence,LPRGC)模型理解法律文本中术语、规则和上下文信息的能力,从而提高了实体和关系的识别准确性,进而提升了实体和关系抽取算法的性能.为解决重叠实体问题,设计了一种基于潜在关系和实体对齐的关系抽取方法.通过精确标注实体位置,筛选潜在关系,并利用全局矩阵对齐实体,解决重叠实体的关系抽取问题,能够更准确地捕捉到重叠实体之间的关系,并有效地将其映射到正确的实体对上,从而提高抽取结果的准确性.在中国法律智能技术评测数据集上进行实体和关系抽取实验,结果表明,LPRGC模型的准确率、召回率和F_(1)值分别为85.21%、81.19%和83.15%,均优于对比模型,特别是在处理实体重叠问题时,LPRGC模型在单实体重叠类型的抽取中,F_(1)值达到了81.45%;在多实体重叠类型的抽取中,F_(1)值达80.67%.LPRGC模型在实体和关系抽取的准确性上较现有方法有明显改进,在处理复杂法律文本中的实体重叠问题上取得了显著效果.
文摘敏感信息命名实体识别(NER)是隐私保护的关键技术之一。然而,现有的NER方法在敏感信息领域的相关数据集稀缺,且传统技术存在准确率低、可移植性差等问题。为解决这些问题,首先,从互联网中爬取并人工标注含有敏感信息的文本语料,以构建敏感信息NER数据集SenResume;其次,提出一种基于实体掩码的数据增强模型E-MLM(Entity-based Masked Language Modeling),通过整词掩码技术生成新的数据样本,并扩充数据集以提升数据多样性;再次,提出RoBERTa-ResBiLSTM-CRF模型,该模型结合RoBERTa-WWM(Robustly optimized Bidirectional Encoder Representations from Transformers approach with Whole Word Masking)提取上下文特征以生成高质量的词向量编码,并利用残差双向长短期记忆(ResBiLSTM)增强文本特征;最后,通过多层残差网络提高训练效率和模型稳定性,并通过条件随机场(CRF)进行全局解码以提升序列标注的准确性。实验结果表明,E-MLM对数据集质量有显著的提升,并且提出的NER模型在原始和1倍扩充后的数据集上表现均为最优,F1分数分别为96.16%和97.84%。可见,E-MLM与残差网络的引入有利于提升敏感信息NER的准确度。