针对现有的类案检索(LCR)方法缺乏对案情要素的有效利用而容易被案例内容的语义结构相似性误导的问题,提出一种融合时序行为链与事件类型的类案检索方法。首先,采取序列标注的方法识别案情描述中的法律事件类型,并利用案例文本中的行为...针对现有的类案检索(LCR)方法缺乏对案情要素的有效利用而容易被案例内容的语义结构相似性误导的问题,提出一种融合时序行为链与事件类型的类案检索方法。首先,采取序列标注的方法识别案情描述中的法律事件类型,并利用案例文本中的行为要素构建时序行为链,以突出案情的关键要素,从而使模型聚焦于案例的核心内容,进而解决现有方法易被案例内容的语义结构相似性误导的问题;其次,利用分段编码构造时序行为链的相似性向量表征矩阵,从而增强案例间行为要素的语义交互;最后,通过聚合评分器,从时序行为链、法律事件类型、犯罪类型这3个角度衡量案例的相关性,从而增加案例匹配得分的合理性。实验结果表明,相较于SAILER(Structure-Aware pre-traIned language model for LEgal case Retrieval)方法,所提方法在LeCaRD(Legal Case Retrieval Dataset)上的P@5值提升了4个百分点、P@10值提升了3个百分点、MAP值提升了4个百分点,而NDCG@30值提升了0.8个百分点。可见,该方法能有效利用案情要素来避免案例内容的语义结构相似性的干扰,并能为类案检索提供可靠的依据。展开更多
文摘针对现有的类案检索(LCR)方法缺乏对案情要素的有效利用而容易被案例内容的语义结构相似性误导的问题,提出一种融合时序行为链与事件类型的类案检索方法。首先,采取序列标注的方法识别案情描述中的法律事件类型,并利用案例文本中的行为要素构建时序行为链,以突出案情的关键要素,从而使模型聚焦于案例的核心内容,进而解决现有方法易被案例内容的语义结构相似性误导的问题;其次,利用分段编码构造时序行为链的相似性向量表征矩阵,从而增强案例间行为要素的语义交互;最后,通过聚合评分器,从时序行为链、法律事件类型、犯罪类型这3个角度衡量案例的相关性,从而增加案例匹配得分的合理性。实验结果表明,相较于SAILER(Structure-Aware pre-traIned language model for LEgal case Retrieval)方法,所提方法在LeCaRD(Legal Case Retrieval Dataset)上的P@5值提升了4个百分点、P@10值提升了3个百分点、MAP值提升了4个百分点,而NDCG@30值提升了0.8个百分点。可见,该方法能有效利用案情要素来避免案例内容的语义结构相似性的干扰,并能为类案检索提供可靠的依据。