-
题名基于BERT的交互式地质实体标注语料库构建方法
被引量:8
- 1
-
-
作者
张春菊
张磊
陈玉冰
刘文聪
薄嘉晨
肖鸿飞
-
机构
合肥工业大学土木与水利工程学院
深圳市规划和自然资源局
烽火天地通信科技股份有限公司
-
出处
《地理与地理信息科学》
CSCD
北大核心
2022年第4期7-12,共6页
-
基金
自然资源部城市国土资源监测与仿真重点实验室开放基金项目(KF-2020-05-084)
国家自然科学基金项目(42171453)。
-
文摘
地质实体识别是地质文本信息挖掘和地质知识图谱构建的重要基础,高质量的地质实体语料库是提高地质实体识别效果的重要因素,但目前用于中文地质实体识别的标注语料较少且内容局限于一定领域范围内,而传统的人工标注方法往往耗时耗力且依赖专业知识。因此,该文开展基于BERT的交互式地质实体标注方法研究,通过BERT-BiLSTM-CRF模型自动标注文本中的地质实体并结合人机交互方式校正,同时利用标注的语料扩充原始语料规模和优化地质实体识别模型的性能。实验表明,基于BERT-BiLSTM-CRF模型比CRF、Word2vec-BiLSTM-CRF、Lattice-LSTM-CRF 3种常用模型的识别效果好,在自主构建的初始地质实体语料库的F 1值达91.47%,扩大语料规模后提升了1.36%,在保证质量的前提下,减少了人工标注工作,可实现大规模、高质量地质实体标注语料库的构建。
-
关键词
BERT
地质实体识别
交互式
地质实体语料库
-
Keywords
bidirectional encoder representations for transformers
geological entity recognition
interaction
geological entity corpus
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-