-
题名TibNER:藏文命名实体识别数据集
- 1
-
-
作者
周毛克
俄见才让
道吉才旦
戚肖克
赵小兵
-
机构
中央民族大学中国少数民族语言文学学院
国家语言资源监测与研究民族语言中心
中央民族大学信息工程学院
中国民族语文翻译中心(局)
中国政法大学法治信息管理学院
-
出处
《中国科学数据(中英文网络版)》
CSCD
2024年第4期10-20,共11页
-
基金
国家社科基金重大项目(22&ZD035)。
-
文摘
结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动标注结果进行了人工校审。TibNER包含20096个句子,平均句长为44.2069个音节,标注的实体类型包括人名、地名、组织机构名,三类实体总数达43678。为了验证数据集的有效性,本文在三个主流的序列标注模型上进行对比测试,最优模型的F1值达到80.60%。经研究,本数据为低资源语言提供了数据构建经验,同时为藏文命名实体识别等任务提供了一定的数据基础。
-
关键词
藏语
命名实体识别
实体词典
数据集
-
Keywords
Tibetan
named entity recognition
entity dictionary
dataset
-
分类号
H214
[语言文字—少数民族语言]
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名无监督实体关系触发词词典自动构建
被引量:3
- 2
-
-
作者
刘绍毓
席耀一
李弼程
唐永旺
陈刚
-
机构
解放军信息工程大学信息系统工程学院
-
出处
《计算机应用与软件》
CSCD
2016年第5期72-76,共5页
-
基金
国家高技术研究发展计划项目(2011AA7032030D)
全军军事研究生课题(军事学YJS1062)
-
文摘
传统的实体关系触发词词典构建主要采用人工方法和有监督的扩展学习方法。但是,上述两种方法都需要大量的人工参与,并且当关系类型发生变化时需要重新构建触发词词典。提出一种无监督的实体关系触发词词典自动构建方法。首先,对关系实例文档集进行分层狄利克雷过程建模,通过主题过滤和词语概率权重过滤构建候选触发词集合;然后,利用依存句法分析对候选触发词集合进行再次过滤以得到最终的触发词词典。该方法有效避免了传统实体关系触发词词典构建所需的大量人工参与。实验表明,基于分层狄利克雷过程和依存句法分析的实体关系触发词词典自动构建方法有效降低了人工标注成本,取得了较高的准确率。
-
关键词
实体关系触发词词典
分层狄利克雷过程
依存句法分析
-
Keywords
Entity-relation trigger word dictionary
Hierarchical Dirichlet process
Dependency parsing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合双语命名实体信息的神经机器翻译模型
被引量:2
- 3
-
-
作者
贺楚祎
张家俊
-
机构
中国科学院自动化研究所模式识别国家重点实验室
中国科学院大学
-
出处
《中文信息学报》
CSCD
北大核心
2023年第12期44-53,共10页
-
基金
国家自然科学基金(6212088)。
-
文摘
神经机器翻译(NMT)模型在机器翻译任务上取得了良好效果,但由于对训练数据规模的依赖,NMT模型对于命名实体等稀有词语翻译能力有限,存在大量错翻、漏翻等问题。针对上述问题,该文提出了基于多引擎融合的双语命名实体词典构建方法和基于双语命名实体进行数据增强的Transformer模型架构,在多个中-英翻译测试集上的实验表明,该文提出的神经机器翻译模型相比于朴素Transformer模型在译文整体质量和命名实体翻译正确率上都有一定的提升,分别提升1.58的BLEU值和35.3个百分点的命名实体翻译准确率。
-
关键词
命名实体翻译
神经机器翻译
双语命名实体词典
-
Keywords
named entity translation
neural machine translation
bilingual named entity dictionary
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于知识库实体增强BERT模型的中文命名实体识别
被引量:9
- 4
-
-
作者
胡婕
胡燕
刘梦赤
张龑
-
机构
湖北大学计算机与信息工程学院
华南师范大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2022年第9期2680-2685,共6页
-
基金
国家自然科学基金资助项目(61977021)
广州市大数据与智能教育重点实验室资助项目(201905010009)。
-
文摘
针对预训练模型BERT存在词汇信息缺乏的问题,在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型OpenKG+Entity Enhanced BERT+CRF。首先,从中文通用百科知识库CN-DBPedia中下载文档并用Jieba中文分词抽取实体来扩充实体词典;然后,将词典中的实体嵌入到BERT中进行预训练,将训练得到的词向量输入到双向长短期记忆网络(BiLSTM)中提取特征;最后,经过条件随机场(CRF)修正后输出结果。在CLUENER 2020和MSRA数据集上进行模型验证,将所提模型分别与Entity Enhanced BERT Pre-training、BERT+BiLSTM、ERNIE和BiLSTM+CRF模型进行对比实验。实验结果表明,该模型的F1值在两个数据集上比四个对比模型分别提高了1.63个百分点和1.1个百分点、3.93个百分点和5.35个百分点、2.42个百分点和4.63个百分点以及6.79个百分点和7.55个百分点。可见,所提模型对命名实体识别的综合效果得到有效提升,F1值均优于对比模型。
-
关键词
命名实体识别
知识库
实体词典
预训练模型
双向长短期记忆网络
-
Keywords
Named Entity Recognition(NER)
knowledge base
entity dictionary
pre-training model
Bidirectional Long Short-Term Memory(BiLSTM)network
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-