期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
TibNER:藏文命名实体识别数据集
1
作者 周毛克 俄见才让 +2 位作者 道吉才旦 戚肖克 赵小兵 《中国科学数据(中英文网络版)》 CSCD 2024年第4期10-20,共11页
结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动... 结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动标注结果进行了人工校审。TibNER包含20096个句子,平均句长为44.2069个音节,标注的实体类型包括人名、地名、组织机构名,三类实体总数达43678。为了验证数据集的有效性,本文在三个主流的序列标注模型上进行对比测试,最优模型的F1值达到80.60%。经研究,本数据为低资源语言提供了数据构建经验,同时为藏文命名实体识别等任务提供了一定的数据基础。 展开更多
关键词 藏语 命名实体识别 实体词典 数据集
在线阅读 下载PDF
无监督实体关系触发词词典自动构建 被引量:3
2
作者 刘绍毓 席耀一 +2 位作者 李弼程 唐永旺 陈刚 《计算机应用与软件》 CSCD 2016年第5期72-76,共5页
传统的实体关系触发词词典构建主要采用人工方法和有监督的扩展学习方法。但是,上述两种方法都需要大量的人工参与,并且当关系类型发生变化时需要重新构建触发词词典。提出一种无监督的实体关系触发词词典自动构建方法。首先,对关系实... 传统的实体关系触发词词典构建主要采用人工方法和有监督的扩展学习方法。但是,上述两种方法都需要大量的人工参与,并且当关系类型发生变化时需要重新构建触发词词典。提出一种无监督的实体关系触发词词典自动构建方法。首先,对关系实例文档集进行分层狄利克雷过程建模,通过主题过滤和词语概率权重过滤构建候选触发词集合;然后,利用依存句法分析对候选触发词集合进行再次过滤以得到最终的触发词词典。该方法有效避免了传统实体关系触发词词典构建所需的大量人工参与。实验表明,基于分层狄利克雷过程和依存句法分析的实体关系触发词词典自动构建方法有效降低了人工标注成本,取得了较高的准确率。 展开更多
关键词 实体关系触发词词典 分层狄利克雷过程 依存句法分析
在线阅读 下载PDF
融合双语命名实体信息的神经机器翻译模型 被引量:2
3
作者 贺楚祎 张家俊 《中文信息学报》 CSCD 北大核心 2023年第12期44-53,共10页
神经机器翻译(NMT)模型在机器翻译任务上取得了良好效果,但由于对训练数据规模的依赖,NMT模型对于命名实体等稀有词语翻译能力有限,存在大量错翻、漏翻等问题。针对上述问题,该文提出了基于多引擎融合的双语命名实体词典构建方法和基于... 神经机器翻译(NMT)模型在机器翻译任务上取得了良好效果,但由于对训练数据规模的依赖,NMT模型对于命名实体等稀有词语翻译能力有限,存在大量错翻、漏翻等问题。针对上述问题,该文提出了基于多引擎融合的双语命名实体词典构建方法和基于双语命名实体进行数据增强的Transformer模型架构,在多个中-英翻译测试集上的实验表明,该文提出的神经机器翻译模型相比于朴素Transformer模型在译文整体质量和命名实体翻译正确率上都有一定的提升,分别提升1.58的BLEU值和35.3个百分点的命名实体翻译准确率。 展开更多
关键词 命名实体翻译 神经机器翻译 双语命名实体词典
在线阅读 下载PDF
基于知识库实体增强BERT模型的中文命名实体识别 被引量:9
4
作者 胡婕 胡燕 +1 位作者 刘梦赤 张龑 《计算机应用》 CSCD 北大核心 2022年第9期2680-2685,共6页
针对预训练模型BERT存在词汇信息缺乏的问题,在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型OpenKG+Entity Enhanced BERT+CRF。首先,从中文通用百科知识库CN-DBPedia中下... 针对预训练模型BERT存在词汇信息缺乏的问题,在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型OpenKG+Entity Enhanced BERT+CRF。首先,从中文通用百科知识库CN-DBPedia中下载文档并用Jieba中文分词抽取实体来扩充实体词典;然后,将词典中的实体嵌入到BERT中进行预训练,将训练得到的词向量输入到双向长短期记忆网络(BiLSTM)中提取特征;最后,经过条件随机场(CRF)修正后输出结果。在CLUENER 2020和MSRA数据集上进行模型验证,将所提模型分别与Entity Enhanced BERT Pre-training、BERT+BiLSTM、ERNIE和BiLSTM+CRF模型进行对比实验。实验结果表明,该模型的F1值在两个数据集上比四个对比模型分别提高了1.63个百分点和1.1个百分点、3.93个百分点和5.35个百分点、2.42个百分点和4.63个百分点以及6.79个百分点和7.55个百分点。可见,所提模型对命名实体识别的综合效果得到有效提升,F1值均优于对比模型。 展开更多
关键词 命名实体识别 知识库 实体词典 预训练模型 双向长短期记忆网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部