检索结果-维普期刊中文期刊服务平台

TibNER:藏文命名实体识别数据集: 1; 作者周毛克俄见才让 +2 位作者道吉才旦戚肖克赵小兵《中国科学数据（中英文网络版）》 CSCD 2024年第4期10-20,共11页; 结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动... 展开更多; 关键词藏语命名实体识别实体词典数据集; 在线阅读下载PDF 职称材料

无监督实体关系触发词词典自动构建被引量：3: 2; 作者刘绍毓席耀一 +2 位作者李弼程唐永旺陈刚《计算机应用与软件》 CSCD 2016年第5期72-76,共5页; 传统的实体关系触发词词典构建主要采用人工方法和有监督的扩展学习方法。但是,上述两种方法都需要大量的人工参与,并且当关系类型发生变化时需要重新构建触发词词典。提出一种无监督的实体关系触发词词典自动构建方法。首先,对关系实... 展开更多; 关键词实体关系触发词词典分层狄利克雷过程依存句法分析; 在线阅读下载PDF 职称材料

融合双语命名实体信息的神经机器翻译模型被引量：2: 3; 作者贺楚祎张家俊《中文信息学报》 CSCD 北大核心 2023年第12期44-53,共10页; 神经机器翻译(NMT)模型在机器翻译任务上取得了良好效果,但由于对训练数据规模的依赖,NMT模型对于命名实体等稀有词语翻译能力有限,存在大量错翻、漏翻等问题。针对上述问题,该文提出了基于多引擎融合的双语命名实体词典构建方法和基于... 展开更多; 关键词命名实体翻译神经机器翻译双语命名实体词典; 在线阅读下载PDF 职称材料

基于知识库实体增强BERT模型的中文命名实体识别被引量：9: 4; 作者胡婕胡燕 +1 位作者刘梦赤张龑《计算机应用》 CSCD 北大核心 2022年第9期2680-2685,共6页; 针对预训练模型BERT存在词汇信息缺乏的问题,在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型OpenKG+Entity Enhanced BERT+CRF。首先,从中文通用百科知识库CN-DBPedia中下... 展开更多; 关键词命名实体识别知识库实体词典预训练模型双向长短期记忆网络; 在线阅读下载PDF 职称材料

题名TibNER:藏文命名实体识别数据集: 1; 作者周毛克俄见才让道吉才旦戚肖克赵小兵; 机构中央民族大学中国少数民族语言文学学院国家语言资源监测与研究民族语言中心中央民族大学信息工程学院中国民族语文翻译中心(局) 中国政法大学法治信息管理学院; 出处《中国科学数据（中英文网络版）》 CSCD 2024年第4期10-20,共11页; 基金国家社科基金重大项目(22&ZD035)。; 文摘结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动标注结果进行了人工校审。TibNER包含20096个句子,平均句长为44.2069个音节,标注的实体类型包括人名、地名、组织机构名,三类实体总数达43678。为了验证数据集的有效性,本文在三个主流的序列标注模型上进行对比测试,最优模型的F1值达到80.60%。经研究,本数据为低资源语言提供了数据构建经验,同时为藏文命名实体识别等任务提供了一定的数据基础。; 关键词藏语命名实体识别实体词典数据集; Keywords Tibetan named entity recognition entity dictionary dataset; 分类号 H214 [语言文字—少数民族语言] TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名无监督实体关系触发词词典自动构建被引量：3: 2; 作者刘绍毓席耀一李弼程唐永旺陈刚; 机构解放军信息工程大学信息系统工程学院; 出处《计算机应用与软件》 CSCD 2016年第5期72-76,共5页; 基金国家高技术研究发展计划项目(2011AA7032030D) 全军军事研究生课题(军事学YJS1062); 文摘传统的实体关系触发词词典构建主要采用人工方法和有监督的扩展学习方法。但是,上述两种方法都需要大量的人工参与,并且当关系类型发生变化时需要重新构建触发词词典。提出一种无监督的实体关系触发词词典自动构建方法。首先,对关系实例文档集进行分层狄利克雷过程建模,通过主题过滤和词语概率权重过滤构建候选触发词集合;然后,利用依存句法分析对候选触发词集合进行再次过滤以得到最终的触发词词典。该方法有效避免了传统实体关系触发词词典构建所需的大量人工参与。实验表明,基于分层狄利克雷过程和依存句法分析的实体关系触发词词典自动构建方法有效降低了人工标注成本,取得了较高的准确率。; 关键词实体关系触发词词典分层狄利克雷过程依存句法分析; Keywords Entity-relation trigger word dictionary Hierarchical Dirichlet process Dependency parsing; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名融合双语命名实体信息的神经机器翻译模型被引量：2: 3; 作者贺楚祎张家俊; 机构中国科学院自动化研究所模式识别国家重点实验室中国科学院大学; 出处《中文信息学报》 CSCD 北大核心 2023年第12期44-53,共10页; 基金国家自然科学基金(6212088)。; 文摘神经机器翻译(NMT)模型在机器翻译任务上取得了良好效果,但由于对训练数据规模的依赖,NMT模型对于命名实体等稀有词语翻译能力有限,存在大量错翻、漏翻等问题。针对上述问题,该文提出了基于多引擎融合的双语命名实体词典构建方法和基于双语命名实体进行数据增强的Transformer模型架构,在多个中-英翻译测试集上的实验表明,该文提出的神经机器翻译模型相比于朴素Transformer模型在译文整体质量和命名实体翻译正确率上都有一定的提升,分别提升1.58的BLEU值和35.3个百分点的命名实体翻译准确率。; 关键词命名实体翻译神经机器翻译双语命名实体词典; Keywords named entity translation neural machine translation bilingual named entity dictionary; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于知识库实体增强BERT模型的中文命名实体识别被引量：9: 4; 作者胡婕胡燕刘梦赤张龑; 机构湖北大学计算机与信息工程学院华南师范大学计算机学院; 出处《计算机应用》 CSCD 北大核心 2022年第9期2680-2685,共6页; 基金国家自然科学基金资助项目(61977021) 广州市大数据与智能教育重点实验室资助项目(201905010009)。; 文摘针对预训练模型BERT存在词汇信息缺乏的问题,在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型OpenKG+Entity Enhanced BERT+CRF。首先,从中文通用百科知识库CN-DBPedia中下载文档并用Jieba中文分词抽取实体来扩充实体词典;然后,将词典中的实体嵌入到BERT中进行预训练,将训练得到的词向量输入到双向长短期记忆网络(BiLSTM)中提取特征;最后,经过条件随机场(CRF)修正后输出结果。在CLUENER 2020和MSRA数据集上进行模型验证,将所提模型分别与Entity Enhanced BERT Pre-training、BERT+BiLSTM、ERNIE和BiLSTM+CRF模型进行对比实验。实验结果表明,该模型的F1值在两个数据集上比四个对比模型分别提高了1.63个百分点和1.1个百分点、3.93个百分点和5.35个百分点、2.42个百分点和4.63个百分点以及6.79个百分点和7.55个百分点。可见,所提模型对命名实体识别的综合效果得到有效提升,F1值均优于对比模型。; 关键词命名实体识别知识库实体词典预训练模型双向长短期记忆网络; Keywords Named Entity Recognition(NER) knowledge base entity dictionary pre-training model Bidirectional Long Short-Term Memory(BiLSTM)network; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	TibNER:藏文命名实体识别数据集	周毛克俄见才让道吉才旦戚肖克赵小兵	《中国科学数据（中英文网络版）》 CSCD	2024	0	在线阅读下载PDF 职称材料
2	无监督实体关系触发词词典自动构建	刘绍毓席耀一李弼程唐永旺陈刚	《计算机应用与软件》 CSCD	2016	3	在线阅读下载PDF 职称材料
3	融合双语命名实体信息的神经机器翻译模型	贺楚祎张家俊	《中文信息学报》 CSCD 北大核心	2023	2	在线阅读下载PDF 职称材料
4	基于知识库实体增强BERT模型的中文命名实体识别	胡婕胡燕刘梦赤张龑	《计算机应用》 CSCD 北大核心	2022	9	在线阅读下载PDF 职称材料