-
题名面向短语统计机器翻译的汉日联合分词研究
被引量:1
- 1
-
-
作者
吴培昊
徐金安
张玉洁
-
机构
北京交通大学
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第5期116-120,141,共6页
-
基金
国家自然科学基金(No.61370130)
科技部国际科技合作计划(No.K11F100010)
+3 种基金
中央高校基本科研业务费专项资金(No.2010JBZ2007)
北京市重点学科共建项目(计算机应用技术)
中国科学院计算技术研究所智能信息处理重点实验室开放课题(No.IIP2010-4)
北京交通大学人才基金(No.2011RC034)
-
文摘
未登录词与分词粒度是汉日日汉机器翻译研究的两个主要问题。与英语等西方语言不同,汉语与日语词语间不存在空格,分词为汉日双语处理的重要工作。由于词性标注体系、文法及语义表现上的差异,分词结果的粒度需要进一步调整,以改善统计机器翻译系统的性能。提出了面向统计机器翻译的基于汉日汉字对照表及日汉词典信息的汉语与日语的分词粒度调整方法。实验结果表明,该方法能有效地调节源语言和目标语言端的分词粒度,提高统计机器翻译系统的性能。通过对比实验结果,分析探讨分词粒度对汉日双语统计系统性能的影响。
-
关键词
分词粒度
汉字对照表
汉日机器翻译
-
Keywords
segmentation granularity
Kanji-Hanzi comparison table
Chinese-Japanese Machine Translation(MT)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词典的汉藏句子对齐研究与实现
被引量:10
- 2
-
-
作者
于新
吴健
洪锦玲
-
机构
中国科学院软件研究所
中国科学院研究生院
-
出处
《中文信息学报》
CSCD
北大核心
2011年第4期57-62,共6页
-
基金
中国科学院西部行动计划高新技术项目(KGCX2-YW-512)
-
文摘
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。
-
关键词
汉藏句子对齐
词典
分词粒度
平行语料库
藏文信息处理
-
Keywords
Chinese-Tibetan sentence alignment
dictionary
word segmentation granularity
parallel corpus
Tibetan information processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于文本特征增强的电力命名实体识别
被引量:7
- 3
-
-
作者
刘文松
胡竹青
张锦辉
刘雪菁
林峰
俞俊
-
机构
南瑞集团有限公司(国网电力科学研究院有限公司)
江苏瑞中数据股份有限公司
-
出处
《电力系统自动化》
EI
CSCD
北大核心
2022年第21期134-142,共9页
-
基金
国家重点研发计划资助项目(2017YFB1001800)
国网电力科学研究院有限公司科技项目“知识图谱技术研究及在科技领域应用”资助。
-
文摘
针对电力领域语料规模小、实体嵌套、实体缩写等特点,提出基于文本特征增强的实体识别方法。首先,通过预设词库和低粒度分词的方式,在合理利用中文单词蕴含的语义信息的同时,降低分词传递误差的影响。其次,设计词级双向门控循环单元学习中文单词构造特征,融合词性和词长特征后,与单词向量拼接成为单词增强向量。然后,基于双向门控循环单元-注意力机制-条件随机场完成实体识别模型的构建和训练。在此基础上,采用电力领域语料库进行验证,F1分数为87.02%,证实了电力命名实体识别效果。
-
关键词
电力实体识别
低粒度分词
单词构造特征
词级双向门控循环单元
-
Keywords
named entity recognition(NER)for electric power industry
low-grain word segment
structure feature of word
wordlevel BiGRU
-
分类号
TM73
[电气工程—电力系统及自动化]
TP391.1
[自动化与计算机技术—计算机应用技术]
-