期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
面向短语统计机器翻译的汉日联合分词研究 被引量:1
1
作者 吴培昊 徐金安 张玉洁 《计算机工程与应用》 CSCD 北大核心 2015年第5期116-120,141,共6页
未登录词与分词粒度是汉日日汉机器翻译研究的两个主要问题。与英语等西方语言不同,汉语与日语词语间不存在空格,分词为汉日双语处理的重要工作。由于词性标注体系、文法及语义表现上的差异,分词结果的粒度需要进一步调整,以改善统计机... 未登录词与分词粒度是汉日日汉机器翻译研究的两个主要问题。与英语等西方语言不同,汉语与日语词语间不存在空格,分词为汉日双语处理的重要工作。由于词性标注体系、文法及语义表现上的差异,分词结果的粒度需要进一步调整,以改善统计机器翻译系统的性能。提出了面向统计机器翻译的基于汉日汉字对照表及日汉词典信息的汉语与日语的分词粒度调整方法。实验结果表明,该方法能有效地调节源语言和目标语言端的分词粒度,提高统计机器翻译系统的性能。通过对比实验结果,分析探讨分词粒度对汉日双语统计系统性能的影响。 展开更多
关键词 分词粒度 汉字对照表 汉日机器翻译
在线阅读 下载PDF
基于词典的汉藏句子对齐研究与实现 被引量:10
2
作者 于新 吴健 洪锦玲 《中文信息学报》 CSCD 北大核心 2011年第4期57-62,共6页
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评... 双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。 展开更多
关键词 汉藏句子对齐 词典 分词粒度 平行语料库 藏文信息处理
在线阅读 下载PDF
基于文本特征增强的电力命名实体识别 被引量:7
3
作者 刘文松 胡竹青 +3 位作者 张锦辉 刘雪菁 林峰 俞俊 《电力系统自动化》 EI CSCD 北大核心 2022年第21期134-142,共9页
针对电力领域语料规模小、实体嵌套、实体缩写等特点,提出基于文本特征增强的实体识别方法。首先,通过预设词库和低粒度分词的方式,在合理利用中文单词蕴含的语义信息的同时,降低分词传递误差的影响。其次,设计词级双向门控循环单元学... 针对电力领域语料规模小、实体嵌套、实体缩写等特点,提出基于文本特征增强的实体识别方法。首先,通过预设词库和低粒度分词的方式,在合理利用中文单词蕴含的语义信息的同时,降低分词传递误差的影响。其次,设计词级双向门控循环单元学习中文单词构造特征,融合词性和词长特征后,与单词向量拼接成为单词增强向量。然后,基于双向门控循环单元-注意力机制-条件随机场完成实体识别模型的构建和训练。在此基础上,采用电力领域语料库进行验证,F1分数为87.02%,证实了电力命名实体识别效果。 展开更多
关键词 电力实体识别 粒度分词 单词构造特征 词级双向门控循环单元
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部