-
题名一种考虑对齐不一致的短语翻译概率估计方法
- 1
-
-
作者
苏劲松
刘群
吕雅娟
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
中国科学院研究生院
-
出处
《中文信息学报》
CSCD
北大核心
2011年第3期118-122,共5页
-
基金
国家自然科学基金重点资助项目(60736014
60873167)
-
文摘
在统计机器翻译中,短语翻译概率特征对最终的翻译结果有着重大的影响。传统的估计方法只考虑了双语短语同时出现,满足对齐一致性的情况,而没有对其他情况进行统计,因而短语翻译概率的估计不够准确。该文中,我们修改了传统的短语概率计算公式,在估计概率的过程中充分地考虑短语的各种出现情况。多个测试集上的实验结果证明了我们方法的有效性。
-
关键词
统计机器翻译
对齐不一致
短语翻译概率
-
Keywords
statistical machine translation
alignment unconsistency
phrase translation probability
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于平行语料和翻译概率的多语种词对齐方法
被引量:5
- 2
-
-
作者
杨飞扬
赵亚慧
崔荣一
易志伟
-
机构
延边大学计算机科学与技术学院智能信息处理研究室
-
出处
《中文信息学报》
CSCD
北大核心
2019年第12期37-44,共8页
-
基金
国家语委“十三五”科研规划项目(YB135-76)
延边大学外国语言文学世界一流学科建设科研项目(18YLPY13,18YLPY14)
-
文摘
为了实现多语种词对齐,该文提出一种以点互信息为基础的翻译概率作为改进的多语种单词关联强度度量方法。首先,论证了在服从Zipf定律的普通频级词区域,单词间关联强度的点互信息度量法可简化为翻译概率;其次,对汉语、英语、朝鲜语平行语料进行句子对齐、分词和去停用词等预处理后计算平行语料单词之间的翻译概率,取翻译概率最高的前k个词作为候选翻译词,并通过优化处理提高了词对齐准确率。实验结果表明,该方法可以不完全依赖语料规模,在小规模语料中取得94%以上的准确率,为跨语言小众文献及低资源语言词对齐提供了技术基础。
-
关键词
词对齐
平行语料
翻译概率
Zipf定律
-
Keywords
word alignment
parallel corpus
translation probability
Zipf’s law
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名对等网环境下基于概率翻译方法的语义检索模型
被引量:1
- 3
-
-
作者
李瑞轩
文坤梅
辜希武
李玉华
万宇涛
-
机构
华中科技大学计算机科学与技术学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2012年第6期1166-1170,共5页
-
基金
国家自然科学基金项目(61173170
60873225
+1 种基金
70771043)资助
国家"八六三"高技术研究发展计划项目(2007AA01Z403)资助
-
文摘
P2P技术被广泛的用于网络节点之间的文件共享与搜索.采用P2P的搜索技术可以有效地提高了共享资源的深度和广度,但往往存在仅支持弱语义(甚至缺乏语义)共享的局限性.针对这一弱点,在研究和分析基于查询条件概率的统计语言模型的基础上,引入机器翻译领域中的统计翻译模型,改进统计语言模型的经典算法——一元语言模型,提出基于概率翻译方法的一元语言模型检索技术,并将改进的语义信息检索算法引入基于超级节点(super-peer)的P2P信息共享模型,建立支持语义的P2P信息共享模型,改善文件共享与检索性能.理论分析及原型系统验证了利用此模型来实现P2P网络语义文档共享的有效性.
-
关键词
对等网
文件共享
语义检索
概率翻译方法
-
Keywords
peer-to-peer(P2P)
file-sharing
semantic search
probability translation method
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于双语语料库的翻译等价对自动抽取
被引量:8
- 4
-
-
作者
吕雅娟
李生
赵铁军
杨沐昀
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《高技术通讯》
EI
CAS
CSCD
2003年第5期19-24,共6页
-
基金
863计划(2001AA114101)资助项目。
-
文摘
提出了一种利用双语语料库自动抽取多词翻译等价对的方法。首先利用N-gram模型获得候选翻译单元,然后根据统计同现计算候选等价对的翻译概率,并用贪心策略实现翻译等价对的自动抽取。在翻译概率的计算中对3种常用的统计同现测度进行了比较。实验表明,当语料规模较小时,对数似然比(Log Likelihood Ratio)测度对于翻译等价对的抽取具有较好的效果。与现有方法相比,该方法较好地解决了翻译等价对抽取中多词单元对应及间接相关问题。
-
关键词
双语语料库
自动抽取
N-GRAM模型
翻译概率
计算机
知识获取
候选翻译单元
-
Keywords
Bilingual corpora, Translational equivalence, N-gram, Knowledge acquisition
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网络搜索的英汉人名翻译
- 5
-
-
作者
刘颖
曹项
-
机构
清华大学中文系
-
出处
《中文信息学报》
CSCD
北大核心
2017年第2期49-54,共6页
-
基金
国家自然科学基金(61171114)
北京市社科基金(16YYB021)
清华大学人文社科振兴基金(20145081042)
-
文摘
该文利用搜索引擎从网络中挖掘英语人名的中文翻译。该方法综合利用翻译辅助词、英中人名共现规则、音译相似度和翻译概率。首先,利用搜索引擎从互联网上搜索英文人名的中文翻译候选。把汉语人名标注结果、翻译辅助词、英中人名共现规则和英文人名的发音音节长度结合起来提取翻译候选词。翻译辅助词有助于搜索与英文人名更相关的信息,英中人名共现规则和发音音节长度进一步缩小英文人名的翻译范围,使得英文人名的翻译搜索符合人名共现规律和发音规律。然后,根据音译相似度和翻译概率对候选词进行排序。人名翻译的绝大部分是根据发音翻译过来的,音译相似度是帮助判断两个词在发音上的相似性。翻译概率从统计上判断两个词互为翻译的可能性。实验结果表明,翻译辅助词、规则、音译相似度和翻译概率都有助于提高人名翻译的正确率。
-
关键词
人名翻译
音译相似度
规则
翻译概率
-
Keywords
name translation
transliteration similarity
rule
translation probability
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名平行语料库中双语术语词典的自动抽取
被引量:30
- 6
-
-
作者
孙乐
金友兵
杜林
孙玉芳
-
机构
中国科学院软件研究所中文信息处理中心
-
出处
《中文信息学报》
CSCD
北大核心
2000年第6期33-39,共7页
-
基金
国家青年自然科学基金!(6 99830 0 9)
-
文摘
本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐 ,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集。然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率。最后通过设定随词频变化的阈值来选取中文翻译。
-
关键词
术语抽取
翻译概率
英汉平行语料库
术语词典
-
Keywords
term extraction
parallel corpora
sentence alignment
translation probability
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-