-
题名中英可比语料库中翻译等价对抽取方法研究
被引量:9
- 1
-
-
作者
孙广范
宋金平
袁琦
肖健
单玉秋
-
机构
中国电子信息产业发展研究院
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第32期44-46,71,共4页
-
基金
国家自然科学基金(No.60572132)
2005国科金外资助(No.60520130297)。~~
-
文摘
回顾了语料库分类及可比语料库中翻译等价对抽取方法研究的历史。根据从可比语料库中提取翻译等价对所依据的基本假设:一个语言中一个词在对应到另外一种语言时其与周围词之间的共现搭配关系仍然被保持,采用双向等价对获取计算然后求交集、词加权因数TF(iw)*IDF(i)值计算、上下文词的词性信息利用的方法来提高翻译等价对提取正确率。描述了翻译等价对抽取实验步骤,并对实验结果进行了简要分析。实验结果表明上述方法可以有效提高翻译等价对计算结果的正确率。最后提出了需要进一研究的问题。
-
关键词
可比语料库
翻译等价对抽取
上下文向量
向量相似度计算
-
Keywords
comparable corpus extraction of translation equivalents
context vector
computation of vector similarity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种命名实体翻译等价对的抽取方法
被引量:10
- 2
-
-
作者
陈怀兴
尹存燕
陈家骏
-
机构
南京大学计算机软件新技术国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2008年第4期55-60,共6页
-
基金
国家863计划资助项目(2006AA01Z143
2006AA01Z139)
+1 种基金
国家自然科学基金资助项目(60673043)
江苏省自然科学基金资助项目(BK2006117)
-
文摘
有关命名实体的翻译等价对在多语言处理中有着非常重要的意义。在过去的几年里,双语字典查找,音译模型等方法先后被提出。另一种极具价值的方法是从平行语料库中自动抽取有关命名实体的翻译等价对,现有的方法要求预先对双语语料库的两种语言文本进行命名实体标注。提出了一种只要求对语料库中源语言进行命名实体标注,目标语言不需标注,然后利用训练得到的HMM词对齐结果来抽取有关命名实体翻译等价对的方法。在实验中,把中文作为源语言,英文作为目标语言。实验结果表明用该方法,即使在对齐模型只是部分准确的情况下,也得到了较高正确率的命名实体翻译等价对。
-
关键词
人工智能
机器翻译
命名实体
翻译等价对
HMM
对齐模型
-
Keywords
artificial intelligence
machine translation
named entity
translingual equivalence
HMM
alignment model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多重线性回归模型的翻译等价对获取
- 3
-
-
作者
张春祥
赵铁军
李生
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第4期1-3,26,共4页
-
基金
国家863高技术研究发展计划资助项目(编号:2002AA117010-09)
国家自然科学基金资助项目(编号:60375019)
-
文摘
翻译等价对在词典编纂、机器翻译和跨语言信息检索中有着广泛的应用。文章从双语句对的译文等价树中抽取翻译等价对。使用译文直译率、短语对齐概率和目标语-源语言短语长度差异等特征对自动获取的等价对进行评价。提出了一种基于多重线性回归模型的等价对评价方法,并结合N-Best策略对候选翻译等价对进行过滤。实验结果表明:在开放测试中,基于多重线性回归模型的等价对评价及过滤方法其性能要优于其它方法。
-
关键词
翻译等价对
多重线性回归模型
N—Best策略
-
Keywords
translation equivalence,multiple linear regression,N-Best strategy
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名基于统计的翻译等价词对抽取研究
被引量:12
- 4
-
-
作者
常宝宝
-
机构
北京大学计算语言学研究所
-
出处
《计算机学报》
EI
CSCD
北大核心
2003年第5期616-621,共6页
-
基金
国家"九七三"重点基础研究发展规划项目 (G19980 3 0 5 0 7 4)资助
-
文摘
对利用汉英双语语料进行翻译等价词对抽取进行了探索 .对不同的词对关联度量方法进行了对比 ,考察了词性信息、多词翻译单元识别对翻译等价词对抽取结果所可能产生的改进以及负面影响 .
-
关键词
机器翻译
双语语料库
翻译等价词
统计
知识获取
单元识别
-
Keywords
bilingual corpus
translation equivalent pair
automatic extraction of TEPs
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-