摘要
双语句对齐语料库是机器翻译、机辅翻译和语言对比研究的重要资源。汉英对齐一般使用汉语句号句作为对齐单位,但由于汉语句号使用的灵活性,使得汉语句号句与英文句子不具有完全对等性,对汉英对齐效果产生较大影响。本研究将汉语标点句作为基本对齐单位,将汉语标点句与其对应的英文译文进行对齐,初步构建了涵盖4种语体近10,000个对齐句对的语料库。文章介绍了该语料库构建的目的、流程和规范,并基于对齐结果就对齐单位长度和对齐语序问题进行了调查分析,结果显示:将标点句作为对齐单位具有形式标记明显、长度适中的特点,且近95%的汉语标点句对应的英语译文语序与汉语语序具有一致性,语序不一致的对齐结果主要集中在状性成分以及具有并列和因果等逻辑语义关系的标点句组,且语序不一致涉及的标点句平均深度为2.28个标点句,对对齐复杂度的影响有限且可控。
出处
《语料库语言学》
2021年第2期136-147,共12页
Corpus Linguistics
基金
国家社会科学基金项目“汉英小句级对齐语料库研制与应用研究”(19BYY081)
山东省高等学校“青创科技计划”的阶段性成果
作者简介
通讯作者:孙晓迪