-
题名基于锚点句对的汉维句子对齐方法
被引量:5
- 1
-
-
作者
塞麦提.麦麦提敏
侯敏
吐尔根.伊布拉音
-
机构
新疆大学信息科学与工程学院
中国传媒大学国家语言资源监测与研究有声媒体中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第4期166-170,共5页
-
基金
新疆维吾尔自治区自然科学基金资助项目(2012211B08)
-
文摘
为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。
-
关键词
平行语料库
句子对齐
锚点
基于长度的方法
基于词汇的方法
-
Keywords
parallel corpora
sentence alignment
anchor
length-based method
lexical-based method
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-