- 
                题名构建和剖析中英三元组可比语料库
                    被引量:5
            
- 1
- 
                
            
- 
                
                            作者
                                胡小鹏
                                袁琦
                                耿鑫辉
                                朱姝
                
            
- 
                    机构
                    
                            中国电子信息产业发展研究院
                    
                
- 
                出处
                
                
                    《计算机工程与应用》
                    
                            CSCD
                    
                2014年第13期153-157,186,共6页
            
- 
                        基金
                        
                                    国家自然科学基金(No.61172101
                                    No.61172102)
                        
                    
- 
                    文摘
                        由于受到翻译腔的影响,中英平行语料库存在固有的扭斜的语言模型。显然,用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型,严重影响到应用系统的性能。为了克服平行语料库固有的缺陷,提出构建和剖析中英三元组可比语料库的技术研究。这项研究采用可比语料库和语言自动剖析技术,使用统计和规则相结合的方法,对由本族英语、中式英语和标准中文三元素所组成的三元组可比语料库中的本族英语和中式英语进行统计分析。在此基础上,利用n-元词串、关键词簇等自动抽取技术挖掘基于本族语言模型的双语资源,实现改进和发展机器翻译等自然语言的处理应用。
                        
                    
            
- 
                    关键词
                    
                            三元组可比语料库
                            语言迁移
                            自动语言剖析
                            n-元词串
                    
                
- 
                    Keywords
                    
                            3-tuple comparable corpora
                            language transfer
                            automatic language profiling
                            n-grams
                    
                
- 
                    分类号
                    
                            
                                
                                    TP391
[自动化与计算机技术—计算机应用技术]                                
                            
                    
                
- 
                
            
            - 
                题名三元组可比语料库自动剖析技术研究与应用
            
- 2
- 
                
            
- 
                
                            作者
                                袁琦
                                肖健
                                宋金平
                                朱姝
                                万缨
                                许亮
                
            
- 
                    机构
                    
                            中国电子信息产业发展研究院
                    
                
- 
                出处
                
                
                    《计算机工程与应用》
                    
                            CSCD
                    
                2012年第16期129-132,共4页
            
- 
                        基金
                        
                                    国家自然科学基金(No.61172101
                                    No.61172102)
                                    国家外专局项目(No.RJZ20110350002)
                        
                    
- 
                    文摘
                        国内外基于语料库的翻译研究主要集中在翻译共性、翻译规范、译者风格和翻译培训等涉及翻译理论和翻译实践方面的研究;提出的基于三元组可比语料库的自动语言剖析技术扩大了该研究领域的内涵,使其包括面向自然语言处理的应用研究。从工程可实现性考虑,创新性地提出了建造三元组可比语料库,利用n-元词串、关键词簇和语义多词表达等自动抽取技术,通过对比中式英语表达,发掘英语本族语言模型,实现改进和发展机器翻译、跨语言信息检索等自然语言处理应用的目标。
                        
                    
            
- 
                    关键词
                    
                            基于语料库的翻译研究
                            三元组可比语料库
                            自动语言剖析
                            n元词串
                    
                
- 
                    Keywords
                    
                            Corpus-Based Translation Studies(CBTS)
                             3-tuple comparable corpora
                             automatic language profiling
                             n-grams
                    
                
- 
                    分类号
                    
                            
                                
                                    TP391
[自动化与计算机技术—计算机应用技术]                                
                            
                    
                
- 
                
            
            - 
                题名英中可比语料库中多词表达自动提取与对齐
                    被引量:12
            
- 3
- 
                
            
- 
                
                            作者
                                肖健
                                徐建
                                徐晓兰
                                袁琦
                
            
- 
                    机构
                    
                            中国电子信息产业发展研究院
                    
                
- 
                出处
                
                
                    《计算机工程与应用》
                    
                            CSCD
                            北大核心
                    
                2010年第31期130-134,187,共6页
            
- 
                        基金
                        
                                    国家自然科学基金No.60872118~~
                        
                    
- 
                    文摘
                        多词表达(MWE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。为此,提出了基于语义模板与基于统计工具相结合的方法从三元组可比语料库中自动提取本族英语MWE。采用基于词表和分布方法计算词语间的相似度,扩大MWE覆盖范围。利用GIZA++对齐算法提取对译的中文MWE,依据统计方法计算互译概率信息,根据概率大小,选择最佳英汉MWE互译对。实验结果表明上述方法可以有效提高MWE提取和对齐的准确率。
                        
                    
            
- 
                    关键词
                    
                            三元组可比语料库
                            多词表达(MwE)
                            语义模板
                    
                
- 
                    Keywords
                    
                            three-tuple comparable corpus
                            multiword expressions(MWE)
                            semantic template
                    
                
- 
                    分类号
                    
                            
                                
                                    TP391
[自动化与计算机技术—计算机应用技术]                                
                            
                    
                
-