-
题名基于双语URL匹配模式可信度的平行网页识别研究
被引量:3
- 1
-
-
作者
章成志
马舒天
揭春雨
姚旭晨
-
机构
南京理工大学信息管理系
香港城市大学翻译及语言学系
百度在线网络技术(北京)有限公司
-
出处
《中文信息学报》
CSCD
北大核心
2018年第3期91-100,共10页
-
基金
香港城市大学SRG-Fd项目(7008003)
香港研资局GRF项目(CityU 144410
+1 种基金
11600415)
国家自然科学基金(70903032)
-
文摘
平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。
-
关键词
平行网页获取
平行语料库
双语URL匹配模式
双语文本挖掘
-
Keywords
parallel webpage mining
parallel corpora
bilingual URL pairing pattern
bilingual text mining
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-