检索结果-维普期刊中文期刊服务平台

基于最大熵模型的柬英平行网页获取被引量：2: 1; 作者莫源源潘丽同 +2 位作者严馨余正涛刘小惠《计算机工程》 CAS CSCD 北大核心 2016年第5期194-200,共7页; 由于平行网站的异构性和复杂性,如何自动有效获取双语平行网页以及提高平行网页的质量是构建语料库的关键问题。为此,应用最大熵模型,将平行网页的识别问题看作候选网页对的分类问题,对平行网页的获取方法进行改进。利用基于标题余弦相... 展开更多; 关键词最大熵模型柬埔寨语-英语平行网页平行语料库余弦相似性; 在线阅读下载PDF 职称材料

基于双语URL匹配模式可信度的平行网页识别研究被引量：3: 2; 作者章成志马舒天 +1 位作者揭春雨姚旭晨《中文信息学报》 CSCD 北大核心 2018年第3期91-100,共10页; 平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信... 展开更多; 关键词平行网页获取平行语料库双语URL匹配模式双语文本挖掘; 在线阅读下载PDF 职称材料

URL模式与HTML结构相结合的平行网页获取方法被引量：6: 3; 作者刘奇刘洋孙茂松《中文信息学报》 CSCD 北大核心 2013年第3期91-99,共9页; 平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑... 展开更多; 关键词平行网页获取平行语料库 URL模式 HTML结构; 在线阅读下载PDF 职称材料

基于Web的双语平行句对自动获取被引量：12: 4; 作者叶莎妮吕雅娟 +1 位作者黄赟刘群《中文信息学报》 CSCD 北大核心 2008年第5期67-73,共7页; 双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的... 展开更多; 关键词计算机应用中文信息处理双语句对平行网页网页挖掘; 在线阅读下载PDF 职称材料

题名基于最大熵模型的柬英平行网页获取被引量：2: 1; 作者莫源源潘丽同严馨余正涛刘小惠; 机构上海师范大学语言研究所云南省计算机技术应用重点实验室云南民族大学东南亚南亚语言文化学院昆明理工大学信息工程与自动化学院; 出处《计算机工程》 CAS CSCD 北大核心 2016年第5期194-200,共7页; 基金国家自然科学基金资助项目"柬埔寨语命名实体识别及汉柬双语语料库构建方法研究"(61462055) 云南省计算机技术应用重点实验室开放基金资助项目"汉柬双语语料库构建及柬埔寨语词法分析方法研究"; 文摘由于平行网站的异构性和复杂性,如何自动有效获取双语平行网页以及提高平行网页的质量是构建语料库的关键问题。为此,应用最大熵模型,将平行网页的识别问题看作候选网页对的分类问题,对平行网页的获取方法进行改进。利用基于标题余弦相似性的方法或数据库查询的方法发现候选平行网页对。根据网页内容及候选网页对间余弦相似度特征和最大熵模型训练的分类器对平行网页进行识别。在特征选取上,提取网页的篇章结构特征、词汇化比例特征与页面元素特征等基本特征,并应用TF-IDF算法与余弦相似性提取文档向量的余弦相似度特征。实验结果表明,所提方法可有效提高双语网站中平行网页的召回率和准确率,所获取平行网页的准确率和召回率分别为98%,94%。; 关键词最大熵模型柬埔寨语-英语平行网页平行语料库余弦相似性; Keywords maximum entropy model Khmer-English parallel Web page parallel corpus cosine similarity; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于双语URL匹配模式可信度的平行网页识别研究被引量：3: 2; 作者章成志马舒天揭春雨姚旭晨; 机构南京理工大学信息管理系香港城市大学翻译及语言学系百度在线网络技术(北京)有限公司; 出处《中文信息学报》 CSCD 北大核心 2018年第3期91-100,共10页; 基金香港城市大学SRG-Fd项目(7008003) 香港研资局GRF项目(CityU 144410 +1 种基金 11600415) 国家自然科学基金(70903032); 文摘平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。; 关键词平行网页获取平行语料库双语URL匹配模式双语文本挖掘; Keywords parallel webpage mining parallel corpora bilingual URL pairing pattern bilingual text mining; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名URL模式与HTML结构相结合的平行网页获取方法被引量：6: 3; 作者刘奇刘洋孙茂松; 机构清华大学计算机科学与技术系智能技术与系统国家重点实验室; 出处《中文信息学报》 CSCD 北大核心 2013年第3期91-99,共9页; 基金国家863计划资助项目(2012AA011102 2011AA01A207) 媒体与网络技术教育部一微软重点实验室资助项目(20123000007); 文摘平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府①两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率提高15%,并显著提高了机器翻译的质量(BLEU值分别提高1.6和0.7个百分点)。; 关键词平行网页获取平行语料库 URL模式 HTML结构; Keywords parallel pages mining~ parallel corpus~ URL patterns HTML structure; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于Web的双语平行句对自动获取被引量：12: 4; 作者叶莎妮吕雅娟黄赟刘群; 机构中国科学院计算技术研究所智能信息处理重点实验室; 出处《中文信息学报》 CSCD 北大核心 2008年第5期67-73,共7页; 基金国家自然科学基金资助项目(60603095 60573188); 文摘双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的关键技术进行了改进。文中提出了一种自动发现双语网站中URL命名规律的方法,改进了双语平行句对抽取技术。实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率,所获取双语平行句对的召回率为93%,准确率为96%,证明了该文方法的有效性。此外,该文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究,取得了初步成果。; 关键词计算机应用中文信息处理双语句对平行网页网页挖掘; Keywords computer application Chinese information processing bilingual sentences parallel corpora web mining; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于最大熵模型的柬英平行网页获取	莫源源潘丽同严馨余正涛刘小惠	《计算机工程》 CAS CSCD 北大核心	2016	2	在线阅读下载PDF 职称材料
2	基于双语URL匹配模式可信度的平行网页识别研究	章成志马舒天揭春雨姚旭晨	《中文信息学报》 CSCD 北大核心	2018	3	在线阅读下载PDF 职称材料
3	URL模式与HTML结构相结合的平行网页获取方法	刘奇刘洋孙茂松	《中文信息学报》 CSCD 北大核心	2013	6	在线阅读下载PDF 职称材料
4	基于Web的双语平行句对自动获取	叶莎妮吕雅娟黄赟刘群	《中文信息学报》 CSCD 北大核心	2008	12	在线阅读下载PDF 职称材料