检索结果-维普期刊中文期刊服务平台

URL模式与HTML结构相结合的平行网页获取方法被引量：6: 1; 作者刘奇刘洋孙茂松《中文信息学报》 CSCD 北大核心 2013年第3期91-99,共9页; 平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑... 展开更多; 关键词平行网页获取平行语料库 URL模式 html结构; 在线阅读下载PDF 职称材料

基于HTML文档结构的向量空间模型的改进被引量：10: 2; 作者胡健陆一鸣马范援《情报学报》 CSSCI 北大核心 2005年第4期433-437,共5页; 根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型... 展开更多; 关键词 html文档结构信息检索向量空间模型链接文本TREC 向量空间模型 html文档文档结构向量模型分布特征检索性能标签; 在线阅读下载PDF 职称材料

基于网页结构与链接关系的中文文本分类方法被引量：3: 3; 作者郭晓蒋宗礼《现代电子技术》 2010年第22期54-56,63,共4页; 提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网... 展开更多; 关键词中文文本分类 html结构链接关系向量空间模型; 在线阅读下载PDF 职称材料

利用平行网页建立中英文统计翻译模型被引量：9: 4; 作者聂建云陈江《中文信息学报》 CSCD 北大核心 2001年第1期1-12,共12页; 建立翻译模型的目的是试图从平行文本 (或翻译例句 )中自动抽取翻译关系。本文将描述我们在建立中英文统计翻译模型上的尝试。我们所用的平行文本是从万维网上自动获得的半结构性平行文本。在训练过程中 ,我们尽量利用文本中的HTML结构... 展开更多; 关键词中英问句翻译句对齐统计翻译模型跨语言信息检索平行文本 html结构准确率; 在线阅读下载PDF 职称材料

一种提高Web信息检索精度的分段检索方法被引量：2: 5; 作者宋睿华马少平张敏《广西师范大学学报（自然科学版）》 CAS 2003年第A01期151-155,共5页; 在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的... 展开更多; 关键词信息检索分段检索 Web数据 html结构; 在线阅读下载PDF 职称材料

题名URL模式与HTML结构相结合的平行网页获取方法被引量：6: 1; 作者刘奇刘洋孙茂松; 机构清华大学计算机科学与技术系智能技术与系统国家重点实验室; 出处《中文信息学报》 CSCD 北大核心 2013年第3期91-99,共9页; 基金国家863计划资助项目(2012AA011102 2011AA01A207) 媒体与网络技术教育部一微软重点实验室资助项目(20123000007); 文摘平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府①两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率提高15%,并显著提高了机器翻译的质量(BLEU值分别提高1.6和0.7个百分点)。; 关键词平行网页获取平行语料库 URL模式 html结构; Keywords parallel pages mining~ parallel corpus~ URL patterns html structure; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于HTML文档结构的向量空间模型的改进被引量：10: 2; 作者胡健陆一鸣马范援; 机构上海交通大学计算机科学与工程系; 出处《情报学报》 CSSCI 北大核心 2005年第4期433-437,共5页; 基金国家自然科学基金; 文摘根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型对于这两个方面都有提高.; 关键词 html文档结构信息检索向量空间模型链接文本TREC 向量空间模型 html文档文档结构向量模型分布特征检索性能标签; Keywords html document structure, information retrieval, vector space model, anchor text, TREC.; 分类号 TP391 [自动化与计算机技术—计算机应用技术] TP311.1 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于网页结构与链接关系的中文文本分类方法被引量：3: 3; 作者郭晓蒋宗礼; 机构北京工业大学计算机学院; 出处《现代电子技术》 2010年第22期54-56,63,共4页; 文摘提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果。考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果。经过实验证明这一方法提高了分类结果的F1值。; 关键词中文文本分类 html结构链接关系向量空间模型; Keywords Chinese text calssification html tags hyperlinks vector space model; 分类号 TN911-34 [电子电信—通信与信息系统] TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名利用平行网页建立中英文统计翻译模型被引量：9: 4; 作者聂建云陈江; 机构蒙特利尔大学RALI实验室; 出处《中文信息学报》 CSCD 北大核心 2001年第1期1-12,共12页; 文摘建立翻译模型的目的是试图从平行文本 (或翻译例句 )中自动抽取翻译关系。本文将描述我们在建立中英文统计翻译模型上的尝试。我们所用的平行文本是从万维网上自动获得的半结构性平行文本。在训练过程中 ,我们尽量利用文本中的HTML结构信息。实验表明 ,所训练的翻译模型能达到 80 %的准确率。对于象跨语言信息检索这样的应用 ,这样的准确率已经能大致满足需要。这一工作表明。; 关键词中英问句翻译句对齐统计翻译模型跨语言信息检索平行文本 html结构准确率; Keywords Chinese English query translation parallel web pages sentence alignment statistical translation model cross language information retrieval.; 分类号 TP391.2 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名一种提高Web信息检索精度的分段检索方法被引量：2: 5; 作者宋睿华马少平张敏; 机构清华大学计算机系智能技术与系统国家重点实验室; 出处《广西师范大学学报（自然科学版）》 CAS 2003年第A01期151-155,共5页; 基金国家重点基础研究基金资助项目(973)(G1998030509) 自然科学基金资助项目(69836040); 文摘在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的方法,并通过使用TREC-9的查询做实验,比较了分段检索方法和传统的文档检索方法的检索质量.实验结果显示,在多主题文档集上分段检索方法比文档检索方法的11点平均准确率提高了大约9%,而在所有文档集上分段检索比文档检索提高了大约1.6%.分析发现,分段检索方法可以明显改善结果的排序,而且实际检索质量提高的幅度比现有的评价结果显示的更显著.; 关键词信息检索分段检索 Web数据 html结构; Keywords information retrieval passage retrieval Web data html structure; 分类号 TP391.3 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	URL模式与HTML结构相结合的平行网页获取方法	刘奇刘洋孙茂松	《中文信息学报》 CSCD 北大核心	2013	6	在线阅读下载PDF 职称材料
2	基于HTML文档结构的向量空间模型的改进	胡健陆一鸣马范援	《情报学报》 CSSCI 北大核心	2005	10	在线阅读下载PDF 职称材料
3	基于网页结构与链接关系的中文文本分类方法	郭晓蒋宗礼	《现代电子技术》	2010	3	在线阅读下载PDF 职称材料
4	利用平行网页建立中英文统计翻译模型	聂建云陈江	《中文信息学报》 CSCD 北大核心	2001	9	在线阅读下载PDF 职称材料
5	一种提高Web信息检索精度的分段检索方法	宋睿华马少平张敏	《广西师范大学学报（自然科学版）》 CAS	2003	2	在线阅读下载PDF 职称材料