检索结果-维普期刊中文期刊服务平台

Web文档清洗技术被引量：3: 1; 作者张波王继成 +1 位作者王强张福炎《计算机科学》 CSCD 北大核心 2002年第6期52-54,共3页; 1引言随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出... 展开更多; 关键词 web Internet WWW 信息资源信息挖掘文档清洗计算机网络信息检索; 在线阅读下载PDF 职称材料

直推式支持向量机在Web信息抽取中的应用研究被引量：6: 2; 作者肖建鹏张来顺任星《计算机工程与应用》 CSCD 北大核心 2009年第2期147-149,共3页; 直推式支持向量机是一种直接从已知样本出发对特定的未知样本进行识别的分类技术。在分析直推式支持向量机分类原理的基础上,提出一种基于直推式支持向量机的Web信息抽取方法,直接从分类的角度抽取Web信息。只需要提供少量标记样本就可... 展开更多; 关键词 web信息抽取分类学习直推式支持向量机; 在线阅读下载PDF 职称材料

Web图像清洗技术的研究与实现被引量：1: 3; 作者张波王继成 +1 位作者王强张福炎《计算机研究与发展》 EI CSCD 北大核心 2002年第11期1484-1490,共7页; 目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并... 展开更多; 关键词 web 图像清洗机器学习特征提取决策树图像处理图像过滤; 在线阅读下载PDF 职称材料

基于本体关系匹配的信息抽取被引量：13: 4; 作者何召卫陈俊亮《计算机工程》 CAS CSCD 北大核心 2007年第21期207-209,共3页; 目前,稳定可靠的信息抽取是一个有待解决的问题,该文提出了基于本体关系匹配信息抽取算法,应用语义Web把信息抽取目标文档描述为特殊的本体格式,采用机器学习理论对本体进行分析和处理。测试数据集的实验结果显示,本体关系集匹配算法优... 展开更多; 关键词信息抽取语义web 机器学习; 在线阅读下载PDF 职称材料

中文专利文档关键词自动提取方法研究进展被引量：1: 5; 作者马运运孙志一 +1 位作者刘海波彭勇《世界科学技术-中医药现代化》 2015年第1期29-34,共6页; 专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高。利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的。... 展开更多; 关键词中文专利文档关键词提取 TF-IDF 关联信息机器学习; 在线阅读下载PDF 职称材料

发现与切分复杂网页中的数据对象: 6; 作者成奋华叶施仁《计算机工程与应用》 CSCD 北大核心 2005年第18期179-183,共5页; 提出了一种从复杂网页中发现和切分有用的数据对象的自动方法。文章比较来自于同一网站的相似网页,从而发现其内容的组织和结构。首先,通过剔除页面中无关的部件,获得干净的数据区,它覆盖了数据对象的描述。其次,我们切分数据区中属于... 展开更多; 关键词信息抽取 web采掘机器学习; 在线阅读下载PDF 职称材料

题名Web文档清洗技术被引量：3: 1; 作者张波王继成王强张福炎; 机构南京大学软件新技术国家重点实验室计算机科学与技术系; 出处《计算机科学》 CSCD 北大核心 2002年第6期52-54,共3页; 基金国家自然科学基金(编号:600730307) 日本富士通研究所"Web文档清洗"项目; 文摘 1引言随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出现,就得到了迅猛的发展,无论是WWW站点数还是WWW用户数,都是以每年5～10倍的速度呈指数形式增长.目前仅中国的Internet用户就已经达到了2500万.; 关键词 web Internet WWW 信息资源信息挖掘文档清洗计算机网络信息检索; Keywords web document cleaning. machine learning,information extraction; 分类号 TP393.4 [自动化与计算机技术—计算机应用技术] G354 [文化科学—情报学]; 在线阅读下载PDF 职称材料

题名直推式支持向量机在Web信息抽取中的应用研究被引量：6: 2; 作者肖建鹏张来顺任星; 机构中国人民解放军信息工程大学电子技术学院; 出处《计算机工程与应用》 CSCD 北大核心 2009年第2期147-149,共3页; 文摘直推式支持向量机是一种直接从已知样本出发对特定的未知样本进行识别的分类技术。在分析直推式支持向量机分类原理的基础上,提出一种基于直推式支持向量机的Web信息抽取方法,直接从分类的角度抽取Web信息。只需要提供少量标记样本就可以实现对大量未标注样本的分类标注,从而以分类的方式完成Web数据抽取任务。实验结果表明,使用这种方法进行Web信息抽取是有效性。; 关键词 web信息抽取分类学习直推式支持向量机; Keywords web information extraction classification learning Transductive Support Vector machine（TSVM）; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名Web图像清洗技术的研究与实现被引量：1: 3; 作者张波王继成王强张福炎; 机构南京大学软件新技术国家重点实验室南京大学计算机科学与技术系; 出处《计算机研究与发展》 EI CSCD 北大核心 2002年第11期1484-1490,共7页; 基金国家自然科学基金 ( 6 0 0 730 30 ) 日本富士通研究所"Web文档清洗技术研究"项目资助; 文摘目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并在决策树算法的基础上对多种特征表示及组合进行了实验和评估 .实验结果表明 ,提出的 Web图像清洗方案切实可行 ,清洗方法具有较快的速度和准确性 .; 关键词 web 图像清洗机器学习特征提取决策树图像处理图像过滤; Keywords web, image cleaning, machine learning, information extraction, decision tree; 分类号 TP391.41 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于本体关系匹配的信息抽取被引量：13: 4; 作者何召卫陈俊亮; 机构北京邮电大学网络与交换技术国家重点实验室; 出处《计算机工程》 CAS CSCD 北大核心 2007年第21期207-209,共3页; 基金国家自然科学基金资助项目(60432010); 文摘目前,稳定可靠的信息抽取是一个有待解决的问题,该文提出了基于本体关系匹配信息抽取算法,应用语义Web把信息抽取目标文档描述为特殊的本体格式,采用机器学习理论对本体进行分析和处理。测试数据集的实验结果显示,本体关系集匹配算法优于其他4种信息抽取算法。; 关键词信息抽取语义web 机器学习; Keywords information extraction semantic web machine learning; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名中文专利文档关键词自动提取方法研究进展被引量：1: 5; 作者马运运孙志一刘海波彭勇; 机构中国医学科学院北京协和医学院药用植物研究所国家中医药管理局传统药物专利信息资源重点研究室北京东方灵盾科技有限公司; 出处《世界科学技术-中医药现代化》 2015年第1期29-34,共6页; 基金北京科委"首都市民健康项目培育"项目(Z131100006813045):生物药物专利信息服务系统研发负责人:孙瑞阳; 文摘专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高。利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的。关键词提取技术多数基于统计规律。本文对基于词频、关联信息和多特征的关键词提取方法研究进展进行了总结,介绍了常用的分别以TF-IDF、熵、词汇链、Text Rank、遗传算法、决策树学习、朴素贝叶斯分类器、支持向量机等为主导的方法。另外,本文还总结了在专利文档关键词提取中可能用到的词频、位置、语义、关联、自身等方面的特征。实际应用中,关键词自动提取技术可作为一种有力的辅助手段,降低数据处理过程中的人力和时间成本。; 关键词中文专利文档关键词提取 TF-IDF 关联信息机器学习; Keywords Chinese Patent documentation, Keyword extraction, TF-IDF, Associated information, machine learning; 分类号 G202 [文化科学—传播学] G306.0 [文化科学]; 在线阅读下载PDF 职称材料

题名发现与切分复杂网页中的数据对象: 6; 作者成奋华叶施仁; 机构湖南科技职院株洲工学院; 出处《计算机工程与应用》 CSCD 北大核心 2005年第18期179-183,共5页; 文摘提出了一种从复杂网页中发现和切分有用的数据对象的自动方法。文章比较来自于同一网站的相似网页,从而发现其内容的组织和结构。首先,通过剔除页面中无关的部件,获得干净的数据区,它覆盖了数据对象的描述。其次,我们切分数据区中属于不同数据对象的结点,并由此构造结构良好、具备自我解释能力的XML输出文件,其中每一个文件恰包含一个数据对象。用户可以很方便地进一步从这些文件中提取数据到数据库和模板。实验结果表明该方法是有效的。; 关键词信息抽取 web采掘机器学习; Keywords information extraction,web mining,machine learning; 分类号 TP393 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	Web文档清洗技术	张波王继成王强张福炎	《计算机科学》 CSCD 北大核心	2002	3	在线阅读下载PDF 职称材料
2	直推式支持向量机在Web信息抽取中的应用研究	肖建鹏张来顺任星	《计算机工程与应用》 CSCD 北大核心	2009	6	在线阅读下载PDF 职称材料
3	Web图像清洗技术的研究与实现	张波王继成王强张福炎	《计算机研究与发展》 EI CSCD 北大核心	2002	1	在线阅读下载PDF 职称材料
4	基于本体关系匹配的信息抽取	何召卫陈俊亮	《计算机工程》 CAS CSCD 北大核心	2007	13	在线阅读下载PDF 职称材料
5	中文专利文档关键词自动提取方法研究进展	马运运孙志一刘海波彭勇	《世界科学技术-中医药现代化》	2015	1	在线阅读下载PDF 职称材料
6	发现与切分复杂网页中的数据对象	成奋华叶施仁	《计算机工程与应用》 CSCD 北大核心	2005	0	在线阅读下载PDF 职称材料