-
题名Web文档清洗技术
被引量:3
- 1
-
-
作者
张波
王继成
王强
张福炎
-
机构
南京大学软件新技术国家重点实验室计算机科学与技术系
-
出处
《计算机科学》
CSCD
北大核心
2002年第6期52-54,共3页
-
基金
国家自然科学基金(编号:600730307)
日本富士通研究所"Web文档清洗"项目
-
文摘
1引言
随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出现,就得到了迅猛的发展,无论是WWW站点数还是WWW用户数,都是以每年5~10倍的速度呈指数形式增长.目前仅中国的Internet用户就已经达到了2500万.
-
关键词
web
Internet
WWW
信息资源
信息挖掘
文档清洗
计算机网络
信息检索
-
Keywords
web document cleaning. machine learning,information extraction
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
G354
[文化科学—情报学]
-
-
题名直推式支持向量机在Web信息抽取中的应用研究
被引量:6
- 2
-
-
作者
肖建鹏
张来顺
任星
-
机构
中国人民解放军信息工程大学电子技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第2期147-149,共3页
-
文摘
直推式支持向量机是一种直接从已知样本出发对特定的未知样本进行识别的分类技术。在分析直推式支持向量机分类原理的基础上,提出一种基于直推式支持向量机的Web信息抽取方法,直接从分类的角度抽取Web信息。只需要提供少量标记样本就可以实现对大量未标注样本的分类标注,从而以分类的方式完成Web数据抽取任务。实验结果表明,使用这种方法进行Web信息抽取是有效性。
-
关键词
web信息抽取
分类学习
直推式支持向量机
-
Keywords
web information extraction
classification learning
Transductive Support Vector machine(TSVM)
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web图像清洗技术的研究与实现
被引量:1
- 3
-
-
作者
张波
王继成
王强
张福炎
-
机构
南京大学软件新技术国家重点实验室
南京大学计算机科学与技术系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2002年第11期1484-1490,共7页
-
基金
国家自然科学基金 ( 6 0 0 730 30 )
日本富士通研究所"Web文档清洗技术研究"项目资助
-
文摘
目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并在决策树算法的基础上对多种特征表示及组合进行了实验和评估 .实验结果表明 ,提出的 Web图像清洗方案切实可行 ,清洗方法具有较快的速度和准确性 .
-
关键词
web
图像清洗
机器学习
特征提取
决策树
图像处理
图像过滤
-
Keywords
web, image cleaning, machine learning, information extraction, decision tree
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于本体关系匹配的信息抽取
被引量:13
- 4
-
-
作者
何召卫
陈俊亮
-
机构
北京邮电大学网络与交换技术国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第21期207-209,共3页
-
基金
国家自然科学基金资助项目(60432010)
-
文摘
目前,稳定可靠的信息抽取是一个有待解决的问题,该文提出了基于本体关系匹配信息抽取算法,应用语义Web把信息抽取目标文档描述为特殊的本体格式,采用机器学习理论对本体进行分析和处理。测试数据集的实验结果显示,本体关系集匹配算法优于其他4种信息抽取算法。
-
关键词
信息抽取
语义web
机器学习
-
Keywords
information extraction
semantic web
machine learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名中文专利文档关键词自动提取方法研究进展
被引量:1
- 5
-
-
作者
马运运
孙志一
刘海波
彭勇
-
机构
中国医学科学院北京协和医学院药用植物研究所
国家中医药管理局传统药物专利信息资源重点研究室
北京东方灵盾科技有限公司
-
出处
《世界科学技术-中医药现代化》
2015年第1期29-34,共6页
-
基金
北京科委"首都市民健康项目培育"项目(Z131100006813045):生物药物专利信息服务系统研发
负责人:孙瑞阳
-
文摘
专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高。利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的。关键词提取技术多数基于统计规律。本文对基于词频、关联信息和多特征的关键词提取方法研究进展进行了总结,介绍了常用的分别以TF-IDF、熵、词汇链、Text Rank、遗传算法、决策树学习、朴素贝叶斯分类器、支持向量机等为主导的方法。另外,本文还总结了在专利文档关键词提取中可能用到的词频、位置、语义、关联、自身等方面的特征。实际应用中,关键词自动提取技术可作为一种有力的辅助手段,降低数据处理过程中的人力和时间成本。
-
关键词
中文专利文档
关键词提取
TF-IDF
关联信息
机器学习
-
Keywords
Chinese Patent documentation, Keyword extraction, TF-IDF, Associated information, machine learning
-
分类号
G202
[文化科学—传播学]
G306.0
[文化科学]
-
-
题名发现与切分复杂网页中的数据对象
- 6
-
-
作者
成奋华
叶施仁
-
机构
湖南科技职院
株洲工学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2005年第18期179-183,共5页
-
文摘
提出了一种从复杂网页中发现和切分有用的数据对象的自动方法。文章比较来自于同一网站的相似网页,从而发现其内容的组织和结构。首先,通过剔除页面中无关的部件,获得干净的数据区,它覆盖了数据对象的描述。其次,我们切分数据区中属于不同数据对象的结点,并由此构造结构良好、具备自我解释能力的XML输出文件,其中每一个文件恰包含一个数据对象。用户可以很方便地进一步从这些文件中提取数据到数据库和模板。实验结果表明该方法是有效的。
-
关键词
信息抽取
web采掘
机器学习
-
Keywords
information extraction,web mining,machine learning
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-