题名 基于链接描述文本及其上下文的Web信息检索
被引量:22
1
作者
张敏
高剑峰
马少平
机构
清华大学智能技术与系统国家重点实验室
微软亚洲研究院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第1期221-226,共6页
基金
国家"九七三"重点基础研究发展规划项目 (G19980 3 0 5 0 9)
国家自然科学基金项目 ( 60 2 2 3 0 0 4)
国家"八六三"高技术研究发展计划基金项目 ( 2 0 0 1AA114 0 82 )
文摘
文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一 ,由此产生了基于超链接结构的检索技术 描述了链接描述文档的概念 ,并在此基础上研究链接文本 (anchortext)及其上下文信息在检索中的作用 通过使用超过 16 9万篇网页的大规模真实数据集以及TREC2 0 0 1提供的相关文档及评价方法进行测试 ,得到如下结论 :首先 ,链接描述文档对网页主题的概括有高度的精确性 ,但是对网页内容的描述有极大的不完全性 ;其次 ,与传统检索方法相比 ,使用链接文本在已知网页定位的任务上能够使系统性能提高 96 % ,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能 ;最后 ,把基于链接描述文本的方法与传统方法相结合 ,能够在检索性能上提高近 16 %
关键词
链接文本
链接描述文档
web 信息检索
Keywords
anchor text
anchor description document
web information retrieval
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于本体的Web文本挖掘与信息检索
被引量:8
2
作者
艾伟
孙四明
张峰
机构
中国航天工程咨询中心
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第22期75-77,80,共4页
文摘
针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。实验结果初步验证了本体模型在Web文本挖掘技术上应用的可行性。
关键词
本体
web 文本 挖掘
向量空间模型
信息检索
Keywords
ontology
web text mining
vector space model
information retrieval
分类号
TP393.07
[自动化与计算机技术—计算机应用技术]
题名 一个可应用于WEB图片检索的综合词条权重模式
被引量:1
3
作者
万钧
钟亦平
张世永
机构
复旦大学网络信息工程中心
出处
《计算机工程与应用》
CSCD
北大核心
2003年第12期91-95,共5页
基金
上海市科学技术发展资金支持
文摘
随着WEB上图片资源的日益丰富,人们对WEB图片检索的需求也日趋强烈。基于文本的WEB图片检索技术,是人们当前检索WEB图片的主要手段。反映图片内容的各相关文字的重要性是不同的,需要通过一个词条的权重模式来确定什么词条对反映图片内容更重要。在现有的WEB图片检索系统中,对影响词条权重的因素考虑不够,权重模式较粗糙。文章在词条权重的研究中,更广泛地考虑了影响权重的因素,提出了一个“综合权重模式”,并通过数学语言予以精确描述。
关键词
web 图片 检索
相关文本
综合权重模式
词条
Keywords
web Images Retrieval,Relevant Text,Compositive Weight Scheme ,Term
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于Web的文本数据库检索系统的设计及其实现
4
作者
张建中
方正
刘业翔
机构
中南工业大学图书馆
出处
《中南工业大学学报》
CSCD
北大核心
1999年第6期572-574,共3页
基金
中国高等教育国家文献资源保障系统项目
文摘
介绍了将现有文本数据库在Web 上建立检索系统的原则以及文本数据库在Web 上实现检索的机理和检索的方法.系统运行表明:系统结构合理、安全可靠、功能齐全、用户界面友好,是一个实用的系统.
关键词
INTERNET
CGI
web
文本 数据库
检索 系统
设计
Keywords
Internet
CGI
information
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP392
[自动化与计算机技术—计算机应用技术]
题名 基于相似图片聚类的Web文本特征算法
被引量:3
5
作者
方爽
殷俊杰
徐武平
机构
武汉大学计算机学院
出处
《计算机工程》
CAS
CSCD
2014年第12期161-165,171,共6页
文摘
对于图文不符的低质量网页,现有基于文本关键词的图片搜索引擎得到的结果相关性较差。针对该问题,将图片的相似性聚类信息和网页质量因素融入文本分析过程,提出一种基于相似图片聚类的Web文本特征算法。根据网页Page Rank值、关键词HTML标签类别和关键词词性类别的不同,分别赋予其不同的权重并代入计算公式,综合计算得到整个聚类中全部关键词的文本特征值,并通过设置阈值提取高相关文本。对随机选取的15个图片聚类进行实验分析,结果表明,与百度和谷歌目前所用图片搜索算法相比,该算法能够准确地找到反映图片内容的真实文本,提高图片检索的精度。
关键词
web 文本 特征
图片 搜索引擎
基于文本 的图像检索
基于内容的图像检索
倒排索引
web 文本 分析
Keywords
web text feature
image search engine
Text-based Image Retrieval(TBIR)
Content-based Image Retrieval
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于XML和ANN的Web文本智能检索研究
被引量:1
6
作者
张标
何国辉
机构
五邑大学信息学院
出处
《计算机工程与设计》
CSCD
北大核心
2006年第16期2973-2975,共3页
基金
广东省自然科学基金项目(032356)
文摘
传统的网络信息检索技术如搜索引擎存在一些不足,一方面它只是将信息搜寻出来,不能发现隐藏在数据背后的知识;另一方面其采集软件在采集数据时缺乏人工干预,智能性不强,导致信息利用率不高。针对传统的Web搜索引擎存在的上述问题,结合Web文本挖掘、XML、BP神经网络在数据处理方面的长处,提出了一个具有一定智能的Web文本信息检索模型,以使其具有较高的信息利用率。
关键词
web 文本 挖掘
web 信息检索
可扩展标记语言
人工神经网络
向后传播误差算法
Keywords
web text mining
web information retrieval
XML
artificial neural network
back-propagation algorithm
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 Web文本挖掘技术研究
被引量:275
7
作者
王继成
潘金贵
张福炎
机构
南京大学计算机科学与技术系
南京大学软件新技术国家重点实验室
出处
《计算机研究与发展》
EI
CSCD
北大核心
2000年第5期513-520,共8页
文摘
作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 .
关键词
文本 挖掘
文本 分类
文本 聚类
信息检索
web
Keywords
web mining, text mining, text categorization, text clustering, multi dimension text analysis
分类号
G354.4
[文化科学—情报学]
TP393
[自动化与计算机技术—计算机应用技术]
题名 中文文本WEB搜索引擎的设计与实现
被引量:23
8
作者
钟涛
陈新明
万钧
张世永
机构
复旦大学网络信息工程中心
出处
《计算机工程与应用》
CSCD
北大核心
2001年第17期149-151,169,共4页
基金
上海市科学技术发展资金支持
文摘
文章主要研究中文文本WEB搜索引擎设计中面临的关键技术以及相应的设计实现。文章首先介绍了WEB搜索引擎的基本系统结构,然后具体讨论了设计时应考虑的问题并且给出了相应的实现。作者希望通过该文能为中文信息搜索引擎的发展提供一些有益的参考和经验。
关键词
搜索引擎
文本 处理
信息检索
中文分词
中文文本
web
Internet
Keywords
: Search Engine,Text Transact,Info Indexing,Chinese segment
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
题名 一种结合文本和链接分析的局部Web社区识别技术
被引量:10
9
作者
张宪超
徐雯
高亮
梁文新
机构
大连理工大学软件学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2012年第11期2352-2358,共7页
基金
国家自然科学基金项目(61272374)
教育部新世纪优秀人才支持计划项目(NCET-11-0056)
+1 种基金
高等学校博士学科点专项科研基金(新教师类)项目(20100041120033)
中央高校基本科研业务费专项资金项目(DUT10JR02)
文摘
当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提出一种新的基于文本相似度的边容量分配方法.基于网页间内容越相似彼此传递的权威度越大的特点,将网页的内容相似度用于Web图的边容量设置上,具体策略为Max-flow+TF-IDF边容量设置和Max-flow+TF-IDF+Seeds边容量设置.其次,提出的社区结点的排序策略充分考虑了结点和社区主题的相似度,以此来增强结点区分度.理论分析和实验证明了该算法具有提高社区发现的精度和大小、计算出的排序分值更为客观合理等优点.
关键词
web 社区识别
最大流算法
文本 相似度
web 挖掘
信息检索
Keywords
web community identification
maximum flow algorithm
content similarity
web mining
information retrieval
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 利用文本挖掘实现Web智能服务
被引量:4
10
作者
卢正鼎
刘芳
路松峰
机构
华中科技大学计算机科学与技术学院
出处
《小型微型计算机系统》
CSCD
北大核心
2001年第6期703-705,共3页
文摘
目前网络服务个人化成为人们关注的焦点 ,虽然各大型网站已推出个人化主页服务 ,但是仍存在需要改进的问题 ,首先是个人化网页的自动维护 ,其次是用户的需求信息存在不完全性 .本文通过一个具体应用——实现了 Web智能服务的技术文档检索系统 ,提出将文本挖掘与情报检索技术相结合解决上述问题 ,该系统能够根据用户兴趣自动生成及维护个人化网页 .
关键词
文本 挖掘
网络服务个人化
web
主页
WWW
情报检索
Keywords
Text mining
Information retrieve
web personalized service
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
题名 中文Web检索中聚类算法的改进
被引量:9
11
作者
耿玉良
陈家琪
王咏梅
机构
上海理工大学计算机工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2005年第10期2685-2687,共3页
基金
上海市教育委员会科研基金项目(04EB12)
文摘
对基于混合相似度的HTFC算法进行改进,要做的预处理是:建立向量空间模型,计算文档和链接的混合相似度。算法过程是:首先随机选取√kn个文档进行层次聚类,直到剩k个聚簇为止;对这k个聚簇不断迭代直到集合元素不再变化为止;然后表示出每类;最后通过用户对结果的反馈使得新生成的簇继续迭代,最终满足用户需求。算法第1步采用的是改进的k-means算法,可提高运行效率。反馈机制对原有模型进一步修正,从而提高精度。
关键词
文本 聚类算法
信息检索
web 挖掘
Keywords
text clustering algorithm
information retrieval
web mining
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 自建数据库中文本挖掘及检索技术
被引量:2
12
作者
毛垣生
机构
天津医科大学图书馆网络部
出处
《情报杂志》
CSSCI
北大核心
2004年第4期29-30,32,共3页
基金
天津教委科研处<数据挖掘系统>项目 (编号 :2 0 0 30 0 0 0 4 )
文摘
阐述了数据挖掘的技术分类、实现数字挖掘的关键问题 ,探讨了文本型数据挖掘在数字图书馆资源建设中的广阔前景和巨大的应用价值。
关键词
数字图书馆
数据库建设
数据挖掘
文本 挖掘
web 挖掘
全文挖掘
检索 技术
分类号
TP311.131
[自动化与计算机技术—计算机软件与理论]
G250.76
[文化科学—图书馆学]
题名 TREC2002中的WEB信息检索
13
作者
杨志峰
刘悦
杨哲
王斌
程学旗
机构
中国科学院计算技术研究所软件研究室
出处
《计算机工程与应用》
CSCD
北大核心
2003年第26期37-39,80,共4页
基金
国家重点基础研究发展规划973资助项目(编号:G1998030413
G1998030510)
计算所领域前沿青年基金(编号:20026180-24)
文摘
文本检索会议(TextREtrievalConference,TREC)是目前国际上信息检索领域最重要的学术交流与系统评测活动。会议为参加者提供标准的数据集合、评测问题和标准答案,从而使参加者以共同的标准进行系统运行和评测。作者代表中国科学院参加了文本检索会议的WEB信息检索任务。在TREC2002中,作者发现了适合不同数据集合的较高性能的内容检索算法,并综合考虑了文本内容、链接文字、文档结构等因素对WEB信息检索效果的影响,取得了较好的成绩。该方法在两届会议的不同任务中均表现了较高的性能。
关键词
信息检索
文本 检索 会议
web
TRACK
评测
Keywords
Information Retrieval,TREC,web Track,Evaluation
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于概念格的Web文本挖掘方法
14
作者
张楠
于波
机构
黑龙江八一农垦大学信息技术学院
哈尔滨理工大学软件学院
出处
《大庆石油学院学报》
CAS
北大核心
2009年第3期108-111,共4页
文摘
概念格在本质上描述对象和属性之间的联系,表明概念之间的泛化和特化关系.研究了概念格模型的建立方法,应用概念格的理论,提出一种将非结构化的Web文本与其特征之间的关系通过概念格模型描述出来的方法.利用特征集合表示Web文本模型的方法,可以建立概念格所需要的形式背景.构造实例表明,利用构造的概念格能够有效地抽取隐含在Web文本中潜在的、有价值的知识,提高Web文本的检索性能.
关键词
web 文本
概念格
知识抽取
文献检索
Keywords
web texts
concept lattice
knowledge extracting, literature retrieving
分类号
TP274.2
[自动化与计算机技术—检测技术与自动化装置]
题名 基于神经网络的Web信息检索研究与实现
15
作者
周晓滨
机构
空军工程大学工程学院
出处
《情报杂志》
CSSCI
北大核心
2004年第11期52-53,共2页
文摘
以开发的《大学语文》远程网络教育系统站内信息检索为例 ,在阐述神经网络一般原理的基础上 ,分析了基于神经网络的检索模式和系统检索实现策略 ,提出了一种基于神经网络的Web文本信息检索模式 ,并得以系统实现。
关键词
web 信息检索
检索 模式
远程网络教育
实现策略
《大学语文》
一般
基础
神经网络
web 文本
系统
分类号
G354.4
[文化科学—情报学]
TP391
[自动化与计算机技术—计算机应用技术]
题名 启发式相关文本提取技术研究
被引量:4
16
作者
万钧
钟亦平
傅维明
张世永
机构
复旦大学网络信息工程中心
出处
《小型微型计算机系统》
CSCD
北大核心
2004年第4期582-586,共5页
文摘
随着 WEB上图片资源的日益丰富 ,人们对 WEB图片检索的需求也日趋强烈 .基于文本检索 WEB图片 ,是人们当前检索 WEB图片的主要手段 ,其中 ,提取图片的相关文本是实现基于文本的图片检索的基础 .现有的相关文本提取技术对 WEB的复杂性理解不够 ,使用固定的模式提取文本 ,常常以偏概全 ,提取效果不佳 .本文进一步明确了相关文本的概念 ,使用启发式提取方法 ,让系统更智能地提取相关文本 .实验表明 ,该技术能提取到绝大部分的相关文本 。
关键词
基于文本的web图片检索
相关文本
启发式
提取
Keywords
web images retrieval based on text
relevant text
heuristic
fetching
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 Web页面清洗技术的研究与实现
被引量:20
17
作者
周源远
王继成
郑刚
张福炎
机构
南京大学软件新技术国家重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2002年第9期48-50,197,共4页
基金
国家自然科学基金项目"Web"信息过滤的智能化方法与协"Web作技术研究(60073030)
富士通研究所清洗技术项目
文摘
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。
关键词
web 页面
清洗技术
文本 块
链接块
DOM
解析器
Internet
信息检索
Keywords
web page cleaning
Text block
Link block
DOM
Parser
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
题名 集成搜索引擎的文本数据库选择
被引量:9
18
作者
孟卫一
吴宗寰
机构
纽约州立大学计算机科学系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第4期396-404,共9页
基金
US NSF基金提供部分资助! (IIS-990 2 872 )
文摘
用户需要检索的信息往往分散存储在多个搜索引擎各自的数据库里 .对普通用户而言 ,访问多个搜索引擎并从返回的结果中分辨出确实有用的网页是一件费时费力的工作 .集成搜索引擎则可以提供给用户一个同时访问多个搜索引擎的集成环境 .集成搜索引擎能将其接收到的用户查询提交给底层的多个搜索引擎进行搜索 .作为一种搜索工具 ,集成搜索引擎具有如 WEB查询覆盖面比传统引擎更大 ,引擎有更好的可扩展性等优点 .讨论了解决集成搜索引擎的数据库选择问题的多种技术 .针对用户提交的查询要求 。
关键词
搜索引擎
信息检索
web
方维网
文本 数据库
Keywords
metasearch, information resource discovery, search engine, information retrieval
分类号
G354.4
[文化科学—情报学]
TP311.135
[自动化与计算机技术—计算机软件与理论]
题名 基于兴趣模型的WEB信息预测采集过滤方法
被引量:3
19
作者
李振星
徐泽平
唐卫清
唐荣锡
机构
北京航空航天大学机械工程及自动化学院
中国科学院计算所
出处
《计算机工程与应用》
CSCD
北大核心
2003年第5期3-5,16,共4页
基金
1999~2000年度国家技术创新项目″中国技术创新网″建设
2002年的″中国技术创新网″升级改造项目
国家经贸委国家重点技术创新项目"中国技术创新信息网系统开发"中信息采集检索部分
文摘
Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向。该文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法。这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站点结构进行分析的基础上,通过对网页的相关度的预测来控制信息的采集。在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。
关键词
兴趣模型
信息预测采集过滤方法
信息采集
文本 过滤
web
网络资源
网页
INTERNET
信息检索
Keywords
Information Gathering,Interested Model,Text Filtering
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
题名 Web挖掘系统的设计与实现
被引量:5
20
作者
陈建华
包煊
机构
兰州大学计算机系
出处
《计算机工程》
CAS
CSCD
北大核心
2002年第8期141-142,151,共3页
文摘
介绍了挖掘理论,包括挖掘定义、挖掘任务、挖掘分类个方面,并简单介绍了实现文本挖掘系统WebWebWebWeb3WebWTMiner (的几个关键技术:分词,特征提取,分类器的设计。在分词中采用了支持首字和二分查找从而提高了分词速度,分类器Web Text Miner)Hash的设计中考虑到的训练算法速度慢的缺点,用近邻法以减少训练样本集中样本的数量,从而大大提高了算法速度。
关键词
web
设计
文本 分类
支持向量机
数据挖掘系统
数据库
计算机网络
信息检索
Keywords
web miningText categorizationSupport vector machine (SVM)Word segmentation.
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
G354.4
[文化科学—情报学]