期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于链接描述文本及其上下文的Web信息检索 被引量:22
1
作者 张敏 高剑峰 马少平 《计算机研究与发展》 EI CSCD 北大核心 2004年第1期221-226,共6页
文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一 ,由此产生了基于超链接结构的检索技术 描述了链接描述文档的概念 ,并在此基础上研究链接文本 (anchortext)及其上下文信息在检索中的作用 通过使用超过 16 9万篇网页... 文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一 ,由此产生了基于超链接结构的检索技术 描述了链接描述文档的概念 ,并在此基础上研究链接文本 (anchortext)及其上下文信息在检索中的作用 通过使用超过 16 9万篇网页的大规模真实数据集以及TREC2 0 0 1提供的相关文档及评价方法进行测试 ,得到如下结论 :首先 ,链接描述文档对网页主题的概括有高度的精确性 ,但是对网页内容的描述有极大的不完全性 ;其次 ,与传统检索方法相比 ,使用链接文本在已知网页定位的任务上能够使系统性能提高 96 % ,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能 ;最后 ,把基于链接描述文本的方法与传统方法相结合 ,能够在检索性能上提高近 16 % 展开更多
关键词 链接文本 链接描述文档 web信息检索
在线阅读 下载PDF
基于本体的Web文本挖掘与信息检索 被引量:8
2
作者 艾伟 孙四明 张峰 《计算机工程》 CAS CSCD 北大核心 2010年第22期75-77,80,共4页
针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。... 针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。实验结果初步验证了本体模型在Web文本挖掘技术上应用的可行性。 展开更多
关键词 本体 web文本挖掘 向量空间模型 信息检索
在线阅读 下载PDF
一个可应用于WEB图片检索的综合词条权重模式 被引量:1
3
作者 万钧 钟亦平 张世永 《计算机工程与应用》 CSCD 北大核心 2003年第12期91-95,共5页
随着WEB上图片资源的日益丰富,人们对WEB图片检索的需求也日趋强烈。基于文本的WEB图片检索技术,是人们当前检索WEB图片的主要手段。反映图片内容的各相关文字的重要性是不同的,需要通过一个词条的权重模式来确定什么词条对反映图片内... 随着WEB上图片资源的日益丰富,人们对WEB图片检索的需求也日趋强烈。基于文本的WEB图片检索技术,是人们当前检索WEB图片的主要手段。反映图片内容的各相关文字的重要性是不同的,需要通过一个词条的权重模式来确定什么词条对反映图片内容更重要。在现有的WEB图片检索系统中,对影响词条权重的因素考虑不够,权重模式较粗糙。文章在词条权重的研究中,更广泛地考虑了影响权重的因素,提出了一个“综合权重模式”,并通过数学语言予以精确描述。 展开更多
关键词 web图片检索 相关文本 综合权重模式 词条
在线阅读 下载PDF
基于Web的文本数据库检索系统的设计及其实现
4
作者 张建中 方正 刘业翔 《中南工业大学学报》 CSCD 北大核心 1999年第6期572-574,共3页
介绍了将现有文本数据库在Web 上建立检索系统的原则以及文本数据库在Web 上实现检索的机理和检索的方法.系统运行表明:系统结构合理、安全可靠、功能齐全、用户界面友好,是一个实用的系统.
关键词 INTERNET CGI web 文本数据库 检索系统 设计
在线阅读 下载PDF
基于相似图片聚类的Web文本特征算法 被引量:3
5
作者 方爽 殷俊杰 徐武平 《计算机工程》 CAS CSCD 2014年第12期161-165,171,共6页
对于图文不符的低质量网页,现有基于文本关键词的图片搜索引擎得到的结果相关性较差。针对该问题,将图片的相似性聚类信息和网页质量因素融入文本分析过程,提出一种基于相似图片聚类的Web文本特征算法。根据网页Page Rank值、关键词HTM... 对于图文不符的低质量网页,现有基于文本关键词的图片搜索引擎得到的结果相关性较差。针对该问题,将图片的相似性聚类信息和网页质量因素融入文本分析过程,提出一种基于相似图片聚类的Web文本特征算法。根据网页Page Rank值、关键词HTML标签类别和关键词词性类别的不同,分别赋予其不同的权重并代入计算公式,综合计算得到整个聚类中全部关键词的文本特征值,并通过设置阈值提取高相关文本。对随机选取的15个图片聚类进行实验分析,结果表明,与百度和谷歌目前所用图片搜索算法相比,该算法能够准确地找到反映图片内容的真实文本,提高图片检索的精度。 展开更多
关键词 web文本特征 图片搜索引擎 基于文本的图像检索 基于内容的图像检索 倒排索引 web文本分析
在线阅读 下载PDF
基于XML和ANN的Web文本智能检索研究 被引量:1
6
作者 张标 何国辉 《计算机工程与设计》 CSCD 北大核心 2006年第16期2973-2975,共3页
传统的网络信息检索技术如搜索引擎存在一些不足,一方面它只是将信息搜寻出来,不能发现隐藏在数据背后的知识;另一方面其采集软件在采集数据时缺乏人工干预,智能性不强,导致信息利用率不高。针对传统的Web搜索引擎存在的上述问题,结合We... 传统的网络信息检索技术如搜索引擎存在一些不足,一方面它只是将信息搜寻出来,不能发现隐藏在数据背后的知识;另一方面其采集软件在采集数据时缺乏人工干预,智能性不强,导致信息利用率不高。针对传统的Web搜索引擎存在的上述问题,结合Web文本挖掘、XML、BP神经网络在数据处理方面的长处,提出了一个具有一定智能的Web文本信息检索模型,以使其具有较高的信息利用率。 展开更多
关键词 web文本挖掘 web信息检索 可扩展标记语言 人工神经网络 向后传播误差算法
在线阅读 下载PDF
Web文本挖掘技术研究 被引量:275
7
作者 王继成 潘金贵 张福炎 《计算机研究与发展》 EI CSCD 北大核心 2000年第5期513-520,共8页
作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也... 作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 . 展开更多
关键词 文本挖掘 文本分类 文本聚类 信息检索 web
在线阅读 下载PDF
中文文本WEB搜索引擎的设计与实现 被引量:23
8
作者 钟涛 陈新明 +1 位作者 万钧 张世永 《计算机工程与应用》 CSCD 北大核心 2001年第17期149-151,169,共4页
文章主要研究中文文本WEB搜索引擎设计中面临的关键技术以及相应的设计实现。文章首先介绍了WEB搜索引擎的基本系统结构,然后具体讨论了设计时应考虑的问题并且给出了相应的实现。作者希望通过该文能为中文信息搜索引擎的发展提供一些... 文章主要研究中文文本WEB搜索引擎设计中面临的关键技术以及相应的设计实现。文章首先介绍了WEB搜索引擎的基本系统结构,然后具体讨论了设计时应考虑的问题并且给出了相应的实现。作者希望通过该文能为中文信息搜索引擎的发展提供一些有益的参考和经验。 展开更多
关键词 搜索引擎 文本处理 信息检索 中文分词 中文文本 web Internet
在线阅读 下载PDF
一种结合文本和链接分析的局部Web社区识别技术 被引量:10
9
作者 张宪超 徐雯 +1 位作者 高亮 梁文新 《计算机研究与发展》 EI CSCD 北大核心 2012年第11期2352-2358,共7页
当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提... 当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提出一种新的基于文本相似度的边容量分配方法.基于网页间内容越相似彼此传递的权威度越大的特点,将网页的内容相似度用于Web图的边容量设置上,具体策略为Max-flow+TF-IDF边容量设置和Max-flow+TF-IDF+Seeds边容量设置.其次,提出的社区结点的排序策略充分考虑了结点和社区主题的相似度,以此来增强结点区分度.理论分析和实验证明了该算法具有提高社区发现的精度和大小、计算出的排序分值更为客观合理等优点. 展开更多
关键词 web社区识别 最大流算法 文本相似度 web挖掘 信息检索
在线阅读 下载PDF
利用文本挖掘实现Web智能服务 被引量:4
10
作者 卢正鼎 刘芳 路松峰 《小型微型计算机系统》 CSCD 北大核心 2001年第6期703-705,共3页
目前网络服务个人化成为人们关注的焦点 ,虽然各大型网站已推出个人化主页服务 ,但是仍存在需要改进的问题 ,首先是个人化网页的自动维护 ,其次是用户的需求信息存在不完全性 .本文通过一个具体应用——实现了 Web智能服务的技术文档检... 目前网络服务个人化成为人们关注的焦点 ,虽然各大型网站已推出个人化主页服务 ,但是仍存在需要改进的问题 ,首先是个人化网页的自动维护 ,其次是用户的需求信息存在不完全性 .本文通过一个具体应用——实现了 Web智能服务的技术文档检索系统 ,提出将文本挖掘与情报检索技术相结合解决上述问题 ,该系统能够根据用户兴趣自动生成及维护个人化网页 . 展开更多
关键词 文本挖掘 网络服务个人化 web 主页 WWW 情报检索
在线阅读 下载PDF
中文Web检索中聚类算法的改进 被引量:9
11
作者 耿玉良 陈家琪 王咏梅 《计算机工程与设计》 CSCD 北大核心 2005年第10期2685-2687,共3页
对基于混合相似度的HTFC算法进行改进,要做的预处理是:建立向量空间模型,计算文档和链接的混合相似度。算法过程是:首先随机选取√kn个文档进行层次聚类,直到剩k个聚簇为止;对这k个聚簇不断迭代直到集合元素不再变化为止;然后表示出每类... 对基于混合相似度的HTFC算法进行改进,要做的预处理是:建立向量空间模型,计算文档和链接的混合相似度。算法过程是:首先随机选取√kn个文档进行层次聚类,直到剩k个聚簇为止;对这k个聚簇不断迭代直到集合元素不再变化为止;然后表示出每类;最后通过用户对结果的反馈使得新生成的簇继续迭代,最终满足用户需求。算法第1步采用的是改进的k-means算法,可提高运行效率。反馈机制对原有模型进一步修正,从而提高精度。 展开更多
关键词 文本聚类算法 信息检索 web挖掘
在线阅读 下载PDF
自建数据库中文本挖掘及检索技术 被引量:2
12
作者 毛垣生 《情报杂志》 CSSCI 北大核心 2004年第4期29-30,32,共3页
阐述了数据挖掘的技术分类、实现数字挖掘的关键问题 ,探讨了文本型数据挖掘在数字图书馆资源建设中的广阔前景和巨大的应用价值。
关键词 数字图书馆 数据库建设 数据挖掘 文本挖掘 web挖掘 全文挖掘 检索技术
在线阅读 下载PDF
TREC2002中的WEB信息检索
13
作者 杨志峰 刘悦 +2 位作者 杨哲 王斌 程学旗 《计算机工程与应用》 CSCD 北大核心 2003年第26期37-39,80,共4页
文本检索会议(TextREtrievalConference,TREC)是目前国际上信息检索领域最重要的学术交流与系统评测活动。会议为参加者提供标准的数据集合、评测问题和标准答案,从而使参加者以共同的标准进行系统运行和评测。作者代表中国科学院参加... 文本检索会议(TextREtrievalConference,TREC)是目前国际上信息检索领域最重要的学术交流与系统评测活动。会议为参加者提供标准的数据集合、评测问题和标准答案,从而使参加者以共同的标准进行系统运行和评测。作者代表中国科学院参加了文本检索会议的WEB信息检索任务。在TREC2002中,作者发现了适合不同数据集合的较高性能的内容检索算法,并综合考虑了文本内容、链接文字、文档结构等因素对WEB信息检索效果的影响,取得了较好的成绩。该方法在两届会议的不同任务中均表现了较高的性能。 展开更多
关键词 信息检索 文本检索会议 web TRACK 评测
在线阅读 下载PDF
基于概念格的Web文本挖掘方法
14
作者 张楠 于波 《大庆石油学院学报》 CAS 北大核心 2009年第3期108-111,共4页
概念格在本质上描述对象和属性之间的联系,表明概念之间的泛化和特化关系.研究了概念格模型的建立方法,应用概念格的理论,提出一种将非结构化的Web文本与其特征之间的关系通过概念格模型描述出来的方法.利用特征集合表示Web文本模型的方... 概念格在本质上描述对象和属性之间的联系,表明概念之间的泛化和特化关系.研究了概念格模型的建立方法,应用概念格的理论,提出一种将非结构化的Web文本与其特征之间的关系通过概念格模型描述出来的方法.利用特征集合表示Web文本模型的方法,可以建立概念格所需要的形式背景.构造实例表明,利用构造的概念格能够有效地抽取隐含在Web文本中潜在的、有价值的知识,提高Web文本的检索性能. 展开更多
关键词 web文本 概念格 知识抽取 文献检索
在线阅读 下载PDF
基于神经网络的Web信息检索研究与实现
15
作者 周晓滨 《情报杂志》 CSSCI 北大核心 2004年第11期52-53,共2页
以开发的《大学语文》远程网络教育系统站内信息检索为例 ,在阐述神经网络一般原理的基础上 ,分析了基于神经网络的检索模式和系统检索实现策略 ,提出了一种基于神经网络的Web文本信息检索模式 ,并得以系统实现。
关键词 web信息检索 检索模式 远程网络教育 实现策略 《大学语文》 一般 基础 神经网络 web文本 系统
在线阅读 下载PDF
启发式相关文本提取技术研究 被引量:4
16
作者 万钧 钟亦平 +1 位作者 傅维明 张世永 《小型微型计算机系统》 CSCD 北大核心 2004年第4期582-586,共5页
随着 WEB上图片资源的日益丰富 ,人们对 WEB图片检索的需求也日趋强烈 .基于文本检索 WEB图片 ,是人们当前检索 WEB图片的主要手段 ,其中 ,提取图片的相关文本是实现基于文本的图片检索的基础 .现有的相关文本提取技术对 WEB的复杂性理... 随着 WEB上图片资源的日益丰富 ,人们对 WEB图片检索的需求也日趋强烈 .基于文本检索 WEB图片 ,是人们当前检索 WEB图片的主要手段 ,其中 ,提取图片的相关文本是实现基于文本的图片检索的基础 .现有的相关文本提取技术对 WEB的复杂性理解不够 ,使用固定的模式提取文本 ,常常以偏概全 ,提取效果不佳 .本文进一步明确了相关文本的概念 ,使用启发式提取方法 ,让系统更智能地提取相关文本 .实验表明 ,该技术能提取到绝大部分的相关文本 。 展开更多
关键词 基于文本的web图片检索 相关文本 启发式 提取
在线阅读 下载PDF
Web页面清洗技术的研究与实现 被引量:20
17
作者 周源远 王继成 +1 位作者 郑刚 张福炎 《计算机工程》 CAS CSCD 北大核心 2002年第9期48-50,197,共4页
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的... 文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。 展开更多
关键词 web页面 清洗技术 文本 链接块 DOM 解析器 Internet 信息检索
在线阅读 下载PDF
集成搜索引擎的文本数据库选择 被引量:9
18
作者 孟卫一 吴宗寰 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期396-404,共9页
用户需要检索的信息往往分散存储在多个搜索引擎各自的数据库里 .对普通用户而言 ,访问多个搜索引擎并从返回的结果中分辨出确实有用的网页是一件费时费力的工作 .集成搜索引擎则可以提供给用户一个同时访问多个搜索引擎的集成环境 .集... 用户需要检索的信息往往分散存储在多个搜索引擎各自的数据库里 .对普通用户而言 ,访问多个搜索引擎并从返回的结果中分辨出确实有用的网页是一件费时费力的工作 .集成搜索引擎则可以提供给用户一个同时访问多个搜索引擎的集成环境 .集成搜索引擎能将其接收到的用户查询提交给底层的多个搜索引擎进行搜索 .作为一种搜索工具 ,集成搜索引擎具有如 WEB查询覆盖面比传统引擎更大 ,引擎有更好的可扩展性等优点 .讨论了解决集成搜索引擎的数据库选择问题的多种技术 .针对用户提交的查询要求 。 展开更多
关键词 搜索引擎 信息检索 web 方维网 文本数据库
在线阅读 下载PDF
基于兴趣模型的WEB信息预测采集过滤方法 被引量:3
19
作者 李振星 徐泽平 +1 位作者 唐卫清 唐荣锡 《计算机工程与应用》 CSCD 北大核心 2003年第5期3-5,16,共4页
Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向。该文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法。这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站... Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向。该文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法。这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站点结构进行分析的基础上,通过对网页的相关度的预测来控制信息的采集。在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。 展开更多
关键词 兴趣模型 信息预测采集过滤方法 信息采集 文本过滤 web 网络资源 网页 INTERNET 信息检索
在线阅读 下载PDF
Web挖掘系统的设计与实现 被引量:5
20
作者 陈建华 包煊 《计算机工程》 CAS CSCD 北大核心 2002年第8期141-142,151,共3页
介绍了挖掘理论,包括挖掘定义、挖掘任务、挖掘分类个方面,并简单介绍了实现文本挖掘系统WebWebWebWeb3WebWTMiner (的几个关键技术:分词,特征提取,分类器的设计。在分词中采用了支持首字和二分查找从而提高了分词速度,分类器Web Text M... 介绍了挖掘理论,包括挖掘定义、挖掘任务、挖掘分类个方面,并简单介绍了实现文本挖掘系统WebWebWebWeb3WebWTMiner (的几个关键技术:分词,特征提取,分类器的设计。在分词中采用了支持首字和二分查找从而提高了分词速度,分类器Web Text Miner)Hash的设计中考虑到的训练算法速度慢的缺点,用近邻法以减少训练样本集中样本的数量,从而大大提高了算法速度。 展开更多
关键词 web 设计 文本分类 支持向量机 数据挖掘系统 数据库 计算机网络 信息检索
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部