期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
基于动态异构的Web信息集成网页分析方法 被引量:7
1
作者 李昌清 李艳霞 +1 位作者 李胜利 王剑 《计算机应用研究》 CSCD 北大核心 2007年第12期204-206,共3页
将动态异构的Web信息资源进行抽取以统一的方式供用户查询和使用,是当前迫切需要解决的问题。介绍了分析相关Web页面的方法和经验,实现了自动提交HTML表单获得所需页面和对页面的信息抽取。最后,实验证明了此方法的有效性。
关键词 网页分析 信息抽取 模式匹配
在线阅读 下载PDF
一种高性能分布式Web Crawler的设计与实现 被引量:6
2
作者 张岭 叶允明 +2 位作者 宋晖 于水 马范援 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第1期59-61,共3页
介绍了一种大规模、高性能、分布式的Web信息搜集器的设计及其Java实现.提出了Crawler设计中数据结构、系统功能模块和相关算法新的设计思想;对设计与实现过程中需要解决的关键问题分布式协调机制、基于内存的URL存储管理等进行了讨论,... 介绍了一种大规模、高性能、分布式的Web信息搜集器的设计及其Java实现.提出了Crawler设计中数据结构、系统功能模块和相关算法新的设计思想;对设计与实现过程中需要解决的关键问题分布式协调机制、基于内存的URL存储管理等进行了讨论,并提供了现阶段的设计、实现方法和分布式无损链接分析算法. 展开更多
关键词 web信息搜集器 分布式系统 搜索引擎
在线阅读 下载PDF
基于Web的问答系统综述 被引量:20
3
作者 李舟军 李水华 《计算机科学》 CSCD 北大核心 2017年第6期1-7,42,共8页
微软小冰引发了问答系统的新一轮研究热潮。作为一种新型的信息检索方式,问答系统能直接以自然语言与用户进行人性化的交互。而基于Web的问答系统能通过搜索引擎获取开放的互联网上的各种相关信息,并将以自然语言形式表述的准确答案返... 微软小冰引发了问答系统的新一轮研究热潮。作为一种新型的信息检索方式,问答系统能直接以自然语言与用户进行人性化的交互。而基于Web的问答系统能通过搜索引擎获取开放的互联网上的各种相关信息,并将以自然语言形式表述的准确答案返回给用户,因此此类系统同时具有搜索引擎和问答系统的优点。首先,对基于Web的问答系统的研究背景与发展历史进行了概述;然后,详细介绍了基于Web的问答系统的架构及其问题分析、信息检索、答案抽取这三大关键技术的研究进展;在此基础上,分析了基于Web的问答系统所面临的问题;最后,对基于Web的问答系统的未来发展趋势进行了展望。 展开更多
关键词 问答系统 基于web的问答系统 问题分析 信息检索 答案抽取
在线阅读 下载PDF
Web信息的语义概念检索 被引量:5
4
作者 刘维群 李元臣 《现代情报》 北大核心 2005年第7期74-76,共3页
文章分析了传统检索方法的不足,提出了一种新的基于语义概念的web信息检索系统。该模型利用自然语言处理技术,在语义层次上进行查询和检索,克服了传统检索方法的不足,提高了查全率与查准率。
关键词 信息检索 web信息 语义分析 语义概念
在线阅读 下载PDF
Web信息抽取技术在统一检索系统中的应用研究 被引量:7
5
作者 王权 施韶亭 《计算机应用与软件》 CSCD 2010年第10期120-122,137,共4页
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统... 结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。 展开更多
关键词 web信息抽取 统一检索 页面结构分析 关键信息块 子树广度
在线阅读 下载PDF
WEB超链分析及应用 被引量:4
6
作者 向桂林 《大学图书馆学报》 CSSCI 北大核心 2002年第2期48-51,共4页
文章分析了传统的基于文本处理的信息检索算法在处理WEB页面时遇到的问题,指出在处理WEB页面时,应分析页面中超链的意义,给出了超链分析在网络爬行和检索结果排序两个方面的应用及相应的算法。
关键词 web页面 超链分析 信息检索 检索结果排序 网络爬行 田比连图算法
在线阅读 下载PDF
Web页面信息主动检索模型 被引量:1
7
作者 袁鼎荣 钟宁 《智能系统学报》 2010年第2期112-116,共5页
单个页面信息量远远大于特定用户对页面中的信息需求.为快速准确从当前页面中获取特定用户所需求的兴趣信息,提出了页面信息主动检索模型.该检索模型中,根据页面Block特点将当前Web页面转化成信息树,根据用户过去的浏览行为构造用户特征... 单个页面信息量远远大于特定用户对页面中的信息需求.为快速准确从当前页面中获取特定用户所需求的兴趣信息,提出了页面信息主动检索模型.该检索模型中,根据页面Block特点将当前Web页面转化成信息树,根据用户过去的浏览行为构造用户特征树,挖掘用户特征树产生用户需求信息集,然后从当前页面中检索需求的信息,获取用户兴趣信息集.详述了主动检索的基本原理,给出了相应的算法描述,并通过实验证明了该模型具有可行性. 展开更多
关键词 页面Block 页面信息树 用户特征树 主动检索
在线阅读 下载PDF
网络计量学与Web挖掘对比研究 被引量:1
8
作者 赵蓉英 魏明坤 《情报杂志》 CSSCI 北大核心 2016年第3期131-136,共6页
[目的/意义]以网络计量学和Web挖掘的概念为出发点,对网络计量学与Web挖掘进行对比研究,掌握两者之间的区别与联系,有利于学者对网络计量学的深入研究。[方法/过程]利用Cite Space软件绘制网络计量学与Web挖掘领域研究热点可视化知识图... [目的/意义]以网络计量学和Web挖掘的概念为出发点,对网络计量学与Web挖掘进行对比研究,掌握两者之间的区别与联系,有利于学者对网络计量学的深入研究。[方法/过程]利用Cite Space软件绘制网络计量学与Web挖掘领域研究热点可视化知识图谱;运用词频分析方法,统计各领域的高频关键词;最后,通过对比分析法,比较两者研究方向的差异。[结果/结论]研究发现两者都是基于对网络数据的分析,其中网络计量学注重现象与结构研究,而Web挖掘注重算法与试验性研究;在研究对象层面,网络计量学侧重于学术领域的研究,对科研领域的贡献较大,而Web挖掘侧重于电子商务领域的研究,以商业利益为导向。 展开更多
关键词 网络计量学 web挖掘 信息检索 链接分析 大数据
在线阅读 下载PDF
基于生成式LLM的开源情报分析方法
9
作者 成磊峰 罗吉 +2 位作者 王磊 朱敏 陶思彤 《电讯技术》 北大核心 2025年第10期1545-1550,共6页
针对开源情报分析中网页信息提取问答问题,提出一种融合生成式大语言模型(Large Language Model,LM)、XPath与检索增强生成(Retrieval-Augmented Generation,RAG)的方法,涉及动态模板化提示策略与多粒度语义检索。动态模板基于情报类型... 针对开源情报分析中网页信息提取问答问题,提出一种融合生成式大语言模型(Large Language Model,LM)、XPath与检索增强生成(Retrieval-Augmented Generation,RAG)的方法,涉及动态模板化提示策略与多粒度语义检索。动态模板基于情报类型生成领域知识约束提示,提升实体提取精度;多粒度检索构建文档-段落-实体三级体系,结合BERT-Topk算法优化长文本信息定位。通过OpenKG知识库对齐实体构建属性-关系-事件三维网络,增强复杂事件逻辑分析。该方法在ClueWeb22与TAC-KBP2022数据集上的提取率为0.85,回答准确率为0.78,相比传统RAG,性能提升18%~31%。实际应用中,热点事件简报关键事实准确率达92%,综合成本仅为GPT-4的12%。 展开更多
关键词 开源情报分析 网页信息提取 生成式大语言模型 检索增强生成
在线阅读 下载PDF
超链接文本相关度的PageRank算法 被引量:1
10
作者 徐家树 邢立新 覃征 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2009年第1期223-225,共3页
为了提高PageRank算法检索结果的精确度,分析了PageRank算法的基本原理和存在的不足,提出了基于超链接文本语义相关性的超链接算法.算法的特点是提取页面的超链接文本,计算检索关键词与超链接文本的语义相关度,并结合PageRank超链接分... 为了提高PageRank算法检索结果的精确度,分析了PageRank算法的基本原理和存在的不足,提出了基于超链接文本语义相关性的超链接算法.算法的特点是提取页面的超链接文本,计算检索关键词与超链接文本的语义相关度,并结合PageRank超链接分析算法来估算页面的重要性.实验结果表明,该算法可以提高PageRank算法的检索精确度. 展开更多
关键词 超链接算法 web信息检索 web结构挖掘
在线阅读 下载PDF
结合网页结构与文本特征的正文提取方法 被引量:15
11
作者 熊忠阳 蔺显强 +1 位作者 张玉芳 牙漫 《计算机工程》 CAS CSCD 2013年第12期200-203,210,共5页
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去... 网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。 展开更多
关键词 正文提取 网页去噪 网页分块 主题爬行 信息检索 web挖掘
在线阅读 下载PDF
网页去噪:研究综述 被引量:18
12
作者 毛先领 何靖 闫宏飞 《计算机研究与发展》 EI CSCD 北大核心 2010年第12期2025-2036,共12页
互联网的快速发展已经使得网页数据成为目前各种应用与研究的重要数据源之一.网页数据包含各种内容,如广告、导航条、相关链接、正文等,然而对于不同的研究和应用来说,并非所有内容都是必需的,相反地,不相关的内容反而会影响研究和应用... 互联网的快速发展已经使得网页数据成为目前各种应用与研究的重要数据源之一.网页数据包含各种内容,如广告、导航条、相关链接、正文等,然而对于不同的研究和应用来说,并非所有内容都是必需的,相反地,不相关的内容反而会影响研究和应用的效果和效率,所以网页去噪是一个基础问题,且是目前热点研究的问题.因此很有必要对网页去噪领域进行总结,以便更好地进行深入研究.首先说明了网页去噪的必要性,并对网页去噪进行了定义和分类,概述了多种网页去噪的方法和框架,然后对评估网页去噪算法所使用的数据集和方法进行了总结,最后讨论了该领域存在的问题和今后的研究方向. 展开更多
关键词 网页去噪 数据挖掘 网络挖掘 信息检索 万维网
在线阅读 下载PDF
基于用户行为分析的搜索引擎自动性能评价 被引量:23
13
作者 刘奕群 岑荣伟 +2 位作者 张敏 茹立云 马少平 《软件学报》 EI CSCD 北大核心 2008年第11期3023-3032,共10页
基于用户行为分析的思路,提出了一种自动进行搜索引擎性能评价的方法.此方法能够基于对用户的查询和点击行为的分析自动生成导航类查询测试集合,并对查询对应的标准答案实现自动标注.基于中文商业搜索引擎日志的实验结果表明,此方法能... 基于用户行为分析的思路,提出了一种自动进行搜索引擎性能评价的方法.此方法能够基于对用户的查询和点击行为的分析自动生成导航类查询测试集合,并对查询对应的标准答案实现自动标注.基于中文商业搜索引擎日志的实验结果表明,此方法能够与人工标注的评价取得基本一致的评价效果,同时大大减少了评价所需的人力资源,并加快了评价反馈周期. 展开更多
关键词 网络信息检索 性能评价 用户行为分析
在线阅读 下载PDF
基于大规模日志分析的搜索引擎用户行为分析 被引量:120
14
作者 余慧佳 刘奕群 +2 位作者 张敏 茹立云 马少平 《中文信息学报》 CSCD 北大核心 2007年第1期109-114,共6页
用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们... 用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。 展开更多
关键词 计算机应用 中文信息处理 网络信息检索 搜索引擎 用户行为分析 点击信息分析
在线阅读 下载PDF
基于日志挖掘的搜索引擎用户行为分析 被引量:32
15
作者 岑荣伟 刘奕群 +2 位作者 张敏 茹立云 马少平 《中文信息学报》 CSCD 北大核心 2010年第3期49-54,共6页
随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日... 随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日志,对用户行为进行分析和研究。我们主要考察了用户搜索行为中的查询长度、查询修改率、相关搜索点击率、首次/最后一次点击位置分布以及查询内点击数分布等信息。该文还基于不同类型的查询集合,考察用户在不同查询需求下的行为差异性。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。 展开更多
关键词 计算机应用 中文信息处理 用户行为分析 搜索引擎 网络信息检索
在线阅读 下载PDF
基于网页框架和规则的网页噪音去除方法 被引量:17
16
作者 时达明 林鸿飞 杨志豪 《计算机工程》 CAS CSCD 北大核心 2007年第19期276-278,共3页
提出了一种基于网页框架和规则的网页去除噪音的新方法,该方法根据网页中HTML标签<table>将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字... 提出了一种基于网页框架和规则的网页去除噪音的新方法,该方法根据网页中HTML标签<table>将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字有关的标签<p>或<br>等来区分主题内容和噪音内容,在此基础上去除噪音内容。对来自CWT200G语料的132 559个网页进行测试后的结果表明,该方法可以有效地去除网页噪音,使索引文件减少约75%,大大地提高了检索速度,准确度也得到一定提高。 展开更多
关键词 信息检索 网页噪音 页面框架
在线阅读 下载PDF
基于改进决策树算法的网络关键资源页面判定 被引量:12
17
作者 刘奕群 张敏 马少平 《软件学报》 EI CSCD 北大核心 2005年第11期1958-1966,共9页
关键资源页面是网络信息环境中一种重要的高质量页面,是用户进行网络信息检索的主要目标.决策树算法是机器学习中应用最广的归纳推理算法之一,适用于关键资源页面的判定.然而由于Web数据均一采样的困难性,算法缺乏有足够代表性的反例进... 关键资源页面是网络信息环境中一种重要的高质量页面,是用户进行网络信息检索的主要目标.决策树算法是机器学习中应用最广的归纳推理算法之一,适用于关键资源页面的判定.然而由于Web数据均一采样的困难性,算法缺乏有足够代表性的反例进行训练.为了解决这个问题,提出一种利用训练样例的统计信息而非个体信息进行学习的改进决策树算法,并利用这种算法实现了独立用户查询的关键资源页面判定.在2003年文本信息检索会议(TextRetrievalConference,简称TREC)标准的评测条件下,基于此种改进决策树算法的大规模网络信息检索实验获得了超过基本算法40%的性能提高.这不仅提供了一种查找Web关键资源页面的有效方式,也给出了提高决策树算法性能的一个可行途径. 展开更多
关键词 网络信息检索 关键资源页面 机器学习 决策树
在线阅读 下载PDF
第三代搜索引擎与天网二期 被引量:18
18
作者 雷鸣 王建勇 +2 位作者 赵江华 单松巍 陈葆珏 《北京大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第5期734-740,共7页
论述了三代搜索引擎的发展 ,着重介绍了第三代搜索引擎的体系结构 ,详细讨论了该搜索引擎的几个核心技术———大规模搜集技术、超链分析技术和用户行为分析技术。介绍了作者参与研发的第三代搜索引擎———“天网”的研究进展 。
关键词 WWW 搜索引擎 信息检索 超链分析 用户行为分析 大规模搜集技术 体系结构
在线阅读 下载PDF
基于布局相似性的网页正文内容提取研究 被引量:10
19
作者 杨柳青 李晓东 耿光刚 《计算机应用研究》 CSCD 北大核心 2015年第9期2581-2586,共6页
合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性... 合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性的网页正文提取方法,即通过比对来自同一网站同一专题的网页DOM树中节点数据信息的相似性来实现正文提取,并对相关问题进行了尝试性的研究和实现。实验证明该方法思路简单、实用性强、普适性好,在满足较高准确率的同时,能为众多互联网内容分析应用提供支撑。 展开更多
关键词 布局相似性 网页正文提取 信息检索
在线阅读 下载PDF
基于扩展领域模型的有名属性抽取 被引量:13
20
作者 王宇 谭松波 +1 位作者 廖祥文 曾依灵 《计算机研究与发展》 EI CSCD 北大核心 2010年第9期1567-1573,共7页
网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中... 网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中分离出一个可以完全自动化的信息抽取子任务,即有名属性抽取任务.在多个领域的数据集上进行的统计表明,这个子任务覆盖了60%以上的待抽取属性,因此它在整个信息抽取中占有重要地位.并给出了一种基于扩展领域模型的有名属性抽取方法,实验结果表明,这种方法的准确率接近或大于80%,召回率大于90%. 展开更多
关键词 信息抽取 属性抽取 有名属性 扩展领域模型 网页视觉分析
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部