期刊文献+
共找到588篇文章
< 1 2 30 >
每页显示 20 50 100
基于PageRank的Web挖掘改进算法 被引量:10
1
作者 焦金涛 《计算机工程》 CAS CSCD 北大核心 2009年第15期284-284,F0003,共2页
针对Google使用的PageRank算法,提出一种改进的Web挖掘算法。实现该算法时,将网页使用信息和网页添加日期信息做成点击向量和日期向量,2个向量加权后标准化得到的一个向量作为常数加入到改进的迭代算法。实验结果证明,改进算法可以提高... 针对Google使用的PageRank算法,提出一种改进的Web挖掘算法。实现该算法时,将网页使用信息和网页添加日期信息做成点击向量和日期向量,2个向量加权后标准化得到的一个向量作为常数加入到改进的迭代算法。实验结果证明,改进算法可以提高网页重要性判断的准确度。 展开更多
关键词 搜索引擎 网页 pageRANK算法
在线阅读 下载PDF
PageCluster:一种Web页面层次聚类方法
2
作者 吴萍 宋瀚涛 姜峰 《计算机工程与应用》 CSCD 北大核心 2004年第29期84-86,共3页
提出了Web页面聚类算法PageCluster及相应的改进算法ImPageCluster。该方法在兼顾Web站点结构和页面链接的同时,基于各个页面的重要程度对各个超链接进行赋权。与传统聚类算法相比,该算法不需要事先给定相似度阈值。实验结果证实了该算... 提出了Web页面聚类算法PageCluster及相应的改进算法ImPageCluster。该方法在兼顾Web站点结构和页面链接的同时,基于各个页面的重要程度对各个超链接进行赋权。与传统聚类算法相比,该算法不需要事先给定相似度阈值。实验结果证实了该算法的可行性和高效性。 展开更多
关键词 聚类 web页面 超链接 相似矩阵 pageCluster ImpageCluster
在线阅读 下载PDF
基于DVB和IP双结构传输模式的复合流式虚拟视频点播系统设计 被引量:1
3
作者 李玉华 邱心莹 邹璇 《现代电子技术》 北大核心 2025年第4期63-67,共5页
当虚拟视频点播系统遇到高访问量时会使其服务器负荷过大,导致视频传输速度下降、播放不连续。因此,设计一种基于DVB和IP双结构传输模式的复合流式虚拟视频点播系统,以适应用户需求和网络条件,动态调整视频流的传输质量和分辨率。构建基... 当虚拟视频点播系统遇到高访问量时会使其服务器负荷过大,导致视频传输速度下降、播放不连续。因此,设计一种基于DVB和IP双结构传输模式的复合流式虚拟视频点播系统,以适应用户需求和网络条件,动态调整视频流的传输质量和分辨率。构建基于DVB和IP双结构传输模式的复合流式虚拟视频点播系统框架,终端用户通过基础服务层的Web页面提交视频点播申请后,从视频编排层获取点播视频;控制层的播出控制模块调取PBHS算法来实现网络资源受限下的带宽自适应分配,以动态地调整不同带宽占用,优化网络资源利用,提高传输效率。通过视频传送模块输出点播视频,利用传输层的IP和DVB双结构传输模式将其输送到应用层,最终可视化呈现给用户。实验结果表明,所设计系统可实现虚拟视频点播,视频播放连续不卡顿、画面分辨率高,信令延迟仅34 ms,视频传输速度达到18 Mb/s,平均点播时间为1 320 ms,且拒绝用户数少。 展开更多
关键词 DVB IP传输 视频点播 复合流 web页面 PBHS算法 播出控制
在线阅读 下载PDF
Web页面清洗技术的研究与实现 被引量:20
4
作者 周源远 王继成 +1 位作者 郑刚 张福炎 《计算机工程》 CAS CSCD 北大核心 2002年第9期48-50,197,共4页
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的... 文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。 展开更多
关键词 web页面 清洗技术 文本块 链接块 DOM 解析器 Internet 信息检索
在线阅读 下载PDF
基于用户搜索意图的Web网页动态泛化 被引量:14
5
作者 王大玲 于戈 +2 位作者 鲍玉斌 张沫 沈洲 《软件学报》 EI CSCD 北大核心 2010年第5期1083-1097,共15页
基于目前对用户搜索意图的分类,进一步分析了每种用户意图的信息需求,提出了基于用户搜索意图的Web网页动态泛化模型,为搜索的Web网页动态地建立文档片段、关键词、导航类型、文档格式之间的概念层次,通过网页内容、类型和格式的泛化为... 基于目前对用户搜索意图的分类,进一步分析了每种用户意图的信息需求,提出了基于用户搜索意图的Web网页动态泛化模型,为搜索的Web网页动态地建立文档片段、关键词、导航类型、文档格式之间的概念层次,通过网页内容、类型和格式的泛化为不同的访问意图提供进一步的搜索导航,从而返回与搜索意图更相关的结果.与相关工作对比,重点并非获取用户意图,也不是对用户意图分类,而是基于用户搜索意图的Web网页动态泛化模型的建立及Web网页泛化过程的实现.实验结果表明,该泛化模型不仅能够通过导航自动获取用户搜索意图,而且能够基于该意图提供相关搜索结果以及进一步的搜索导航. 展开更多
关键词 网页泛化 用户意图 动态建模 搜索导航 文本挖掘
在线阅读 下载PDF
Web网页识别中的特征选择问题研究 被引量:29
6
作者 朱明 王军 王俊普 《计算机工程》 CAS CSCD 北大核心 2000年第8期35-37,共3页
对Web网页识别中有关特征选择的两个重要问题进行了较为深入的探讨.提出了一种新的描述特征选择方法,并将其与3种已有的描述特征选择方法进行实验比较,证实其有效性;此外还对5种在文本归类中,具有代表性的识别特征选择方法在... 对Web网页识别中有关特征选择的两个重要问题进行了较为深入的探讨.提出了一种新的描述特征选择方法,并将其与3种已有的描述特征选择方法进行实验比较,证实其有效性;此外还对5种在文本归类中,具有代表性的识别特征选择方法在Web网页识别中的实际应用效果进行了评估比较,并发现信息增益和统计方法,选择识别特征效果最佳. 展开更多
关键词 特征选择 网页分类 机器学习 web 网页识别
在线阅读 下载PDF
基于本体的Web信息抽取系统 被引量:14
7
作者 王志华 魏斌 +1 位作者 李占波 赵伟 《计算机工程与设计》 CSCD 北大核心 2012年第7期2634-2639,共6页
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架。对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文... 为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架。对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案。实验结果表明,该方法可以得到性能较高的抽取结果。 展开更多
关键词 本体 信息抽取 web页面 关键技术 抽取框架
在线阅读 下载PDF
基于结果模式的Deep Web数据抽取 被引量:15
8
作者 马安香 张斌 +2 位作者 高克宁 齐鹏 张引 《计算机研究与发展》 EI CSCD 北大核心 2009年第2期280-288,共9页
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式... 高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础. 展开更多
关键词 DEEP web 数据集成 数据抽取 结果模式 语义标注 网页数据特征矩阵
在线阅读 下载PDF
面向Web的信息收集工具的设计与开发 被引量:14
9
作者 潘春华 常敏 武港山 《计算机应用研究》 CSCD 北大核心 2002年第6期144-147,共4页
随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系... 随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。 展开更多
关键词 web 信息收集工具 设计 页面收集 信息处理 网络爬虫 万维网 INTERNET
在线阅读 下载PDF
基于网页链接和内容分析的改进PageRank算法 被引量:25
10
作者 钱功伟 倪林 +1 位作者 MIAO Yuan 曹荣 《计算机工程与应用》 CSCD 北大核心 2007年第21期160-164,共5页
结合网页链接分析和网页内容相关性分析提出一种改进的PageRank算法EPR(Extended PageRank),从分析网页内容相似性的角度解决相关性需求,从网页链接分析的角度解决权威性需求。算法为扩展PageRank提供了广阔的空间,并且实验证明,通过选... 结合网页链接分析和网页内容相关性分析提出一种改进的PageRank算法EPR(Extended PageRank),从分析网页内容相似性的角度解决相关性需求,从网页链接分析的角度解决权威性需求。算法为扩展PageRank提供了广阔的空间,并且实验证明,通过选择合适的参数EPR算法可以获得优于传统PageRank算法的排序结果。 展开更多
关键词 pageRANK 网页排序 链接分析 相关性分析
在线阅读 下载PDF
Web页面中文文本主题的自动提取研究 被引量:12
11
作者 韩客松 王永成 滕伟 《情报学报》 CSSCI 北大核心 2001年第2期217-223,共7页
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的... Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。 展开更多
关键词 web页面文本 主题抽取 加权 机器标引 主题标引
在线阅读 下载PDF
Web日志的高效多能挖掘算法 被引量:115
12
作者 宋擒豹 沈钧毅 《计算机研究与发展》 EI CSCD 北大核心 2001年第3期328-333,共6页
通过对 Web服务器日志文件和客户交易数据进行分析 ,可以发现相似客户群体、相关 Web页面和频繁访问路径 .提出了一种新颖的 Web日志挖掘算法 .在该算法中 ,首先以 Web站点 URL 为行、以 User ID为列建立URL- User ID关联矩阵 ,元素值... 通过对 Web服务器日志文件和客户交易数据进行分析 ,可以发现相似客户群体、相关 Web页面和频繁访问路径 .提出了一种新颖的 Web日志挖掘算法 .在该算法中 ,首先以 Web站点 URL 为行、以 User ID为列建立URL- User ID关联矩阵 ,元素值为用户的访问次数 ,然后 ,对列向量进行相似性分析得到相似客户群体 ,对行向量进行相似性度量获得相关 Web页面 ,对后者再进一步处理还可以发现频繁访问路径 . 展开更多
关键词 电子商务 web 日志挖掘 INTERNET 数据挖掘 算法
在线阅读 下载PDF
Web页面视觉搜索与浏览策略的眼动研究 被引量:17
13
作者 栗觅 钟宁 吕胜富 《北京工业大学学报》 EI CAS CSCD 北大核心 2011年第5期773-779,共7页
利用眼动跟踪技术,探讨W eb页面视觉搜索和浏览的视觉特征,并分析2种视觉行为对应策略的差异.实验结果发现,视觉搜索时,周边区域的注视时间和注视次数显著大于中心区域;而视觉浏览时,周边区域和中心区域没有显著差异.而且,视觉搜索时的... 利用眼动跟踪技术,探讨W eb页面视觉搜索和浏览的视觉特征,并分析2种视觉行为对应策略的差异.实验结果发现,视觉搜索时,周边区域的注视时间和注视次数显著大于中心区域;而视觉浏览时,周边区域和中心区域没有显著差异.而且,视觉搜索时的瞳孔直径显著大于浏览时的瞳孔直径,说明视觉搜索时的心理负荷显著大于浏览时的心理负荷.结果表明,在W eb页面上视觉搜索呈现周边区域的视觉搜索策略,而对于视觉浏览更多采用无明显规律的自由随机浏览策略.这种视觉搜索与浏览策略的差异主要是来自目标驱动和心理负荷大小的影响. 展开更多
关键词 web页面 视觉搜索 视觉浏览 眼动
在线阅读 下载PDF
基于中心性和PageRank的网页综合评分方法 被引量:8
14
作者 乔少杰 彭京 +3 位作者 李天瑞 李红 李太勇 王超 《西南交通大学学报》 EI CSCD 北大核心 2011年第3期456-460,共5页
为准确、高效地对网页进行评分,提出了一种基于中心性(结点度、居间度和紧密度)和PageRank算法的网页评分方法CentralRank.它采用PageRank算法计算网页分数,借助中心性度量的方法计算页面在Web社会网络中的重要性.为了验证CentralRank... 为准确、高效地对网页进行评分,提出了一种基于中心性(结点度、居间度和紧密度)和PageRank算法的网页评分方法CentralRank.它采用PageRank算法计算网页分数,借助中心性度量的方法计算页面在Web社会网络中的重要性.为了验证CentralRank的性能优势,设计了一个网页抓取器,可利用该抓取器自动、准确地下载网页信息.该网页抓取器集成了网络信息采集、页面内容分析和页面消重3项技术.基于大量真实数据的实验结果表明:CentralRank在保证网页评分时间性能的前提下,比单纯基于中心性的网页评分算法和PageRank算法更准确、有效,预测准确性分别提高约14.2%和7.5%. 展开更多
关键词 社会网络分析 web社会网络 中心性 pageRANK算法 网页评分
在线阅读 下载PDF
一种基于Web的分布式信息管理系统 被引量:8
15
作者 黄浩 朱绍文 +3 位作者 张大斌 王泉德 胡宏银 陆玉昌 《计算机工程与应用》 CSCD 北大核心 2001年第14期120-122,共3页
介绍了一种基于Web的分布式信息系统的设计与实现,主体用Sybase的PowerDynamo实现,整体的设计与实现充分利用分布式系统的优点,结合二层、三层分布式系统的特长,不仅使局部数据能通过浏览器发布,而且也能方便... 介绍了一种基于Web的分布式信息系统的设计与实现,主体用Sybase的PowerDynamo实现,整体的设计与实现充分利用分布式系统的优点,结合二层、三层分布式系统的特长,不仅使局部数据能通过浏览器发布,而且也能方便地发布全局数据。 展开更多
关键词 分布式系统 动态网页 分布式数据库
在线阅读 下载PDF
一种松耦合高复用MVC模式的Web分页实现 被引量:12
16
作者 何玲娟 蚁龙 刘连臣 《计算机工程与应用》 CSCD 北大核心 2007年第15期95-97,共3页
MVC设计模式下常见Web分页方案存在一些不足,针对降低耦合性和提高复用性提出了改进方案,并通过在数据层引入Hibernate框架,服务层引入Bridge桥接模式,表示层引入Struts框架对改进方案加以实现。
关键词 web分页 MVC J2EE技术
在线阅读 下载PDF
一种基于节点密度分割和标签传播的Web页面挖掘方法 被引量:13
17
作者 张乃洲 曹薇 李石君 《计算机学报》 EI CSCD 北大核心 2015年第2期349-364,共16页
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中... 获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性. 展开更多
关键词 页面分割 节点密度 标签传播 DOM树 块分类 社会计算 社交网络
在线阅读 下载PDF
基于Web的新闻文本分类技术的研究 被引量:7
18
作者 胡凌云 胡桂兰 +1 位作者 徐勇 李龙澍 《安徽大学学报(自然科学版)》 CAS 北大核心 2010年第6期66-70,共5页
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基... 从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果. 展开更多
关键词 网页解析 文本 分类
在线阅读 下载PDF
基于页面Block的Web档案采集和存储 被引量:12
19
作者 宋杰 王大玲 +1 位作者 鲍玉斌 申德荣 《软件学报》 EI CSCD 北大核心 2008年第2期275-290,共16页
提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,... 提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,所提出的基于页面Block的Web档案(Web archive)采集和存储方法能够很好地适应Web档案的管理方式,并对基于Web档案的查询、搜索、知识发现和数据挖掘等应用提供有利的数据资源. 展开更多
关键词 web档案 页面分区 页块
在线阅读 下载PDF
关于中国Web的大小、形状和结构 被引量:17
20
作者 闫宏飞 李晓明 《计算机研究与发展》 EI CSCD 北大核心 2002年第8期958-967,共10页
基于天网搜索引擎连续 4次的大规模搜集记录 ,揭示了中国 2 0 0 2年初中国 Web的大小、形状和结构 .主要结论包括有 :1中国大约有 5 0 0 0万网页和 5万个 Web站点 ;2全国不到 1/ 3的省市拥有 2 / 3强数目的网站 ;3中国网络是高度连通的 ... 基于天网搜索引擎连续 4次的大规模搜集记录 ,揭示了中国 2 0 0 2年初中国 Web的大小、形状和结构 .主要结论包括有 :1中国大约有 5 0 0 0万网页和 5万个 Web站点 ;2全国不到 1/ 3的省市拥有 2 / 3强数目的网站 ;3中国网络是高度连通的 ,Web直径是 17;4网页入度分布很好地符合幂级数定律 ;5有确凿证据显示 。 展开更多
关键词 web 网站 网页 互连结构 搜索引擎 INTERNET
在线阅读 下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部