-
题名Page Rank判断网页质量的可靠性分析
被引量:3
- 1
-
-
作者
袁毅
徐曼
-
机构
中国矿业大学文法学院
-
出处
《情报杂志》
CSSCI
北大核心
2006年第2期58-60,共3页
-
基金
中国矿业大学2005年社科专项基金资助
-
文摘
互联网上存在大量低质量甚至错误的信息,直接影响了互联网信息的使用和传播,通过实例对PageRank评价网页质量的可靠性及可行性进行了研究,并对使用PageRank评价网页质量时值得注意的问题进行了探讨。
-
关键词
网页质量
评价
PAGERANK
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TB114.3
[理学—概率论与数理统计]
-
-
题名网页质量评价体系的研究
被引量:4
- 2
-
-
作者
魏超
陈飞
许丹青
张敏
刘奕群
马少平
-
机构
智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系
-
出处
《中文信息学报》
CSCD
北大核心
2011年第5期3-8,共6页
-
基金
自然科学基金资助项目(60736044
60903107
+1 种基金
61073071)
高等学校博士学科点专项科研基金资助项目(20090002120005)
-
文摘
网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力,大量冗余、低质量乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费,在这种情况下,如何建立适合万维网实际应用环境的网页数据质量评估体系与评估算法成为了信息检索领域的重要研究课题。在前人工作的基础上,通过网络用户及网页设计人员的参与,文章提出了包括权威知名度、内容、时效性和网页外观呈现四个维度十三个因素的网页质量评价体系;标注数据显示我们的网页质量评价体系具有较强的可操作性,标注结果比较一致;文章最后使用Ordinal Logistic Regres-sion模型对评价体系的各个维度的重要性进行了分析并得出了一些启发性的结论:互联网网页内容和实效性能否满足用户需求是决定其质量的重要因素。
-
关键词
信息检索
网页质量评价
ORDINAL
LOGISTIC
Regression
-
Keywords
information retrieval
web page quality evaluation
Ordinal Logistic Regression
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于社会性标注的网页排序算法
被引量:19
- 3
-
-
作者
刘凯鹏
方滨兴
-
机构
哈尔滨工业大学计算机网络与信息安全技术研究中心
中国科学院计算技术研究所网络重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2010年第6期1014-1023,共10页
-
基金
国家自然科学基金(60703014
60933005)
+4 种基金
国家"九七三"重点基础研究发展规划项目基金(G2007CB311100)
国家"八六三"高技术研究发展计划项目基金(2006AA010105-02
2007AA01Z416
2007AA01Z442
2009AA01Z437)资助~~
-
文摘
社会性标注作为一种新的资源管理和共享方式,吸引为数众多的用户参与其中,由此产生的大量社会性标注数据成为网页质量评价的一个新维度.文中研究如何利用社会性标注改进网页检索性能,提出一种有机结合网页和用户的查询相关性与互增强关系的网页排序算法.首先利用统计主题模型,使用相关标签为网页和用户建模,并计算查询相关性.然后利用二部图模型刻画网页和用户间的互增强关系,并使用相关标签与用户兴趣和网页内容的匹配度为互增强关系赋予权重.最后结合查询相关性和互增强关系,以迭代方式同时计算网页和用户的评分.实验结果表明,文中提出的检索模型和互增强模型能够有效地提高排序算法的性能.与目前的代表性算法相比,该算法在检索性能上有明显提高.
-
关键词
社会性标注
网页检索
网页质量
排序算法
主题模型
-
Keywords
social annotations
page retrieval
page quality
ranking algorithm
topic models
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于中央控制节点的分布式网络蜘蛛的设计与实现
- 4
-
-
作者
王颖
钟勇
朱颢东
-
机构
中国科学院成都计算机应用研究所
中国科学院研究生院
-
出处
《计算机应用》
CSCD
北大核心
2010年第12期316-318,共3页
-
基金
四川省科技计划项目(2008GZ0003)
四川省科技攻关项目(07GG006-019)
-
文摘
针对互联网日益增长的网页数量,提出了一种采用分布式技术设计实现的分布式网络蜘蛛(DWS)。该系统作为搜索引擎的前端,快速有效地下载网页,以获得整个Internet更加完整的映像。DWS设置中央控制节点来协调各个Web Spider的行为,以宽度优先搜素获得高质量的网页,通过对域名系统(DNS)缓存来提高访问Web Server的速度,增加并行线程数量增加下载速度,并能动态地加入Web Spider节点或子中央控制节点,具有很强的灵活性和扩张能力。
-
关键词
分布式网络蜘蛛
网页质量
搜索引擎
分布式计算
-
Keywords
Distributed Web Spider(DWS)
page quality
search engine
distributed computing
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名“点击率”小议
被引量:2
- 5
-
-
作者
肖正德
-
出处
《中国档案》
北大核心
2003年第6期41-41,共1页
-
文摘
我们的时代正在走向信息时代、网络时代。档案信息化、网络化已成为档案事业发展的必然趋势,各地档案部门创办的档案网站(主页)如雨后春笋般涌现。于是,作为档案网站质量标志的“点去率”就越来越受到人们的关注。 一般说来,登陆你网站的人越多,也就是点击率越高,说明你的网站办得越好。点击率在一定程度上反映了你这个网站的水平。经常造访档案网站的网民不难发现,一些建站较早却很少更新内容的网站,其点击率还在四位数上徘徊,而一些办得好的档案网站点击率扶摇直上,如上海档案信息网和北京市档案局馆的网站均已突破10万大关。
-
关键词
档案工作
档案信息化
档案网站点击率
档案利用
档案工作统计
网页质量
网站宣传
-
分类号
G279.2
[文化科学—档案学]
-