-
题名Deep Web数据采集查询构造方法研究
被引量:2
- 1
-
-
作者
林海伦
杨晓刚
熊锦华
王元卓
贾岩涛
程学旗
-
机构
中国科学院计算技术研究所网络数据科学与技术重点实验室
新华社技术局实验室
-
出处
《计算机科学与探索》
CSCD
北大核心
2015年第9期1025-1033,共9页
-
基金
国家自然科学基金Nos.61173008
61232010
+5 种基金
61303244
61402442
国家重点基础研究发展计划(973计划)Nos.2014CB340401
2013CB329602
北京市科技新星计划项目No.Z121101002512063
北京市自然科学基金No.4154086~~
-
文摘
网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查询构造方法的优缺点,并对Deep Web数据采集查询构造方法的未来工作进行了展望,以推动Deep Web数据采集技术的进一步发展。
-
关键词
DEEP
WEB
查询接口
查询构造
网络爬虫
-
Keywords
Deep Web
query interface
query construction
Web crawler
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于用户浏览日志的上下文相关新闻推荐
被引量:8
- 2
-
-
作者
张骁逸
苏宇
晏小辉
-
机构
北京邮电大学理学院
新华社技术局技术实验室
中国科学院计算技术研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2016年第22期99-104,共6页
-
基金
新华社713实验室技术研究项目
国家973重点基础研究发展计划(No.2014CB340406)
国家自然科学基金青年项目(No.61202213)
-
文摘
个性化新闻推荐的难点在于用户在浏览新闻时目的性不强,容易受各种环境因素的影响,导致其浏览行为难以预测。以往的研究仅仅强调推荐内容相关的或者和用户长期兴趣相匹配的新闻,忽视了环境因素的影响。为此,需要研究上下文相关的新闻推荐算法。具体做法是从用户的浏览日志中提取上下文相关特征,然后训练一个Logistic回归模型来预测用户接下来最可能阅读的新闻。真实数据上的实验结果表明,上下文相关新闻推荐方法效果明显好于传统方法,也验证了上下文信息对用户浏览行为的重要影响。
-
关键词
新闻推荐
上下文相关
LOGISTIC回归
-
Keywords
news recommendation
context awareness
Logistic regression
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-