-
题名Web日志数据挖掘的数据预处理方法研究
被引量:31
- 1
-
-
作者
张娥
郑斐峰
冯耕中
-
机构
西安交通大学管理学院
-
出处
《计算机应用研究》
CSCD
北大核心
2004年第2期58-60,共3页
-
文摘
主要介绍了Web用户访问日志数据挖掘数据预处理过程,综述了国际上的研究现状,流行的预处理方法。在对用户访问行为的合理假定基础上,最后提出了基于综合最大前向参引模型和时间窗口模型的新方法。
-
关键词
web用户访问日志数据挖掘
数据预处理方法
-
Keywords
web Usage Data Mining
Data Preparation Method
-
分类号
TP274.2
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于主题序列模式的旅游产品推荐引擎
被引量:9
- 2
-
-
作者
朱桂祥
曹杰
-
机构
南京理工大学计算机科学与工程学院
南京财经大学江苏省电子商务重点实验室
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2018年第5期920-932,共13页
-
基金
国家自然科学基金项目(91646204
71372188)
+2 种基金
国家电子商务信息处理联合研究中心项目(2013B01035)
江苏省科技支撑计划工业项目(BE2014141)
江苏省属高校自然科学研究重大项目(14KJA520001)~~
-
文摘
旅游产品推荐是当前推荐系统研究领域中的新兴议题之一.由于旅游产品描述信息维度多样复杂、"用户-产品"关联矩阵极为稀疏且冷启动问题突出,已经在电子商务领域获得成功的协同过滤推荐往往难以直接被应用于旅游产品推荐.提出基于主题序列模式的旅游产品推荐引擎SECT,试图通过在线旅游网站点击日志的挖掘产生推荐.首先,从页面语义描述文本中挖掘主题,以在泛化层面捕捉用户行为模式;其次,从页面访问时间序列数据中挖掘频繁序列模式及其候选产品集,形成序列模式库;最后,提出Markov n-gram模型,完成用户实时点击流与模式库匹配计算.为了提升在线匹配计算的效率,设计一种新的多叉树数据结构PSC-tree用于存储历史模式库,并与在线计算模块无缝衔接.在真实旅游数据集上的实验结果表明:该推荐引擎比传统推荐算法具有更优越的性能,而且能有效提升冷启动用户的推荐率和准确率.此外,针对长尾物品的推荐,SECT也优于基准算法.
-
关键词
旅游产品推荐
频繁序列模式
冷启动用户
web日志数据
推荐系统
-
Keywords
travel recommendation
frequent sequential pattern
cold -start users
web server logs
recommender system
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-