-
题名互联网上主题信息的一种收集与处理模型及其应用
被引量:12
- 1
-
-
作者
李晓明
朱家稷
闫宏飞
-
机构
北京大学计算机科学技术系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2003年第12期1667-1671,共5页
-
基金
国家"九七三"重点基础研究发展规划项目 (G19990 3 2 70 6)
中国科学院软件研究所计算机科学实验室开放课题基金项目(SYSKF0 3 0 2 )
-
文摘
互联网上的信息是社会状况的一种反映 ,可以被人们从多种不同的角度来关心 而有了计算机作为工具 ,这种“关心”的深度和广度就能够大大地拓展 提出一种模型 ,基于它实现的一套程序和过程能够针对人们关心的热点主题 ,系统地对网上的信息进行收集和分析 ,从不同的角度和层次得出互联网对该主题报道的强度 ,对社会科学类研究具有一定的参考价值 利用这个模型 (和相应的系统 ) ,以 2 0 0 2年 11月 8日为中心 ,以“十六大”为主题 ,前后分别扩展半个月 ,对中国互联网上的信息进行了跟踪研究 ,得出了在这些天里和“十六大”相关信息占总信息量的 7 3% ;从 2 0 0 2年 11月2日开始 ,“十六大”相关信息量逐日递增 ,在 2 0 0 2年 11月 2
-
关键词
互联网信息挖掘
模型
“十六大”
-
Keywords
Web mining
model
16th Congress
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名数据挖掘专利综述
被引量:8
- 2
-
-
作者
刘晓东
刘大有
-
机构
吉林大学计算机科学与技术学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2003年第z1期1989-1993,共5页
-
基金
国家自然科学基金 (No .60 1 730 0 6)
-
文摘
尽管科学研究专利是反映科学研究成果的一个重要方面 ,专利申请本身是一项重要的科学研究工作 ,但是长期以来 ,专利所包含的科学研究成果在文献中却没有得到充分的反映 .由此 ,对著名的美国专利和商标委员会数据库 (USPATENT&TRADEMARKOFFICEDATABASE)中数据挖掘专利的授权情况进行了分析 .对于专利授权比较集中的领域—关联规则、互联网挖掘、聚类算法和并行数据挖掘等方面中的代表性专利进行了总结和分析 .最后 。
-
关键词
数据挖掘
专利
关联规则
互联网挖掘
聚类算法
并行数据挖掘
-
Keywords
data mining
patent
association rules
web mining
clustering algorithms
parallel data mining
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名Web用户行为预测的一种新模型及算法
被引量:8
- 3
-
-
作者
高卫华
谢康林
-
机构
上海交通大学计算机科学与工程系
-
出处
《计算机应用与软件》
CSCD
北大核心
2007年第3期142-144,162,共4页
-
文摘
有效地预测互联网用户在浏览过程中的行为方向,尽可能有针对性的提供其感兴趣的信息,有助于提高网站的服务质量,最大限度地留住客户。马尔科夫模型是解决这一问题的一种有效建模方式。但是该模型,尤其是高阶马尔科夫模型的指数级复杂度大大影响了其实际的应用。建立新的模型需要权衡自身的预测准确度与复杂度,尽可能保持前者,同时降低后者。结合马尔科夫模型和有向图特点,提出了一种新的建模方式。新模型具有与马尔科夫模型相同的预测准确度,但是各种时间、空间复杂度相对较低,综合性能良好。
-
关键词
马尔科夫
有向图
互联网使用挖掘
互联网用户行为预测
-
Keywords
Markov Directed graph Web usage mining Prediction of web user's directions
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-