题名 基于层次概念的用户兴趣模型研究
被引量:6
1
作者
张彦
张永奎
安增波
王鹏
机构
山西大学计算机与信息技术学院
中国人民解放军
出处
《计算机工程与设计》
CSCD
北大核心
2008年第1期181-183,共3页
基金
国家自然科学基金项目(60475022)
山西省自然科学基金项目(20041041)
山西省回国留学人员基金项目(2002004)
文摘
使用基于关键词匹配的方法,分析了HTML语言描述的Web文档,提取网页中有用的特征信息,得到两类标记中的内容:一类是网页的全局描述信息,如<TITLE></TITLE>和<META></META>;另一类起局部修饰作用,强调了网页的部分内容,如<Hn>。从而提出了基于层次概念的用户模型,并使用向量空间模型方法建立了以突发事件新闻为基础的用户兴趣模型。实验表明,这种方法有一定的可行性。
关键词
层次分析
用户模型
个性化服务
Web突发事件新闻
中文信息处理
Keywords
analytic hierarchy
user model
personalization service
web accidental news
Chinese information processing
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 Web新闻语料分词和标注错误分析
被引量:4
2
作者
张永奎
张彦
安增波
刘睿
机构
山西大学计算机与信息技术学院
计算智能与中文信息处理省部共建教育部重点实验室
中国人民解放军
出处
《计算机工程与应用》
CSCD
北大核心
2007年第15期166-169,共4页
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60475022)
山西省自然科学基金(the Natural Science Foundation of Shanxi Province of China under Grant No.20041041)
山西省回国留学人员基金(No.2002004)。
文摘
通过分析Web突发事件语料库文本的加工统计得出11类错误类型,并对其中的一些错误提出了解决方案。研究结果不仅对语料库加工初期分词、标注方法的改进有启发作用,而且对中文的自动校对方法,提供一定的借鉴。
关键词
中文信息处理
分词
词性标注
错误类型
Web突发事件新闻语料库
Keywords
Chinese information processing
word segmentation
part of speech tagging
inaccurate style
Web accidental news corpora
分类号
TP391
[自动化与计算机技术—计算机应用技术]