题名 突发事件Web新闻中时间信息分析及抽取
被引量:11
1
作者
蔡华利
刘鲁
刘志明
杨跃翔
机构
北京航空航天大学经济管理学院
中国标准化研究院质量管理分院
出处
《计算机工程与应用》
CSCD
北大核心
2010年第34期107-110,共4页
基金
国家自然科学基金(No.90924020
No.70971005)
国家科技支撑计划重大专项(No.2006BAK04A23)~~
文摘
为了更深入地挖掘突发事件Web新闻并应用于应急管理,提出了突发事件Web新闻时间抽取方法。首先引入中文的时间关系理论;然后从突发事件Web新闻的时间构成、时间位置特征以及时间常用词三个方面分析了突发事件Web新闻的表达特征;基于此,提出突发事件Web新闻的时间抽取方法,通过统计学习,正确率较理想;最后,基于已抽取到的事件发生时间信息,程序实现了突发事件Web新闻排序。
关键词
突发事件
发生时间
web 新闻 排序
信息抽取
Keywords
emergencies
occurring time
web news ranking
information extraction
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 Web新闻语料分词和标注错误分析
被引量:4
2
作者
张永奎
张彦
安增波
刘睿
机构
山西大学计算机与信息技术学院
计算智能与中文信息处理省部共建教育部重点实验室
中国人民解放军
出处
《计算机工程与应用》
CSCD
北大核心
2007年第15期166-169,共4页
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60475022)
山西省自然科学基金(the Natural Science Foundation of Shanxi Province of China under Grant No.20041041)
山西省回国留学人员基金(No.2002004)。
文摘
通过分析Web突发事件语料库文本的加工统计得出11类错误类型,并对其中的一些错误提出了解决方案。研究结果不仅对语料库加工初期分词、标注方法的改进有启发作用,而且对中文的自动校对方法,提供一定的借鉴。
关键词
中文信息处理
分词
词性标注
错误类型
web突发事件新闻语料库
Keywords
Chinese information processing
word segmentation
part of speech tagging
inaccurate style
web accidental news corpora
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于层次概念的用户兴趣模型研究
被引量:6
3
作者
张彦
张永奎
安增波
王鹏
机构
山西大学计算机与信息技术学院
中国人民解放军
出处
《计算机工程与设计》
CSCD
北大核心
2008年第1期181-183,共3页
基金
国家自然科学基金项目(60475022)
山西省自然科学基金项目(20041041)
山西省回国留学人员基金项目(2002004)
文摘
使用基于关键词匹配的方法,分析了HTML语言描述的Web文档,提取网页中有用的特征信息,得到两类标记中的内容:一类是网页的全局描述信息,如<TITLE></TITLE>和<META></META>;另一类起局部修饰作用,强调了网页的部分内容,如<Hn>。从而提出了基于层次概念的用户模型,并使用向量空间模型方法建立了以突发事件新闻为基础的用户兴趣模型。实验表明,这种方法有一定的可行性。
关键词
层次分析
用户模型
个性化服务
web 突发事件 新闻
中文信息处理
Keywords
analytic hierarchy
user model
personalization service
web accidental news
Chinese information processing
分类号
TP391
[自动化与计算机技术—计算机应用技术]