-
题名域内海量数据中热点话题及其特征词抽取方法
被引量:3
- 1
-
-
作者
袁华
徐华林
钱宇
罗谦
-
机构
电子科技大学经济与管理学院
四川旅游学院信息与工程学院
中国民用航空总局第二研究所
-
出处
《管理工程学报》
CSSCI
CSCD
北大核心
2018年第4期133-140,共8页
-
基金
国家自然科学基金资助项目(71271044
U1233118
+2 种基金
71102055
71572029
71490723)
-
文摘
在特定信息域内的网络文档中,主题及其特征词的抽取工作是近年人工语言处理研究的重点,其研究结果具有显著的管理决策意义。本研究提出一种新的数据挖掘方法用于从海量UGC中分析出其"热点话题词"和"局部特征词"之间的关联关系。首先,利用网页抓取工具从网上获得某个域相关的文档,并对文档内容实施分词操作。然后,基于分词结果,抽取网页文档中存在的域内信息词并组成新的数据集。最后,我们提出一种基于热点话题词和语义分隔符号的数据集切分方法来获得每个热点话题词相关的本地特征词数据集。并且在该数据集上,可以分析出特征词对于热点话题词的依赖关系,从而找到每个话题词最恰当的特征词集合。该方法算法简单,尤为重要的是它能很好屏蔽那些不相关的高频共现词对特征抽取的影响,可广泛应用于文本相关的在线信息检索任务,为管理决策和电子商务活动服务。
-
关键词
在线信息检索
频繁模式挖掘
最大置信度
信息域
特征抽取
-
Keywords
Online information retrieval
Frequent pattern mining
Max-confidence
Information domain
Feature extraction
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-