期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
域内海量数据中热点话题及其特征词抽取方法 被引量:3
1
作者 袁华 徐华林 +1 位作者 钱宇 罗谦 《管理工程学报》 CSSCI CSCD 北大核心 2018年第4期133-140,共8页
在特定信息域内的网络文档中,主题及其特征词的抽取工作是近年人工语言处理研究的重点,其研究结果具有显著的管理决策意义。本研究提出一种新的数据挖掘方法用于从海量UGC中分析出其"热点话题词"和"局部特征词"之... 在特定信息域内的网络文档中,主题及其特征词的抽取工作是近年人工语言处理研究的重点,其研究结果具有显著的管理决策意义。本研究提出一种新的数据挖掘方法用于从海量UGC中分析出其"热点话题词"和"局部特征词"之间的关联关系。首先,利用网页抓取工具从网上获得某个域相关的文档,并对文档内容实施分词操作。然后,基于分词结果,抽取网页文档中存在的域内信息词并组成新的数据集。最后,我们提出一种基于热点话题词和语义分隔符号的数据集切分方法来获得每个热点话题词相关的本地特征词数据集。并且在该数据集上,可以分析出特征词对于热点话题词的依赖关系,从而找到每个话题词最恰当的特征词集合。该方法算法简单,尤为重要的是它能很好屏蔽那些不相关的高频共现词对特征抽取的影响,可广泛应用于文本相关的在线信息检索任务,为管理决策和电子商务活动服务。 展开更多
关键词 在线信息检索 频繁模式挖掘 最大置信度 信息 特征抽取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部