期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于OLDA的热点话题演化跟踪模型 被引量:18
1
作者 陈兴蜀 高悦 +3 位作者 江浩 杜敏 王海舟 何建云 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第5期130-136,共7页
为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题.基于发现... 为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题.基于发现的热点话题,文中提出了基于在线LDA(OLDA)话题模型的论坛热点话题演化跟踪模型(HTOLDA),该模型只选择热点话题进行先验传递,并通过设置同一话题相邻时间片的语义距离来判断话题的状态.实验结果表明,HTOLDA模型对各个时间片的论坛数据集的建模能力优于OLDA模型,并能够有效地对论坛中的热点话题进行演化跟踪. 展开更多
关键词 文本处理 LDA话题模型 话题演化 话题跟踪 HTOLDA话题模型
在线阅读 下载PDF
基于权值优化的网页正文内容提取算法 被引量:8
2
作者 吴麒 陈兴蜀 谭骏 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第4期32-37,共6页
目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后... 目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%. 展开更多
关键词 权值优化 正文内容提取 特征属性 统计特征 准确率 召回率
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部