检索结果-维普期刊中文期刊服务平台

时态文本数据流特征流行趋势模型及算法被引量：6: 1; 作者孟志青许微微《计算机科学》 CSCD 北大核心 2019年第B06期417-422,共6页; 当今在电商和社交等平台上每天会产生大量的文本数据流。快速提取文本数据流的特征并将其用于发现一些事物的趋势变化来指导企业运营十分重要,比如服装企业必须尽可能快速而又准确地感知流行信息,服装特征的流行趋势对设计生产与经营起... 展开更多; 关键词时态文本模型文本数据流特征快速提取实时挖掘算法; 在线阅读下载PDF 职称材料

一种新的演化文本流聚类算法: 2; 作者邓维维彭宏《计算机科学》 CSCD 北大核心 2007年第9期125-127,162,共4页; 数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但是大部分都是针对低维的数值型数据,很少有高维文本流的研究。本文在传统的数据流聚类框架基础上,提出了一种新的文本微聚类结构体,它... 展开更多; 关键词聚类数据流文本流; 在线阅读下载PDF 职称材料

基于语义的文本数据流概念漂移检测算法被引量：5: 3; 作者储光胡学钢张玉红《计算机工程》 CAS CSCD 北大核心 2018年第2期24-30,共7页; 文本数据流中概念的频繁漂移导致有效信息不足,从而使得漂移检测和数据流分类准确率下降。针对该问题,引入潜在狄利克雷分布模型并考虑文本数据流隐含的语义信息,提出一种新的概念漂移检测算法。计算相邻模块中词和主题特征空间的语义... 展开更多; 关键词概念漂移语义漂移检测潜在狄利克雷分布模型文本数据流分类; 在线阅读下载PDF 职称材料

扩展DPMM模型在短文本主题识别中的应用: 4; 作者汪海波《计算机应用与软件》 CSCD 北大核心 2014年第8期191-195,共5页; 近年来,话题检测与追踪(TDT)得到广泛研究。然而,研究主要基于常规的新闻,扩展到短篇报道依然有问题。提出基于耿氏混合模型(DPMM)的话题识别方法,以统一的模型处理话题切分和TDT。介绍DPMM在话题识别中的应用以及讨论两种专门用来解决... 展开更多; 关键词话题识别混合模型扩展耿氏过程流数据静态短文本; 在线阅读下载PDF 职称材料

基于Spark的快速短文本数据流分类方法被引量：1: 5; 作者胡阳胡学钢李培培《计算机工程与应用》 CSCD 北大核心 2020年第14期138-147,共10页; 微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战。已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高。基于此,提... 展开更多; 关键词短文本数据流分类分布式处理 Spark环境概念漂移; 在线阅读下载PDF 职称材料

一种基于时间流特性的垃圾邮件过滤方法: 6; 作者徐隽郑佳谦 +1 位作者姚静牛军钰《中文信息学报》 CSCD 北大核心 2009年第1期79-85,111,共8页; 垃圾邮件过滤具有处理规模巨大,数据无限递增、动态变化等流数据特征,传统的垃圾邮件过滤方法利用静态的文本特征提取方法,无法体现流数据特征随时间动态变化的特点。该文提出一种基于时间流特性来实时调整有效特征的垃圾邮件过滤方法,... 展开更多; 关键词计算机应用中文信息处理垃圾邮件流数据时间流文本分类特征选择; 在线阅读下载PDF 职称材料

题名时态文本数据流特征流行趋势模型及算法被引量：6: 1; 作者孟志青许微微; 机构浙江工业大学管理学院; 出处《计算机科学》 CSCD 北大核心 2019年第B06期417-422,共6页; 基金浙江省自然科学基金项目(LY15G010007)资助; 文摘当今在电商和社交等平台上每天会产生大量的文本数据流。快速提取文本数据流的特征并将其用于发现一些事物的趋势变化来指导企业运营十分重要,比如服装企业必须尽可能快速而又准确地感知流行信息,服装特征的流行趋势对设计生产与经营起着至关重要的作用。以线上商品的文本数据流为研究对象,结合线上的销售文本实时数据流,定义了商品的时态文本数据流特征趋势模型,然后提出了一种文本数据流特征趋势发现的实时挖掘算法。将该算法应用到服装销售的文本描述以提取流行特征应用,可以获得有效的服装流行趋势,为企业制定生产计划、选择营销策略提供了决策支持。使用电商平台的真实销售数据进行实验,结果证明:该算法提取流行特征的准确率较高、速度较快,具有重要的理论与实际意义。; 关键词时态文本模型文本数据流特征快速提取实时挖掘算法; Keywords Temporal text model text data stream Feature extraction Real-time miningalgorithm; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名一种新的演化文本流聚类算法: 2; 作者邓维维彭宏; 机构华南理工大学计算机学院; 出处《计算机科学》 CSCD 北大核心 2007年第9期125-127,162,共4页; 基金国家自然科学基金(60574078) 广东省自然科学基金(31454); 文摘数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但是大部分都是针对低维的数值型数据,很少有高维文本流的研究。本文在传统的数据流聚类框架基础上,提出了一种新的文本微聚类结构体,它更适合文本聚类,同时还将在线微聚类分为潜在微聚类和异常微聚类,提高了对孤立点的适应能力。实验表明该算法相对于其他文本流聚类算法更有效。; 关键词聚类数据流文本流; Keywords Clustering, data stream, text stream; 分类号 TP391.41 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于语义的文本数据流概念漂移检测算法被引量：5: 3; 作者储光胡学钢张玉红; 机构合肥工业大学计算机与信息学院; 出处《计算机工程》 CAS CSCD 北大核心 2018年第2期24-30,共7页; 基金国家重点研发计划项目(2016YFC0801406) 国家自然科学基金(61503112 61673152); 文摘文本数据流中概念的频繁漂移导致有效信息不足,从而使得漂移检测和数据流分类准确率下降。针对该问题,引入潜在狄利克雷分布模型并考虑文本数据流隐含的语义信息,提出一种新的概念漂移检测算法。计算相邻模块中词和主题特征空间的语义相似度,其中主题的相似度根据主题-单词概率分布进行评估,当2个特征空间相似度都较低时判断为发生概念漂移。实验结果表明,与DDM、CDRDT、DWCDS、HDDM-W-Test和REDLLA算法相比,该算法对文本数据流中概念漂移的检测性能均有所提升,尤其在概念频繁漂移时可以显著减少漏检数量。; 关键词概念漂移语义漂移检测潜在狄利克雷分布模型文本数据流分类; Keywords concept drift semantic drift detection Latent Dirichlet Allocation（LDA） model text data stream classification; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名扩展DPMM模型在短文本主题识别中的应用: 4; 作者汪海波; 机构淮安信息职业技术学院计算机通信学院; 出处《计算机应用与软件》 CSCD 北大核心 2014年第8期191-195,共5页; 文摘近年来,话题检测与追踪(TDT)得到广泛研究。然而,研究主要基于常规的新闻,扩展到短篇报道依然有问题。提出基于耿氏混合模型(DPMM)的话题识别方法,以统一的模型处理话题切分和TDT。介绍DPMM在话题识别中的应用以及讨论两种专门用来解决短篇报道的稀疏问题的方案。一个是算法流程,将话题识别的处理单元由单个短文本转为会话。另一个是扩展DPMM模型,当估算与已知的话题的关联词时考虑字的依赖。随后,通过同时处理话题切分和TDT来识别自发文本流的话题。DPMM模型的优势在于混合组件的数量不必提前确定,并且不需要话题数量与内容的前期准备,因此它更加适合流文本话题识别。实验结果表明,DPMM模型对处理短文本数据的话题识别是有效的。; 关键词话题识别混合模型扩展耿氏过程流数据静态短文本; Keywords Topic recognition Mixture model Extended DPMM data streams Static short text; 分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于Spark的快速短文本数据流分类方法被引量：1: 5; 作者胡阳胡学钢李培培; 机构合肥工业大学计算机与信息学院工业安全与应急技术安徽省重点实验室; 出处《计算机工程与应用》 CSCD 北大核心 2020年第14期138-147,共10页; 基金国家自然科学基金(No.61673152) 安徽省自然科学基金(No.1708085QF142)。; 文摘微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战。已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高。基于此,提出一种基于Spark的分布式快速短文本数据流分类方法。一方面,利用外部语料库构建Word2vec词向量模型解决了短文本的高维稀疏问题,并构建扩展词向量库以适应文本的快速可变性,提出一种LR分类器集成模型用于短文本数据流分类,该分类器使用一种FTRL方法实现模型参数的在线更新,并引入时间因子加权机制以适应概念漂移环境;另一方面,所提方法的使用分布式处理提高了海量短文本数据流的处理效率。在3个真实短文本数据流上的实验表明:所提方法在提高分类精度的同时,降低了时间消耗。; 关键词短文本数据流分类分布式处理 Spark环境概念漂移; Keywords short text data stream classification distributed processing Spark concept drift; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名一种基于时间流特性的垃圾邮件过滤方法: 6; 作者徐隽郑佳谦姚静牛军钰; 机构复旦大学计算机科学与工程系; 出处《中文信息学报》 CSCD 北大核心 2009年第1期79-85,111,共8页; 基金国家自然科学基金资助项目(60305006); 文摘垃圾邮件过滤具有处理规模巨大,数据无限递增、动态变化等流数据特征,传统的垃圾邮件过滤方法利用静态的文本特征提取方法,无法体现流数据特征随时间动态变化的特点。该文提出一种基于时间流特性来实时调整有效特征的垃圾邮件过滤方法,在TREC Spam Track语料集上的测试结果表明,该方法在保证垃圾邮件过滤高准确率的同时,使垃圾邮件过滤计算的时间性能和空间性能更加优化。; 关键词计算机应用中文信息处理垃圾邮件流数据时间流文本分类特征选择; Keywords computer application Chinese information processing spam stream data time stream text classification feature selection; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	时态文本数据流特征流行趋势模型及算法	孟志青许微微	《计算机科学》 CSCD 北大核心	2019	6	在线阅读下载PDF 职称材料
2	一种新的演化文本流聚类算法	邓维维彭宏	《计算机科学》 CSCD 北大核心	2007	0	在线阅读下载PDF 职称材料
3	基于语义的文本数据流概念漂移检测算法	储光胡学钢张玉红	《计算机工程》 CAS CSCD 北大核心	2018	5	在线阅读下载PDF 职称材料
4	扩展DPMM模型在短文本主题识别中的应用	汪海波	《计算机应用与软件》 CSCD 北大核心	2014	0	在线阅读下载PDF 职称材料
5	基于Spark的快速短文本数据流分类方法	胡阳胡学钢李培培	《计算机工程与应用》 CSCD 北大核心	2020	1	在线阅读下载PDF 职称材料
6	一种基于时间流特性的垃圾邮件过滤方法	徐隽郑佳谦姚静牛军钰	《中文信息学报》 CSCD 北大核心	2009	0	在线阅读下载PDF 职称材料