期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
民航管制安全风险主题时空分布规律研究 被引量:3
1
作者 陈芳 温抗抗 +1 位作者 张亚博 邹汶倩 《安全与环境学报》 CAS CSCD 北大核心 2024年第2期587-595,共9页
为了探究民航管制安全风险的时空分布规律,基于潜在迪利克雷分布(Latent Dirichlet Allocation,LDA)主题模型识别出民航管制安全风险主题,定义民航管制安全风险主题强度的定量测度指标,运用全局空间自相关分析和冷热点分析对民航管制安... 为了探究民航管制安全风险的时空分布规律,基于潜在迪利克雷分布(Latent Dirichlet Allocation,LDA)主题模型识别出民航管制安全风险主题,定义民航管制安全风险主题强度的定量测度指标,运用全局空间自相关分析和冷热点分析对民航管制安全风险主题的时空分布规律进行研究。结果表明:利用LDA主题模型识别出“管制员指令错误风险”等10个管制安全风险主题;“管制员指令错误风险”主题存在较弱的全局空间自相关性,在2018—2021年,全局Moran’s I总体呈现波动增长的趋势;在2018—2021年,“管制员指令错误风险”主题强度高值聚集的区域由西南向东南转移,高值聚集区域数量变少,且不稳定,低值聚集区域发生转移并在2020年后保持稳定。通过全局空间自相关分析和冷热点分析确定了2018—2021年中国民航不同管制区域的管制安全风险的时空分布格局,为局方进行差异化的安全监管提供决策支持。 展开更多
关键词 安全工程 文本挖掘 时空分布规律 潜在迪利克雷分布(LDA) 空间自相关 空中交通管制
在线阅读 下载PDF
一种改进的LDA主题模型 被引量:47
2
作者 张小平 周雪忠 +3 位作者 黄厚宽 冯奇 陈世波 焦宏官 《北京交通大学学报》 CAS CSCD 北大核心 2010年第2期111-114,共4页
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关... 由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高. 展开更多
关键词 LDA dirichlet分布 加权主题模型
在线阅读 下载PDF
基于特征项分布的信息熵及特征动态加权概念漂移检测模型 被引量:6
3
作者 孙雪 李昆仑 +1 位作者 韩蕾 白晓亮 《电子学报》 EI CAS CSCD 北大核心 2015年第7期1356-1361,共6页
现有的概念漂移算法大多建立在数据流的分类模型上,忽略了特征空间与样本空间的分布特点,以及特征选择和加权的重要性.针对此问题提出了一种基于特征项分布的信息熵及特征动态加权算法,从概念漂移的动态演化性出发,根据样本和特征空间... 现有的概念漂移算法大多建立在数据流的分类模型上,忽略了特征空间与样本空间的分布特点,以及特征选择和加权的重要性.针对此问题提出了一种基于特征项分布的信息熵及特征动态加权算法,从概念漂移的动态演化性出发,根据样本和特征空间的拟合程度,运用特征信息熵理论对数据流中的概念漂移现象进行捕捉,以实现新旧概念的过渡.利用改进的隐含Dirichlet模型特征动态加权算法,以解决当前特征与历史特征的权重确定和无效特征的裁剪问题.在公开的语料库CCERT和Trec06上的测试实验证明了所提出算法的有效性. 展开更多
关键词 概念漂移 LDA模型 特征项分布 信息熵
在线阅读 下载PDF
基于隐含狄利克雷分配模型的消费者在线评论复杂网络构建及其应用 被引量:10
4
作者 刘晓君 那日萨 崔雪莲 《系统工程学报》 CSCD 北大核心 2017年第3期305-312,共8页
为研究消费者在线评论的相互关系及整体演化发展,以隐含狄利克雷分配模型对消费者在线评论进行话题挖掘为基础,通过Pearson相似度确定评论间话题关系,构建了以评论为节点的复杂网络模型.以京东等平台上的手机评论语料库为例,对相应复杂... 为研究消费者在线评论的相互关系及整体演化发展,以隐含狄利克雷分配模型对消费者在线评论进行话题挖掘为基础,通过Pearson相似度确定评论间话题关系,构建了以评论为节点的复杂网络模型.以京东等平台上的手机评论语料库为例,对相应复杂网络的拓扑特性进行分析.研究表明,相同产品相同规模的评论网络统计特性相近;而相同平台上同一产品不同规模的评论网络性质差异明显,即小规模评论(产品销售初期)构成的网络是一个无标度网络,大规模评论(产品销售中后期)构成的网络演化为一个度分布为钟形分布的小世界网络.揭示了消费者发表在线评论行为之间相互作用,会影响整体评论网络的拓扑性质和演化规律,并为市场营销和管理实践提出了指导性建议. 展开更多
关键词 在线评论 隐含狄利克雷分配模型 复杂网络 皮尔森相似度 度分布
在线阅读 下载PDF
DOLDA模型设计与主题演化分析 被引量:3
5
作者 蒋权 郑山红 +1 位作者 刘凯 李万龙 《计算机工程与设计》 北大核心 2018年第2期446-451,485,共7页
为解决OLDA模型挖掘大规模文档主题时计算效率低下和不能发现新主题的问题,提出一种分布式的DOLDA模型(distribute online LDA,DOLDA)。建立分布式矩阵存储主题-词项,设计一种动态负载均衡策略来提升计算速度和线程调度的性能,根据Zipf... 为解决OLDA模型挖掘大规模文档主题时计算效率低下和不能发现新主题的问题,提出一种分布式的DOLDA模型(distribute online LDA,DOLDA)。建立分布式矩阵存储主题-词项,设计一种动态负载均衡策略来提升计算速度和线程调度的性能,根据Zipf定律结合主题的遗传度提出一种文档权值设置方法。在Spark分布式计算平台的实验结果表明,相比OLDA模型,DOLDA模型能够提高近16%的加速比,有效地在线分析主题的演化。 展开更多
关键词 主题挖掘 分布式计算 在线的潜在狄利克雷分布模型 动态负载均衡 主题演化
在线阅读 下载PDF
基于隐含狄利克雷分配模型的图像分类算法 被引量:9
6
作者 杨赛 赵春霞 《计算机工程》 CAS CSCD 2012年第14期181-183,共3页
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对... 概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。 展开更多
关键词 BOF模型 中层语义特征 隐含狄利克雷分配模型 隐含主题分布特征 K近邻算法 图像分类
在线阅读 下载PDF
基于层次聚类的子话题检测算法 被引量:11
7
作者 代翔 黄细凤 +4 位作者 唐瑞 蒋梦婷 陈兴蜀 王海舟 罗梁 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第8期84-95,共12页
使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对... 使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性. 展开更多
关键词 话题模型 子话题 层次聚类 隐狄利克雷分布 话题检测
在线阅读 下载PDF
结合全局和局部约束的sLDA铁路扣件分类模型
8
作者 杨飞 罗建桥 李柏林 《计算机应用》 CSCD 北大核心 2019年第3期888-893,共6页
针对监督潜在狄利克雷分布(sLDA)模型中测试图像缺乏标注,导致测试主题分布忽略目标结构的问题,提出一种结合全局和局部约束的sLDA(glc-sLDA)扣件图像分类模型。首先,人工标注训练图像,并在sLDA模型中学习得到含有结构信息的训练主题分... 针对监督潜在狄利克雷分布(sLDA)模型中测试图像缺乏标注,导致测试主题分布忽略目标结构的问题,提出一种结合全局和局部约束的sLDA(glc-sLDA)扣件图像分类模型。首先,人工标注训练图像,并在sLDA模型中学习得到含有结构信息的训练主题分布;然后,计算测试主题分布,将测试图像的类别概率作为全局约束,将测试图像子块与训练图像子块的主题相似程度作为局部约束;最后,以全局和局部约束的乘积为更新权值,对训练主题分布加权求和得到新的测试主题分布,并在Softmax分类器中得到测试图像的分类结果。实验结果表明,glc-sLDA模型能表达扣件结构信息,与sLDA相比,各类别的扣件图像区分性增强,分类误检率减小了55%。 展开更多
关键词 铁路扣件分类 监督潜在狄利克雷分布 主题模型 单词标注 目标结构 更新主题分布
在线阅读 下载PDF
面向产品属性的用户情感模型 被引量:4
9
作者 贾闻俊 张晖 +2 位作者 杨春明 赵旭剑 李波 《计算机应用》 CSCD 北大核心 2016年第1期175-180,共6页
传统情感模型在分析商品评论中的用户情感时面临两个主要问题:1)缺乏针对产品属性的细粒度情感分析;2)自动提取的产品属性其数量须提前确定。针对上述问题,提出了一种细粒度的面向产品属性的用户情感模型(USM)。首先,利用分层狄利克雷过... 传统情感模型在分析商品评论中的用户情感时面临两个主要问题:1)缺乏针对产品属性的细粒度情感分析;2)自动提取的产品属性其数量须提前确定。针对上述问题,提出了一种细粒度的面向产品属性的用户情感模型(USM)。首先,利用分层狄利克雷过程(HDP)将名词实体聚类形成产品属性并自动获取其数量;然后,结合产品属性中名词实体的权重和评价短语以及情感词典作为先验,利用潜在狄利克雷分布(LDA)对产品属性进行情感分类。实验结果表明,该模型具有较高的情感分类准确率,情感分类平均准确率达87%。该模型与传统的情感模型相比在抽取产品属性和评价短语的情感分类上具有较高的准确率。 展开更多
关键词 情感模型 细粒度 产品属性 分层狄利克雷过程 潜在狄利克雷分布
在线阅读 下载PDF
电网设备缺陷文本的质量评价与提升方法 被引量:36
10
作者 邵冠宇 王慧芳 何奔腾 《电网技术》 EI CSCD 北大核心 2019年第4期1472-1479,共8页
文本质量直接影响着文本挖掘效果的优劣。在总结电网企业缺陷文本存在的质量问题基础上,提出了缺陷文本质量评价和提升方法。首先,通过对大量实际缺陷文本的分析,总结出电网设备缺陷文本的格式及容易出现的不完整、不具体、冗余度过高... 文本质量直接影响着文本挖掘效果的优劣。在总结电网企业缺陷文本存在的质量问题基础上,提出了缺陷文本质量评价和提升方法。首先,通过对大量实际缺陷文本的分析,总结出电网设备缺陷文本的格式及容易出现的不完整、不具体、冗余度过高等问题。然后,基于相应问题,定义了缺陷文本质量的评价指标,并提出了基于"层次-自适应灰色关联分析法"的评价方法。接下来,针对历史缺陷文本中质量较差和缺陷等级与缺陷描述不匹配的文本,利用潜在狄利克雷分布方法,结合国家电网有限公司的缺陷分类标准,进行修正以提升质量;针对新录入文本,利用文本质量评价方法进行质量问题提示,利用词向量映射方法给出修正建议,保证新录入缺陷文本的质量。最后,结合实例对修正前后的缺陷文本进行质量对比,算例表明,修正后的历史缺陷文本在文本质量得分上有较大提升,新录入文本存在的问题也能较为准确地识别并给出对应修正建议。 展开更多
关键词 电网设备缺陷文本 文本质量评价 层次-自适应灰色关联分析法 文本质量提升 潜在狄利克雷分布
在线阅读 下载PDF
利用并行GPU对分层分布式狄利克雷分布算法加速 被引量:2
11
作者 温腊 芮建武 +1 位作者 何婷婷 郭亮 《计算机应用》 CSCD 北大核心 2013年第12期3313-3316,3330,共5页
分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,... 分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,但是因为单节点算法的计算量大,仍然存在对大数据分类运行时间太长的问题。而大规模文本集合分散到多个节点上迭代推导,单个节点上文档集合的推导仍是顺序进行的,所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类。为此,提出将Hadoop与图形处理器(GPU)相结合,将单节点文本集合的推导过程转移到GPU上运行,实现单节点多个文档并行推导,利用多台并行的GPU对HD-LDA算法进行加速。应用结果表明,使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比。 展开更多
关键词 分层分布式狄利克雷分布 潜在狄利克雷分布 文本分类 分布式框架 并行图形处理器
在线阅读 下载PDF
LDA算法在Mahout下的高效实现(英文) 被引量:2
12
作者 许伯熹 胡宁 +2 位作者 陈文斌 高卫国 程晋 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期118-130,共13页
通过对运用Gibbs采样的Latent Dirichlet Allocation(LDA)算法和MapReduce计算框架的细致研究,实现了LDA算法在Mahout下的分布式并行计算.详细地考察了该分布式并行计算程序的计算性能,并深入地探讨了一些影响计算性能的关键问题.
关键词 latent dirichlet allocation GIBBS采样 Mahout 分布式并行计算 MapReduce计算框架
在线阅读 下载PDF
基于语义分布相似度的主题模型 被引量:2
13
作者 居亚亚 杨璐 严建峰 《计算机应用研究》 CSCD 北大核心 2019年第12期3553-3557,共5页
潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架... 潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词-单词和文档-主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。 展开更多
关键词 潜在狄利克雷分布 语义分布相似度 主题模型 GPU模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部