-
题名基于改进LDA和K-means算法的主题句聚类
被引量:4
- 1
-
-
作者
刘子平
李学明
-
机构
重庆大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2016年第A02期239-241,250,共4页
-
基金
国家自然科学基金资助项目(60873200
90818028)
-
文摘
针对隐含狄利克雷分布(LDA)主题个数的随机选定和传统K-means算法初始聚类中心选择的随机性等缺陷,提出一种新颖启发式的主题句聚类方法。该方法利用文档集聚类簇数与拆分为句子集中隐藏的主题数目一致特点,先通过层次聚类分析出文档集聚类簇,采用最小描述长度(MDL)剪枝算法来确定最佳聚类数n个,然后将n作为隐含狄利克雷分布的主题数目的先验参数,计算n个主题所在维度上的重要句子作为初始聚类中心,最终完成隐含主题句聚类。实验结果表明改进后聚类算法克服了噪声数据的干扰,避免了主题数的经验误差,聚类结果更精确。
-
关键词
潜在狄立克雷分布
K-MEANS算法
最小描述长度算法
句子聚类
-
Keywords
Latent Dirichlet Allocation (LDA)
K-means algorithm
Minimal Dscription Length (MDL) algorithm
sentence clustering
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名一种基于概率主题模型的恶意代码特征提取方法
被引量:14
- 2
-
-
作者
刘亚姝
王志海
侯跃然
严寒冰
-
机构
北京交通大学计算机与信息技术学院
北京建筑大学电气与信息工程学院
北京邮电大学网络技术研究院
国家计算机网络应急技术处理协调中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第11期2339-2348,共10页
-
基金
国家重点研发计划项目(2018YFB0803604,2018YFB0804704)
国家自然科学基金项目(U1736218,61672086)~~
-
文摘
在当前复杂网络环境下,恶意代码通过各种方式快速传播,入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络和互联网用户造成了严重的安全威胁.传统检测方法难以检测未知恶意代码,而恶意代码变体的多样性和庞大数量也对未知恶意代码检测构成了巨大挑战.提出了一种无监督的恶意代码识别方法,通过分析反汇编PE文件给出汇编指令标准化规则,结合潜在狄立克雷分布(latent Dirichlet allocation,LDA)获得汇编指令中潜在的“文档主题”、“主题词”的分布.再以“主题分布”构造恶意样本特征,产生一个全新的恶意代码检测框架.结合“困惑度”和变化的步长给出了最优“主题”数目的快速评价和自动确定方法,解决了LDA模型中主题数目需要预先指定的问题.同时解析了“文档主题”、“主题词”聚集结果的语义可解释性,说明了该方法获得的样本特征具有潜在的语义.实验结果表明:与其他方法相比该方法具有相当的或更好的恶意代码鉴别能力,同时能够准确地识别恶意代码的新变体.
-
关键词
恶意代码检测
狄立克雷分布
概率主题模型
困惑度
Gibbs
-
Keywords
malware detection
latent Dirichlet allocation(LDA)
probabilistic topic model
perplexity
Gibbs
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-