A novel binary particle swarm optimization for frequent item sets mining from high-dimensional dataset(BPSO-HD) was proposed, where two improvements were joined. Firstly, the dimensionality reduction of initial partic...A novel binary particle swarm optimization for frequent item sets mining from high-dimensional dataset(BPSO-HD) was proposed, where two improvements were joined. Firstly, the dimensionality reduction of initial particles was designed to ensure the reasonable initial fitness, and then, the dynamically dimensionality cutting of dataset was built to decrease the search space. Based on four high-dimensional datasets, BPSO-HD was compared with Apriori to test its reliability, and was compared with the ordinary BPSO and quantum swarm evolutionary(QSE) to prove its advantages. The experiments show that the results given by BPSO-HD is reliable and better than the results generated by BPSO and QSE.展开更多
频繁模式挖掘(Frequent Pattern Mining,FPM)是图数据分析、挖掘领域的核心问题之一,其目的是从大规模图数据中发现支持度不低于指定阈值的模式.传统的频繁模式挖掘算法依赖支持度进行剪枝,返回结果往往包含大量“冗余”模式;top-k模式...频繁模式挖掘(Frequent Pattern Mining,FPM)是图数据分析、挖掘领域的核心问题之一,其目的是从大规模图数据中发现支持度不低于指定阈值的模式.传统的频繁模式挖掘算法依赖支持度进行剪枝,返回结果往往包含大量“冗余”模式;top-k模式挖掘算法虽然仅返回k个频繁模式,但该类算法主要依据“客观”指标,如支持度等,对模式进行评估,难以充分反映用户的主观兴趣偏好.针对上述问题,提出一种基于主动学习的模式兴趣评估方法(Pattern Interestingness Evaluation with Active Learning,PIEAL),通过主动学习策略,从采样图上挖掘的频繁模式中选择代表性模式,并利用有限次人机交互收集用户对这些模式的偏好,进而预测模式的兴趣分数,指导算法发现用户感兴趣的模式.在人机交互环节,PIEAL采用基于成对比较的策略来收集用户对模式的偏好反馈,有效降低了用户的主观评价难度.在真实数据集上的实验结果表明,PIEAL仅需要少量的人机交互便可发现用户感兴趣的模式,其测试集准确率最高可达95%.展开更多
基因调控网络是基于微阵列基因表达数据,对基因之间表达关系依赖程度的一种仿真或重建。从基因表达数据挖掘基因之间存在的一定程度因果关系,对重构基因调控网络具有十分重要的意义。提出一种基于频繁原子序列关联熵的基因关联分析算法...基因调控网络是基于微阵列基因表达数据,对基因之间表达关系依赖程度的一种仿真或重建。从基因表达数据挖掘基因之间存在的一定程度因果关系,对重构基因调控网络具有十分重要的意义。提出一种基于频繁原子序列关联熵的基因关联分析算法,通过基因关联熵有效识别基因之间的因果关系,并采用启发式搜索策略构建基因关联贝叶斯调控网络(gene association based Bayesian regulatory,GABR)。与基因贝叶斯网络描述基因表达水平值之间依赖关系不同,GABR是一种基因序列贝叶斯网络,基因关联分析对象是生物组织样本的基因表达值排序并置换为基因列下标所形成的序列。算法的优势在于基因变量取值原子序列,该基因为原子序列的结果,基因关联熵以及条件概率分布的计算更符合基因表达数据分析的生物本质特征。ALARM网络模拟数据的实验结果表明,基因关联分析算法性能明显优于同类算法。在酵母菌微阵列基因数据GDS2267和小鼠胚胎基因GSE76118等GEO数据集进行实验,测试结果表明GABR方法重构的基因调控网络具有较高的有效性和鲁棒性。展开更多
文摘A novel binary particle swarm optimization for frequent item sets mining from high-dimensional dataset(BPSO-HD) was proposed, where two improvements were joined. Firstly, the dimensionality reduction of initial particles was designed to ensure the reasonable initial fitness, and then, the dynamically dimensionality cutting of dataset was built to decrease the search space. Based on four high-dimensional datasets, BPSO-HD was compared with Apriori to test its reliability, and was compared with the ordinary BPSO and quantum swarm evolutionary(QSE) to prove its advantages. The experiments show that the results given by BPSO-HD is reliable and better than the results generated by BPSO and QSE.
文摘频繁模式挖掘(Frequent Pattern Mining,FPM)是图数据分析、挖掘领域的核心问题之一,其目的是从大规模图数据中发现支持度不低于指定阈值的模式.传统的频繁模式挖掘算法依赖支持度进行剪枝,返回结果往往包含大量“冗余”模式;top-k模式挖掘算法虽然仅返回k个频繁模式,但该类算法主要依据“客观”指标,如支持度等,对模式进行评估,难以充分反映用户的主观兴趣偏好.针对上述问题,提出一种基于主动学习的模式兴趣评估方法(Pattern Interestingness Evaluation with Active Learning,PIEAL),通过主动学习策略,从采样图上挖掘的频繁模式中选择代表性模式,并利用有限次人机交互收集用户对这些模式的偏好,进而预测模式的兴趣分数,指导算法发现用户感兴趣的模式.在人机交互环节,PIEAL采用基于成对比较的策略来收集用户对模式的偏好反馈,有效降低了用户的主观评价难度.在真实数据集上的实验结果表明,PIEAL仅需要少量的人机交互便可发现用户感兴趣的模式,其测试集准确率最高可达95%.
文摘基因调控网络是基于微阵列基因表达数据,对基因之间表达关系依赖程度的一种仿真或重建。从基因表达数据挖掘基因之间存在的一定程度因果关系,对重构基因调控网络具有十分重要的意义。提出一种基于频繁原子序列关联熵的基因关联分析算法,通过基因关联熵有效识别基因之间的因果关系,并采用启发式搜索策略构建基因关联贝叶斯调控网络(gene association based Bayesian regulatory,GABR)。与基因贝叶斯网络描述基因表达水平值之间依赖关系不同,GABR是一种基因序列贝叶斯网络,基因关联分析对象是生物组织样本的基因表达值排序并置换为基因列下标所形成的序列。算法的优势在于基因变量取值原子序列,该基因为原子序列的结果,基因关联熵以及条件概率分布的计算更符合基因表达数据分析的生物本质特征。ALARM网络模拟数据的实验结果表明,基因关联分析算法性能明显优于同类算法。在酵母菌微阵列基因数据GDS2267和小鼠胚胎基因GSE76118等GEO数据集进行实验,测试结果表明GABR方法重构的基因调控网络具有较高的有效性和鲁棒性。