识别虚假评论有着重要的理论意义与现实价值.先前工作集中于启发式策略和传统的全监督学习算法.最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚...识别虚假评论有着重要的理论意义与现实价值.先前工作集中于启发式策略和传统的全监督学习算法.最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚假评论并不合理.容易被错误标注的样例称为间谍样例,如何确定这些样例的类别标签将直接影响分类器的性能.基于少量的真实评论和大量的未标注评论,提出一种创新的PU(positive and unlabeled)学习框架来识别虚假评论.首先,从无标注数据集中识别出少量可信度较高的负例.其次,通过整合LDA(latent Dirichlet allocation)和K-means,分别计算出多个代表性的正例和负例.接着,基于狄利克雷过程混合模型(Dirichlet process mixture model,DPMM),对所有间谍样例进行聚类,混合种群性和个体性策略来确定间谍样例的类别标签.最后,多核学习算法被用来训练最终的分类器.数值实验证实了所提算法的有效性,超过当前的基准.展开更多
狄利克雷过程混合模型(Dirichlet Process Mixture,DPM)作为一种非参数概率统计模型,可以有效应用于SAR图像的非监督分类。文中提出一种全自动的MSTAR坦克SAR图像分割方法。该方法首先基于DPM确定出图像中的类别数目,接着使用马尔科夫...狄利克雷过程混合模型(Dirichlet Process Mixture,DPM)作为一种非参数概率统计模型,可以有效应用于SAR图像的非监督分类。文中提出一种全自动的MSTAR坦克SAR图像分割方法。该方法首先基于DPM确定出图像中的类别数目,接着使用马尔科夫随机场(Markov Random Field,MRF)对所得图像类别概率的空间邻域关系进行描述,然后结合标号代价能量优化算法获取最终的分割结果。该方法在不需要人为指定待分割图像类别个数的同时,能较好地保证分割结果的合理性与连贯性。在MSTAR SAR数据上的实验表明了其有效性。展开更多
面向Illumina Golden Gate甲基化微阵列数据提出了一种基于模型的聚类算法.算法通过建立贝塔无限混合模型,采用Dirichlet过程作为先验,实现了基于数据和模型的聚类结构的建立,实验结果表明该算法能够有效估计出聚类类别个数、每个聚类...面向Illumina Golden Gate甲基化微阵列数据提出了一种基于模型的聚类算法.算法通过建立贝塔无限混合模型,采用Dirichlet过程作为先验,实现了基于数据和模型的聚类结构的建立,实验结果表明该算法能够有效估计出聚类类别个数、每个聚类类别的混合权重、每个聚类类别的特征等信息,达到比较理想的聚类效果.展开更多
自动的心电异常识别是一个多标签分类问题,多通过对每个标签训练一个二分类器来实现异常识别。由于异常数目多,特征和异常间以及不同异常间的相关性复杂,自动检测的效果并不理想。为了充分利用异常和特征间的依存关系,提出了一种基于异...自动的心电异常识别是一个多标签分类问题,多通过对每个标签训练一个二分类器来实现异常识别。由于异常数目多,特征和异常间以及不同异常间的相关性复杂,自动检测的效果并不理想。为了充分利用异常和特征间的依存关系,提出了一种基于异常标签共现和特征局部相关(Label Co-occurrence and Feature’s local Pertinence,LCFP)的心电异常识别方法。首先,根据标签共现性和特征局部相关性,为标签构建包含宏特征和微特征的联合特征空间。宏特征采用狄利克雷过程混合模型聚类构建,以区分不同的共现标签集;微特征是原始特征空间的一个子集,用于区分共现标签集中的各个标签。进而,在联合特征空间为每个异常训练一个一对多(One-Versus-All)的概率分类器。其次,为充分利用异常的关联,提出在概率分类器排序基础上区分相关和非相关标签,采用Beta分布自适应地学习锚阈值和相关度阈值,以确定实例的相关标签集。LCFP是一种检测多种心电异常的通用方法,提高了心电异常识别的精度。在两个真实数据集上,F1指标分别提高了4%和22.4%,验证了所提方法的有效性。展开更多
文摘识别虚假评论有着重要的理论意义与现实价值.先前工作集中于启发式策略和传统的全监督学习算法.最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚假评论并不合理.容易被错误标注的样例称为间谍样例,如何确定这些样例的类别标签将直接影响分类器的性能.基于少量的真实评论和大量的未标注评论,提出一种创新的PU(positive and unlabeled)学习框架来识别虚假评论.首先,从无标注数据集中识别出少量可信度较高的负例.其次,通过整合LDA(latent Dirichlet allocation)和K-means,分别计算出多个代表性的正例和负例.接着,基于狄利克雷过程混合模型(Dirichlet process mixture model,DPMM),对所有间谍样例进行聚类,混合种群性和个体性策略来确定间谍样例的类别标签.最后,多核学习算法被用来训练最终的分类器.数值实验证实了所提算法的有效性,超过当前的基准.
文摘狄利克雷过程混合模型(Dirichlet Process Mixture,DPM)作为一种非参数概率统计模型,可以有效应用于SAR图像的非监督分类。文中提出一种全自动的MSTAR坦克SAR图像分割方法。该方法首先基于DPM确定出图像中的类别数目,接着使用马尔科夫随机场(Markov Random Field,MRF)对所得图像类别概率的空间邻域关系进行描述,然后结合标号代价能量优化算法获取最终的分割结果。该方法在不需要人为指定待分割图像类别个数的同时,能较好地保证分割结果的合理性与连贯性。在MSTAR SAR数据上的实验表明了其有效性。
文摘面向Illumina Golden Gate甲基化微阵列数据提出了一种基于模型的聚类算法.算法通过建立贝塔无限混合模型,采用Dirichlet过程作为先验,实现了基于数据和模型的聚类结构的建立,实验结果表明该算法能够有效估计出聚类类别个数、每个聚类类别的混合权重、每个聚类类别的特征等信息,达到比较理想的聚类效果.
文摘自动的心电异常识别是一个多标签分类问题,多通过对每个标签训练一个二分类器来实现异常识别。由于异常数目多,特征和异常间以及不同异常间的相关性复杂,自动检测的效果并不理想。为了充分利用异常和特征间的依存关系,提出了一种基于异常标签共现和特征局部相关(Label Co-occurrence and Feature’s local Pertinence,LCFP)的心电异常识别方法。首先,根据标签共现性和特征局部相关性,为标签构建包含宏特征和微特征的联合特征空间。宏特征采用狄利克雷过程混合模型聚类构建,以区分不同的共现标签集;微特征是原始特征空间的一个子集,用于区分共现标签集中的各个标签。进而,在联合特征空间为每个异常训练一个一对多(One-Versus-All)的概率分类器。其次,为充分利用异常的关联,提出在概率分类器排序基础上区分相关和非相关标签,采用Beta分布自适应地学习锚阈值和相关度阈值,以确定实例的相关标签集。LCFP是一种检测多种心电异常的通用方法,提高了心电异常识别的精度。在两个真实数据集上,F1指标分别提高了4%和22.4%,验证了所提方法的有效性。