近年来,具有典型多源异构特性的跨媒体数据的快速涌现给数据分析带来巨大挑战.然而,绝大多数现有跨媒体数据分析方法仅依赖模态间的共享信息发掘跨媒体数据中蕴含的模式结构,忽略各模态自身的重要信息.针对此问题,提出共享和私有信息最...近年来,具有典型多源异构特性的跨媒体数据的快速涌现给数据分析带来巨大挑战.然而,绝大多数现有跨媒体数据分析方法仅依赖模态间的共享信息发掘跨媒体数据中蕴含的模式结构,忽略各模态自身的重要信息.针对此问题,提出共享和私有信息最大化(share and private information maximization)的跨媒体聚类算法,通过兼顾跨媒体数据的共享和私有信息,以求得更加合理的聚类模式.首先,提出2种跨媒体数据的共享信息构建模型:1)混合单词模型,该模型将各模态的底层特征转换为统一的词频向量表示,然后使用一种新的自凝聚信息最大化方法自底向上地构建多模态的混合单词空间,最大化地保持各模态底层特征的统计相似性;2)聚类集成模型,构建各模态自身的聚类划分,通过互信息度量各模态聚类划分间的信息量,抽取各模态的高层聚类划分之间的相关性.其次,提出基于信息论的目标函数,将跨媒体数据的共享和私有信息融合在同一目标函数中,在抽取聚类模式结构的过程中兼顾跨媒体数据的共享和私有信息.最后,采用顺序“抽取合并”过程优化SPIM算法的目标函数,保证其收敛到局部最优解.在6种跨媒体数据上的实验结果表明SPIM算法的优越性.展开更多
作为机器学习领域的研究新方向,多无源域适应旨在将多个源域模型中的知识迁移到目标域,以实现对目标域样本的准确预测。本质上,解决多无源域适应的关键在于如何量化多个源模型对目标域的贡献,并利用源模型中的多样性知识来适应目标域。...作为机器学习领域的研究新方向,多无源域适应旨在将多个源域模型中的知识迁移到目标域,以实现对目标域样本的准确预测。本质上,解决多无源域适应的关键在于如何量化多个源模型对目标域的贡献,并利用源模型中的多样性知识来适应目标域。为了应对上述问题,提出了一种基于源模型贡献量化(Source Model Contribution Quantizing,SMCQ)的多无源域适应方法。具体而言,提出了源模型可转移性感知,以量化源模型的可转移性贡献,从而为目标域模型有效地分配源模型的自适应权重。其次,引入了信息最大化方法,以缩小跨域的分布差异,并解决模型退化的问题。然后,提出了可信划分全局对齐方法,该方法用于划分高可信和低可信样本,以应对域差异引起的嘈杂环境,并有效降低标签分配错误的风险。此外,还引入了样本局部一致性损失,以减小伪标签噪声对低可信样本聚类错误的影响。最后,在多个数据集上进行实验,验证了所提方法的有效性。展开更多
文摘近年来,具有典型多源异构特性的跨媒体数据的快速涌现给数据分析带来巨大挑战.然而,绝大多数现有跨媒体数据分析方法仅依赖模态间的共享信息发掘跨媒体数据中蕴含的模式结构,忽略各模态自身的重要信息.针对此问题,提出共享和私有信息最大化(share and private information maximization)的跨媒体聚类算法,通过兼顾跨媒体数据的共享和私有信息,以求得更加合理的聚类模式.首先,提出2种跨媒体数据的共享信息构建模型:1)混合单词模型,该模型将各模态的底层特征转换为统一的词频向量表示,然后使用一种新的自凝聚信息最大化方法自底向上地构建多模态的混合单词空间,最大化地保持各模态底层特征的统计相似性;2)聚类集成模型,构建各模态自身的聚类划分,通过互信息度量各模态聚类划分间的信息量,抽取各模态的高层聚类划分之间的相关性.其次,提出基于信息论的目标函数,将跨媒体数据的共享和私有信息融合在同一目标函数中,在抽取聚类模式结构的过程中兼顾跨媒体数据的共享和私有信息.最后,采用顺序“抽取合并”过程优化SPIM算法的目标函数,保证其收敛到局部最优解.在6种跨媒体数据上的实验结果表明SPIM算法的优越性.
文摘作为机器学习领域的研究新方向,多无源域适应旨在将多个源域模型中的知识迁移到目标域,以实现对目标域样本的准确预测。本质上,解决多无源域适应的关键在于如何量化多个源模型对目标域的贡献,并利用源模型中的多样性知识来适应目标域。为了应对上述问题,提出了一种基于源模型贡献量化(Source Model Contribution Quantizing,SMCQ)的多无源域适应方法。具体而言,提出了源模型可转移性感知,以量化源模型的可转移性贡献,从而为目标域模型有效地分配源模型的自适应权重。其次,引入了信息最大化方法,以缩小跨域的分布差异,并解决模型退化的问题。然后,提出了可信划分全局对齐方法,该方法用于划分高可信和低可信样本,以应对域差异引起的嘈杂环境,并有效降低标签分配错误的风险。此外,还引入了样本局部一致性损失,以减小伪标签噪声对低可信样本聚类错误的影响。最后,在多个数据集上进行实验,验证了所提方法的有效性。