随着互联网技术的发展以及社交网络的扩大,网络平台已经成为人们获取信息的一个重要途径。标签的引入提升了信息分类及检索效率。同时,标签推荐系统的出现不仅方便了用户输入标签,还提高了标签的质量。传统的标签推荐算法通常只考虑标...随着互联网技术的发展以及社交网络的扩大,网络平台已经成为人们获取信息的一个重要途径。标签的引入提升了信息分类及检索效率。同时,标签推荐系统的出现不仅方便了用户输入标签,还提高了标签的质量。传统的标签推荐算法通常只考虑标签和项目两个主体,而忽略了用户在选择标签时个人意图所起到的重要作用。由于在标签推荐系统中标签最终由用户确定,因此用户的偏好在标签推荐中起着关键作用。为此,引入用户作为主体,并结合用户发布的历史帖子的先后顺序,将标签推荐任务建模为更加符合真实场景的序列标签推荐任务。提出了一种基于MLP的序列标签推荐方法(MLP for Sequential Tag Recommendation, MLP4STR),该方法显式地建模用户偏好用于引导整体标签推荐。MLP4STR采用一种跨特征对齐的MLP序列特征提取框架,将文本和标签的特征对齐,获取用户的历史帖子信息和历史标签信息中隐含的用户动态兴趣。最后,结合帖子内容和用户偏好进行标签推荐。在4个真实世界的数据集上得到的实验结果表明,MLP4STR能够有效地学习序列标签推荐中的用户历史行为序列的信息,其中,评价指标F1@5较最优的对比算法有显著提升。展开更多
针对智能交通系统中行程时间估计的不确定性量化的难题,提出一种全局-局部不确定性感知行程时间估计方法(global and local uncertainty-aware travel time estimation,GLUTTE)。首先,通过多任务学习策略建模整体路线与各局部路段的行...针对智能交通系统中行程时间估计的不确定性量化的难题,提出一种全局-局部不确定性感知行程时间估计方法(global and local uncertainty-aware travel time estimation,GLUTTE)。首先,通过多任务学习策略建模整体路线与各局部路段的行程时间关系及其不确定性。其次,采用多粒度分位数回归方法,综合考虑全局和局部特征,提供准确的置信区间估计。实验结果表明,所提方法能够有效量化不确定性,同时保证准确性并提供可靠的置信区间,从而提升结果的可用性和可信度。展开更多
对数据流中的潜在信息进行分析和利用是数据流挖掘工作的重要内容。然而,数据的分布会随着时间的推移发生变化,从而使学习假设发生更改,这就是概念漂移现象,它给数据流挖掘带来了巨大的挑战。检测数据分布的变化是一种直接且有效的概念...对数据流中的潜在信息进行分析和利用是数据流挖掘工作的重要内容。然而,数据的分布会随着时间的推移发生变化,从而使学习假设发生更改,这就是概念漂移现象,它给数据流挖掘带来了巨大的挑战。检测数据分布的变化是一种直接且有效的概念漂移检测方法,目前,已有研究方法基于树型结构或网格结构建立直方图,实现对数据分布的描述,但是,此类方法在进行分布检测时容易产生检验盲点,其可解释性较差,并且在多维数据上的内存消耗较大。文中提出了一种基于等密度分区的概念漂移检测方法PUDC(Partition Based on Uniform Density Clusters),该方法基于改进的k-Means算法,对数据进行等密度分区,利用卡方检验对每个分区进行统计和计算,从而检测数据分布变化,以达到概念漂移检测的目的。为了验证方法的有效性,选取了4个人工数据集和3个真实数据集进行实验,对比分析了不同维度的数据下的I类错误率和II类错误率,实验结果表明,PUDC算法在多维数据流的概念漂移检测中相比几种较新的算法具有一定的优势。展开更多
文摘随着互联网技术的发展以及社交网络的扩大,网络平台已经成为人们获取信息的一个重要途径。标签的引入提升了信息分类及检索效率。同时,标签推荐系统的出现不仅方便了用户输入标签,还提高了标签的质量。传统的标签推荐算法通常只考虑标签和项目两个主体,而忽略了用户在选择标签时个人意图所起到的重要作用。由于在标签推荐系统中标签最终由用户确定,因此用户的偏好在标签推荐中起着关键作用。为此,引入用户作为主体,并结合用户发布的历史帖子的先后顺序,将标签推荐任务建模为更加符合真实场景的序列标签推荐任务。提出了一种基于MLP的序列标签推荐方法(MLP for Sequential Tag Recommendation, MLP4STR),该方法显式地建模用户偏好用于引导整体标签推荐。MLP4STR采用一种跨特征对齐的MLP序列特征提取框架,将文本和标签的特征对齐,获取用户的历史帖子信息和历史标签信息中隐含的用户动态兴趣。最后,结合帖子内容和用户偏好进行标签推荐。在4个真实世界的数据集上得到的实验结果表明,MLP4STR能够有效地学习序列标签推荐中的用户历史行为序列的信息,其中,评价指标F1@5较最优的对比算法有显著提升。
文摘针对智能交通系统中行程时间估计的不确定性量化的难题,提出一种全局-局部不确定性感知行程时间估计方法(global and local uncertainty-aware travel time estimation,GLUTTE)。首先,通过多任务学习策略建模整体路线与各局部路段的行程时间关系及其不确定性。其次,采用多粒度分位数回归方法,综合考虑全局和局部特征,提供准确的置信区间估计。实验结果表明,所提方法能够有效量化不确定性,同时保证准确性并提供可靠的置信区间,从而提升结果的可用性和可信度。
文摘对数据流中的潜在信息进行分析和利用是数据流挖掘工作的重要内容。然而,数据的分布会随着时间的推移发生变化,从而使学习假设发生更改,这就是概念漂移现象,它给数据流挖掘带来了巨大的挑战。检测数据分布的变化是一种直接且有效的概念漂移检测方法,目前,已有研究方法基于树型结构或网格结构建立直方图,实现对数据分布的描述,但是,此类方法在进行分布检测时容易产生检验盲点,其可解释性较差,并且在多维数据上的内存消耗较大。文中提出了一种基于等密度分区的概念漂移检测方法PUDC(Partition Based on Uniform Density Clusters),该方法基于改进的k-Means算法,对数据进行等密度分区,利用卡方检验对每个分区进行统计和计算,从而检测数据分布变化,以达到概念漂移检测的目的。为了验证方法的有效性,选取了4个人工数据集和3个真实数据集进行实验,对比分析了不同维度的数据下的I类错误率和II类错误率,实验结果表明,PUDC算法在多维数据流的概念漂移检测中相比几种较新的算法具有一定的优势。