期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
融合不确定性建模的时空交通数据插补方法 被引量:1
1
作者 刘乐 郭晟楠 +4 位作者 靳希源 赵苗苗 陈冉 林友芳 万怀宇 《计算机研究与发展》 北大核心 2025年第2期346-363,共18页
交通数据缺失是智能交通系统无法避免的问题之一,对缺失值进行补全和不确定性量化能提高智能交通系统中交通数据挖掘相关任务的精度和可靠性.然而,目前大多数交通数据插补模型都只能针对缺失值给出点估计,无法量化不确定性,难以满足交... 交通数据缺失是智能交通系统无法避免的问题之一,对缺失值进行补全和不确定性量化能提高智能交通系统中交通数据挖掘相关任务的精度和可靠性.然而,目前大多数交通数据插补模型都只能针对缺失值给出点估计,无法量化不确定性,难以满足交通领域对数据可靠性的要求.而且,现有方法将重点放在了建模交通数据的时空相关性上,却未能在捕获时空相关性的过程中考虑缺失值的影响.此外,交通数据的不确定性同时受到时间、空间位置以及数据自身状态的影响,但是现有方法无法全面考虑这些因素的影响.为了解决这些问题,提出了一种时空不确定性指导的交通数据插补模型(spatial-temporal uncertainty guided traffic data imputation network,STUIN),以自监督训练的方式实现了时空交通数据的插补和对插补结果的不确定性量化.具体来说,创新地将神经网络的隐状态建模成服从高斯分布的随机变量,借助方差建模隐状态的不确定性,利用基于方差的注意力机制描述不确定性对时空相关性建模的影响;此外,设计了一个新颖的时空不确定性初始化模块,在初始化均值和方差时同时考虑了时间、空间和数据缺失状况多种因素的影响.在2个交通流量数据集上的实验结果表明STUIN在数据插补和不确定性量化上都达到了最先进的性能. 展开更多
关键词 交通数据插补 不确定性量化 基于方差的注意力机制 时空数据挖掘 时空图数据
在线阅读 下载PDF
基于对比学习和标签挖掘的点云分割算法 被引量:1
2
作者 黄华 卜一凡 +1 位作者 许宏丽 王晓荣 《计算机研究与发展》 北大核心 2025年第1期132-143,共12页
基于深度学习的点云分割算法通过设计复杂的特征提取模块,可以对高维空间点云进行有效的分割.但由于缺乏对边界点集的特征挖掘,使得其对边界分割的精度欠佳.已有将对比学习思想用于点云分割以解决边界区域分割性能不足问题的研究中,忽... 基于深度学习的点云分割算法通过设计复杂的特征提取模块,可以对高维空间点云进行有效的分割.但由于缺乏对边界点集的特征挖掘,使得其对边界分割的精度欠佳.已有将对比学习思想用于点云分割以解决边界区域分割性能不足问题的研究中,忽略了点云无序和稀疏特性,特征提取不够准确.对此,设计了基于对比学习和标签挖掘的点云分割模型CL2M(contrastive learning label mining),通过自注意力机制学习不同位置处点云更为精准的特征,并引入对比学习方法,提高了点云边界处的分割精度.在对比边界学习过程中通过深入挖掘语义空间中的标签并设计了基于标签分布的对比边界学习模块,使得高维空间点云标签分布包含更多的语义信息.CL2M充分利用标签的分布规律计算分布间的距离,可准确划分正负样本,减少了常规硬划分带来的累计错误.在2个公开数据集上进行的实验结果表明,CL2M在多个评价指标上优于既有的点云分割模型,验证了模型的有效性. 展开更多
关键词 计算机视觉 点云分割 对比学习 自注意力机制 边界挖掘
在线阅读 下载PDF
基于时空多图融合的交通流量预测 被引量:2
3
作者 顾焰杰 张英俊 +2 位作者 刘晓倩 周围 孙威 《计算机应用》 CSCD 北大核心 2024年第8期2618-2625,共8页
交通预测是智能交通系统(ITS)的核心任务,准确的交通流量预测(TFF)可以大幅提高公共资源的利用效率。针对现有多图神经网络模型对上下文信息使用不足、图融合方法不平衡和只考虑静态空间关系等问题,提出基于时空多图融合(STMGF)的TFF模... 交通预测是智能交通系统(ITS)的核心任务,准确的交通流量预测(TFF)可以大幅提高公共资源的利用效率。针对现有多图神经网络模型对上下文信息使用不足、图融合方法不平衡和只考虑静态空间关系等问题,提出基于时空多图融合(STMGF)的TFF模型。首先,通过融合空间图、语义图和空间语义图提取不同区域的不同空间相关性,并利用空间注意力机制和图注意力机制融合不同的图结构以动态学习不同邻居的重要性;然后,使用多核时间注意力机制同时捕获局部时间依赖性和全局时间依赖性;最后,使用多层感知机预测交通流量,得到最终预测值。在NYCTaxi和NYCBike数据集验证模型的有效性。实验结果表明,在NYCBike数据集的36步预测任务中,与时空图卷积神经网络(STGCN)、基于时空注意力的图神经网络(ASTGNN)、元图卷积递归网络(MegaCRN)相比,所提模型的均方根误差(RMSE)分别降低了8.46%、2.70%和2.20%。 展开更多
关键词 多图融合 多核注意力 空间注意力 图注意力 深度学习
在线阅读 下载PDF
大数据分析专刊前言 被引量:5
4
作者 陈恩红 于剑 《软件学报》 EI CSCD 北大核心 2014年第9期1887-1888,共2页
自2008年《Nature》杂志发表大数据专辑以来,大数据得到越来越多的关注.2012年,美国和中国分别将大数据提升到国家战略高度.大数据技术是一个典型的跨领域研究方向,在数据的采集、存储、传输、管理、安全和分析等诸多方面均面临着挑... 自2008年《Nature》杂志发表大数据专辑以来,大数据得到越来越多的关注.2012年,美国和中国分别将大数据提升到国家战略高度.大数据技术是一个典型的跨领域研究方向,在数据的采集、存储、传输、管理、安全和分析等诸多方面均面临着挑战.在大数据分析方面,我国已经有国家自然科学基金重点项目、国家重点基础研究发展计划(973)在内的多个立项支持,并在学术界和工业界取得了一些有影响的研究与应用成果.然而,作为一个新兴的研究方向,大数据分析依然面临诸多挑战.本专刊收录的21篇论文反映了我国学者在大数据分析领域的部分近期研究成果。 展开更多
关键词 数据分析 《NATURE》 国家自然科学基金 数据技术 国家战略 基础研究 研究成果 工业界
在线阅读 下载PDF
面向交通流量预测的多组件时空图卷积网络 被引量:72
5
作者 冯宁 郭晟楠 +2 位作者 宋超 朱琪超 万怀宇 《软件学报》 EI CSCD 北大核心 2019年第3期759-769,共11页
流量预测一直是交通领域研究者和实践者关注的热点问题.流量数据具有高度的非线性和复杂性,对其进行精准预测具有很大的挑战,现有的预测方法大多不能很好地捕获数据的时空相关性.提出一种新颖的基于深度学习的多组件时空图卷积网络(MCST... 流量预测一直是交通领域研究者和实践者关注的热点问题.流量数据具有高度的非线性和复杂性,对其进行精准预测具有很大的挑战,现有的预测方法大多不能很好地捕获数据的时空相关性.提出一种新颖的基于深度学习的多组件时空图卷积网络(MCSTGCN),以解决交通流量预测问题.MCSTGCN通过3个组件分别建模流量数据的近期、日周期、周周期特性,每个组件同时利用空间维图卷积和时间维卷积有效捕获交通数据的时空相关性.在美国加利福尼亚州高速公路流量公开数据集上进行了实验,结果表明,MCSTGCN模型的预测效果优于现有的预测方法. 展开更多
关键词 交通流量预测 时空相关性 图卷积网络 多组件融合
在线阅读 下载PDF
面向交通流量预测的时空超关系图卷积网络 被引量:7
6
作者 张永凯 武志昊 +1 位作者 林友芳 赵苡积 《计算机应用》 CSCD 北大核心 2021年第12期3578-3584,共7页
交通流量预测是智能交通系统中的重要研究课题,然而,交通对象(如站点、传感器)之间存在的复杂局部时空关系使得这项研究颇具挑战。尽管以往的一些研究将流量预测问题转化为一个时空图预测问题从而取得了较大的进展,但是它们忽略了交通... 交通流量预测是智能交通系统中的重要研究课题,然而,交通对象(如站点、传感器)之间存在的复杂局部时空关系使得这项研究颇具挑战。尽管以往的一些研究将流量预测问题转化为一个时空图预测问题从而取得了较大的进展,但是它们忽略了交通对象们跨时空维度的直接关联性。目前仍缺乏一种全面建模局部时空关系的方法。针对这一问题,首先提出一种新颖的时空超图建模方案,通过构造一种时空超关系来全面地建模复杂的局部时空关系;然后提出一种时空超关系图卷积网络(STHGCN)预测模型来捕获这些关系用于交通流量预测。在四个公开交通数据集上进行了大量对比实验,结果表明,相比ASTGCN、时空同步图卷积网络(STSGCN)等时空预测模型,STHGCN在均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)这三个评价指标上均取得了更优的结果,不同模型运行时间的对比结果也表明,STHGCN有着更高的推理速度。 展开更多
关键词 交通流量预测 局部时空关系 时空图预测 超图 时空超关系
在线阅读 下载PDF
移动应用GUI测试自动生成技术综述
7
作者 王博 陈冲 +3 位作者 邓明 董震 林友芳 郝丹 《软件学报》 北大核心 2025年第6期2713-2746,共34页
移动应用是近10年来兴起的新型计算模式,深刻地影响人民的生活方式.移动应用主要以图形用户界面(graphical user interface,GUI)方式交互,而对其进行人工测试需要消耗大量人力和物力.为此,研究者提出针对移动应用GUI的测试自动生成技术... 移动应用是近10年来兴起的新型计算模式,深刻地影响人民的生活方式.移动应用主要以图形用户界面(graphical user interface,GUI)方式交互,而对其进行人工测试需要消耗大量人力和物力.为此,研究者提出针对移动应用GUI的测试自动生成技术以提升测试效率并检测潜在缺陷.收集了145篇相关论文,系统地梳理、分析和总结现有工作.提出了“测试生成器-测试环境”研究框架,将该领域的研究按照所属模块进行分类.特别地,依据测试生成器所基于的方法,将现有方法大致分为基于随机、基于启发式搜索、基于模型、基于机器学习和基于测试迁移这5个类别.此外,还从缺陷类别和测试动作等其他分类维度梳理现有方法.收集了该领域中较有影响力的数据集和开源工具.最后,总结当前面临的挑战并展望未来的研究方向. 展开更多
关键词 软件测试 GUI测试 测试生成 移动应用测试 安卓应用
在线阅读 下载PDF
融合多源异质特征的最后一公里配送路线与时间并行预测
8
作者 侯云峰 毛潇苇 +3 位作者 温浩珉 郭晟楠 林友芳 万怀宇 《计算机工程与应用》 北大核心 2025年第15期310-317,共8页
最后一公里配送是指将包裹从仓库送至客户手中,是物流服务的关键一步。在最后一公里配送中进行路线和时间预测(route and time prediction,RTP),有利于提升物流系统效率并改善客户的体验。然而,实现准确的路线和时间预测面临巨大的挑战... 最后一公里配送是指将包裹从仓库送至客户手中,是物流服务的关键一步。在最后一公里配送中进行路线和时间预测(route and time prediction,RTP),有利于提升物流系统效率并改善客户的体验。然而,实现准确的路线和时间预测面临巨大的挑战。快递员的配送路线和到达时间受到多源异质特征的影响,如快递员的个性化偏好、订单所在位置及下单时间、订单所在区域的类型及订单量等;当前很多研究先预测配送路线再预测配送时间,但不准确的路线预测结果往往会对时间预测造成误差累积。针对上述挑战,提出了一种基于多关系图神经网络的路线与时间并行预测方法(multi-relational graph model for route and time parallel prediction,MRG4RTPP)。构建包裹在位置和区域这两个层次上的时间、空间和转移模式多关系图,并设计双层次多关系图编码器提取多源异质特征,对包裹间的复杂时空关系进行建模。创新性地提出基于状态转移的路线与时间并行解码方式,用于缓解误差累计问题,在每步解码中,基于快递员当前状态并行预测下一配送包裹及其到达时间,并基于预测结果更新快递员状态。在三个城市的真实物流配送数据集上进行了实验,结果表明MRG4RTPP在路线预测和时间预测任务上均达到了当前最优效果。 展开更多
关键词 最后一公里配送 路线预测 时间预测 图神经网络 注意力机制
在线阅读 下载PDF
面向认知的多源数据学习理论和算法研究进展 被引量:4
9
作者 杨柳 于剑 +1 位作者 刘烨 詹德川 《软件学报》 EI CSCD 北大核心 2017年第11期2971-2991,共21页
多源数据学习在大数据时代具有极其重要的意义.目前,多源数据学习算法研究远远超前于多源数据学习理论研究,经典的机器学习理论难以应用于多源数据学习,更难以提供多源数据学习算法在实际应用中的理论保障.从学习的最终目的是知识这一... 多源数据学习在大数据时代具有极其重要的意义.目前,多源数据学习算法研究远远超前于多源数据学习理论研究,经典的机器学习理论难以应用于多源数据学习,更难以提供多源数据学习算法在实际应用中的理论保障.从学习的最终目的是知识这一认知切入点出发,对人类学习的认知机理、机器学习的三大经典理论(计算学习理论、统计学习理论和概率图理论)以及多源数据学习算法设计这3个方面的研究进展进行总结,最后给出未来研究方向的思考. 展开更多
关键词 统计学习理论 模式分类 特征空间 认知心理
在线阅读 下载PDF
基于迁移成分分析和支持向量机的肝移植并发症预测方法 被引量:2
10
作者 曹鸿亮 张莹 +2 位作者 武斌 李繁菀 那绪博 《计算机应用》 CSCD 北大核心 2021年第12期3608-3613,共6页
已有很多机器学习算法能够很好地应对预测分类问题,但这些方法在用于小样本、大特征空间的医疗数据集时存在着预测准确率和F1值不高的问题。为改善肝移植并发症预测的准确率和F1值,提出一种基于迁移成分分析(TCA)和支持向量机(SVM)的肝... 已有很多机器学习算法能够很好地应对预测分类问题,但这些方法在用于小样本、大特征空间的医疗数据集时存在着预测准确率和F1值不高的问题。为改善肝移植并发症预测的准确率和F1值,提出一种基于迁移成分分析(TCA)和支持向量机(SVM)的肝移植并发症预测分类方法。该方法采用TCA进行特征空间的映射和降维,将源领域和目标领域映射到同一再生核希尔伯特空间,从而实现边缘分布自适应;迁移完成之后在源领域上训练SVM,训练完成后在目标领域上实现并发症的预测分析。在肝移植并发症预测实验中,针对并发症Ⅰ、并发症Ⅱ、并发症Ⅲa、并发症Ⅲb、并发症Ⅳ进行预测,与传统机器学习和渐进式对齐异构域适应(HDA)相比,所提方法的准确率提升了7.8%~42.8%,F1值达到85.0%~99.0%,而传统机器学习和HDA由于正负样本不均衡出现了精确率很高而召回率很低的情况。实验结果表明TCA结合SVM能够有效提高肝移植并发症预测的准确率和F1值。 展开更多
关键词 迁移学习 迁移成分分析 支持向量机 肝移植 并发症预测
在线阅读 下载PDF
基于多样真实任务生成的鲁棒小样本分类方法 被引量:1
11
作者 刘鑫 景丽萍 于剑 《软件学报》 EI CSCD 北大核心 2024年第4期1587-1600,共14页
随着大数据、计算机与互联网等技术的不断进步,以机器学习和深度学习为代表的人工智能技术取得了巨大成功,尤其是最近不断涌现的各种大模型,极大地加速了人工智能技术在各个领域的应用.但这些技术的成功离不开海量训练数据和充足的计算... 随着大数据、计算机与互联网等技术的不断进步,以机器学习和深度学习为代表的人工智能技术取得了巨大成功,尤其是最近不断涌现的各种大模型,极大地加速了人工智能技术在各个领域的应用.但这些技术的成功离不开海量训练数据和充足的计算资源,大大限制了这些方法在一些数据或计算资源匮乏领域的应用.因此,如何利用少量样本进行学习,也就是小样本学习成为以人工智能技术引领新一轮产业变革中一个十分重要的研究问题.小样本学习中最常用的方法是基于元学习的方法,这类方法通过在一系列相似的训练任务上学习解决这类任务的元知识,在新的测试任务上利用元知识可以进行快速学习.虽然这类方法在小样本分类任务上取得了不错的效果,但是这类方法的一个潜在假设是训练任务和测试任务来自同一分布.这意味着训练任务需要足够多才能使模型学到的元知识泛化到不断变化的测试任务中.但是在一些真正数据匮乏的应用场景,训练任务的数量也是难以保证的.为此,提出一种基于多样真实任务生成的鲁棒小样本分类方法(DATG).该方法通过对已有少量任务进行Mixup,可以生成更多的训练任务帮助模型进行学习.通过约束生成任务的多样性和真实性,该方法可以有效提高小样本分类方法的泛化性.具体来说,先对训练集中的基类进行聚类得到不同的簇,然后从不同的簇中选取任务进行Mixup以增加生成任务的多样性.此外,簇间任务Mixup策略可以减轻学习到与类别高度相关的伪判别特征.同时,为了避免生成的任务与真实分布太偏离,误导模型学习,通过最小化生成任务与真实任务之间的最大均值差异(MMD)来保证生成任务的真实性.最后,从理论上分析了为什么基于簇间任务Mixup的策略可以提高模型的泛化性能.多个数据集上的实验结果进一步证明了所提出的基于多样性和真实性任务扩充方法的有效性. 展开更多
关键词 小样本学习 元学习 任务Mixup 多样性 真实性
在线阅读 下载PDF
基于工人长短期时空偏好的众包任务分配 被引量:3
12
作者 王府鑫 王宁 曾奇雄 《软件学报》 EI CSCD 北大核心 2024年第10期4710-4728,共19页
近年来,随着移动设备的计算能力和感知能力的提高,基于位置信息的时空众包应运而生,任务分配效果的提升面临许多挑战,其中之一便是如何给工人分配他们真正感兴趣的任务.现有的研究方法只关注工人的时间偏好而忽略了空间因素对偏好的影响... 近年来,随着移动设备的计算能力和感知能力的提高,基于位置信息的时空众包应运而生,任务分配效果的提升面临许多挑战,其中之一便是如何给工人分配他们真正感兴趣的任务.现有的研究方法只关注工人的时间偏好而忽略了空间因素对偏好的影响,仅关注长期偏好却忽略了短期偏好,同时面临历史数据稀疏导致的预测不准的问题.研究基于长短期时空偏好的任务分配问题,从长期和短期两个角度以及时间和空间两个维度全面考虑工人的偏好,进行时空众包任务分配,提高任务的成功分配率和完成效率.为提升时空偏好预测的准确性,提出分片填充的张量分解算法(SICTD)减小偏好张量的空缺值占比,提出时空约束下的ST-HITS算法,综合考虑工人短期活跃范围,计算短期时空偏好.为了在众包任务分配中最大化任务总收益和工人偏好,设计基于时空偏好的贪心与Kuhn-Munkres(KM)算法,优化任务分配的结果.在真实数据集上的大量实验结果表明,提出的分片填补张量分解算法对时间和空间偏好的RMSE预测误差较基线算法分别下降22.55%和24.17%;在任务分配方面,提出的基于偏好的KM算法表现出色,对比基线算法,在工人总收益和工人完成任务平均偏好值上分别提升40.86%和22.40%. 展开更多
关键词 时空众包 任务分配 张量分解 偏好预测
在线阅读 下载PDF
小样本场景下的元迁移学习睡眠分期模型 被引量:1
13
作者 时旺军 王晶 +1 位作者 宁晓军 林友芳 《计算机应用》 CSCD 北大核心 2024年第5期1445-1451,共7页
睡眠障碍受到越来越多的关注,且自动化睡眠分期的准确性、泛化性受到了越来越多的挑战。然而,公开的睡眠数据十分有限,睡眠分期任务实际上更近似于一种小样本场景;同时由于睡眠特征的个体差异普遍存在,现有的机器学习模型很难保证准确... 睡眠障碍受到越来越多的关注,且自动化睡眠分期的准确性、泛化性受到了越来越多的挑战。然而,公开的睡眠数据十分有限,睡眠分期任务实际上更近似于一种小样本场景;同时由于睡眠特征的个体差异普遍存在,现有的机器学习模型很难保证准确判读未参与训练的新受试者的数据。为了实现对新受试者睡眠数据的精准分期,现有研究通常需要额外采集、标注新受试者的大量数据,并对模型进行个性化微调。基于此,借鉴迁移学习中基于缩放-偏移的权重迁移思想,提出一种元迁移睡眠分期模型MTSL(Meta Transfer Sleep Learner),设计了一种新的元迁移学习框架:训练阶段包括预训练与元迁移训练两步,其中元迁移训练时使用大量的元任务进行训练;而在测试阶段仅使用极少的新受试者数据进行微调,模型就能轻松适应新受试者的特征分布,大幅减少对新受试者进行准确睡眠分期的成本。在两个公开的睡眠数据集上的实验结果表明,MTSL模型在单数据集、跨数据集两种条件下都能取得更高的准确率和F1分数,这表明MTSL更适合小样本场景下的睡眠分期任务。 展开更多
关键词 睡眠分期 小样本 元学习 迁移学习 深度学习 脑电信号
在线阅读 下载PDF
无负采样的正样本增强图对比学习推荐方法PAGCL
14
作者 汪炅 唐韬韬 贾彩燕 《计算机应用》 CSCD 北大核心 2024年第5期1485-1492,共8页
对比学习(CL)因能够提取数据本身包含的监督信号而被广泛应用于推荐任务。最近的研究表明,CL在推荐方面的成功依赖于对比损失——互信息噪声对比估计(InfoNCE)损失带来的节点分布的均匀性。此外,另一项研究证明贝叶斯个性化排序(BPR)损... 对比学习(CL)因能够提取数据本身包含的监督信号而被广泛应用于推荐任务。最近的研究表明,CL在推荐方面的成功依赖于对比损失——互信息噪声对比估计(InfoNCE)损失带来的节点分布的均匀性。此外,另一项研究证明贝叶斯个性化排序(BPR)损失的正项与负项分别带来的对齐性和均匀性有助于提高推荐性能。由于在CL框架中对比损失能够带来比BPR负项更强的均匀性,BPR负项存在的必要性值得商榷。实验分析表明在对比框架中BPR的负项是不必要的,并基于这一观察提出了无需负采样的联合优化损失,可应用于经典的CL方法并达到相同或更高的性能。此外,与专注于提高均匀性的研究不同,为进一步加强对齐性,提出一种新颖的正样本增强的图对比学习方法(PAGCL),该方法使用随机正样本在节点表示层面进行扰动。在多个基准数据集上的实验结果表明,PAGCL在召回率及归一化折损累积增益(NDCG)这两个常用指标上均优于SOTA方法自监督图学习(SGL)、简单图对比学习(SimGCL)等,且相较于基模型轻量化图卷积(LightGCN)的NDCG@20提升最大可达17.6%。 展开更多
关键词 推荐系统 对比学习 自监督学习 图神经网络 数据增强
在线阅读 下载PDF
一种基于随机块模型的快速广义社区发现算法 被引量:11
15
作者 柴变芳 于剑 +1 位作者 贾彩燕 王静红 《软件学报》 EI CSCD 北大核心 2013年第11期2699-2709,共11页
随机块模型可以生成各种不同结构(称作广义社区,包括传统社区、二分结构、层次结构等)的网络,也可以根据概率对等原则发现网络中的广义社区.但简单的随机块模型在网络生成过程建模和模型学习方面存在许多问题,导致不能很好地发现实际网... 随机块模型可以生成各种不同结构(称作广义社区,包括传统社区、二分结构、层次结构等)的网络,也可以根据概率对等原则发现网络中的广义社区.但简单的随机块模型在网络生成过程建模和模型学习方面存在许多问题,导致不能很好地发现实际网络的结构,其扩展模型GSB(general stochastic block)基于链接社区思想发现广义社区,但时间复杂度限制其在中大型规模网络中的应用.为了在无任何先验的情形下探索不同规模网络的潜在结构,基于GSB模型设计一种快速算法FGSB,更快地发现网络的广义社区.FGSB在迭代过程中动态学习网络结构参数,将GSB模型的参数重新组织,减少不必要的参数,降低算法的存储空间;对收敛节点和边的参数进行裁剪,减少每次迭代的相关计算,节省算法的运行时间.FGSB与GSB模型求解算法有相同的结构发现能力,但FGSB耗费的存储空间和运行时间比GSB模型求解算法要低.在不同规模的人工网络和实际网络上验证得出:在近似相同的准确率下,FGSB比GSB模型求解算法快,且可发现大型网络的广义社区. 展开更多
关键词 随机块模型 广义社区 时间复杂度 复杂网络
在线阅读 下载PDF
一种异构直推式迁移学习算法 被引量:14
16
作者 杨柳 景丽萍 于剑 《软件学报》 EI CSCD 北大核心 2015年第11期2762-2780,共19页
目标领域已有类别标注的数据较少时会影响学习性能,而与之相关的其他源领域中存在一些已标注数据.迁移学习针对这一情况,提出将与目标领域不同但相关的源领域上学习到的知识应用到目标领域.在实际应用中,例如文本-图像、跨语言迁移学习... 目标领域已有类别标注的数据较少时会影响学习性能,而与之相关的其他源领域中存在一些已标注数据.迁移学习针对这一情况,提出将与目标领域不同但相关的源领域上学习到的知识应用到目标领域.在实际应用中,例如文本-图像、跨语言迁移学习等,源领域和目标领域的特征空间是不相同的,这就是异构迁移学习.关注的重点是利用源领域中已标注的数据来提高目标领域中未标注数据的学习性能,这种情况是异构直推式迁移学习.因为源领域和目标领域的特征空间不同,异构迁移学习的一个关键问题是学习从源领域到目标领域的映射函数.提出采用无监督匹配源领域和目标领域的特征空间的方法来学习映射函数.学到的映射函数可以把源领域中的数据在目标领域中重新表示.这样,重表示之后的已标注源领域数据可以被迁移到目标领域中.因此,可以采用标准的机器学习方法(例如支持向量机方法)来训练分类器,以对目标领域中未标注的数据进行类别预测.给出一个概率解释以说明其对数据中的一些噪声是具有鲁棒性的.同时还推导了一个样本复杂度的边界,也就是寻找映射函数时需要的样本数.在4个实际的数据库上的实验结果,展示了该方法的有效性. 展开更多
关键词 异构迁移学习 直推式迁移学习 异构特征空间 映射函数
在线阅读 下载PDF
基于Shapelet剪枝和覆盖的时间序列分类算法 被引量:17
17
作者 原继东 王志海 韩萌 《软件学报》 EI CSCD 北大核心 2015年第9期2311-2325,共15页
时间序列shapelets是时间序列中能够最大限度地表示一个类别的子序列.解决时间序列分类问题的有效途径之一是通过shapelets转换技术,将shapelets的发现与分类器的构建相分离,其主要优点是优化了shapelets的选择过程,并能够灵活应用不同... 时间序列shapelets是时间序列中能够最大限度地表示一个类别的子序列.解决时间序列分类问题的有效途径之一是通过shapelets转换技术,将shapelets的发现与分类器的构建相分离,其主要优点是优化了shapelets的选择过程,并能够灵活应用不同的分类策略.但该方法也存在不足:一是在shapelets转换时,用于产生最好分类结果的shapelets数量是很难确定的;二是被选择的shapelets之间往往存在着较大的相似性.针对这两个问题,首先提出了一种简单有效的shapelet剪枝技术,用于过滤掉相似的shapelets;其次,提出了一种基于shapelets覆盖的方法来确定用于数据转换的shapelets的数量.通过在多个数据集上的测试实验,表明了所提出的算法具有更高的分类准确率. 展开更多
关键词 时间序列分类 shapelet剪枝 shapelet覆盖
在线阅读 下载PDF
样本加权的多视图聚类算法 被引量:13
18
作者 洪敏 贾彩燕 +1 位作者 李亚芳 于剑 《计算机研究与发展》 EI CSCD 北大核心 2019年第8期1677-1685,共9页
大数据时代,人类收集、存储、传输、管理数据的能力日益提高,各行各业已经积累了大量的数据资源,这些数据常呈现出多源性和异构性.如何对这些多源数据进行有效的聚类(也称为多视图聚类)已成为当今机器学习研究关注的焦点之一.现有的多... 大数据时代,人类收集、存储、传输、管理数据的能力日益提高,各行各业已经积累了大量的数据资源,这些数据常呈现出多源性和异构性.如何对这些多源数据进行有效的聚类(也称为多视图聚类)已成为当今机器学习研究关注的焦点之一.现有的多视图聚类算法主要从“全局”角度关注不同视图和特征对簇结构的贡献,没有考虑不同样本间存在的“局部”信息间的差异.因此,提出一种新的多视图样本加权聚类算法(sample-weighted multi-view clustering, SWMVC),该算法对每个样本的不同视图进行加权,采用交替方向乘子法自适应学习样本权值,不仅可以学习不同样本点间不同视图权重的“局部”差异,还可以从学习到的“局部”差异反映出不同视图对簇结构贡献的“全局”差异,具有较好的灵活性.多个数据集上的实验表明:SWMVC方法在异质视图数据上具有较好的聚类效果. 展开更多
关键词 数据挖掘 多视图 聚类 K -means 样本权重
在线阅读 下载PDF
基于概率模型的大规模网络结构发现方法 被引量:9
19
作者 柴变芳 贾彩燕 于剑 《软件学报》 EI CSCD 北大核心 2014年第12期2753-2766,共14页
随着万维网和在线社交网站的发展,规模大、结构复杂、动态性强的大规模网络应用而生.发现这些网络的潜在结构,是分析和理解网络数据的基本途径.概率模型以其灵活的建模和解释能力、坚实的理论框架成为各领域研究网络结构发现任务的有效... 随着万维网和在线社交网站的发展,规模大、结构复杂、动态性强的大规模网络应用而生.发现这些网络的潜在结构,是分析和理解网络数据的基本途径.概率模型以其灵活的建模和解释能力、坚实的理论框架成为各领域研究网络结构发现任务的有效工具,但该类方法存在计算瓶颈.近几年出现了一些基于概率模型的大规模网络结构发现方法,主要从网络表示、结构假设、参数求解这3个方面解决计算问题.按照模型参数求解策略将已有方法归为两类:随机变分推理(stochastic variational inference)方法和在线EM(online expectation maximazation)方法,详细分析各方法的设计动机、原理和优缺点.定性和定量地对比、分析典型方法的特点和性能,并提出大规模网络结构发现模型的设计原则.最后,概括该领域研究的核心问题,展望未来发展趋势. 展开更多
关键词 大规模网络 结构发现 随机变分推理 在线EM算法 三角形模体
在线阅读 下载PDF
基于Pivots选择的有效图像块描述子 被引量:3
20
作者 谢博鋆 朱杰 于剑 《软件学报》 EI CSCD 北大核心 2015年第11期2930-2938,共9页
设计图像块特征表示是计算机视觉领域内的基本研究内容,优秀的图像块特征表示能够有效地提高图像分类、对象识别等相关算法的性能.SIFT(scale-invariant feature transform)和HOG(histogram of oriented gradient)是人为设计图像块特征... 设计图像块特征表示是计算机视觉领域内的基本研究内容,优秀的图像块特征表示能够有效地提高图像分类、对象识别等相关算法的性能.SIFT(scale-invariant feature transform)和HOG(histogram of oriented gradient)是人为设计图像块特征表示的优秀代表,然而,人为设计图像块特征间的差异往往不能足够理想地反映图像块间的相似性.核描述子(kernel descriptor,简称KD)方法提供了一种新的方式生成图像块特征,在图像块间匹配核函数基础上,应用核主成分分析(kernel principal component analysis,简称KPCA)方法进行特征表示,且在图像分类应用上获得不错的性能.但是,该方法需要利用所有联合基向量去生成核描述子特征,导致算法时间复杂度较高.为了解决这个问题,提出了一种算法生成图像块特征表示,称为有效图像块描述子(efficient patch-level descriptor,简称EPLd).算法建立在不完整Cholesky分解基础上,自动选择少量的标志性图像块以提高算法效率,且利用MMD(maximum mean discrepancy)距离计算图像间的相似性.实验结果表明,该算法在图像/场景分类应用中获得了优秀的性能. 展开更多
关键词 标志性图像块 不完整Cholesky分解 核描述子 有效图像块描述子 MMD距离
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部