期刊文献+
共找到88篇文章
< 1 2 5 >
每页显示 20 50 100
基于岩性分类综合数据集的新建监测坡面位移预测
1
作者 田原 张建学 +4 位作者 赵文祎 程楚云 邓杨兰朵 马睿平 黄儒豪 《北京大学学报(自然科学版)》 北大核心 2025年第4期709-718,共10页
针对普适型滑坡监测工作中新建监测坡面有效数据量少,代表性不足,难以开展高精度单坡建模的问题,建立基于岩性分类的综合数据集,开展模型预训练,从而提升建模效果。通过综合数据集,模型可以挖掘和利用多坡面监测数据中更丰富的变形特征... 针对普适型滑坡监测工作中新建监测坡面有效数据量少,代表性不足,难以开展高精度单坡建模的问题,建立基于岩性分类的综合数据集,开展模型预训练,从而提升建模效果。通过综合数据集,模型可以挖掘和利用多坡面监测数据中更丰富的变形特征。依据基础岩性对综合数据集进行分类,构建不同的预训练模型,并应用于对应岩性的新建坡面,能够在保证数据集数量较为充足的同时,增强分类数据集对不同类别坡体变形规律的表征能力,通过提升预训练数据和目标域数据分布的一致性,进一步提高建模效果。实例验证结果表明,基于岩性分类综合数据集的预训练模型,在对应岩性新建坡面上,建模效果总体上显著优于单坡面模型和基于其他综合数据集的预训练模型,可以为新建坡面位移预测工作提供有力的支持。 展开更多
关键词 滑坡 短期位移预测 岩性分类综合数据 预训练模型 新建坡面 普适型滑坡监测
在线阅读 下载PDF
基于数据集蒸馏的光伏发电功率超短期预测 被引量:7
2
作者 郑珂 王丽婕 +1 位作者 郝颖 王勃 《中国电机工程学报》 EI CSCD 北大核心 2024年第13期5196-5207,I0015,共13页
云是影响太阳直接辐射变化的主要因素,由于各类云的透光率不同,导致到达光伏电站的太阳辐射会随之产生波动。为解决各类云遮挡下的光伏发电功率波动大、预测模型个数多的问题,提出一种基于卫星云图和数据集蒸馏的光伏发电功率超短期预... 云是影响太阳直接辐射变化的主要因素,由于各类云的透光率不同,导致到达光伏电站的太阳辐射会随之产生波动。为解决各类云遮挡下的光伏发电功率波动大、预测模型个数多的问题,提出一种基于卫星云图和数据集蒸馏的光伏发电功率超短期预测模型。首先,基于待测场站上方的历史云图,采用Farneback光流法预测出云图;然后,根据卫星云分类标签数据建立各类云的样本库,利用数据集蒸馏算法训练样本库得到云类判别图,将预测云图与云类判别图匹配计算,获得云类聚合匹配特征;最后,利用上述特征、云量特征以及数值天气预报数据建立长短期记忆网络模型,对光伏发电功率进行超短期预测。利用某光伏电站数据进行验证,结果显示,该文所提模型能准确描述云层的各项特征,有效提升光伏功率预测精度。 展开更多
关键词 数据蒸馏 卫星云图 云分类 光流法 超短期光伏功率预测
在线阅读 下载PDF
基于数据驱动的并网逆变器无模型预测电流控制
3
作者 杨金东 张锡然 +1 位作者 杨泽宇 荣飞 《电力工程技术》 北大核心 2025年第4期197-206,共10页
传统模型预测电流控制因其响应迅速和多目标优化优势,在并网逆变器控制领域得到广泛研究。文中针对传统模型预测电流控制中因参数失配导致控制性能下降的问题,提出一种基于数据驱动的无模型预测电流控制策略。首先,采用加权平均电流方... 传统模型预测电流控制因其响应迅速和多目标优化优势,在并网逆变器控制领域得到广泛研究。文中针对传统模型预测电流控制中因参数失配导致控制性能下降的问题,提出一种基于数据驱动的无模型预测电流控制策略。首先,采用加权平均电流方法对三阶LCL型滤波器系统进行降阶处理,以抑制LCL谐振频率引起的振荡;然后,利用超局部模型简化传统预测电流模型,并通过设计线性扩张状态观测器对系统扰动进行估计和补偿,从而提高电流预测精度;最后,基于系统运行数据,应用递归最小二乘法在线更新系统模型,降低控制系统对参数的依赖。仿真与硬件在环实验结果证明,相较于传统模型预测电流控制,所提出的控制策略在参数失配情况下具有更强的鲁棒性且稳态性能更优。 展开更多
关键词 有限模型预测控制 无模型控制 数据驱动 超局部模型 递归最小二乘法 参数失配
在线阅读 下载PDF
河海图结构蛋白质数据集及预测模型
4
作者 魏想想 孟朝晖 《计算机科学》 CSCD 北大核心 2024年第8期117-123,共7页
蛋白质是一种具有空间结构的物质。蛋白质结构预测的主要目标是从已有的大规模的蛋白质数据集中提取有效的信息,从而预测自然界中蛋白质的结构。目前蛋白质结构预测实验存在的一个问题是,缺少能够进一步反映出蛋白质空间结构特征的数据... 蛋白质是一种具有空间结构的物质。蛋白质结构预测的主要目标是从已有的大规模的蛋白质数据集中提取有效的信息,从而预测自然界中蛋白质的结构。目前蛋白质结构预测实验存在的一个问题是,缺少能够进一步反映出蛋白质空间结构特征的数据集。当前主流的PDB蛋白质数据集虽然是经过实验测得,但没有利用到蛋白质的空间特征,而且存在掺杂核酸数据和部分数据不完整的问题。针对以上问题,从蛋白质的空间结构角度来研究蛋白质的预测。在原始PDB数据集的基础上,提出了河海图结构蛋白质数据集(Hohai Graphic Protein Data Bank,HohaiGPDB)。该数据集以图结构为基础,表达出了蛋白质的空间结构特征。基于传统Transformer网络模型对新的数据集进行了相关的蛋白质结构预测实验,在HohaiGPDB数据集上的预测准确率可以达到59.38%,证明了HohaiGPDB数据集的研究价值。HohaiGPDB数据集可以作为蛋白质相关研究的通用数据集。 展开更多
关键词 河海图结构蛋白质数据 蛋白质空间结构 蛋白质结构预测 Transformer模型
在线阅读 下载PDF
利用全球开源数字高程模型的高程误差预测数据集
5
作者 余翠琳 王青松 +3 位作者 钟梓炫 张君豪 赖涛 黄海风 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第9期3445-3455,共11页
数字高程模型(DEM)校正一直是遥感地学研究中的重要内容,近年来蓬勃发展的机器学习新方法为DEM高程误差校正提供了新的解决途径。由于机器学习等人工智能方法依赖大量的训练数据,考虑到目前缺少大区域公开的、统一的、大规模和规范化多... 数字高程模型(DEM)校正一直是遥感地学研究中的重要内容,近年来蓬勃发展的机器学习新方法为DEM高程误差校正提供了新的解决途径。由于机器学习等人工智能方法依赖大量的训练数据,考虑到目前缺少大区域公开的、统一的、大规模和规范化多源DEM高程误差预测数据集,针对数据集缺失的问题,该文公开了多源DEM高程误差预测数据集(DEEP-Dataset)。该数据集包括4个子数据集,分别基于中国广东省研究区域的数字高程测量的TerraSAR-X附加组件(TanDEM-X)DEM和先进陆地观测卫星世界3D-30米(AW3D30)DEM以及澳大利亚北领地研究区域的航天飞机雷达地形测绘任务(SRTM)DEM和先进星载热发射和反射辐射计全球数字高程模型(ASTER)DEM构成。其中,广东省研究区域的样本数量约为40000,北领地研究区域的样本数约量为1600000。数据集中的每个样本均由10个特征组成,涵盖了地理空间、地物种类以及地表形态等特征信息。通过设置机器学习模型测试、DEM校正以及特征重要性评估等对比实验,验证了DEEP-Dataset在实际模型训练和DEM校正中的有效性,也证明了该数据集的合理性和丰富性。 展开更多
关键词 数字高程模型 人工智能 机器学习 预测数据
在线阅读 下载PDF
栾川矿集区地学大数据挖掘和三维/四维建模的资源-环境联合预测与定量评价 被引量:15
6
作者 王功文 张寿庭 +10 位作者 燕长海 庞振山 王宏伟 冯占奎 董宏 程红涛 何亚清 李瑞喜 张智强 黄蕾蕾 郭娜娜 《地学前缘》 EI CAS CSCD 北大核心 2021年第3期139-155,共17页
21世纪地球科学的“第四范式”与第四工业时代以及5G+智能通信为矿业开发与环境防护的关联研究提供了新契机。以地球动力学背景、成矿过程、定量评价“三位一体”的地学理论为基础,以栾川矿集区为例,运用地学大数据(多维多尺度的地质、... 21世纪地球科学的“第四范式”与第四工业时代以及5G+智能通信为矿业开发与环境防护的关联研究提供了新契机。以地球动力学背景、成矿过程、定量评价“三位一体”的地学理论为基础,以栾川矿集区为例,运用地学大数据(多维多尺度的地质、地球物理、地球化学、高光谱与高分辨率遥感(多时相)以及实时矿业等数据)的深层次人工智能挖掘和三维/四维多学科多参数多尺度建模技术平台,开展矿集区至矿床多尺度的三维地质模型、成矿过程模型和定量勘查模型构建及其资源的定量预测评价,旨在实现数字矿山的高精度三维地质(岩石、构造、水文、土壤等)环境保护和资源综合开发利用的动态评价,为研究区矿产资源与矿山环境可持续发展提供科学依据。研究结果概述如下:(1)地球科学大数据关联矿集区资源预测评价。利用三维地质建模、地质-地球物理正反演解译、地球化学与遥感等地学数据深层次挖掘,结合自主研发GeoCube2.0集成软件,实现了栾川矿集区(500 km^(2),深部2.5 km)的深部靶区优选和矿产资源综合评价,Mo资源量650万t,W资源量150万t,Pb-Zn-Ag累计具有500万t资源量。(2)地质、矿床与勘探的三维地学建模关联矿山环境。南泥湖—三道庄—上房矿山露采场与骆驼山深部巷道勘探与采矿的资料表明,区域NW向的斑岩夕卡岩型矿床与矿体与地下水空间关联度不高,而成矿期后通常具有张性或张扭性特征的NE向断裂是地下水运移的通道;在NW向Pb-Zn矿床地段具有显著淋滤特征的次生金属矿产出,浅表的氧化铅锌矿与锰铁矿伴生孔雀石化、铅华等水蚀作用;高海拔Pb-Zn矿区且NE向断裂构造发育的冷水、百炉沟地段存在地下水污染风险。(3)智慧矿山构建关联资源环境评价与决策。在大型矿山建立三维地质模型并关联矿区古采洞、露采场与深部巷道工程,实现矿业合理定位和可持续发展;利用高光谱数据库构建三维有用、有害元素模型实现勘探、采矿与选矿矿物学关联以便于有害元素(As、Sb、Hg等)的回收或尾矿处理;利用高分辨率Worldview2影像判别重要尾矿库的废水、矿渣泥浆含铁染分布,以便于防护地表径流水、土壤污染等。 展开更多
关键词 数据挖掘 三维/四维建模 定量预测评价 资源环境 智慧矿山 栾川矿
在线阅读 下载PDF
基于SQL Server的蛋白质二级结构预测样本集数据库的构建 被引量:2
7
作者 张宁 吴捷 +1 位作者 宋卓 张涛 《高技术通讯》 CAS CSCD 北大核心 2006年第6期619-623,共5页
基于SQL Server数据库管理系统,将蛋白质二级结构预测的样本集CB513、CB396和RS126组织起来,建立了数据库DataSet,并配置了一个IIS服务器以方便网络查询。该数据库将蛋白质二级结构预测样本集有效地组织起来,实现了规范化、结构化... 基于SQL Server数据库管理系统,将蛋白质二级结构预测的样本集CB513、CB396和RS126组织起来,建立了数据库DataSet,并配置了一个IIS服务器以方便网络查询。该数据库将蛋白质二级结构预测样本集有效地组织起来,实现了规范化、结构化统一管理,便于存储、检索和分析数据,减少错误的发生。通过该数据库可以提取供蛋白质二级结构预测研究的样本、序列转换、变换编码以及分析评价预测结果等,取代许多传统编程处理文本文件的繁琐工作,大大提高效率,促进工作的开展。 展开更多
关键词 数据 蛋白质二级结构预测 样本 SQL SERVER 生物信息学
在线阅读 下载PDF
基于数据划分和集成的方法预测信号肽 被引量:4
8
作者 王怡 郭躬德 孔祥增 《计算机工程与应用》 CSCD 2012年第36期238-244,共7页
在信号肽预测问题中,由于信号肽序列长度不等且氨基酸组成具有多样性的特点,以往方法通常采用滑动窗口进行处理,从而导致了信息丢失以及数据不平衡等问题。为改善少数类预测效果,对训练数据进行了预处理,将多数类样本数据划分,生成的各... 在信号肽预测问题中,由于信号肽序列长度不等且氨基酸组成具有多样性的特点,以往方法通常采用滑动窗口进行处理,从而导致了信息丢失以及数据不平衡等问题。为改善少数类预测效果,对训练数据进行了预处理,将多数类样本数据划分,生成的各组样本分别与少数类样本合并组成若干个数据子集,在两种蛋白质编码方案下采用概率神经网络建立多个分类器,采用加权投票将多分类器集成的方法预测信号肽。在目前广泛使用的Neilsen数据集上进行实验,表明该方法具有一定的有效性。 展开更多
关键词 信号肽预测 不平衡数据 聚类划分 概率神经网络 多分类器融合
在线阅读 下载PDF
面向不平衡微博数据集的转发行为预测方法 被引量:2
9
作者 赵煜 邵必林 +1 位作者 边根庆 宋丹 《计算机应用》 CSCD 北大核心 2015年第7期1959-1964,共6页
针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其... 针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其次,综合微博特征数据的特点来改进少数类样本合成过采样技术(SMOTE),对原始数据集进行非参数概率分布估计,并根据近似概率分布对数据集进行过采样处理,从而使正反例数据量达到平衡;最后,利用随机森林算法,依据微博转发关键特征进行分类器训练,并利用袋外(OOB)数据误差估计来分析和设置随机森林算法的相关参数。通过与基于决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)和随机森林等算法的微博转发预测方法进行对比,所提方法整体性能优于基准方法中性能最优的SVM方法,召回率提高了8%,F值提高了5%。实验结果表明,所提方法在实际应用中能够有效提高微博转发行为预测的准确率。 展开更多
关键词 合与微博主题词合之间的相似度计算采用向 微博 转发预测 不均匀数据 过采样 随机森林
在线阅读 下载PDF
基于意向调查数据的非集计运量预测模型估计的研究 被引量:9
10
作者 张喜 《铁道学报》 EI CSCD 北大核心 2000年第2期10-15,共6页
如何利用假设意向调查数据 SP(Stated Preference data)构造非集计模型 ,是运量预测研究中的一个重要课题。本文以新运输方式的运量转换率预测模型为研究对象 ,通过引入假设意向调查误差项构造了新的效用函数模型 ,并对基于 SP与 RP(Rev... 如何利用假设意向调查数据 SP(Stated Preference data)构造非集计模型 ,是运量预测研究中的一个重要课题。本文以新运输方式的运量转换率预测模型为研究对象 ,通过引入假设意向调查误差项构造了新的效用函数模型 ,并对基于 SP与 RP(Revealed Preference data)组合数据的模型参数估计方法进行了深入探讨 ,最后利用日本关于磁悬浮列车新交通规划的 RP和 展开更多
关键词 意向调查数据 铁路运输 计运量 预测模型
在线阅读 下载PDF
基于海洋气候数据集的区域海平面变化非线性预测 被引量:1
11
作者 赵健 蔡瑞阳 +1 位作者 孙伟富 杨俊钢 《海洋科学》 CAS CSCD 北大核心 2023年第4期69-78,共10页
本文基于中国首套长时间序列、高精度、高时空一致性的全球海洋气候数据集产品,利用1993年1月至2015年12月的山东半岛近海海平面异常数据,构建了基于集合经验模式分解(EEMD)和长短期记忆神经网络(LSTM)的海平面非线性变化组合预测模型。... 本文基于中国首套长时间序列、高精度、高时空一致性的全球海洋气候数据集产品,利用1993年1月至2015年12月的山东半岛近海海平面异常数据,构建了基于集合经验模式分解(EEMD)和长短期记忆神经网络(LSTM)的海平面非线性变化组合预测模型。EEMD可以得到海平面异常的各周期项、线性趋势及残差部分,LSTM模型可对其进行逐个预测并重构得到最终的海平面异常预测结果。EEMD-LSTM组合模型海平面异常预测的均方根误差仅为25.87 mm,取得了令人满意的效果。基于该组合模型预测2016—2025年山东半岛近海海平面上升速率将达到3.54 mm·a^(-1)。 展开更多
关键词 海平面变化 气候数据 合经验模式分解 长短期记忆神经网络 预测
在线阅读 下载PDF
基于激光解析技术在蛋白质关联图预测问题数据集不均衡的研究
12
作者 刘君 宋志坚 《激光杂志》 北大核心 2015年第6期114-117,共4页
随着融合了激光解析等新技术的蛋白质自动测序技术发展,蛋白质序列越来越容易获得,如何通过蛋白质序列预测其结构成为重要研究问题。蛋白质关联图预测是蛋白质三级结构预测的中间步骤,是典型的数据集极度不均衡的分类问题,非关联类别数... 随着融合了激光解析等新技术的蛋白质自动测序技术发展,蛋白质序列越来越容易获得,如何通过蛋白质序列预测其结构成为重要研究问题。蛋白质关联图预测是蛋白质三级结构预测的中间步骤,是典型的数据集极度不均衡的分类问题,非关联类别数据远远多于关联类别数据。与文本分类等问题不同,蛋白质关联图预测问题的特征维数不高,因而不能从特征选择上进行数据集优化。为了有效减少多数类样本的规模,提出结合聚类的数据下采样预处理方法,使关联和非关联类别的分布趋于平衡。实验表明,支持向量机方法在优化后的蛋白质数据集可以有效实现数据分类。 展开更多
关键词 激光 蛋白质关联图预测 不均衡数据 下采样 聚类
在线阅读 下载PDF
河南围山城金银矿集区三维地质建模与成矿预测 被引量:3
13
作者 谷浩 杨泽强 +7 位作者 高猛 唐相伟 王东晓 刘奎松 杨树人 郭跃闪 王云 王功文 《地学前缘》 EI CAS CSCD 北大核心 2024年第3期245-259,共15页
三维建模与成矿预测已成为当前国内外十分流行且较成熟的技术方法。通过研究银洞坡金矿和破山银矿成矿地质特征,对围山城矿集区开展三维可视化模型构建及深部成矿预测。利用82条地质剖面建立了地质体(地层、岩体、矿体)、构造模型,利用1... 三维建模与成矿预测已成为当前国内外十分流行且较成熟的技术方法。通过研究银洞坡金矿和破山银矿成矿地质特征,对围山城矿集区开展三维可视化模型构建及深部成矿预测。利用82条地质剖面建立了地质体(地层、岩体、矿体)、构造模型,利用1∶5万重磁数据和63条电测深数据建立了密度、磁化率、电阻率等地球物理模型,利用52条岩石剖面、614个钻孔、117个探槽、56个浅井及94个平硐数据建立了地球化学模型,实现了地、物、化数据的综合集成。以“三位一体”找矿预测理论为指导,建立了研究区岩浆热液型Au、Ag矿床三维定量预测模型,确定了Au、Ag矿床成矿有利信息变量;采用证据权法提取了预测变量的权重值和相关程度,选择合适的变量进行成矿预测,利用C-V分形确定阈值,圈定了6个找矿靶区,选择新庄预测靶区(A 1)进行钻孔验证,发现金矿体6条,充分证明了利用证据权法进行三维成矿预测具有可行性与科学性,圈定的靶区对矿山进行深边部隐伏矿体找矿具有重要的实践意义。 展开更多
关键词 围山城矿 多源数据 三维地质建模 证据权法 成矿预测
在线阅读 下载PDF
面向不均衡医学数据集的疾病预测模型研究 被引量:45
14
作者 陈旭 刘鹏鹤 +5 位作者 孙毓忠 沈曦 张磊 王晓青 孙晓平 程伟 《计算机学报》 EI CSCD 北大核心 2019年第3期596-609,共14页
基于临床表现的疾病预测模型是临床决策支持系统(Clinical Decision Support System,CDSS)的一个重要研究内容.现有临床决策支持系统往往将临床病例作为训练数据集,以临床表现的描述文字为特征,采用统计机器学习方法构建疾病预测模型.然... 基于临床表现的疾病预测模型是临床决策支持系统(Clinical Decision Support System,CDSS)的一个重要研究内容.现有临床决策支持系统往往将临床病例作为训练数据集,以临床表现的描述文字为特征,采用统计机器学习方法构建疾病预测模型.然而,在医疗领域往往存在着样本数据集不均衡的问题,导致模型的预测效果降低.欠采样技术是目前解决样本不均衡问题的常用手段.其主要采用一定的方法从多数类样本中抽取部分样本,与少数类样本组成平衡数据集后再构建模型.现有的欠采样方法往往可以显著提高模型对少数类样本的召回率,然而其通常也会造成模型准确率的降低,从而限制了预测模型的整体提升效果.为此,该文提出了一种新的基于迭代提升欠采样的集成分类方法(Under-Sampling with Iteratively Boosting,USIB),该方法迭代地从多数类样本中进行欠抽样,构建多组弱分类器,并采用加权组合方式将这些弱分类器构成一个强分类器,从而提升样本不平衡条件下单种疾病预测效果.另外,医学病例样本数据集通常是多类别、多标签的,为此,该文将多个单种疾病的预测模型进行组合构成一个多标签疾病预测模型,以满足临床意义上的多病种以及并发症的诊断.为了进一步提升多标签预测模型的效果,该文设计了一种基于标签最大互信息生成树的标签选择方法(Labels Selection method based on Maximum Mutual Information Spanning Tree,LS-MMIST),该方法根据原始数据集的分布构建标签之间的最大互信息生成树,在每一次的样本预测阶段,借助树中疾病标签之间的关系确定最终的预测标签集合.实验方面,该文首先选择三种公开的不均衡二分类数据集和我们私有的四种稀有疾病的数据集,对该文提出的迭代提升欠采样方法进行性能评估.其次,分别对比了该文提出的多标签预测模型与现有的多标签预测技术在中医和西医两种多标签数据集上的预测性能.实验结果显示,相对于目前主流的八种欠采样以及两种集成采样技术,该文提出的迭代提升欠采样方法在各个不均衡二分类数据集上的F1值平均提升22.58%;与现有的各种多标签预测技术相比,该文提出的多标签预测方法在西医和中医数据集上正确率分别提升6.30%和12.43%,召回率分别提升4.33%和5.86%,F1值分别提升5.48%和11.16%. 展开更多
关键词 疾病预测 不均衡数据 欠采样 二分类 多标签分类
在线阅读 下载PDF
大规模集群硬盘故障预测可迁移性研究
15
作者 胡思源 徐尔茨 +2 位作者 李东升 刘锋 张一鸣 《小型微型计算机系统》 CSCD 北大核心 2024年第2期505-512,共8页
硬盘驱动器(HDD)仍然是大型数据中心与超算中心主要和重要的存储部件,而存储集群规模地持续扩大对硬盘故障预测的研究不断提出挑战.当前,前人已使用统计学、机器学习和深度学习等不同类型的故障预测方法用于大规模存储集群的硬盘故障预... 硬盘驱动器(HDD)仍然是大型数据中心与超算中心主要和重要的存储部件,而存储集群规模地持续扩大对硬盘故障预测的研究不断提出挑战.当前,前人已使用统计学、机器学习和深度学习等不同类型的故障预测方法用于大规模存储集群的硬盘故障预测,并取得不俗的研究结果.但是,对于故障模型的迁移性与数据集差异的相关研究还较少.我们收集了多种类型的HDD数据集与基于不同策略的模型,对其进行交叉实验验证,在模型迁移性、数据集预处理和模型参数方面获得了相关实验结果,例如:数据集在回溯时间与平衡度上的设置显著影响一定程度的预测模型性能,而模型参数设置则并不敏感;模型在不同数据集之间的可迁移性强弱不定,而数据集特征类型和数量的选择更影响预测模型性能. 展开更多
关键词 硬盘故障 故障预测 机器学习与深度学习 迁移性 数据处理
在线阅读 下载PDF
航天器软件缺陷预测数据集构建方法研究 被引量:2
16
作者 郑小萌 高猛 滕俊元 《计算机科学》 CSCD 北大核心 2021年第S01期575-580,共6页
软件缺陷预测数据集作为预测模型构建及实施缺陷预测的基础设施,面临着两方面问题,一方面因数据源头上采集困难导致可用评测数据集较少;另一方面,已公开的数据集因领域数据不同导致了差异性大、度量标准不适用等问题,鲜有工程应用。结... 软件缺陷预测数据集作为预测模型构建及实施缺陷预测的基础设施,面临着两方面问题,一方面因数据源头上采集困难导致可用评测数据集较少;另一方面,已公开的数据集因领域数据不同导致了差异性大、度量标准不适用等问题,鲜有工程应用。结合国内航天领域的真实软件评测数据,对航天器软件度量指标设计方法与航天器软件缺陷预测数据集的构建过程进行了系统阐述。依据航天器软件的特点,提出了软件的代码度量与质量度量相结合的混合度量方法,确保能够从不同的角度全面刻画、度量航天器软件的相关特性;同时针对面向大规模数据收集、处理、分析等环节耗费高昂人力与存储成本的问题,提出了版本划分下的数据清洗与模块层级预处理相结合的标准化数据集构建方法。通过对基于该方法构建的SPACE数据集进行应用示范,验证了此方法能够有效应用于构建具有领域针对性的高质量软件缺陷预测数据集,并可取得模型AutoWeka良好的预测效果。 展开更多
关键词 航天器软件 软件缺陷预测 数据 软件度量指标 数据质量
在线阅读 下载PDF
基于深度学习的短时交通流预测研究综述 被引量:1
17
作者 熊章友 李卫军 +2 位作者 朱晓娟 杨国梁 马馨瑜 《计算机工程与应用》 北大核心 2025年第11期67-82,共16页
交通流预测是智能交通系统的重要组成部分,旨在准确估计未来特定时间间隔内特定区域的交通流量。随着车辆的增长和路网中不同区域之间的复杂时空关系,传统的交通预测方法难以准确描述交通数据的特征,而深度学习的预测方法能够更好地处... 交通流预测是智能交通系统的重要组成部分,旨在准确估计未来特定时间间隔内特定区域的交通流量。随着车辆的增长和路网中不同区域之间的复杂时空关系,传统的交通预测方法难以准确描述交通数据的特征,而深度学习的预测方法能够更好地处理复杂的特征结构,因此,深度学习的方法已成为短时交通流预测的研究热点。总结了传统交通流预测方法和深度学习交通流预测方法的研究现状,详细介绍了深度学习架构卷积神经网络、自编码器、循环神经网络、图卷积神经网络、注意力机制与Transformer以及深度学习混合神经网络,并且对深度学习的交通流预测文献、深度学习的超参数和场景进行了总结分析。总结了现有文献中常用的国内外公共数据集。根据前人的模型实验对交通预测模型的性能进行了对比分析。最后,讨论了基于深度学习的交通预测领域的未来研究方向。 展开更多
关键词 交通流预测 深度学习 短时交通流 交通数据 时空特征
在线阅读 下载PDF
跨监控探头数据集构建和轨迹预测方法研究 被引量:1
18
作者 袁首 乔勇军 +2 位作者 苏航 陈青华 刘星 《兵器装备工程学报》 CAS CSCD 北大核心 2022年第12期283-290,共8页
针对单监控探头轨迹预测难以完成跨监控探头轨迹预测任务的问题,设计了一套监视系统模型AMVS。使用手动自动相结合的方法构建了一个基于跨监控探头的数据集AMVTP;实验表明,完成的AP值达到了87.3%,显著优于基线水平,同时构建数据集的人... 针对单监控探头轨迹预测难以完成跨监控探头轨迹预测任务的问题,设计了一套监视系统模型AMVS。使用手动自动相结合的方法构建了一个基于跨监控探头的数据集AMVTP;实验表明,完成的AP值达到了87.3%,显著优于基线水平,同时构建数据集的人力消耗工作量控制在15%以下。 展开更多
关键词 跨监控探头 轨迹预测 数据 系统模型 基线
在线阅读 下载PDF
基于判决链的法律判决预测
19
作者 吕由钢 郝继泰 +5 位作者 王梓涵 高莘 任鹏杰 陈竹敏 马军 任昭春 《计算机研究与发展》 北大核心 2025年第8期1918-1930,共13页
智能司法旨在通过采用各种自然语言处理技术,自动分析法律领域中的文本,已经引起了自然语言处理社区的极大关注.作为法律文本挖掘最关键的任务之一,法律判决预测旨在根据法律案件的事实描述,自动预测判决结果(如适用的法律条文、指控和... 智能司法旨在通过采用各种自然语言处理技术,自动分析法律领域中的文本,已经引起了自然语言处理社区的极大关注.作为法律文本挖掘最关键的任务之一,法律判决预测旨在根据法律案件的事实描述,自动预测判决结果(如适用的法律条文、指控和刑罚条款),成为人工智能技术的一个有前景的应用.然而,现有的法律判决预测方法主要集中在只涉及单一被告的案件上,而忽略了涉及多个被告的案件研究.在实际的刑事案件中,往往涉及多个被告者,并且在他们之间存在着错综复杂的交互关系,现有的单被告法律判决预测技术很难精确区分多被告案件中不同被告的判决结果.为了加速多被告法律判决预测任务的研究,收集了一个大规模的多被告法律判决预测数据集,其具有以下3个特点:1)数据集是多被告法律判决预测最大的人工标注数据集;2)数据集中的多被告案件需要区分不同被告者的法律判决预测结果;3)数据集中包含了完整的多被告判决链,其中包括犯罪关系、量刑情节、法条、罪名和刑期.此外,对数据集进行了全面而深入的分析,其中包括法条、罪名、刑期、犯罪关系、量刑情节、文本长度、被告人数的数据分布以及多被告判决结果、基于判决链的判决结果的统计分析.此外,提出了基于判决链的法律判决预测方法,其中包括判决链生成策略明确生成犯罪事实相关的判决链,判决链对比策略对比正确判决链和易混淆的判决链来进一步提升效果.实验结果表明,多被告法律判决预测数据集对现有的法律判决预测方法和预训练模型具有挑战性,而基于判决链的法律判决预测方法能显著优于基准方法,显示出判决链在法律判决预测中的关键作用. 展开更多
关键词 法律判决预测 判决链 数据构建 数据分析 大语言模型
在线阅读 下载PDF
基于可解释GWO-XGBoost的隧道挤压预测研究
20
作者 李占科 许正魁 +4 位作者 王艳宁 王昆 贾运甫 车璇 关鹏 《水利水电技术(中英文)》 北大核心 2025年第4期82-93,共12页
【目的】为了实现对隧道挤压的准确预测,【方法】构建了XGBoost分类预测模型,利用灰狼优化算法(GWO)对XGBoost模型进行超参数优化,基于经过插补和过采样处理的不平衡缺失数据集进行模型的训练和测试。模型的输入特征为隧道埋深(H)、岩... 【目的】为了实现对隧道挤压的准确预测,【方法】构建了XGBoost分类预测模型,利用灰狼优化算法(GWO)对XGBoost模型进行超参数优化,基于经过插补和过采样处理的不平衡缺失数据集进行模型的训练和测试。模型的输入特征为隧道埋深(H)、岩石掘进质量指数(Q)、隧道直径(D)、强度应力比(SSR)和支护刚度(K),评价指标为准确率(ACC)、F1分数、Kappa系数和Matthews相关系数(MCC)。【结果】所构建的GWO-XGBoost模型在训练集和测试集上预测准确率均达到了98.94%,在测试集上的评价指标累计值达到了5.9131,展现出了优越的预测性能。SSR、D、K、Q和H的平均Shapley可加性解释(Shapley Additive exPlanation,SHAP)值分别为3.06、1.07、0.82、0.73和0.51,表明SSR是对模型输出结果影响最大的特征。【结论】GWO-XGBoost模型在互助北山隧道和木寨岭隧道的挤压预测结果与实际情况相符,证明了该模型在隧道工程中具有较高的适用性和预测准确性。 展开更多
关键词 隧道挤压预测 XGBoost 灰狼优化算法 模型解释 缺失数据 变形 影响因素
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部