为解决医疗数据中存在的特征高维和类别不平衡问题,在基于简单、快速和有效高维特征选择算法SFE(simple,fast and effective high-dimensional feature selection)的基础上,提出了一种面向不平衡医疗数据的多阶段混合特征选择算法HFSIM(...为解决医疗数据中存在的特征高维和类别不平衡问题,在基于简单、快速和有效高维特征选择算法SFE(simple,fast and effective high-dimensional feature selection)的基础上,提出了一种面向不平衡医疗数据的多阶段混合特征选择算法HFSIM(hybrid feature selection for imbalanced medical data)。HFSIM算法采用改进的自适应边界SMOTE过采样技术,生成符合边界条件的新少数类实例以解决医学数据中类不平衡问题。同时,为了改善搜索空间多样性不足的问题,优化了SFE算法中的非选择操作符率参数UR(unselected rate),有效避免了算法过早收敛及易陷入局部最优的问题。将过滤式Fisher Score方法与优化UR参数后的算法有效结合,使算法能以较低的计算成本获得较好寻优能力。经实验验证,相比于SFE算法,HFSIM算法在Ovarian数据集上准确率达到99.67%,提升了2.11个百分点,G-means和F1分别提升了5.13和2.30个百分点。此外,通过对比特征数量和运行时间,证明了HFSIM算法既能保证算法精度又有效降低了计算成本。展开更多
现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问...现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问题,提出一种面向多模态数据的智能高效索引选择模型APE-X DQN(Distributed prioritized experience replay in deep Q-network),称为AP-IS(APE-X DQN for index selection).AP-IS设计了新型索引集编码和SQL语句编码方法,该方法使AP-IS在感知多模态数据的同时兼顾索引结构本身的特性,极大地降低了索引的存储代价.APIS集成新型索引效益评估方法,在优化强化学习奖励机制的同时,监控数据库工作负载的执行状态,保证动态工作负载下AP-IS在时间和空间上的优化效果.在真实多模态数据集上进行大量实验,验证了AP-IS在工作负载的延迟、存储代价和训练效率等方面的性能,结果均明显优于最新索引选择方法.展开更多
随着移动设备和物联网技术的普及,时空数据的收集和分析变得越来越重要。轨迹预测,尤其是实时轨迹预测,对于许多应用领域如智能交通和城市规划等至关重要。现有的轨迹预测方法往往无法在保证预测准确性的同时满足实时性的要求,且实时数...随着移动设备和物联网技术的普及,时空数据的收集和分析变得越来越重要。轨迹预测,尤其是实时轨迹预测,对于许多应用领域如智能交通和城市规划等至关重要。现有的轨迹预测方法往往无法在保证预测准确性的同时满足实时性的要求,且实时数据通常是不完整或带有噪声的,要求预测算法必须能够适应不完全的轨迹信息。基于此,提出了一种基于时空数据库的实时启发式轨迹预测模型(Real-time Heuristic Trajectory Prediction Based on Spatio-Temporal Databases,RHTP-STD)。RHTP-STD利用MobilityDB数据库平台存储和管理轨迹数据,通过图构建算法将轨迹数据转换为时空图。RHTP-STD采用启发式算法,融合历史和实时数据,快速预测移动对象的未来轨迹。实验结果表明,RHTP-STD在Argoverse数据集上的预测准确性和实时性均优于现有方法。讨论所提方法在不同应用场景中的适用性,提出了未来的研究方向。展开更多
文摘为解决医疗数据中存在的特征高维和类别不平衡问题,在基于简单、快速和有效高维特征选择算法SFE(simple,fast and effective high-dimensional feature selection)的基础上,提出了一种面向不平衡医疗数据的多阶段混合特征选择算法HFSIM(hybrid feature selection for imbalanced medical data)。HFSIM算法采用改进的自适应边界SMOTE过采样技术,生成符合边界条件的新少数类实例以解决医学数据中类不平衡问题。同时,为了改善搜索空间多样性不足的问题,优化了SFE算法中的非选择操作符率参数UR(unselected rate),有效避免了算法过早收敛及易陷入局部最优的问题。将过滤式Fisher Score方法与优化UR参数后的算法有效结合,使算法能以较低的计算成本获得较好寻优能力。经实验验证,相比于SFE算法,HFSIM算法在Ovarian数据集上准确率达到99.67%,提升了2.11个百分点,G-means和F1分别提升了5.13和2.30个百分点。此外,通过对比特征数量和运行时间,证明了HFSIM算法既能保证算法精度又有效降低了计算成本。
文摘现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问题,提出一种面向多模态数据的智能高效索引选择模型APE-X DQN(Distributed prioritized experience replay in deep Q-network),称为AP-IS(APE-X DQN for index selection).AP-IS设计了新型索引集编码和SQL语句编码方法,该方法使AP-IS在感知多模态数据的同时兼顾索引结构本身的特性,极大地降低了索引的存储代价.APIS集成新型索引效益评估方法,在优化强化学习奖励机制的同时,监控数据库工作负载的执行状态,保证动态工作负载下AP-IS在时间和空间上的优化效果.在真实多模态数据集上进行大量实验,验证了AP-IS在工作负载的延迟、存储代价和训练效率等方面的性能,结果均明显优于最新索引选择方法.
文摘随着移动设备和物联网技术的普及,时空数据的收集和分析变得越来越重要。轨迹预测,尤其是实时轨迹预测,对于许多应用领域如智能交通和城市规划等至关重要。现有的轨迹预测方法往往无法在保证预测准确性的同时满足实时性的要求,且实时数据通常是不完整或带有噪声的,要求预测算法必须能够适应不完全的轨迹信息。基于此,提出了一种基于时空数据库的实时启发式轨迹预测模型(Real-time Heuristic Trajectory Prediction Based on Spatio-Temporal Databases,RHTP-STD)。RHTP-STD利用MobilityDB数据库平台存储和管理轨迹数据,通过图构建算法将轨迹数据转换为时空图。RHTP-STD采用启发式算法,融合历史和实时数据,快速预测移动对象的未来轨迹。实验结果表明,RHTP-STD在Argoverse数据集上的预测准确性和实时性均优于现有方法。讨论所提方法在不同应用场景中的适用性,提出了未来的研究方向。