现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问...现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问题,提出一种面向多模态数据的智能高效索引选择模型APE-X DQN(Distributed prioritized experience replay in deep Q-network),称为AP-IS(APE-X DQN for index selection).AP-IS设计了新型索引集编码和SQL语句编码方法,该方法使AP-IS在感知多模态数据的同时兼顾索引结构本身的特性,极大地降低了索引的存储代价.APIS集成新型索引效益评估方法,在优化强化学习奖励机制的同时,监控数据库工作负载的执行状态,保证动态工作负载下AP-IS在时间和空间上的优化效果.在真实多模态数据集上进行大量实验,验证了AP-IS在工作负载的延迟、存储代价和训练效率等方面的性能,结果均明显优于最新索引选择方法.展开更多
科学评估地下空间开发需求潜力是缓解城市化问题和合理拓展有限区域的重要基础工作。目前地下空间评价中的社会经济数据多来自于传统官方文件,其全面完整性和时空精度并不理想;此外主客观赋权方法的使用,一定程度上存在主观性强和受数...科学评估地下空间开发需求潜力是缓解城市化问题和合理拓展有限区域的重要基础工作。目前地下空间评价中的社会经济数据多来自于传统官方文件,其全面完整性和时空精度并不理想;此外主客观赋权方法的使用,一定程度上存在主观性强和受数据干扰等不足。文章以多源大数据支持的指标体系为基础,构建熵权-随机森林耦合的地下空间需求评价模型。该模型基于熵权法确定负样本,将总样本和指标因子导入随机森林算法中,挖掘社会经济指标与现有地下设施间的复杂非线性关系。研究表明,经过网格搜索调优后的模型AUC(area under curve)精度达到0.979,其中77.45%的现有设施落入评价的高需求区内,证明所采用模型有较强的准确性和可靠性,其精细化评价结果可为今后地下建设选址提供更符合实际的借鉴。展开更多
目的针对传统非参数方法在等级数据分析中忽略非线性特征与极化趋势的局限,探索优势分析与ANY极化指数在量化分布差异及不平等程度中的应用价值。方法结合李克特量表模拟数据(不同中位数分布)与美国国家健康与营养调查(National Health ...目的针对传统非参数方法在等级数据分析中忽略非线性特征与极化趋势的局限,探索优势分析与ANY极化指数在量化分布差异及不平等程度中的应用价值。方法结合李克特量表模拟数据(不同中位数分布)与美国国家健康与营养调查(National Health and Nutrition Examination Survey,NHANES)真实数据,采用优势分析与ANY指数,对比传统秩次检验,评估方法在揭示等级数据分布特征与极化效应中的效能。结果优势分析通过累积分布函数(cumulative distribution function,CDF)有效区分群体间整体水平差异(F-优势)与内部不平等程度(S-优势);ANY指数通过调节参数α(侧重低端分布)与β(侧重高端分布),灵活捕捉极化趋势。NHANES数据分析中,新方法成功识别男性健康评价低端极化更显著的特征,而传统Mann-Whitney U检验无统计学差异。结论优势分析与ANY指数突破了传统方法对等级数据的简化假设,为卫生政策制定提供了更精准的分布差异与极化分析工具,尤其在资源优化配置与弱势群体健康需求识别中具有重要实践意义。展开更多
近年来,基于位置服务的技术迅猛发展,产生了海量的路网轨迹数据。而路径范围查询作为一种路网轨迹查询类型,是支持其他查询类型的基础。为了实现对海量路网轨迹数据的高效索引,同时提供精确的路径范围查询服务,提出了一种基于道格拉斯-...近年来,基于位置服务的技术迅猛发展,产生了海量的路网轨迹数据。而路径范围查询作为一种路网轨迹查询类型,是支持其他查询类型的基础。为了实现对海量路网轨迹数据的高效索引,同时提供精确的路径范围查询服务,提出了一种基于道格拉斯-普克算法的学习型索引结构(Douglas-Peuker Based Learned Index Structure,DPLI)。首先将轨迹数据分为多个轨迹段,然后取轨迹段中的点作为轨迹数据的表征,利用映射函数将其映射为一维映射值序列,而后根据键值数量将其划分为多个数据分片。在分片内将首尾数据组成一条线段,然后计算其余数据点距离线段的拟合误差,将超过误差阈值的数据点作为新的线段端点,递归分割原有的直线段,直到所有数据点的拟合误差小于阈值,从而拟合分段线性函数。采用多个路网数据和轨迹数据进行了充分的实验,实验结果表明:与传统索引方法相比,DPLI具有更快的构建效率和磁盘访问效率;与学习索引方法相比,DPLI保持了构建效率的优势,并且达到了100%查询召回率。展开更多
文摘现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问题,提出一种面向多模态数据的智能高效索引选择模型APE-X DQN(Distributed prioritized experience replay in deep Q-network),称为AP-IS(APE-X DQN for index selection).AP-IS设计了新型索引集编码和SQL语句编码方法,该方法使AP-IS在感知多模态数据的同时兼顾索引结构本身的特性,极大地降低了索引的存储代价.APIS集成新型索引效益评估方法,在优化强化学习奖励机制的同时,监控数据库工作负载的执行状态,保证动态工作负载下AP-IS在时间和空间上的优化效果.在真实多模态数据集上进行大量实验,验证了AP-IS在工作负载的延迟、存储代价和训练效率等方面的性能,结果均明显优于最新索引选择方法.
文摘科学评估地下空间开发需求潜力是缓解城市化问题和合理拓展有限区域的重要基础工作。目前地下空间评价中的社会经济数据多来自于传统官方文件,其全面完整性和时空精度并不理想;此外主客观赋权方法的使用,一定程度上存在主观性强和受数据干扰等不足。文章以多源大数据支持的指标体系为基础,构建熵权-随机森林耦合的地下空间需求评价模型。该模型基于熵权法确定负样本,将总样本和指标因子导入随机森林算法中,挖掘社会经济指标与现有地下设施间的复杂非线性关系。研究表明,经过网格搜索调优后的模型AUC(area under curve)精度达到0.979,其中77.45%的现有设施落入评价的高需求区内,证明所采用模型有较强的准确性和可靠性,其精细化评价结果可为今后地下建设选址提供更符合实际的借鉴。
文摘目的针对传统非参数方法在等级数据分析中忽略非线性特征与极化趋势的局限,探索优势分析与ANY极化指数在量化分布差异及不平等程度中的应用价值。方法结合李克特量表模拟数据(不同中位数分布)与美国国家健康与营养调查(National Health and Nutrition Examination Survey,NHANES)真实数据,采用优势分析与ANY指数,对比传统秩次检验,评估方法在揭示等级数据分布特征与极化效应中的效能。结果优势分析通过累积分布函数(cumulative distribution function,CDF)有效区分群体间整体水平差异(F-优势)与内部不平等程度(S-优势);ANY指数通过调节参数α(侧重低端分布)与β(侧重高端分布),灵活捕捉极化趋势。NHANES数据分析中,新方法成功识别男性健康评价低端极化更显著的特征,而传统Mann-Whitney U检验无统计学差异。结论优势分析与ANY指数突破了传统方法对等级数据的简化假设,为卫生政策制定提供了更精准的分布差异与极化分析工具,尤其在资源优化配置与弱势群体健康需求识别中具有重要实践意义。
文摘近年来,基于位置服务的技术迅猛发展,产生了海量的路网轨迹数据。而路径范围查询作为一种路网轨迹查询类型,是支持其他查询类型的基础。为了实现对海量路网轨迹数据的高效索引,同时提供精确的路径范围查询服务,提出了一种基于道格拉斯-普克算法的学习型索引结构(Douglas-Peuker Based Learned Index Structure,DPLI)。首先将轨迹数据分为多个轨迹段,然后取轨迹段中的点作为轨迹数据的表征,利用映射函数将其映射为一维映射值序列,而后根据键值数量将其划分为多个数据分片。在分片内将首尾数据组成一条线段,然后计算其余数据点距离线段的拟合误差,将超过误差阈值的数据点作为新的线段端点,递归分割原有的直线段,直到所有数据点的拟合误差小于阈值,从而拟合分段线性函数。采用多个路网数据和轨迹数据进行了充分的实验,实验结果表明:与传统索引方法相比,DPLI具有更快的构建效率和磁盘访问效率;与学习索引方法相比,DPLI保持了构建效率的优势,并且达到了100%查询召回率。