现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问...现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问题,提出一种面向多模态数据的智能高效索引选择模型APE-X DQN(Distributed prioritized experience replay in deep Q-network),称为AP-IS(APE-X DQN for index selection).AP-IS设计了新型索引集编码和SQL语句编码方法,该方法使AP-IS在感知多模态数据的同时兼顾索引结构本身的特性,极大地降低了索引的存储代价.APIS集成新型索引效益评估方法,在优化强化学习奖励机制的同时,监控数据库工作负载的执行状态,保证动态工作负载下AP-IS在时间和空间上的优化效果.在真实多模态数据集上进行大量实验,验证了AP-IS在工作负载的延迟、存储代价和训练效率等方面的性能,结果均明显优于最新索引选择方法.展开更多
在目前基于深度强化学习的数据库索引推荐中,当负载变化时,由于实际负载与训练负载差距较大,模型的推荐效果会显著下降。针对现有基于深度强化学习的索引推荐算法在负载增量变化下自适应性和模型泛化性不足的问题,提出了一个基于多智能...在目前基于深度强化学习的数据库索引推荐中,当负载变化时,由于实际负载与训练负载差距较大,模型的推荐效果会显著下降。针对现有基于深度强化学习的索引推荐算法在负载增量变化下自适应性和模型泛化性不足的问题,提出了一个基于多智能体迁移强化学习的索引推荐算法MARLIA(multi-agent reinforcement learning index advisor)。该算法结合了迁移学习的思想,使用多智能体进行模型训练。在负载变化更新导致模型推荐效果下降时,该算法可以利用策略蒸馏的方式将旧索引推荐策略传递给新索引推荐智能体,提高了模型的泛化性和对动态负载的支持。在TPC-H数据集上的实验结果表明,该算法的负载代价提升率与基线算法相比稳定在7%以内,在负载为120条时缓存命中率为76.3%。该研究表明,MARLIA算法在负载变化时具有强大的自适应性和模型泛化能力。展开更多
有效管理生物数据并提供高效的查询方法是生物信息处理的重要研究内容。BioSeg是一个新的生物序列数据模型。查询优化研究是生物数据库管理系统开发的重要内容之一。研究当前生物数据索引技术,针对BioSeg数据模型的特点和生物序列相似...有效管理生物数据并提供高效的查询方法是生物信息处理的重要研究内容。BioSeg是一个新的生物序列数据模型。查询优化研究是生物数据库管理系统开发的重要内容之一。研究当前生物数据索引技术,针对BioSeg数据模型的特点和生物序列相似性查询需求设计了一种新的生物序列数据索引BioIndex,并设计相应的查询算法。首先,使用MEME(Multiple EM for Moeif Elicit-ation)算法挖掘生物序列集中的序列模式作为索引建立索引序列库;之后,在索引序列库中查找与查询序列最相似的索引序列,将其对应的序列集作为候选集;再在候选集中查找与查询序列最相似的序列。在真实生物序列数据集上的实验表明使用新的生物序列数据索引BioIndex的序列查询算法提高了序列查询的效率。展开更多
文摘现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问题,提出一种面向多模态数据的智能高效索引选择模型APE-X DQN(Distributed prioritized experience replay in deep Q-network),称为AP-IS(APE-X DQN for index selection).AP-IS设计了新型索引集编码和SQL语句编码方法,该方法使AP-IS在感知多模态数据的同时兼顾索引结构本身的特性,极大地降低了索引的存储代价.APIS集成新型索引效益评估方法,在优化强化学习奖励机制的同时,监控数据库工作负载的执行状态,保证动态工作负载下AP-IS在时间和空间上的优化效果.在真实多模态数据集上进行大量实验,验证了AP-IS在工作负载的延迟、存储代价和训练效率等方面的性能,结果均明显优于最新索引选择方法.
文摘在目前基于深度强化学习的数据库索引推荐中,当负载变化时,由于实际负载与训练负载差距较大,模型的推荐效果会显著下降。针对现有基于深度强化学习的索引推荐算法在负载增量变化下自适应性和模型泛化性不足的问题,提出了一个基于多智能体迁移强化学习的索引推荐算法MARLIA(multi-agent reinforcement learning index advisor)。该算法结合了迁移学习的思想,使用多智能体进行模型训练。在负载变化更新导致模型推荐效果下降时,该算法可以利用策略蒸馏的方式将旧索引推荐策略传递给新索引推荐智能体,提高了模型的泛化性和对动态负载的支持。在TPC-H数据集上的实验结果表明,该算法的负载代价提升率与基线算法相比稳定在7%以内,在负载为120条时缓存命中率为76.3%。该研究表明,MARLIA算法在负载变化时具有强大的自适应性和模型泛化能力。
文摘有效管理生物数据并提供高效的查询方法是生物信息处理的重要研究内容。BioSeg是一个新的生物序列数据模型。查询优化研究是生物数据库管理系统开发的重要内容之一。研究当前生物数据索引技术,针对BioSeg数据模型的特点和生物序列相似性查询需求设计了一种新的生物序列数据索引BioIndex,并设计相应的查询算法。首先,使用MEME(Multiple EM for Moeif Elicit-ation)算法挖掘生物序列集中的序列模式作为索引建立索引序列库;之后,在索引序列库中查找与查询序列最相似的索引序列,将其对应的序列集作为候选集;再在候选集中查找与查询序列最相似的序列。在真实生物序列数据集上的实验表明使用新的生物序列数据索引BioIndex的序列查询算法提高了序列查询的效率。