现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问...现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问题,提出一种面向多模态数据的智能高效索引选择模型APE-X DQN(Distributed prioritized experience replay in deep Q-network),称为AP-IS(APE-X DQN for index selection).AP-IS设计了新型索引集编码和SQL语句编码方法,该方法使AP-IS在感知多模态数据的同时兼顾索引结构本身的特性,极大地降低了索引的存储代价.APIS集成新型索引效益评估方法,在优化强化学习奖励机制的同时,监控数据库工作负载的执行状态,保证动态工作负载下AP-IS在时间和空间上的优化效果.在真实多模态数据集上进行大量实验,验证了AP-IS在工作负载的延迟、存储代价和训练效率等方面的性能,结果均明显优于最新索引选择方法.展开更多
有效管理生物数据并提供高效的查询方法是生物信息处理的重要研究内容。BioSeg是一个新的生物序列数据模型。查询优化研究是生物数据库管理系统开发的重要内容之一。研究当前生物数据索引技术,针对BioSeg数据模型的特点和生物序列相似...有效管理生物数据并提供高效的查询方法是生物信息处理的重要研究内容。BioSeg是一个新的生物序列数据模型。查询优化研究是生物数据库管理系统开发的重要内容之一。研究当前生物数据索引技术,针对BioSeg数据模型的特点和生物序列相似性查询需求设计了一种新的生物序列数据索引BioIndex,并设计相应的查询算法。首先,使用MEME(Multiple EM for Moeif Elicit-ation)算法挖掘生物序列集中的序列模式作为索引建立索引序列库;之后,在索引序列库中查找与查询序列最相似的索引序列,将其对应的序列集作为候选集;再在候选集中查找与查询序列最相似的序列。在真实生物序列数据集上的实验表明使用新的生物序列数据索引BioIndex的序列查询算法提高了序列查询的效率。展开更多
文摘现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问题,提出一种面向多模态数据的智能高效索引选择模型APE-X DQN(Distributed prioritized experience replay in deep Q-network),称为AP-IS(APE-X DQN for index selection).AP-IS设计了新型索引集编码和SQL语句编码方法,该方法使AP-IS在感知多模态数据的同时兼顾索引结构本身的特性,极大地降低了索引的存储代价.APIS集成新型索引效益评估方法,在优化强化学习奖励机制的同时,监控数据库工作负载的执行状态,保证动态工作负载下AP-IS在时间和空间上的优化效果.在真实多模态数据集上进行大量实验,验证了AP-IS在工作负载的延迟、存储代价和训练效率等方面的性能,结果均明显优于最新索引选择方法.
文摘有效管理生物数据并提供高效的查询方法是生物信息处理的重要研究内容。BioSeg是一个新的生物序列数据模型。查询优化研究是生物数据库管理系统开发的重要内容之一。研究当前生物数据索引技术,针对BioSeg数据模型的特点和生物序列相似性查询需求设计了一种新的生物序列数据索引BioIndex,并设计相应的查询算法。首先,使用MEME(Multiple EM for Moeif Elicit-ation)算法挖掘生物序列集中的序列模式作为索引建立索引序列库;之后,在索引序列库中查找与查询序列最相似的索引序列,将其对应的序列集作为候选集;再在候选集中查找与查询序列最相似的序列。在真实生物序列数据集上的实验表明使用新的生物序列数据索引BioIndex的序列查询算法提高了序列查询的效率。