期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
LazyStore:基于混合存储架构的写优化键值存储系统 被引量:1
1
作者 杜云箫 陈珂 +3 位作者 寿黎但 江大伟 骆歆远 陈刚 《软件学报》 北大核心 2025年第2期805-829,共25页
基于日志合并树(LSM-tree)的键值(key-value)存储由于其出色的读写性能而被广泛用于许多应用中.大多数现有的日志合并树采用多层结构来存储数据.尽管多层数据结构可以很好地服务于适度的写密集型应用,但这种结构并不十分适合高写密集型... 基于日志合并树(LSM-tree)的键值(key-value)存储由于其出色的读写性能而被广泛用于许多应用中.大多数现有的日志合并树采用多层结构来存储数据.尽管多层数据结构可以很好地服务于适度的写密集型应用,但这种结构并不十分适合高写密集型应用.这是因为以多层方式保存数据会引入写放大问题,即新的数据插入会引发很大一部分已经存储在多层中的数据被重组的问题.这种巨大的(有时是频繁的)数据重组是昂贵的,并且在许多高写密集型的应用中降低了写入性能.此外,多层结构不能为热数据持续提供出色的读取性能.这是因为多级结构不能通过及时合并重叠的范围来优化热数据的读取操作.为了解决上述两个问题,提出LazyStore,一种基于混合存储架构的新型单层日志合并树.LazyStore通过将数据存储在单一逻辑层而不是多个逻辑层来解决写放大的问题.因此,昂贵的多级数据重组在很大程度上被消除.为了进一步提高写入性能,LazyStore根据每个存储设备的容量和读/写性能,将逻辑层中的数据分布到多个存储设备中,如内存、非易失性内存和闪存.此外,LazyStore引入实时合并操作,以提高热数据范围的读取性能.实验表明,与其他多级日志合并树相比,LazyStore最多将写入性能提高3倍,并将写入放大率降低至1/4.而对于热门范围的读取,LazyStore的实时数据合并优化可以将范围查询处理的延迟降低一半. 展开更多
关键词 键值存储 日志合并树 非易失性内存
在线阅读 下载PDF
基于梯度放大的联邦学习激励欺诈攻击与防御 被引量:1
2
作者 乐紫莹 陈珂 +2 位作者 寿黎但 骆歆远 陈刚 《软件学报》 北大核心 2025年第5期2254-2269,共16页
在联邦学习领域,激励机制是吸引高质量数据持有者参与联邦学习并获得更优模型的重要工具.然而,现有的联邦学习研究鲜有考虑到参与者可能滥用激励机制的情况,也就是他们可能会通过操纵上传的本地模型信息来获取更多的奖励.针对这一问题... 在联邦学习领域,激励机制是吸引高质量数据持有者参与联邦学习并获得更优模型的重要工具.然而,现有的联邦学习研究鲜有考虑到参与者可能滥用激励机制的情况,也就是他们可能会通过操纵上传的本地模型信息来获取更多的奖励.针对这一问题进行了深入研究.首先,明确定义联邦学习中的参与者激励欺诈攻击问题,并引入激励成本比来评估不同激励欺诈攻击方法的效果以及防御方法的有效性.其次,提出一种名为“梯度放大攻击(gradient scale-up attack)”的攻击方法,专注于对模型梯度进行激励欺诈.这种攻击方法计算出相应的放大因子,并利用这些因子来提高本地模型梯度的贡献,以获取更多奖励.最后,提出一种高效的防御方法,通过检验模型梯度的二范数值来识别欺诈者,从而有效地防止梯度放大攻击.通过对MNIST等数据集进行详尽地分析和实验验证,研究结果表明,所提出的攻击方法能够显著提高奖励,而相应的防御方法能够有效地抵制欺诈参与者的攻击行为. 展开更多
关键词 联邦学习 激励欺诈攻击 梯度放大攻击 恶意参与者检测 安全保护
在线阅读 下载PDF
基于循环神经网络的数据库查询开销预测 被引量:18
3
作者 毕里缘 伍赛 +3 位作者 陈刚 寿黎但 陈珂 胡天磊 《软件学报》 EI CSCD 北大核心 2018年第3期799-810,共12页
在数据库负载管理、性能调优过程中,开销预测模型是提高其效率的关键技术.首先,由于数据库系统的复杂性和计算机资源的竞争,很难精确地估计不同操作的开销;其次,现有的研究大多没有真正预测查询的执行时间,而是预测了类似查询优化器中... 在数据库负载管理、性能调优过程中,开销预测模型是提高其效率的关键技术.首先,由于数据库系统的复杂性和计算机资源的竞争,很难精确地估计不同操作的开销;其次,现有的研究大多没有真正预测查询的执行时间,而是预测了类似查询优化器中开销模型生成的开销;由于查询计划结构的复杂性,现有研究更多地使用了笼统的查询信息,而很少利用查询计划中操作层面的信息,并依据这些信息来获得开销模型.为了减少负载管理的复杂性,提出了基于循环神经网络的精细模型来预测查询开销,以查询计划中的操作行为及其实际运行时间作为特征提取的来源.特别地,考虑到查询计划结构的复杂性,采用一种特殊的循环神经网络——长短期记忆(long-short term memory,简称LSTM).给一个特定的查询计划,在该计划实际执行之前,模型就能产生其预测的执行时间区间.这会比现有数据库的查询优化器产生的开销预估结果(任意单位)更具有参考性,也优于需要在执行开始之后才能预测的查询进度指示器.所提方法预测查询执行时间,可以解决数据库负载管理中的关键问题.通过实验验证,模型的正确率高于71%,在一定程度上证明了方法的可行性. 展开更多
关键词 数据库负载管理 查询开销预测 查询计划 循环神经网络 长短期记忆
在线阅读 下载PDF
面向局域检索的时变图数据存储与查询模型 被引量:9
4
作者 赵萍 寿黎但 +2 位作者 陈珂 陈刚 吴晓凡 《计算机科学》 CSCD 北大核心 2019年第10期186-194,共9页
时变图数据是实体间相互关联、实体属性和实体间关系会发生频繁变化的图结构数据,适用于电子商务的商品与用户关系表示、包含时间维度的知识图谱构建、企业组织架构管理等场景。针对建立时变图数据通用存储检索方案的挑战,文中提出了一... 时变图数据是实体间相互关联、实体属性和实体间关系会发生频繁变化的图结构数据,适用于电子商务的商品与用户关系表示、包含时间维度的知识图谱构建、企业组织架构管理等场景。针对建立时变图数据通用存储检索方案的挑战,文中提出了一种面向局域检索的模型方案,基于图数据库高效的关系检索能力以及分布式键值数据库在存储与查询方面的优势,实现了通用的可提供丰富表达能力的图数据历史存储检索系统。实验证明,所提方案在历史属性存储上具备显著的优势。 展开更多
关键词 图数据库 时变数据 版本控制 数据查询
在线阅读 下载PDF
关系数据库中聚合代数约束的高效发现算法——AAC-Hunter
5
作者 张效伟 江大伟 +1 位作者 陈珂 陈刚 《计算机应用》 CSCD 北大核心 2021年第3期636-642,共7页
针对如何更好地维护关系数据库的数据完整性以及帮助审计员找出违规的报销记录的问题,提出了自动发现聚合代数约束(AAC)的算法AAC-Hunter。AAC是一种定义在数据库中两列的聚合结果之间的模糊约束,作用于大多数而非全部记录上。AAC-Hunte... 针对如何更好地维护关系数据库的数据完整性以及帮助审计员找出违规的报销记录的问题,提出了自动发现聚合代数约束(AAC)的算法AAC-Hunter。AAC是一种定义在数据库中两列的聚合结果之间的模糊约束,作用于大多数而非全部记录上。AAC-Hunter首先枚举连接、分组和代数表达式来产生候选AAC,然后分别计算这些候选AAC的值域集合,最后输出AAC结果。但该方法无法应对海量数据带来的性能挑战,因此AAC-Hunter提出了一套启发式规则减小候选约束空间规模以及基于中间结果复用和消除平凡候选AAC的两个优化策略来加速候选AAC的值域集合计算。实验结果表明了对比不使用启发式规则和优化策略的基线算法,AAC-Hunter在TPC-H和European Soccer数据集上分别减小了95.68%和99.94%的约束发现空间,分别缩短了96.58%和92.51%的运行时间。可见AAC-Hunter具备有效性,能够提升审计应用的效率和能力。 展开更多
关键词 约束发现 聚合代数约束 关系数据库 数据驱动 审计
在线阅读 下载PDF
基于关键词和关键句抽取的用户评论情感分析 被引量:10
6
作者 喻影 陈珂 +2 位作者 寿黎但 陈刚 吴晓凡 《计算机科学》 CSCD 北大核心 2019年第10期19-26,共8页
情感分析的一项主要研究任务是根据文档内容对其情感极性(即正类和负类)进行判断。在判断文档的情感极性时,不同的词语和句子具有不同的情感贡献度,因此如何从整个文档中准确地提取与情感分类更相关的词语和句子,从而提升分类性能,成为... 情感分析的一项主要研究任务是根据文档内容对其情感极性(即正类和负类)进行判断。在判断文档的情感极性时,不同的词语和句子具有不同的情感贡献度,因此如何从整个文档中准确地提取与情感分类更相关的词语和句子,从而提升分类性能,成为了一个重要问题。在有监督实验中,基于依存句法关系分析句子的逻辑结构,提取出了与表达情感更相关的词语进行加权,提高了分类性能。在半监督实验中,使用基于中文评论的关键句抽取和分类器融合算法,对整篇文档中包含更多情感词和总结意味的关键句进行了抽取,充分考虑了句子的情感词属性、位置属性、标点符号属性和关键词属性,并且使用分类器融合算法,让置信度最高的子分类器决定分类效果。在大众点评网和头条新闻的数据集上将所提算法与已有的经典算法进行对比,发现所提方法的性能更高,从而证明了基于依存句法分析的关键词抽取和基于特征的中文关键句抽取算法的有效性。 展开更多
关键词 情感分析 依存分析 关键句抽取 半监督学习 协同训练
在线阅读 下载PDF
关于主动学习下的知识图谱补全研究 被引量:7
7
作者 陈钦况 陈珂 +2 位作者 伍赛 寿黎但 陈刚 《计算机科学与探索》 CSCD 北大核心 2020年第5期769-782,共14页
知识图谱补全任务研究如何补全知识图谱中的缺失关系。知识图谱补全任务有许多广泛的应用,例如可以应用到轨道交通运维知识库中以支撑轨道交通的系统设计、运维优化。现有的算法在用于现实的大规模知识图谱时时间开销巨大,并且无法很好... 知识图谱补全任务研究如何补全知识图谱中的缺失关系。知识图谱补全任务有许多广泛的应用,例如可以应用到轨道交通运维知识库中以支撑轨道交通的系统设计、运维优化。现有的算法在用于现实的大规模知识图谱时时间开销巨大,并且无法很好地利用知识图谱外部的数据信息。针对以上两点局限性,提出了一种基于主动学习的知识图谱补全框架。该框架结合主动学习的思想,利用链接预测预先筛选缺失知识图谱中最有可能产生链接的前k对实体对,然后充分考虑知识图谱内部信息和外部信息,采用内外部数据相结合的方式实现知识图谱的缺失补全。基于Freebase和DBpedia数据集,针对已有的工作进行了对比实验,实验结果表明提出的增强链接预测算法(ELP)效果更好,并且具有主动学习能力;提出的内部数据和外部数据相结合的关系验证方法能更有效地验证三元组。 展开更多
关键词 主动学习 知识图谱补全 链接预测 关系验证
在线阅读 下载PDF
基于树状模型的复杂自然语言查询转SQL技术研究 被引量:5
8
作者 赵猛 陈珂 +2 位作者 寿黎但 伍赛 陈刚 《软件学报》 EI CSCD 北大核心 2022年第12期4727-4745,共19页
自然语言查询转SQL(NL2SQL)是指将自然语言表达的查询文本自动转化成数据库系统可以理解并执行的结构化查询语言SQL表达式的技术.NL2SQL可以为普通用户提供数据库查询访问的自然交互界面,从而实现基于数据库的自然问答.复杂查询的NL2SQ... 自然语言查询转SQL(NL2SQL)是指将自然语言表达的查询文本自动转化成数据库系统可以理解并执行的结构化查询语言SQL表达式的技术.NL2SQL可以为普通用户提供数据库查询访问的自然交互界面,从而实现基于数据库的自然问答.复杂查询的NL2SQL是当前数据库学术界的研究热点,主流方法采用序列到序列(Seq2seq)的编解码方式对问题进行建模.然而,已有的工作大多基于英文场景,面向中文领域实际应用时,中文特殊的口语化表达导致复杂查询转化困难;此外,现有工作难以正确输出包含复杂计算表达式的查询子句.针对上述问题,提出一种树状模型取代序列表示,将复杂查询自顶向下分解为多叉树,树结点代表SQL的各组成元素,采用深度优先搜索来预测生成SQL语句.在Du SQL中文NL2SQL竞赛的两个官方测试集中,该方法分别取得了第1名和第2名的成绩,验证了其有效性. 展开更多
关键词 自然语言查询转SQL 语义解析 自然语言处理
在线阅读 下载PDF
ALERT:基于Radix Tree的工作负载自适应学习型索引 被引量:2
9
作者 陈井爽 陈珂 +2 位作者 寿黎但 江大伟 陈刚 《软件学报》 EI CSCD 北大核心 2022年第12期4688-4703,共16页
学习型索引通过学习数据分布可以准确地预测数据存取的位置,在保持高效稳定的查询下,显著降低索引的内存占用.现有的学习型索引主要针对只读查询进行优化,而对插入和更新支持不足.针对上述挑战,设计了一种基于Radix Tree的工作负载自适... 学习型索引通过学习数据分布可以准确地预测数据存取的位置,在保持高效稳定的查询下,显著降低索引的内存占用.现有的学习型索引主要针对只读查询进行优化,而对插入和更新支持不足.针对上述挑战,设计了一种基于Radix Tree的工作负载自适应学习型索引ALERT.ALERT使用Radix Tree来管理不定长的分段,段内采用具有最大误差界的线性插值模型进行预测.同时,ALERT使用一种高效的插入缓冲来降低数据插入更新的代价.针对点查询和范围查询提出两种自适应重组优化方法,通过对工作负载进行感知,动态地调整插入缓冲的组织结构.经实验验证,ALERT与业界流行的学习型索引相比,构建时间平均降低了81%,内存占用平均降低了75%,在保持了优秀读性能的同时,使插入延迟平均降低了50%;此外,ALERT使用自适应重组优化能有效感知查询工作负载特征,与不使用自适应重组优化相比,查询延迟平均降低了15%. 展开更多
关键词 学习型索引 自适应索引 机器学习 数据库
在线阅读 下载PDF
查询结果可用性研究综述 被引量:2
10
作者 柳晴 高云君 《计算机研究与发展》 EI CSCD 北大核心 2017年第6期1198-1212,共15页
数据库可用性研究在数据库领域受到了广泛的关注.其目标在于帮助用户更加高效、方便地使用数据库,从而提高用户对数据库的满意度.主要关注查询结果可用性研究.当前的数据库查询仅仅向用户返回查询结果.如果查询结果不是用户想要的,现有... 数据库可用性研究在数据库领域受到了广泛的关注.其目标在于帮助用户更加高效、方便地使用数据库,从而提高用户对数据库的满意度.主要关注查询结果可用性研究.当前的数据库查询仅仅向用户返回查询结果.如果查询结果不是用户想要的,现有的数据库系统既不能向用户解释为什么会得到这样的结果,也无法给出有效的建议以帮助用户得到满意的查询结果.查询结果可用性研究正是针对当前数据库系统的这一不足而展开.在数据库可用性的视角之上,以查询结果为中心,对当前查询结果可用性工作的最新动态进行了综述.梳理了当前查询结果可用性相关研究中问题的类型及其特点,并从Causality&Responsibility问题、Why-not&Why问题、Why-few&Why-many问题这3个方面对该领域的研究工作现状进行了分类、介绍和总结.最后对该研究领域未来可能的研究方向进行了展望,为相关研究提供参考. 展开更多
关键词 数据库可用性 why-not问题 why问题 causality与responsibility why-few问题 why-many问题
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部