数据库中文查询对偶学习式生成SQL语句研究被引量：5

Generating SQL Statement from Chinese Query Based on Dual Learning

在线阅读下载PDF

导出

摘要针对当前中文NL2SQL(Natural language to SQL)监督学习中需要大量标注数据问题,该文提出基于对偶学习的方式在少量训练数据集上进行弱监督学习,将中文查询生成SQL语句。该文同时使用两个任务来训练自然语言转化到SQL,再从SQL转化到自然语言,让模型学习到任务之间的对偶约束性,获取更多相关的语义信息。同时在训练时使用不同比例带有无标签的数据进行训练,验证对偶学习在NL2SQL解析任务上的有效性。实验表明,在不同中英文数据集ATIS、GEO以及TableQA中,本文模型与基准模型Seq2Seq、Seq2Tree、Seq2SQL、以及-dual等相比,百分比准确率至少增加2.1%,其中在中文TableQA数据集上采用对偶学习执行准确率(Execution Accuracy)至少提升5.3%,只使用60%的标签数据就能取得和监督学习使用90%的标签数据相似的效果。 To address the current challenges of requiring large amounts of annotated data for Chinese NL2SQL(Natural language to SQL)methods,this paper introduces a dual learning NL2SQL model,DualSQL,for weakly supervised learning on a small number of trained datasets to generate SQL statements from Chinese queries.Specifically,two tasks as dual tasks are used simultaneously to train the natural language to SQL and vice versa,so that the model learns the dual constraints between tasks and obtains more relevant semantic information.To verify the effectiveness of dual learning on the NL2SQL parsing task,we use different proportions of data without labels during training.Experimental results show that the percentage accuracy of the proposed model is increased by at least 2.1%compared with the benchmark models such as Seq2Seq,Seq2Tree,Seq2SQL,SQLNet,-dual etc.,in different Chinese and English datasets including ATIS,GEO,and TableQA,and execution accuracy by at least 5.3%on the Chinese TableQA dataset.Further,we show that using only 60%of labelled data can achieve similar effects to those with 90%of labelled data for supervised learning.

作者赵志超游进国何培蕾李晓武 ZHAO Zhichao;YOU Jinguo;HE Peilei;LI Xiaowu(Kunming University of Science and Technology,Kunming,Yunnan 650500,China;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming,Yunnan 650500,China)

机构地区昆明理工大学信息工程与自动化学院云南省人工智能重点实验室

出处《中文信息学报》 CSCD 北大核心 2023年第3期164-172,共9页 Journal of Chinese Information Processing

基金国家自然科学基金(62062046)

关键词 NL2SQL 对偶学习语义解析半监督学习 NL2SQL dual learning semantic parsing semi-supervised learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介赵志超(1994—),硕士,主要研究领域为自然语言处理和时间序列预测。E-mail:zhaozhichao_study@stu.kust.edu.cn;通信作者:游进国(1977—),博士,教授,主要研究领域为大数据分析与数据挖掘。E-mail:jgyou@126.com;何培蕾(1999—),硕士,主要研究领域为数据挖掘与数据立方体。E-mail:20212104068@stu.kust.edu.cn 172

引文网络
相关文献

参考文献6

1潘璇,徐思涵,蔡祥睿,温延龙,袁晓洁.基于深度学习的数据库自然语言接口综述[J].计算机研究与发展,2021,58(9):1925-1950. 被引量：13
2李虎,田金文,王缓缓,石勇.基于Ontology的数据库自然语言查询接口的研究[J].计算机科学,2010,37(6):200-205. 被引量：8
3孟小峰,王珊.中文数据库自然语言查询系统Nchiql设计与实现[J].计算机研究与发展,2001,38(9):1080-1086. 被引量：22
4孟小峰,王珊.数据库自然语言查询系统Nchiql中语义依存树向SQL的转换[J].中文信息学报,2001,15(5):40-45. 被引量：16
5崔宗军,唐世渭,杨冬青.基于ER模型的数据库受限汉语查询界面RChiQL的文法分析系统研究[J].中文信息学报,2000,14(4):9-16. 被引量：12
6李保利,周锡令,胡景凡.数据库汉语查询接口WTCDIS系统的设计与实现[J].中文信息学报,1999,13(6):26-33. 被引量：8

二级参考文献47

1孟小峰,王珊.嵌套查询的非嵌套化处理研究[J].计算机学报,1995,18(4):241-251. 被引量：2
2孟小峰王珊.中文数据库自然语言界面研究[J].计算机世界报,1998,34(8).
3陈群秀孙勇.实用型日语自动分词系统的算法及初步实现.语言工程[M].北京:清华大学出版社,1997..
4孟小峰.中文自然语言查询调查分析与总结.中国人民大学数据与知识工程研究所内部资料[M].,1998..
5孟小峰王珊等.中文数据库自然语言界面研究[J].计算机世界报（技术专题）,1998,(31).
6Androutsopoutos I,Ritchie G, Thanisch P. Natural language interfaces to databases-an introduction [J]. Journal of Language Engineering, 1995,1 (1) : 29-81.
7Johnson T. Natural Language Computing: The Commercial [M]. London:Ovum Ltd. , 1985.
8Androutsopoulos I. Interfacing a Natural Language Front-End to a Relational Database ED]. Department of Artificial Intelligence, University of Edinburgh, 1993.
9Woods W A, Kaplan R M, Webber B N. The Lunar Sciences Natural Language Information System: Final Report[R]. BBN Report 2378. Cambridge, Massachusetts: Bolt Beranek and Newman Inc. , 1972.
10Waltz D L. An English Language Question Answering System for a Large Relational Database [J]. Communications of the ACM, 1978,21(7) :526-539.

共引文献62

1姜宗林,李志军,顾海军.融合知识表示的关系型数据库操作框架[J].计算机科学,2022,49(S02):280-288. 被引量：2
2吴涛,赵磊,方存好.基于自然语言的检索方法在图案数据库中的应用研究[J].计算机应用研究,2004,21(6):35-37.
3杨春花,万建成,姜合.一个并行分词体系结构模型[J].计算机工程与应用,2004,40(33):89-91.
4孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
5张允若.《汉武大帝》的成功究竟在哪里?[J].新闻记者,2005(5):59-59.
6刘华明,张红.浅谈基于自然语言理解的数据库查询技术[J].科技广场,2005(3):63-65.
7张占英,沈夏炯,陈志国,葛强.数据库汉语查询语句中否定词的研究[J].河南大学学报（自然科学版）,2005,35(2):88-90.
8朱素英.基于语音的图书资料查询接口研究[J].湖南人文科技学院学报,2011,28(5):142-144.
9赵剑威,郑逢斌,汤赛丽,葛强.数据库自然语言查询条件研究[J].郑州大学学报（理学版）,2005,37(3):54-57. 被引量：2
10陈奕.带有HDMI接口的安桥ONKYO TX-SR803中高级AV接收机[J].视听技术,2006(2):28-31.

同被引文献17

1曹金超,黄滔,陈刚,吴晓凡,陈珂.自然语言生成多表SQL查询语句技术研究[J].计算机科学与探索,2020,14(7):1133-1141. 被引量：18
2张晨煜,刘文洁,庞天泽,岳艳涛.基于分布式数据库的相关子查询优化[J].西北工业大学学报,2021,39(4):909-918. 被引量：9
3潘璇,徐思涵,蔡祥睿,温延龙,袁晓洁.基于深度学习的数据库自然语言接口综述[J].计算机研究与发展,2021,58(9):1925-1950. 被引量：13
4余敦辉,万鹏,王社.基于企业知识图谱构建的实体关联查询系统[J].计算机应用,2021,41(9):2510-2516. 被引量：5
5项兆坤,陈婷,苏仟,张蓉.面向OLAP数据库查询处理功能的模糊测试工具[J].华东师范大学学报（自然科学版）,2021(5):74-83. 被引量：5
6余波,彭敦陆.面向复杂查询请求的SQL自动生成模型[J].小型微型计算机系统,2021,42(11):2446-2451. 被引量：3
7李广龙,申德荣,聂铁铮,寇月.数据库外基于多模型的学习式查询优化方法[J].浙江大学学报（工学版）,2022,56(2):288-296. 被引量：5
8梁清源,朱琪豪,孙泽宇,张路,张文杰,熊英飞,梁广泰,郁莲.基于深度学习的SQL生成研究综述[J].中国科学：信息科学,2022,52(8):1363-1392. 被引量：5
9刘喜平,舒晴,何佳壕,万常选,刘德喜.基于自然语言的数据库查询生成研究综述[J].软件学报,2022,33(11):4107-4136. 被引量：5
10赵猛,陈珂,寿黎但,伍赛,陈刚.基于树状模型的复杂自然语言查询转SQL技术研究[J].软件学报,2022,33(12):4727-4745. 被引量：5

引证文献5

1陈琳,范元凯,何震瀛,刘晓清,杨阳,汤路民.SQL-to-text模型的组合泛化能力评估方法[J].计算机工程,2024,50(3):326-335. 被引量：1
2富庭轩,陈启明,杨怀宇.一种新型的数据库自然语言查询实现方案[J].现代信息科技,2024,8(15):51-54.
3刘洋,廖薇,徐震.融合表字段的NL2SQL多任务学习方法[J].计算机应用研究,2024,41(9):2800-2804. 被引量：1
4冯志强,袁春峰,董帅.基于自然语言处理的SQL数据库查询生成系统[J].电子设计工程,2025,33(15):97-101.
5张海芳,何清龙.基于问句语义图神经网络的中文问句生成SQL语句研究[J].运筹与模糊学,2024,14(1):83-90.

二级引证文献2

1葛庆宽,李兴友,董瑜.铁环回收系统的设计与应用[J].轻金属,2025(4):50-54.
2沈宇,黄卫东,叶文武.基于大模型NL2SQL的交通系统运行智能问数助手技术研究[J].信息通信技术,2025,19(3):29-36.

1陈国新,阿热帕提·艾斯凯尔,席亮.带纵向加强肋复合墙体轴心受压荷载分配规律研究[J].广西大学学报（自然科学版）,2023,48(2):330-340.
2唐文雅,霍露静,任晓娟,张晓彤.品管圈在提高普外科患者疼痛评分执行准确率中的应用[J].中文科技期刊数据库（引文版）医药卫生,2022(3):240-244.
3李喆.当代手工艺教学中的传统语言转化方式探究——以西安美术学院公共艺术系教学实践为例[J].陕西教育（高教版）,2023(8):34-36.
4Saleimah Al Mesmari.Transforming Data into Actionable Insights with Cognitive Computing and AI[J].Journal of Software Engineering and Applications,2023,16(6):211-222. 被引量：2
5Yang Zhao,Jiajun Zhang,Chengqing Zong.Transformer: A General Framework from Machine Translation to Others[J].Machine Intelligence Research,2023,20(4):514-538. 被引量：3
6李游,吕微露.基于IDL通用接口的智能家居语音交互控制系统设计[J].现代电子技术,2023,46(17):57-60. 被引量：3
7李前文,仲小敏,周玮,陈欢,季国忠.基于扎根理论的消化道肿瘤患者就医行为决策模式的构建[J].江苏卫生事业管理,2023,34(7):913-918. 被引量：1
8M.DILIPKUMAR,M.RAJASIMMAN,N.RAJAMOHAN.Application of statistical design for the production of inulinase by streptomyces sp. using pressmud[J].Frontiers of Chemical Science and Engineering,2011,5(4):463-470.
9史倩,刘国华.Determination of Consistency between Quantitative Evaluation and Non-quantitative Evaluation[J].Journal of Donghua University(English Edition),2023,40(3):334-342.
10ZHOU Xiaopeng,SU Xueli,SUN Yan.Analysis of statistical thermodynamic model for binary protein adsorption equilibria on cation exchange adsorbent[J].Frontiers of Chemical Science and Engineering,2007,1(2):103-112.

中文信息学报

2023年第3期

浏览历史

内容加载中请稍等...

数据库中文查询对偶学习式生成SQL语句研究被引量：5

参考文献6

二级参考文献47

共引文献62

同被引文献17

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

数据库中文查询对偶学习式生成SQL语句研究 被引量：5

参考文献6

二级参考文献47

共引文献62

同被引文献17

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

数据库中文查询对偶学习式生成SQL语句研究被引量：5