基于深度学习的中文短语复述抽取技术研究被引量：1

Deep Learning Based Chinese Phrasal Paraphrase Extraction

在线阅读下载PDF

导出

摘要复述抽取是自然语言处理任务中的一个重要分支,高质量的复述资源对于提升信息检索、问答系统、机器翻译等任务的效果有很大帮助。该文将任务限定在中文短语复述抽取,提出了基于2BiLSTM+CNN+CRF的序列标注模型,用于单语中文语料短语划分,通过若干过滤规则获取优质中文短语。之后又提出了基于表示学习的候选复述获取方法,通过BattRAE模型获取中文短语向量表示,并使用余弦相似度计算短语间的语义距离。该文根据语义距离对短语对进行过滤,将语义距离相近的短语视作候选的复述短语,再通过规则过滤掉错误的候选复述。在最后的结果中,随机抽取出500条短语复述资源进行人工评价,达到了0.814的精确度以及0.826的MRR值。 High-quality paraphrase resources are of great help to improve the task of question answering system,machine translation and many other tasks.This paper is focused on paraphrase extraction of Chinese phrases,and proposes a sequence annotation model based on 2 BiLSTM+CNN+CRF for phrase division in monolingual Chinese corpus.High-quality Chinese phrases are obtained through several filtering rules.After that,we adopt a method based on representation learning to obtain candidate paraphrase,in which Chinese phrase vector representation is learned through BattRAE model.In this paper,we extract candidate paraphrases based on the cosine similarity and filter them by rules.In the experiment,500 phrasal paraphrases are randomly selected for manual evaluation,revealing an accuracy of 0.814 and a MRR of 0.826.

作者颜欣张宇潘晓彤刘作鹏刘挺 YAN Xin;ZHANG Yu;PAN Xiaotong;LIU Zuopeng;LIU Ting(Research Center for Social Computing and Information Retrieval,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China;Xiaomi AI,Beijing Pinecone Electronics Co.Ltd.,Beijing 100085,China)

机构地区哈尔滨工业大学社会计算与信息检索研究中心北京小米松果电子有限公司人工智能部

出处《中文信息学报》 CSCD 北大核心 2021年第2期61-68,77,共9页 Journal of Chinese Information Processing

基金国家自然科学基金(61976068) 科技部重点研发计划(2019YFF0303003)。

关键词复述抽取短语划分表示学习 paraphrase extraction phrase division representation learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介颜欣(1993-),硕士研究生,主要研究领域为复述抽取与生成。E-mail:xyan@ir.hit.edu.cn;通信作者:张宇(1972-),博士,教授,主要研究领域为自然语言处理、问答系统、个性化信息检索。E-mail:zhangyu@ir.hit.edu.cn;潘晓彤(1984-),学士,高级工程师,主要研究领域为自然语言处理、对话系统。E-mail:panxiaotong@xiaomi.com。

引文网络
相关文献

参考文献3

1赵世奇,刘挺,李生.复述技术研究[J].软件学报,2009,20(8):2124-2137. 被引量：15
2李莉,刘知远,孙茂松.基于中英平行专利语料的短语复述自动抽取研究[J].中文信息学报,2013,27(6):151-157. 被引量：7
3苏晨,张玉洁,郭振,徐金安.使用源语言复述知识改善统计机器翻译性能[J].北京大学学报（自然科学版）,2015,51(2):342-348. 被引量：4

二级参考文献19

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：91
2刘挺,李维刚,张宇,李生.复述技术研究综述[J].中文信息学报,2006,20(4):25-32. 被引量：13
3徐中一,胡谦,刘磊.基于CRF的中文组块分析[J].吉林大学学报（理学版）,2007,45(3):416-420. 被引量：7
4Du Jinhua, Jiang Jie, Way A. Facilitating translationusing source language paraphrase lattices // Procee- dings of the 2010 Conference on Empirical Mthods in Natural Language Processing. Massachusetts: Association for Computational Linguistics, 2010: 420-429.
5Callison-Burch C, Koehn P, Osborne M. Improved statistical machine translation using paraphrases // Proceedings of the Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computa- tional Linguistics. New York, 2006:17-24.
6Madnani N, Dorr B J. Generating phrasal and sentential paraphrases: a survey of data-driven methods. Computational Linguistics, 2010, 36(3): 341-387.
7Wu Hua, Zhou Ming. Synonymous collocation extraction using translation information // Procee- dings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Sapporo, 2003: 120-127.
8Och F J. Minimum error rate training in statistical machine translation//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics- Volume 1. Sapporo, 2003:160-167.
9Koehn P, Och F J, Marcu D. Statistical phrase-based translation // Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Atlanta, 2003:48-54.
10Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia, 2002: 311-318.

共引文献19

1马天欢.语用视角下复述句生成方式的类型考察[J].中文信息学报,2021,35(10):32-38.
2段利国,陈俊杰.限定语义距离的关键词同义扩展及精简[J].计算机工程与应用,2011,47(23):13-16. 被引量：2
3胡金铭,史晓东,苏劲松,陈毅东.引入复述技术的统计机器翻译研究综述[J].智能系统学报,2013,8(3):199-207. 被引量：6
4苏劲松,董槐林,陈毅东,史晓东,吴清强.引入基于主题复述知识的统计机器翻译模型[J].浙江大学学报（工学版）,2014,48(10):1843-1849. 被引量：1
5孙茂松,李莉,刘知远.面向中英平行专利的双语术语自动抽取[J].清华大学学报（自然科学版）,2014,54(10):1339-1343. 被引量：9
6苏晨,张玉洁,郭振,徐金安.使用源语言复述知识改善统计机器翻译性能[J].北京大学学报（自然科学版）,2015,51(2):342-348. 被引量：4
7翁贞,李茂西,王明文.利用Markov网络抽取复述增强机器译文自动评价方法[J].中文信息学报,2015,29(5):136-142. 被引量：1
8张俊驰,胡婕,刘梦赤.基于复述的中文自然语言接口[J].计算机应用,2016,36(5):1290-1295. 被引量：1
9严灿勋.二分图顶点配对模型下的英汉句子对齐研究[J].中文信息学报,2016,30(5):153-159. 被引量：3
10张丽林,李茂西,肖文艳,万剑怡,王明文.机器翻译自动评价中领域知识复述抽取研究[J].北京大学学报（自然科学版）,2017,53(2):230-238. 被引量：9

同被引文献13

1李璐娜.浅谈跨文化交流中的语言因素--以汉语、英语为例[J].科技成果纵横,2020,29(5):237-237. 被引量：1
2陈莉莉.食品国际贸易交流中的商务英语翻译策略研究[J].肉类研究,2020,34(7). 被引量：5
3窦鑫泽,盛浩,吕凯,刘洋,张洋,吴玉彬,柯韦.基于高置信局部特征的车辆重识别优化算法[J].北京航空航天大学学报,2020,46(9):1650-1659. 被引量：7
4郑海燕.国际化视角下农业与生物科学英语特点与翻译[J].核农学报,2020,34(9). 被引量：2
5张起.基于频域特征相似的仿真模型置信度分析[J].数字海洋与水下攻防,2020,3(6):472-476. 被引量：1
6李洪政,冯冲,黄河燕.稀缺资源语言神经网络机器翻译研究综述[J].自动化学报,2021,47(6):1217-1231. 被引量：24
7赵涛.机器翻译译后编辑的现状与问题[J].外语教学,2021,42(4):100-104. 被引量：25
8胡国清,陈辽林,刘谦波,戈明亮,JAHANGIR Alam SM.结合特征置信度的背景感知相关滤波跟踪算法[J].现代电子技术,2021,44(17):72-79. 被引量：2
9金波,刘明童,张玉洁,徐金安,陈钰枫.融合深度语义表示的开放域复述模板抽取[J].情报工程,2021,7(5):40-50. 被引量：2
10王清然,徐珺.技术进步视域下机器翻译技术对语言服务行业的影响分析[J].中国外语,2022,19(1):21-29. 被引量：16

引证文献1

1魏惠强.基于数据挖掘和语言特征的智慧机器翻译纠错系统研究[J].自动化与仪器仪表,2024(2):77-81.

1陈福明,杨影欢,李莹莉.基于价值创造的企业投资决策模型管理工具研究[J].企业改革与管理,2020(23):6-7. 被引量：2
2张凉,杨燕,陈成才,贺樑.基于多视角对抗学习的开放域对话生成模型[J].计算机应用研究,2021,38(2):372-376. 被引量：6
3陈钰,张安勤,许春辉.基于多粒度和语义信息的中文关系抽取[J].计算机系统应用,2021,30(3):190-195. 被引量：1
4田佳来,吕学强,游新冬,肖刚,韩君妹.基于分层序列标注的实体关系联合抽取方法[J].北京大学学报（自然科学版）,2021,57(1):53-60. 被引量：11
5曹钰,何国辉,谭钜源.基于因子分析和K-means聚类算法的行业聚类研究[J].计算机科学与应用,2020,10(12):2447-2456. 被引量：2
6杨泰康,杨婉霞,刘燕,胡智喻,王巧珍,徐明杰.基于双向多层转换编解码的诗自动生成[J].软件工程,2021,24(4):15-21.
7蔚旺,董乔宝,韩灵.技术助力实现“探究与发现”--以“利用单位圆的性质研究正弦函数、余弦函数的性质”的教学为例[J].中小学数学（高中版）,2021(1):100-102.
8刘璐,彭诗雅,玉郴,于东.自然语言显式命题自动识别和解析方法[J].中文信息学报,2021,35(2):41-51. 被引量：1
9冯帅,许童羽,周云成,赵冬雪,金宁,王郝日钦.基于深度卷积神经网络的水稻知识文本分类方法[J].农业机械学报,2021,52(3):257-264. 被引量：14
10康铭浩,沈骑.国际语言政策与规划研究的新进展[J].当代外语研究,2020(6):19-29. 被引量：4

中文信息学报

2021年第2期

浏览历史

内容加载中请稍等...

基于深度学习的中文短语复述抽取技术研究被引量：1

参考文献3

二级参考文献19

共引文献19

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度学习的中文短语复述抽取技术研究 被引量：1

参考文献3

二级参考文献19

共引文献19

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度学习的中文短语复述抽取技术研究被引量：1