摘要
复述抽取是自然语言处理任务中的一个重要分支,高质量的复述资源对于提升信息检索、问答系统、机器翻译等任务的效果有很大帮助。该文将任务限定在中文短语复述抽取,提出了基于2BiLSTM+CNN+CRF的序列标注模型,用于单语中文语料短语划分,通过若干过滤规则获取优质中文短语。之后又提出了基于表示学习的候选复述获取方法,通过BattRAE模型获取中文短语向量表示,并使用余弦相似度计算短语间的语义距离。该文根据语义距离对短语对进行过滤,将语义距离相近的短语视作候选的复述短语,再通过规则过滤掉错误的候选复述。在最后的结果中,随机抽取出500条短语复述资源进行人工评价,达到了0.814的精确度以及0.826的MRR值。
High-quality paraphrase resources are of great help to improve the task of question answering system,machine translation and many other tasks.This paper is focused on paraphrase extraction of Chinese phrases,and proposes a sequence annotation model based on 2 BiLSTM+CNN+CRF for phrase division in monolingual Chinese corpus.High-quality Chinese phrases are obtained through several filtering rules.After that,we adopt a method based on representation learning to obtain candidate paraphrase,in which Chinese phrase vector representation is learned through BattRAE model.In this paper,we extract candidate paraphrases based on the cosine similarity and filter them by rules.In the experiment,500 phrasal paraphrases are randomly selected for manual evaluation,revealing an accuracy of 0.814 and a MRR of 0.826.
作者
颜欣
张宇
潘晓彤
刘作鹏
刘挺
YAN Xin;ZHANG Yu;PAN Xiaotong;LIU Zuopeng;LIU Ting(Research Center for Social Computing and Information Retrieval,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China;Xiaomi AI,Beijing Pinecone Electronics Co.Ltd.,Beijing 100085,China)
出处
《中文信息学报》
CSCD
北大核心
2021年第2期61-68,77,共9页
Journal of Chinese Information Processing
基金
国家自然科学基金(61976068)
科技部重点研发计划(2019YFF0303003)。
关键词
复述抽取
短语划分
表示学习
paraphrase extraction
phrase division
representation learning
作者简介
颜欣(1993-),硕士研究生,主要研究领域为复述抽取与生成。E-mail:xyan@ir.hit.edu.cn;通信作者:张宇(1972-),博士,教授,主要研究领域为自然语言处理、问答系统、个性化信息检索。E-mail:zhangyu@ir.hit.edu.cn;潘晓彤(1984-),学士,高级工程师,主要研究领域为自然语言处理、对话系统。E-mail:panxiaotong@xiaomi.com。