中文语法纠错旨在通过模型自动识别并修正中文文本中的语法错误,从而提升文本的准确性和可读性.然而,现有的中文语法纠错模型在纠错过程中常面临暴露偏差问题,并且对大模型的应用仍显不足,导致纠错效果欠佳.为此,本文提出了一种基于类...中文语法纠错旨在通过模型自动识别并修正中文文本中的语法错误,从而提升文本的准确性和可读性.然而,现有的中文语法纠错模型在纠错过程中常面临暴露偏差问题,并且对大模型的应用仍显不足,导致纠错效果欠佳.为此,本文提出了一种基于类型驱动的中文语法纠错模型CTDGC(Chinese Types Driven Grammatical Correction).该模型通过深入探讨中文四种主要语法错误(冗余、缺失、错词、乱序)之间的依赖关系,设计了两阶段训练策略,有效缓解了训练与预测的不匹配问题,在CGED2020数据集上单模型F_(0.5)达到34.18%,优于以往的方法.此外,本文还提出了一种基于ChatGLM的中文语法纠错模型CorGLM(Chinese Grammatical Correction Model based on ChatGLM),并对Baichuan大模型设计了特定的Prompt.通过与CTDGC等模型的融合,F_(0.5)显著提升至40.33%,验证了本文方法的有效性和优越性.展开更多
文摘中文语法纠错旨在通过模型自动识别并修正中文文本中的语法错误,从而提升文本的准确性和可读性.然而,现有的中文语法纠错模型在纠错过程中常面临暴露偏差问题,并且对大模型的应用仍显不足,导致纠错效果欠佳.为此,本文提出了一种基于类型驱动的中文语法纠错模型CTDGC(Chinese Types Driven Grammatical Correction).该模型通过深入探讨中文四种主要语法错误(冗余、缺失、错词、乱序)之间的依赖关系,设计了两阶段训练策略,有效缓解了训练与预测的不匹配问题,在CGED2020数据集上单模型F_(0.5)达到34.18%,优于以往的方法.此外,本文还提出了一种基于ChatGLM的中文语法纠错模型CorGLM(Chinese Grammatical Correction Model based on ChatGLM),并对Baichuan大模型设计了特定的Prompt.通过与CTDGC等模型的融合,F_(0.5)显著提升至40.33%,验证了本文方法的有效性和优越性.
基金Supported by the National Basic Research Program of China under Grant No.2002CB312103(国家重点基础研究发展计划(973))the National Natural Science Foundation of China under Grant No.60503054(国家自然科学基金)+1 种基金the Key Innovation Project from Institute of Softwarethe Chinese Academy of Sciences(中国科学院软件研究所创新基金重大项目)