-
题名基于释义知识浮动注入的汉语成语误用诊断
- 1
-
-
作者
何亮
曹永昌
黄琰琛
吴震
戴新宇
陈家骏
-
机构
计算机软件新技术全国重点实验室(南京大学)
-
出处
《软件学报》
北大核心
2025年第11期5213-5226,共14页
-
基金
国家自然科学基金(62206126,62376120)。
-
文摘
汉语成语作为汉语写作的重要组成部分,具有凝练的表现力和深厚的文化内涵.它们通常是经过长期使用而固定下来的词组或短句,来源广泛,含义相对固定.然而,由于汉字的形意属性和汉语词汇、语义的古今变迁,成语的字面意思与实际含义往往存在偏差,呈现出特有的非组合性特点,这种特点使得成语在使用过程中极易产生误用现象,研究显示,某些成语的误用率甚至高达98.6%.与其他语言不同,汉语成语的误用通常不会导致词法或语法错误,因此传统的拼写或语法错误检测方法无法有效识别成语误用.一种直观的方法是将成语的释义融入模型中,但是简单的拼接释义会导致句子过长难以处理和知识噪声等问题.为了解决这一问题,提出一种基于释义知识浮动注入的模型.该模型通过引入可学习的权重因子来控制知识注入,并探讨有效的释义知识注入策略.为了验证模型的有效性,构建一套针对汉语成语误用诊断的数据集.实验结果显示,该模型在所有测试集上均取得了最优效果,特别是在长文本多成语的复杂场景中,性能比基线模型提高了12.4%–13.9%,同时训练速度提升了30%–40%,测试速度提升了90%.这证明了所提出的释义知识浮动注入模型不仅有效融合了成语释义特征,还显著降低了成语释义拼接对模型处理能力和效率的负面影响,从而提升了成语误用诊断的性能,并增强了模型处理多成语和长释义等复杂场景的能力.
-
关键词
汉语成语
误用诊断
释义知识
浮动注入
成语误用数据集
-
Keywords
Chinese idiom
misuse diagnosis
interpretation knowledge
levitating injection
idiom misuse dataset
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-