-
题名基于改进的N-gram模型和知识库的文本查错算法
被引量:9
- 1
-
-
作者
王琼
旷文珍
许丽
-
机构
兰州交通大学自动化与电气工程学院
兰州交通大学研究院甘肃工业交通自动化工程技术研究中心
-
出处
《计算机应用与软件》
北大核心
2021年第10期310-315,320,共7页
-
基金
中国铁路总公司科技研究开发计划重点项目(2016X003-H)
甘肃省工业交通自动化工程技术研究中心2019年开放基金项目(GSITA201904)。
-
文摘
针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法。采用Witten-Bell平滑算法解决N-gram模型训练过程中数据稀疏问题,并对N-gram模型增加权重分配,增强模型对散串错误的查错率。针对铁路特殊用语规定和同音字错误,构建一种适应关键字的专业术语查错知识库,实现知识库的自动更新。经过实验对比,该算法查错确率为87.9%,相比通用的N-gram查错模型提高52.8百分点。该算法的提出为后续的纠错以及语音识别准确率的提高奠定了基础,并对铁路车务系统语音识别技术的应用具有重要意义。
-
关键词
N-GRAM模型
铁路车务标准用语
散串错误
专业术语查错知识库
同音字错误
-
Keywords
N-gram model
Standard terminology for railway operation
Scattered string errors
Error-detecting knowledge bases
Homophone errors
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-