-
题名融合模型量化和缓存优化的实时语音监测方法
- 1
-
-
作者
吴非
沈润楠
陈宇
-
机构
北京市文化市场综合执法总队宣传与执法保障中心
北京航空航天大学复杂关键软件环境全国重点实验室
北京航空航天大学计算机学院
北京航空航天大学沈元学院
-
出处
《计算机工程与应用》
北大核心
2025年第16期215-223,共9页
-
基金
复杂关键软件环境全国重点实验室课题(SKLSDE-2022ZX-07)
沈元学院卓越研究基金(230123209)。
-
文摘
针对文化市场新业态的监管需求,提出一种融合模型量化和缓存优化的实时语音监测方法。通过模型量化,在有限精度损失的情况下优化大模型加载速度并降低系统资源开销。在数据缓存优化方面采用最长公共前缀匹配策略动态调整缓冲区设置,提升语音转录内容上下文关联,同时降低词错率(word error rate,WER)。针对敏感内容训练基于BERT-TextCNN的敏感信息检测模型,建立非现场监管语音监测体系,实现对演出内容的实时监测和预警。实验结果表明,提出的模型量化方法在Whisper-large-v3预训练模型的FP16和FP32两个基准测试中分别能够提升2.62倍和2.11倍推理速度,与现有方法相比具有优势;在语音识别准确率和延迟方面,采用缓存优化策略后语音转录延迟平均降低了12.88%,中文词错率降低了14.42%;在语言类演出节目构成的真实数据集上进行实验,BERT-TextCNN模型对敏感内容的检测准确率达到92.66%,与其他方法相比具有更高的精确度和召回率,证明了所提方法能够有效支撑对小剧场等文化演出形式的非现场监管。
-
关键词
语音识别
模型量化
最长公共前缀
敏感内容检测
-
Keywords
speech recognition
model quantization
longest common prefix
sensitive content detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-