-
题名网络剪枝与知识蒸馏相结合的轻量级鸟声识别方法
- 1
-
-
作者
申小虎
李冠宇
史洪飞
王传之
-
机构
江苏警官学院刑事科学技术系
国家林业和草原局野生动植物物证技术国家林业和草原局重点实验室
大连海事大学信息科学与技术学院
科大讯飞科技有限公司
-
出处
《应用声学》
北大核心
2025年第2期350-361,共12页
-
基金
国家自然科学基金项目(61976032)
野生动植物物证技术国家林业和草原局重点实验室开放课题(KLNPC2102)
2023江苏省高等学校优秀科技创新团队“人工智能框架下的法庭毒理学”项目。
-
文摘
在鸟声识别应用中,算法模型多数采用参数密集型,缺少能够搭载至被动声学监测设备的高效网络。针对EfficientNet网络结构特点,将结构化剪枝与知识蒸馏方法相结合,确保剪枝后的网络保持良好的泛化能力,能够满足不同资源配置条件下的网络需求。一方面,通过逆背包准则建立了剪枝通道与资源间的信息表述,在保留网络框架条件下完成通道剪枝。另一方面,在知识蒸馏方法中通过加入MBConv模块内部蒸馏损失分量并完成训练,确保跨组信息交换保留了剪枝前后特征映射之间的距离。通过对南京浦口区老山森林中收集的10类鸟声检测分类实验,在压缩后网络参数量仅3.0M的条件下,分类精度可达到91.64%。该文所提方法在完成网络规模压缩的同时,较好地保留了分类精度,与相同规模主流轻量级网络相比较,能更好地适应鸟声识别被动声学监测的设备需求。
-
关键词
网络剪枝
知识蒸馏
鸟声识别
轻量级网络
被动声学监测
-
Keywords
Network pruning
Knowledge distillation
Bird sound recognition
Light-weight network
Passive acoustic monitoring
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TN912.3
[电子电信—通信与信息系统]
-
-
题名基于虚拟不定长的语音库裁剪方法
被引量:2
- 2
-
-
作者
张巍
吴晓如
赵志伟
王仁华
-
机构
中国科学技术大学电子工程与信息科学系
安徽中科大讯飞信息科技有限公司
-
出处
《软件学报》
EI
CSCD
北大核心
2006年第5期983-990,共8页
-
基金
国家高技术研究发展计划(863)~~
-
文摘
语音库裁剪或语音库去冗余,是大语料库语音合成技术的一个重要问题.提出了虚拟不定长替换的概念,以弥补不定长的损失.结合合成使用变体的频度,构建了语音库裁剪算法StaRp-VPA.该算法能够以任意比例裁剪语音库.实验表明:当裁剪率小于50%时,合成自然度几乎没有下降;当裁剪率大于50%时,合成自然度也不会严重降低.
-
关键词
语音合成
文语转换
语音库裁剪
可伸缩语音合成系统
-
Keywords
speech synthesis
text to speech
pruning redundant synthesis instances
scalable speech synthesis system
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名分类问题的一种可伸缩特征选择算法
被引量:3
- 3
-
-
作者
张巍
邹翔
吴晓如
-
机构
中国科学技术大学电子工程与信息科学系
中国科学技术大学计算机科学技术系
安徽中科大讯飞信息科技有限公司
-
出处
《计算机学报》
EI
CSCD
北大核心
2005年第7期1223-1229,共7页
-
基金
国家"八六三"高技术研究发展计划项目基金(2004AA114030)资助.~~
-
文摘
特征选择是数据挖掘分类中的一个重要问题.该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式———BBStaFS.在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果.在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1/2,得出的特征集准确有效.
-
关键词
数据挖掘
分类
特征选择
-
Keywords
data mining
classification
feature selection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于ADSP-2185m的嵌入式汉语语音合成系统
被引量:1
- 4
-
-
作者
罗鑫
周斌
王仁华
戴礼荣
刘湘毅
-
机构
中国科学技术大学电子工程与信息科学系
中科大讯飞信息科技有限公司
-
出处
《信号处理》
CSCD
2002年第3期189-193,共5页
-
文摘
本文将介绍一个基于ADSP-2185m的嵌入式汉语语音合成系统。作为一个脱机独立系统,它可以实时实现汉语文语转换,输出较高自然度的合成语音,同时在硬件设计上具有体积小,性价比高,接口简单等特点。作为技术原型,该系统可以广泛应用于各种小型智能终端,为用户提供方便实用的语音信息服务,目前已经在车载定位信息播报系统和手机短信息播报系统中推广应用。
-
关键词
ADSP-2185m
嵌入式汉语语音合成系统
基音同步叠加
DSP
-
Keywords
Embedded Text-To-Speech PSOLA DSP
-
分类号
TN912.33
[电子电信—通信与信息系统]
-
-
题名语音库裁剪的一种不定长递阶聚类方法
被引量:1
- 5
-
-
作者
张巍
吴晓如
刘江
王仁华
-
机构
中国海洋大学计算机科学系
安徽中科大讯飞信息科技有限公司
中国科学技术大学电子工程与信息科学系
-
出处
《计算机学报》
EI
CSCD
北大核心
2007年第11期2017-2024,共8页
-
基金
国家自然科学基金(60602017)
国家"八六三"高技术研究发展计划项目基金(2004AA114030)资助.~~
-
文摘
大量使用不定长是大语料库语音合成质量的一个重要保证,而语音库裁剪方法通常会导致不定长的损失.针对这一关键性问题,该文构建了NuClustering-VPA算法:对不同粒度的不定长变体进行聚类,根据高阶聚类结果调整低阶变体的聚类,使得低阶聚类中心有所偏向.NuClustering-VPA算法保留了最重要的不定长,从而有效减小了裁剪对不定长的破坏.测听实验表明,利用NuClustering-VPA算法,即使在语音库裁减率为39.63%时,合成自然度下降较小,仍然保持在较高的水平.这一技术已被应用在科大讯飞公司的实际语音产品中.
-
关键词
基于语料库的语音合成
语音库裁剪
语音库去冗余
可伸缩语音合成系统
-
Keywords
Corpus-based TTS
Tailoring TTS voice font
pruning redundant synthesis instances
scalable TTS
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于多模板匹配的在线手写签名认证方法
被引量:2
- 6
-
-
作者
许崝
施泽生
蔡洪滨
饶海潮
郭立
-
机构
中国科技大学电子科学与技术系
科大讯飞信息科技有限公司
-
出处
《计算机应用》
CSCD
北大核心
2004年第S1期165-167,共3页
-
文摘
针对在线手写签名认证中误拒率较大这一问题 ,将多模板匹配引入签名认证。该方法不同于单一模板匹配方法 ,用基于动态时间弯曲距离的最优聚类方法将真实签名样本自动地分为多个聚类 ,以每一个聚类中心作为一个模板 ,再通过基于DTW距离的多模板匹配方法 ,进行模板与待测签名之间的匹配。实验证明 ,在误纳率没有改变的情况下 ,与采用单一模板匹配方法相比较 ,选择合适的模板 ,该方法可以显著地降低误拒率 ,从而将错误率控制在一个较为理想的范围内。
-
关键词
手写签名认证
多模板匹配
最优聚类
动态时间弯曲
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名嵌入式语音合成系统中不定长单元技术
- 7
-
-
作者
朱秀红
于振华
王煦法
-
机构
中国科学技术大学计算机科学技术系
安徽省中科大讯飞科技有限公司
-
出处
《计算机应用》
CSCD
北大核心
2004年第7期64-65,68,共3页
-
基金
国家科技攻关项目 (2 0 0 1BA1 .3C)
-
文摘
文中在原有嵌入式合成系统基础上引入不定长单元挑选、拼接技术提升系统语音合成效果的自然度 ,并且运用聚类算法对音库中不定长单元进行裁减 ,降低挑选算法的复杂度 ,减少系统的资源消耗 。
-
关键词
不定长单元
聚类
嵌入式语音合成
-
Keywords
variable length phonetic unit
clustering
embedded speech synthesis system
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP391.42
[自动化与计算机技术—计算机应用技术]
-