-
题名语音识别技术的研究进展与展望
被引量:80
- 1
-
-
作者
王海坤
潘嘉
刘聪
-
机构
科大讯飞股份有限公司人工智能研究院
-
出处
《电信科学》
2018年第2期1-11,共11页
-
文摘
自动语音识别(ASR)技术的目的是让机器能够"听懂"人类的语音,将人类语音信息转化为可读的文字信息,是实现人机交互的关键技术,也是长期以来的研究热点。最近几年,随着深度神经网络的应用,加上海量大数据的使用和云计算的普及,语音识别取得了突飞猛进的进展,在多个行业突破了实用化的门槛,越来越多的语音技术产品进入了人们的日常生活,包括苹果的Siri、亚马逊的Alexa、讯飞语音输入法、叮咚智能音箱等都是其中的典型代表。对语音识别技术的发展情况、最近几年的关键突破性技术进行了介绍,并对语音识别技术的发展趋势做了展望。
-
关键词
自动语音识别
深度神经网络
声学模型
语言模型
-
Keywords
automatic speech recognition, deep neural network, acoustic model, language model
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于迁移学习的越南语语音合成
被引量:2
- 2
-
-
作者
杨琳
杨鉴
蔡浩然
刘聪
-
机构
云南大学信息学院
科大讯飞股份有限公司人工智能研究院
-
出处
《计算机科学》
CSCD
北大核心
2023年第8期118-124,共7页
-
基金
国家重点研发计划(2020AAA0107901)。
-
文摘
越南语是越南社会主义共和国的官方语言,属南亚语系越芒语族越语支。近年来基于深度学习的语音合成已经能够合成出高质量的语音,然而这类方法通常依赖于大规模的高质量语音训练数据。解决某些低资源非通用语语音训练数据不足问题的一种有效途径为:采用迁移学习方法并借用其他高资源通用语语音数据。在低资源条件下,以提高越南语语音合成质量为目标,选用端到端语音合成模型Tacotorn2作为基线模型,采用迁移学习方法研究不同源语言和不同文本字符嵌入方式、迁移学习方式对语音合成效果的影响;然后从主观和客观两方面对文中阐述的各种模型所合成的语音进行测评。实验结果表明,基于英语音素嵌入+越南语音素嵌入方式的迁移学习系统在合成自然可懂的越南语语音上取得了较好的结果,合成语音的MOS评分可达4.11分,远高于基线系统的2.53分。
-
关键词
越南语
语音合成
迁移学习
文本嵌入
端到端
-
Keywords
Vietnamese
Speech synthesis
Transfer learning
Text embedding
End-to-end
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名深度学习平台体系架构及其关键技术
被引量:7
- 3
-
-
作者
束柬
陈剑波
-
机构
科大讯飞股份有限公司人工智能研究院
认知智能国家重点实验室
中国科学技术大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2023年第11期3353-3357,共5页
-
基金
国家自然科学基金重点项目(72131006)
合肥市博士后科研活动项目经费(20210901)。
-
文摘
针对AI模型生产和训练,传统基于脚本的物理单机或集群方式存在训练推理割裂、资源利用不充分、计算环境难迁移、训练流程冗长等问题,提出了一种面向深度学习模型训练的平台体系架构,架构分为数据平台层、计算平台层、训练套件层以及管理平台层四层,并逐层进行分析。在关键技术上,首先提出了训练推理一体化框架,采用抽象的计算流图屏蔽网络结构差异,并进行图优化;其次,提出了GPU状态感知的自适应资源匹配机制,采用环形消除算法解决通信成本线性增长问题;同时,提出基于启发式算法的标签匹配调度算法,以提高资源利用率;并且,通过租户管理和容灾机制的建立保障了系统平台的安全可靠性。最终搭建仿真平台验证其可用性、安全可靠性和拓展性。通过深度学习平台的应用,可以帮助企业更简易快捷地训练定制化模型和使用个性化服务,加速AI生产落地,推动AI技术和整个生态的繁荣发展。
-
关键词
人工智能
模型训练
深度学习
体系架构
容器化
-
Keywords
artificial intelligence
model training
deep learning
architecture
dockers
-
分类号
TP389.1
[自动化与计算机技术—计算机系统结构]
-
-
题名基于交替训练及预训练的低资源泰语语音合成
- 4
-
-
作者
蔡浩然
杨鉴
杨琳
刘聪
-
机构
云南大学信息学院
科大讯飞股份有限公司人工智能研究院
-
出处
《计算机科学》
CSCD
北大核心
2023年第S01期416-420,共5页
-
基金
国家重点研发计划(2020AAA0107901)。
-
文摘
泰语作为一种有数千万人口使用的语言,应用较为广泛,20世纪90年代末就有学者开展了泰语语音合成的研究。近年来,基于深度神经网络并利用大规模高质量“文本-音频”数据训练的端到端语音合成系统,已经能够合成出高质量的语音。目前,汉语、英语等通用语已拥有海量的语音合成数据库,然而泰语作为一种非通用语可获取的“文本-音频”数据库规模往往较小。在低资源条件下,以提高泰语语音合成质量为目标,选用端到端语音合成模型Tacotron2作为基线模型,研究交替训练方法以及预训练方法,研究不同文本嵌入方式对泰语语音合成效果的影响;然后从注意力对齐图和MOS评分两方面对文中设计的6种模型所合成的语音进行测评。实验结果表明,采用“元辅音嵌入+预训练+交替训练”方法的系统的语音合成质量最好,合成语音的MOS评分可达3.95分,明显优于基线系统的1.71分。
-
关键词
语音合成
泰语
低资源
交替训练
预训练
-
Keywords
Speech synthesis
Thai
Low resource
Alternate training
Pre-training
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名深度学习建模下的自动句子填空技术
- 5
-
-
作者
陈志刚
华磊
刘权
尹坤
魏思
胡国平
-
机构
科大讯飞股份有限公司人工智能研究院
认知智能国家重点实验室
中国科学技术大学信息科学技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2019年第8期101-110,共10页
-
基金
国家重点研发计划(2018YFB1005100)
-
文摘
该文提出了一种结合依存句法分析和深度神经网络的自动句子填空技术。首先,提出了一种依存句法信息展开的序列建模方案,可以在引入句法信息的同时兼顾效率,并在此基础上利用排序学习思想,训练候选答案排序模型;其次,针对整体序列建模的细节建模失准问题,提出了一种基于语言模型多状态信息融合的自动句子填空模型;最后,设计了一种结合序列表示、依存句法信息、多状态信息的多源信息融合模型。该文还构建出一个英文答题数据集并据此进行了实验。实验结果表明,依存句法展开模型相对于常用的序列建模方案,准确率有11%的绝对提升;语言模型状态排序模型相对于基线模型,准确率有9.3%的绝对提升;最终的多源信息融合模型,在测试集上获得最高76.9%的准确率。
-
关键词
句子填空
句法分析
序列建模
深度学习
-
Keywords
sentence completion
syntactic analysis
sequence modeling
deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-