期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
面向语音合成的藏语单音素与三音素自动切分算法研究 被引量:5
1
作者 张金溪 李永宏 +2 位作者 单广荣 李照耀 江静 《计算机应用研究》 CSCD 北大核心 2013年第11期3272-3275,共4页
在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别... 在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别为80.69%、88.74%。实验结果表明,三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率,提高了语音语料库标注信息的精确度和一致性。 展开更多
关键词 语音合成 藏语语料库 单音素 三音素 自动切分
在线阅读 下载PDF
一种用于自动标引系统的主题词自动切分方法 被引量:2
2
作者 唐振民 靳从 +1 位作者 杨静宇 李远复 《南京理工大学学报》 CAS CSCD 1995年第5期401-404,共4页
该文着重介绍一种知识指导下的主题词自动切分方法,该方法能灵活处理自然主题词、大幅度跳跃及关联词的切分问题,其字面切分精度达99.33%,综合切分精度达98.91%。
关键词 语言处理 自动标引系统 主题词 自动切分
在线阅读 下载PDF
基于HMM模型的语音单元边界的自动切分 被引量:4
3
作者 王丽娟 曹志刚 《数据采集与处理》 CSCD 北大核心 2005年第4期381-384,共4页
基于隐尔马可夫模型(HMM)的强制对齐方法被用于文语转换系统(TTS)语音单元边界切分。为提高切分准确性,本文对HMM模型的特征选择,模型参数和模型聚类进行优化。实验表明:12维静态M e l频率倒谱系数(M FCC)是最优的语音特征;HMM模型中的... 基于隐尔马可夫模型(HMM)的强制对齐方法被用于文语转换系统(TTS)语音单元边界切分。为提高切分准确性,本文对HMM模型的特征选择,模型参数和模型聚类进行优化。实验表明:12维静态M e l频率倒谱系数(M FCC)是最优的语音特征;HMM模型中的状态模型采用单高斯;对于特定说话人的HMM模型,使用分类与衰退树(CART)聚类生成的绑定状态模型个数在3 000左右最优。在英文语音库中音素边界切分的实验中,切分准确率从模型优化前的77.3%提高到85.4%。 展开更多
关键词 语音单元边界 自动切分 隐尔马可夫模型 文语转换系统
在线阅读 下载PDF
基于小波子带分解的特征参数对语音自动切分的改进 被引量:2
4
作者 秦欢 柴佩琪 陈锴 《计算机应用》 CSCD 北大核心 2005年第6期1345-1346,共2页
采用了基于小波子带分解的特征提取方法,根据DCT和DWT两种去相关方法的不同,得到语音信号的特征参数分别为SubbandBasedCepstral(SBC)和WaveletPacketParameters(WPP)。实验切分结果表明,基于小波子带分解的特征参数比MFCC取得更好的切... 采用了基于小波子带分解的特征提取方法,根据DCT和DWT两种去相关方法的不同,得到语音信号的特征参数分别为SubbandBasedCepstral(SBC)和WaveletPacketParameters(WPP)。实验切分结果表明,基于小波子带分解的特征参数比MFCC取得更好的切分效果。 展开更多
关键词 隐马尔可夫模型 语音自动切分 MEL频率倒谱系数 小波子带分解
在线阅读 下载PDF
基于HMM的中文语音自动切分中的静音添加 被引量:1
5
作者 陈锴 柴佩琪 《计算机工程》 CAS CSCD 北大核心 2004年第9期40-41,共2页
在建立语音语料库的过程中经常会碰到语音中加了很多对应文本所没有的静音标记,这些静音的存在直接影响到实际的切分结果。该文提出了一种静音自动添加的方法。在经过粗切分后,通过规则设定,短时能量、短时过零率和算法修正几个步骤... 在建立语音语料库的过程中经常会碰到语音中加了很多对应文本所没有的静音标记,这些静音的存在直接影响到实际的切分结果。该文提出了一种静音自动添加的方法。在经过粗切分后,通过规则设定,短时能量、短时过零率和算法修正几个步骤,将静音寻找出来,添加到对应文本之中。该方法已运用到实际切分中,准确率在95%以上,取得了较好的效果。 展开更多
关键词 语音自动切分 隐马尔可夫模型 HMM 中文语言处理 静音添加
在线阅读 下载PDF
面向语音合成的维吾尔语音素自动切分算法研究 被引量:4
6
作者 阿依木尼萨.胡甫尔 艾斯卡尔.艾木都拉 《计算机应用与软件》 CSCD 2011年第9期18-21,共4页
结合维吾尔语语音特征,以建立维吾尔音素语料库为目标,为了减少人工工作量,通过HTK工具实现了音素的自动切分算法:首先完成了文本设计、录音和手动标注等准备工作,设计了上下文属性集,通过训练获得了每个音素的HMM模型,随后对任意输入... 结合维吾尔语语音特征,以建立维吾尔音素语料库为目标,为了减少人工工作量,通过HTK工具实现了音素的自动切分算法:首先完成了文本设计、录音和手动标注等准备工作,设计了上下文属性集,通过训练获得了每个音素的HMM模型,随后对任意输入的语音句子进行了其音素构成部分的自动切分,最后分析了其切分准确度、存在的问题及对策等。实践表明,在语料库的建设中,该研究策略确实节省了大量的时间和人力成本,提高了语音语料库标注信息的一致性和准确性。 展开更多
关键词 音素自动切分 隐马尔科夫模型 维吾尔语 语音合成 音素语音语料库
在线阅读 下载PDF
一种语料缺乏条件下的藏语音素自动切分方法 被引量:2
7
作者 李冠宇 于洪志 吴志强 《计算机工程与科学》 CSCD 北大核心 2014年第10期2009-2013,共5页
藏语语音合成及语音学研究中,经常需要切分音素。人工切分费时费力,但是由于藏语语料缺乏,训练的藏语声学模型不够精确和鲁棒,自动切分的音素边界不够准确。以藏语拉萨方言为研究对象,在确定拉萨方言音素集、建立拉萨方言发音词典的基础... 藏语语音合成及语音学研究中,经常需要切分音素。人工切分费时费力,但是由于藏语语料缺乏,训练的藏语声学模型不够精确和鲁棒,自动切分的音素边界不够准确。以藏语拉萨方言为研究对象,在确定拉萨方言音素集、建立拉萨方言发音词典的基础上,通过计算音素模型间的距离,确定了拉萨方言和英语的共同音素,融合拉萨方言和英语GMM-HMM模型,并自动判断语音中的静音和短时停顿,构造语音对应的词网络,查询发音词典,将词网络扩展为模型(音素)网络,使用Viterbi算法将每一帧特征参数对应到模型的每一个状态上,进而对音素进行切分。实验表明,切分效果要优于单纯的藏语模型方法。 展开更多
关键词 藏语 拉萨方言 自动音素切分 维特比算法 隐马尔可夫模型
在线阅读 下载PDF
一种知识指导下的主题词自动切分方法——KDMM法
8
作者 唐振民 勒从 杨静宇 《情报学报》 CSSCI 北大核心 1993年第4期257-262,共6页
关键词 叙词 机器检索 自动切分 KDMM法
在线阅读 下载PDF
自动标引中中文姓名的切分 被引量:5
9
作者 靳从 唐振民 杨静宇 《计算机工程》 CAS CSCD 北大核心 2003年第22期153-154,共2页
主题词的分割是计算机自动标引的第1步,由于中文姓名不像英文、欧洲语言那样可以通过大写字母来辨别,这就给姓名的识别带来一定的困难。该文根据自动标引系统的要求,充分利用姓名的特点及相关信息,给出了一个基于姓名基本结构的切... 主题词的分割是计算机自动标引的第1步,由于中文姓名不像英文、欧洲语言那样可以通过大写字母来辨别,这就给姓名的识别带来一定的困难。该文根据自动标引系统的要求,充分利用姓名的特点及相关信息,给出了一个基于姓名基本结构的切分方法。通过系统标引结果证明了方法的可行性。 展开更多
关键词 自动标引 自动切分 自然主题词
在线阅读 下载PDF
汉语自动分词新思维:无词典切分 被引量:2
10
作者 文庭孝 侯经川 +1 位作者 邱均平 张洋 《情报杂志》 CSSCI 北大核心 2005年第2期2-4,共3页
汉语自动分词与中华民族文化复兴紧密相联 ,但汉语自动分词又是目前中文信息处理中的难题。通过分析现有汉语词自动分词方法及其局限性、汉语词自动分词中存在的困难、汉语同西方语言和日语的差别 ,认为传统汉语文本具有不可自动切分性 ... 汉语自动分词与中华民族文化复兴紧密相联 ,但汉语自动分词又是目前中文信息处理中的难题。通过分析现有汉语词自动分词方法及其局限性、汉语词自动分词中存在的困难、汉语同西方语言和日语的差别 ,认为传统汉语文本具有不可自动切分性 ,从汉语自动分词的成本、影响和汉语言发展的前途出发 ,必须对传统汉语文本进行改革。提出了一种新的自动分词思维 :“无词典切分” ,即改变汉语书写习惯 ,在汉语文本生成时在汉语词之间增加分隔信息 ,使汉语适于计算机自动处理。 展开更多
关键词 汉语自动分词 汉语文本 中文信息处理 计算机 自动切分 自动处理 词典 加分 书写习惯 难题
在线阅读 下载PDF
连续汉语语音识别中基于归并的音节切分自动机 被引量:10
11
作者 张继勇 sp.cs.tsinghua.edu.cn +7 位作者 郑方 sp.cs.tsinghua.edu.cn 杜术 sp.cs.tsinghua.edu.cn 宋战江 sp.cs.tsinghua.edu.cn 徐明星 sp.cs.tsinghua.edu.cn 《软件学报》 EI CSCD 北大核心 1999年第11期1212-1215,共4页
文章研究并实现了汉语连续语音中的音节自动切分算法─—基于归并的音节切分自动机(merging-basedSyllabledeteCtionautomaton,简称MBSDA)算法.MBSDA算法利用了包括语音的短时能量、过零率和基音周期在内的多种特征参数,把特征参... 文章研究并实现了汉语连续语音中的音节自动切分算法─—基于归并的音节切分自动机(merging-basedSyllabledeteCtionautomaton,简称MBSDA)算法.MBSDA算法利用了包括语音的短时能量、过零率和基音周期在内的多种特征参数,把特征参数高度相似的相邻帧(1帧或若干帧)的语音信号进行“归并(merging)”,形成“归并类似段(mergedsimilarsegment,简称MSS)”,它们被认定属于同一音节的相同状态.这些MSS经过一个包含若干状态的“音节切分自动机(syllabledetectionautomaton,简称SDA)”后,输出音节的切分点.每个确定的切分段中所包合音节个数的范围(rangeofsyllablenumber,简称RSN)也由MBSDA算法给出. 展开更多
关键词 语音识别 归并 音节切分自动 连续汉语语音
在线阅读 下载PDF
基于长度递减与串频统计的文本切分算法 被引量:14
12
作者 姜韶华 党延忠 《情报学报》 CSSCI 北大核心 2006年第1期74-79,共6页
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本... 提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。 展开更多
关键词 汉字 自动切分 串频 长串优先匹配
在线阅读 下载PDF
基于最大熵的汉语篇章结构自动分析方法 被引量:9
13
作者 涂眉 周玉 宗成庆 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第1期125-132,共8页
在标有复句逻辑语义关系的清华汉语树库上,研究汉语篇章语义片段自动切分以及篇章关系的自动标注方法。通过比较不同序列标注模型对汉语篇章语义单元切分的性能,提出基于最大熵模型的汉语篇章结构分析方法。实验结果表明,篇章语义单元... 在标有复句逻辑语义关系的清华汉语树库上,研究汉语篇章语义片段自动切分以及篇章关系的自动标注方法。通过比较不同序列标注模型对汉语篇章语义单元切分的性能,提出基于最大熵模型的汉语篇章结构分析方法。实验结果表明,篇章语义单元自动切分的F值能达到89.1%,当篇章语义结构树的高度不超过6层时,篇章语义关系标注的F值为63%。 展开更多
关键词 语义片段自动切分 篇章结构分析 逻辑语义关系 树库
在线阅读 下载PDF
蒙古语句子切分知识库的建立与应用
14
作者 德.萨日娜 《内蒙古社会科学》 CSSCI 北大核心 2006年第6期165-167,共3页
本文从建立蒙古语格框架的需求出发,首先对现代蒙古语的句结构从句法语义的角度予以分类,对各类句结构的特征进行详细的分析和归纳,建立了一个比较合理的、完备的句切分知识库。并充分利用该知识库实现了蒙古语句子自动切分,为下一步的... 本文从建立蒙古语格框架的需求出发,首先对现代蒙古语的句结构从句法语义的角度予以分类,对各类句结构的特征进行详细的分析和归纳,建立了一个比较合理的、完备的句切分知识库。并充分利用该知识库实现了蒙古语句子自动切分,为下一步的蒙古语句法语义识别和分析奠定了良好的基础。 展开更多
关键词 蒙古语 句子切分知识库 句子自动切分
在线阅读 下载PDF
基于混合并行的分布式训练优化研究 被引量:1
15
作者 徐金龙 李鹏飞 +3 位作者 李嘉楠 陈飙元 高伟 韩林 《计算机科学》 CSCD 北大核心 2024年第12期120-128,共9页
大型神经网络训练是深度学习领域的一个热点话题,而分布式训练是基于多节点实现大型神经网络训练的最佳方法之一。分布式训练通常包含数据并行、层间并行和层内并行3种并行方法。然而现有的框架在层间并行时只能对模型进行手动切分,增... 大型神经网络训练是深度学习领域的一个热点话题,而分布式训练是基于多节点实现大型神经网络训练的最佳方法之一。分布式训练通常包含数据并行、层间并行和层内并行3种并行方法。然而现有的框架在层间并行时只能对模型进行手动切分,增加了模型设计的抽象复杂度,对此提出了节点约束关系搜索算法,实现了模型的自动切分。另外,在传统的数据并行和层间并行中,由于模型的复杂约束关系和通信操作的需要,计算和通信往往受到严格的序列化限制,为此引入了同步优化算法,实现了计算和通信的重叠,有效提高了整体训练的效率。实验对不同规模的GPT-2,AlexNet,VGG16和ResNet50模型进行训练,使用同步优化算法在6节点条件下可以将GPT2-XL,GPT2-LARGE和GPT2-MEDIUM模型的训练性能分别提升1.14倍、1.18倍和1.23倍,在1节点条件下将AlexNet,VGG16和ResNet50模型的训练性能分别提升1.31倍、1.14倍和1.03倍。实验结果表明,同步优化算法能够提升混合并行中的训练效率。 展开更多
关键词 分布式训练 混合并行 自动切分 通信优化 梯度同步
在线阅读 下载PDF
书面汉语分词连写的合理性与紧迫性及其实现 被引量:5
16
作者 李辉阳 韩忠愿 周经野 《中文信息学报》 CSCD 北大核心 2001年第5期15-18,57,共5页
本文结合信息处理技术的发展 ,指出在书面语中采用分词连写的合理性和紧迫性 ,提出应将这一思想纳入相应的中文信息处理标准中 ,并在一些未来的信息平台 (如eBook、WWW )上加以体现。同时对分词连写在具体实施时所面临的如何适应人们长... 本文结合信息处理技术的发展 ,指出在书面语中采用分词连写的合理性和紧迫性 ,提出应将这一思想纳入相应的中文信息处理标准中 ,并在一些未来的信息平台 (如eBook、WWW )上加以体现。同时对分词连写在具体实施时所面临的如何适应人们长期以来形成的读写习惯问题 。 展开更多
关键词 分词连写 中文信息平台 中文信息处理 书面语 词语自动切分 文字处理软件
在线阅读 下载PDF
语句级汉字拼音输入技术评估方法的研究 被引量:3
17
作者 汤步洲 王晓龙 +1 位作者 王轩 张强 《中文信息学报》 CSCD 北大核心 2008年第5期51-55,共5页
该文介绍了语句级汉字拼音输入技术评估方法的研究意义及其重要性。从信息论角度出发,提出了基于损失函数的语句级汉字拼音输入技术的评估方法,它通过损失函数比较经语句级汉字拼音输入系统输出的句子和相应的标准句子,得到描述系统性... 该文介绍了语句级汉字拼音输入技术评估方法的研究意义及其重要性。从信息论角度出发,提出了基于损失函数的语句级汉字拼音输入技术的评估方法,它通过损失函数比较经语句级汉字拼音输入系统输出的句子和相应的标准句子,得到描述系统性能的定量指标。该方法对汉字拼音输入技术的音节流自动切分和音字转换两方面进行了较全面的评估。采用手工标注的1996年《人民日报》部分语料,对目前流行的汉字拼音输入技术进行了评估,实验结果表明:拼音输入技术音字转换准确率最高能达到64.3%,音节流自动切分对音字转换的准确率有大约2%的影响。评估结果对今后的拼音输入技术的评估提供了参考价值,对汉字拼音输入技术的持续发展有指导意义。 展开更多
关键词 人工智能 自然语言处理 语句级汉字拼音输入技术 损失函数 音节流自动切分 音字转换
在线阅读 下载PDF
网络信息检索技术现状、瓶颈及趋势分析 被引量:31
18
作者 龚蛟腾 《情报杂志》 CSSCI 北大核心 2004年第5期75-77,共3页
目前网络信息检索技术主要有资源定位检索技术、超链接搜索技术、网络搜索引擎技术及通用信息检索技术 ,制约网络信息检索技术发展的瓶颈是图像音频视频检索、汉语自动切分、搜索引擎缺陷等。智能检索技术、知识检索技术、多媒体检索技... 目前网络信息检索技术主要有资源定位检索技术、超链接搜索技术、网络搜索引擎技术及通用信息检索技术 ,制约网络信息检索技术发展的瓶颈是图像音频视频检索、汉语自动切分、搜索引擎缺陷等。智能检索技术、知识检索技术、多媒体检索技术、新一代搜索引擎技术、自然语言检索技术和基于内容的检索技术是网络信息检索技术发展的核心与关键。 展开更多
关键词 网络信息检索技术 资源定位检索 超链接搜索 搜索引擎 视频检索 音频检索 汉语切分 自动切分 智能检索 知识检索 多媒体检索
在线阅读 下载PDF
汉字进入计算机之后的问题 被引量:1
19
作者 刘涌泉 《语文建设》 1984年第6期14-16,共3页
几年来,我国在中文信息处理方面取得了巨大的成绩,其中与汉字进入计算机有直接关系的就有这样几项:(1)设计了四百来种汉字编码方案,其中上机通过试验已被采用作为输入方式的,也有数十种之多。(2)《信息交换用汉字编码字符集基本集》(简... 几年来,我国在中文信息处理方面取得了巨大的成绩,其中与汉字进入计算机有直接关系的就有这样几项:(1)设计了四百来种汉字编码方案,其中上机通过试验已被采用作为输入方式的,也有数十种之多。(2)《信息交换用汉字编码字符集基本集》(简称《汉字标准交换码》)已作为国家标准颁布。辅助集也初步制定。(3)已研制出九十种汉字信息处理系统。(4)计算机激光汉字编辑排版系统研制成功。 展开更多
关键词 汉字编码方案 中文信息处理 辅助集 基本集 交换码 汉字编码字符集 编辑排版 音码 信息交换 自动切分
在线阅读 下载PDF
现代汉语词频统计通过国家鉴定 被引量:2
20
作者 庞关 《语文建设》 1986年第5期59-60,共2页
现代汉语词频统计是由国家科委下达,委托国家标准局主管的重大科研项目,由北京航空学院等11个单位研制。此次词频统计,选取原始母体材料约三亿汉字,用等距抽样和随机抽样的方法从三亿汉字中抽样约二千五百万字。选材的特点是:1.选材范... 现代汉语词频统计是由国家科委下达,委托国家标准局主管的重大科研项目,由北京航空学院等11个单位研制。此次词频统计,选取原始母体材料约三亿汉字,用等距抽样和随机抽样的方法从三亿汉字中抽样约二千五百万字。选材的特点是:1.选材范围广。有报纸、期刊,大中学各科教材,各种通俗读物及专著等。全部选材来自1679篇文章和专著,具有较强的代表性。2.选材分科多。全部选材分为社会科学和自然科学两大类。 展开更多
关键词 词频统计 现代汉语 国家标准局 国家科委 国家鉴定 等距抽样 自动分词 中文信息处理 自动切分 随机抽样
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部