期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
汉语语音文档检索中后验概率的索引方法
1
作者 郑铁然 韩纪庆 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2009年第8期97-102,共6页
基于音节Lattice形式的语音识别结果来实现汉语语音文档检索,不但可以成功规避词表外词问题,而且Lattice这种多候选形式也能有效补偿识别错误对检索性能的影响.在基于音节Lattice的汉语语音文档检索研究中,针对已有索引方法的不足,提出... 基于音节Lattice形式的语音识别结果来实现汉语语音文档检索,不但可以成功规避词表外词问题,而且Lattice这种多候选形式也能有效补偿识别错误对检索性能的影响.在基于音节Lattice的汉语语音文档检索研究中,针对已有索引方法的不足,提出了一种基于后验概率的索引方法,对向量空间模型进行改进,以音节和K步邻接音节对作为索引项,以它们在语音文档中的后验概率值作为索引项权重.检索实验表明,文中的方法更适用于基于音节Lattice的语音文档检索任务,各项改进都达到了预期效果. 展开更多
关键词 汉语语音文档检索 音节Lattice K步邻接音节对 后验概率 改进的向量空间模型
在线阅读 下载PDF
基于子词链的中文新闻广播故事自动分割 被引量:2
2
作者 杨玉莲 谢磊 《计算机应用研究》 CSCD 北大核心 2009年第2期583-586,594,共5页
提出了一种基于子词链的中文新闻广播故事自动分割方法。利用中文同音异形字众多、词典开放、分词多样和组词灵活等特点,在新闻广播的语音识别抄本上采用中文子词单元(汉字和音节)创建子词链,进行中文新闻广播故事的自动分割,有效地解... 提出了一种基于子词链的中文新闻广播故事自动分割方法。利用中文同音异形字众多、词典开放、分词多样和组词灵活等特点,在新闻广播的语音识别抄本上采用中文子词单元(汉字和音节)创建子词链,进行中文新闻广播故事的自动分割,有效地解决了在传统词链方法中由于语音识别错误(特别是词典未收录词汇)导致的相关联词之间无法匹配的问题。同时,利用各级词汇表示单元之间的互补性,如词的表义确定性和子词对语音识别错误的鲁棒性,对各级词汇进行融合,利用不同级别词汇表示单元的优势进一步提高中文新闻广播故事分割的性能。在TDT2中文标准新闻广播语料库上进行的实验表明,基于一元汉字子词链分割方法的F-mea-sure比传统词链方法提高了6.06%。基于一元和二元汉字子词链边界强度的融合可以使F-mea-sure进一步提高2.55%。基于投票法的融合可以使F-measure比传统词链方法提高9.04%。 展开更多
关键词 子词 词链 主题分割 故事分割 信息检索 语音文件检索
在线阅读 下载PDF
一种融合音位属性的语音文档索引方法
3
作者 陆明明 张连海 +1 位作者 屈丹 牛铜 《计算机工程》 CAS CSCD 2012年第19期159-162,共4页
为提高索引覆盖率并获得更多的候选路径,提出一种在词格上融合音位属性的语音文档索引方法。通过基于音位属性检测的语音识别系统建立词格,利用其信息互补性,与传统的词格进行起止节点合并。针对合并后Lattice规模增大的问题,采用基于... 为提高索引覆盖率并获得更多的候选路径,提出一种在词格上融合音位属性的语音文档索引方法。通过基于音位属性检测的语音识别系统建立词格,利用其信息互补性,与传统的词格进行起止节点合并。针对合并后Lattice规模增大的问题,采用基于位置的分段对齐方法对其结构进行压缩。实验结果表明,该方法在提高索引覆盖率和降低最小错误率方面均优于传统的语音文档索引方法,能够有效提高语音检索性能。 展开更多
关键词 语音文档检索 语音文档索引 自动语音识别 音位属性检测 词格 信息融合
在线阅读 下载PDF
基于子词PSPL的汉语语音文档索引
4
作者 陆明明 张连海 屈丹 《应用科学学报》 CAS CSCD 北大核心 2013年第3期259-265,共7页
针对汉语语音文档检索中最优识别单元和检索单元不一致的问题,提出一种基于子词(position specificposterior lattices,PSPL)的语音文档索引方法;该方法以词为识别单元对语音文档进行解码,得到PSPL:然后对PSPL进行子词切分,并根据子词... 针对汉语语音文档检索中最优识别单元和检索单元不一致的问题,提出一种基于子词(position specificposterior lattices,PSPL)的语音文档索引方法;该方法以词为识别单元对语音文档进行解码,得到PSPL:然后对PSPL进行子词切分,并根据子词弧与原始词弧的后验概率关系,将PSPL转换为相应的子词PSPL,以子词PSPL为索引进行查询项检索.实验结果表明,所提出的方法在利用丰富语言信息的同时,解决了词解码器存在的边界分割不正确的问题,检索性能明显优于目前普遍使用的识别单元和检索单元均为词的PSPL索引方法. 展开更多
关键词 语音文档检索 语音文档索引 子词PSPL 词格 子词后验概率
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部