期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于“相同与差异”的机译单元的自动提取研究
1
作者 陈博兴 杜利民 《中文信息学报》 CSCD 北大核心 2003年第3期34-40,共7页
从双语语料库中提取的机译单元能更好地覆盖真实语言文本 ,本文提供了一个通过找出两个双语句对之间非全部为高频功能词的“相同和差异”部分 ,并且利用翻译词典和动态规划算法对齐“相同和差异”部分来获取机译单元的算法。对于获取的... 从双语语料库中提取的机译单元能更好地覆盖真实语言文本 ,本文提供了一个通过找出两个双语句对之间非全部为高频功能词的“相同和差异”部分 ,并且利用翻译词典和动态规划算法对齐“相同和差异”部分来获取机译单元的算法。对于获取的候选机译单元 ,本算法设计了三个过滤器来考察其正确性 :双语词串相似度过滤考察其语义对应性 ,词性相似度过滤考察其语法对应性 ,首尾禁用词过滤考察其搭配正确性。通过抽样检验 ,最后提取的机译单元的正确率为 86% ,召回率约为 61 34 % ,该算法对于获取机译单元提供了一种新的实用的方法。 展开更多
关键词 人工智能 机器翻译 双语语料库 机译单元 相同和差异
在线阅读 下载PDF
EBMT系统中的多词单元翻译词典获取研究 被引量:5
2
作者 程洁 杜利民 《中文信息学报》 CSCD 北大核心 2004年第1期55-61,共7页
EBMT系统是一种基于语料库的机器翻译方法 ,其主要思想是通过类比原理进行翻译。如何从语料库中提取出一个实用的翻译词典进行系统的辅助翻译已经越来越多的引起关注。本文探讨了如何结合阈值和关联度提取的方法获取多词单元翻译词典 ,... EBMT系统是一种基于语料库的机器翻译方法 ,其主要思想是通过类比原理进行翻译。如何从语料库中提取出一个实用的翻译词典进行系统的辅助翻译已经越来越多的引起关注。本文探讨了如何结合阈值和关联度提取的方法获取多词单元翻译词典 ,在这两种方法中 ,阈值提取受主观影响太大 ,关联值提取效率太低 ,都不能很好的满足翻译词典提取的要求。本文提出的算法利用阈值提取出备选多词单元 ,其中提出了四点规则弱化主观影响且保证全面覆盖所有多词单元 ,降低了阈值本身所带来的不精确度的影响 ,然后对计算结果进行三层过滤 ,进一步提高了准确率 ;该算法还合并了单词译成多词单元和多词单元互译两部分词典的提取 。 展开更多
关键词 人工智能 机器翻译 EBMT 翻译词典 多词单元
在线阅读 下载PDF
基于USB2.0的麦克风阵列语音数据采集系统设计 被引量:3
3
作者 施剑 何成林 杜利民 《计算机工程》 CAS CSCD 北大核心 2006年第24期216-218,共3页
介绍了一种基于USB2.0接口芯片ISP1581,并采用FPGA芯片EP1C3T144实现麦克风阵列语音数据采集的方法,讨论了如何获得同步、实时、信噪比高的语音数据以及USB2.0传输控制方面的问题。该方法具有接口简单、使用方便、扩展性好等特点。
关键词 麦克风阵列 USB2.0 等时传输模式
在线阅读 下载PDF
基于双语语料的单个源语词汇和目标语多词单元的对齐 被引量:6
4
作者 陈博兴 杜利民 《中文信息学报》 CSCD 北大核心 2003年第1期13-19,共7页
多词单元包括固定搭配、多词习语和多词术语等。本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法 ,算法一方面通过计算对应于同一个源语词汇 ,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡... 多词单元包括固定搭配、多词习语和多词术语等。本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法 ,算法一方面通过计算对应于同一个源语词汇 ,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡量目标语多个词语之间的关联程度以提取多词单元 ,另一方面通过计算互信息和t值的平均值作为多词单元和单个源语词汇之间互为相互翻译的衡量程度 ,用局部最优、首尾禁用词过滤以及长词优先等策略很好地解决了这个问题。另外 ,对短语翻译词典的分级 ,有效地减少了高级别词典中非正确翻译项的数目 ,使得翻译词典具有更好的实用性。 展开更多
关键词 双语语料 源语词汇 目标语 人工智能 机器翻译 双语对齐 多词单元 翻译词典
在线阅读 下载PDF
基于双语对齐口语语料的翻译词典的自动生成 被引量:2
5
作者 陈博兴 杜利民 《计算机学报》 EI CSCD 北大核心 2003年第3期275-280,共6页
提出了一个基于英汉双语口语对齐语料库的翻译词典的自动生成算法 .首先利用释义词典过滤双语文本 ,得到“过滤词典” ,继而通过统计共现概率 ,计算出所有词对的相互关联值 ,并且生成“汉英 (英汉 )相互关联值表” ,对于每个源语词汇选... 提出了一个基于英汉双语口语对齐语料库的翻译词典的自动生成算法 .首先利用释义词典过滤双语文本 ,得到“过滤词典” ,继而通过统计共现概率 ,计算出所有词对的相互关联值 ,并且生成“汉英 (英汉 )相互关联值表” ,对于每个源语词汇选取相互关联值最大的若干项目标语作为候选词对 ,分别赋予信任值 1,然后统计每个候选词对的信任值作为翻译词典的分级标准 ,得到 4个不同级别的词典 ,其中“过滤词典 +4级词典”在召回率为 93 5 %的情况下 ,正确率达到 93 389% . 展开更多
关键词 双语对齐 口语语料 翻译词典 自动生成 关联值 机器翻译 英汉翻译 语料库
在线阅读 下载PDF
优先度排序RBF神经网络在与文本无关说话人确认中的应用
6
作者 邓浩江 王守觉 杜利民 《电子与信息学报》 EI CSCD 北大核心 2003年第9期1153-1159,共7页
该文介绍了优先度排序径向基函数(PORBF)神经网络的结构与算法,并提出了将其应用于与文本无关说话人确认时的训练算法、似然度的计算方法以及识别规则。为了增强PORBF网络的泛化能力,该文用压缩矢量构造抑制样本集,提出了顺序选取、最... 该文介绍了优先度排序径向基函数(PORBF)神经网络的结构与算法,并提出了将其应用于与文本无关说话人确认时的训练算法、似然度的计算方法以及识别规则。为了增强PORBF网络的泛化能力,该文用压缩矢量构造抑制样本集,提出了顺序选取、最近邻选取和最远距离选取等3种选择抑制样本集中说话人的方法,并对PORBF神经元的输出进行了等比递减加权.在相同条件下的与文本无关说话人确认实验中,传统的矢量量化方法的等差错率可达10.56%,而基于PORBF网络的确认系统使用最近邻选择方法构造抑制样本集,其等差错率可达6.83%;性能提高很多。 展开更多
关键词 优先度排序 径向基函数 神经网络 说话人确认 与文本无关 训练算法 语音处理
在线阅读 下载PDF
似然得分归一化及其在与文本无关说话人确认中的应用
7
作者 邓浩江 杜利民 万洪杰 《电子与信息学报》 EI CSCD 北大核心 2005年第7期1025-1029,共5页
该文研究了似然得分归一化方法的原理,建立了基于自适应GMM模型的说话人确认系统,并将非特定人的背景模型与特定人的cohort模型相结合,提出了混合归一化的方法。在电话语音条件下,该文比较了不同得分归一化方法对确认系统性能的影响。... 该文研究了似然得分归一化方法的原理,建立了基于自适应GMM模型的说话人确认系统,并将非特定人的背景模型与特定人的cohort模型相结合,提出了混合归一化的方法。在电话语音条件下,该文比较了不同得分归一化方法对确认系统性能的影响。实验表明,在自适应GMM模型似然比得分的基础上,T-cohort与通用背景模型混合归一化能获得最佳识别效果。当错误拒绝率为5%时,该方法可以获得0.5%的错误接受率,远远低于采用通用背景模型归一化方法的2%。 展开更多
关键词 说话人确认 高斯混合模型 得分归一化 与文本无关
在线阅读 下载PDF
基于MMSE准则的基频模型
8
作者 刘浩杰 杜利民 《电子与信息学报》 EI CSCD 北大核心 2005年第12期1932-1936,共5页
在声调与语调相互作用理论的基础上,该文利用最小均方误差准则有效地提取了连续语流基频曲线的高音线及低音线,从量化的角度证实了高音线及低音线对连续语流基频曲线的作用及其区别。该文还对声调与语调相互作用的数学模型做了初步探... 在声调与语调相互作用理论的基础上,该文利用最小均方误差准则有效地提取了连续语流基频曲线的高音线及低音线,从量化的角度证实了高音线及低音线对连续语流基频曲线的作用及其区别。该文还对声调与语调相互作用的数学模型做了初步探讨,建立了基频曲线的双线调节及调中值模型,为合成系统基频灵活有效地调整提供了新的手段,提高了语音合成系统的自然度。 展开更多
关键词 语音信号处理 基频模型 高音线 低音线 最小均方误差准则
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部