期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于N-gram语言模型的哈萨克文机构名识别 被引量:2
1
作者 冯鲸华 古丽拉.阿东别克 玛依来.哈帕尔 《计算机工程与应用》 CSCD 北大核心 2010年第31期135-138,共4页
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训... 针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的机构名进行识别,实验结果表明该方法可行。 展开更多
关键词 n—gram语言模型 哈萨克文机构名识别 实体名识别
在线阅读 下载PDF
基于扩展N元文法模型的快速语言模型预测算法 被引量:6
2
作者 单煜翔 陈谐 +1 位作者 史永哲 刘加 《自动化学报》 EI CSCD 北大核心 2012年第10期1618-1626,共9页
针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模型进行快速语言模型(Language model,LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的表示与分数计算方法,从而大大简化了解码器的实现... 针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模型进行快速语言模型(Language model,LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的表示与分数计算方法,从而大大简化了解码器的实现,极大地提升了语言模型预测的速度,使得高阶语言模型预测成为可能.扩展N元文法模型在解码之前离线生成,生成过程利用了N元文法的稀疏性加速计算过程,并采用了词尾节点前推和分数量化的方法压缩模型存储空间大小.实验表明,相比于采用动态规划在解码过程中实时计算语言模型预测分数的传统方法,本文提出的方法在相同的字错误率下使得整个识别系统识别速率提升了5~9倍,并且采用高阶语言模型预测可获得比低阶预测更优的解码速度与精度. 展开更多
关键词 语音识别 语言模型预测 n元文法模型 解码
在线阅读 下载PDF
汉语统计语言模型的N值分析 被引量:8
3
作者 张树武 黄泰翼 《中文信息学报》 CSCD 北大核心 1998年第1期35-41,共7页
N元语言模型(n-gram)作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等)中已得到广泛的应用。但是,具体N取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未... N元语言模型(n-gram)作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等)中已得到广泛的应用。但是,具体N取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N元语言模型中N值的选择。并得出结论:对于基于真实词的汉语N元语言模型,N的取值范围应介于3至6之间,且N=4为较优。这一结论将有助于汉语统计语言处理的发展。 展开更多
关键词 语音识别 汉语 统计语言模型 n语言模型
在线阅读 下载PDF
基于N元语言模型的文本分类方法 被引量:11
4
作者 周新栋 王挺 《计算机应用》 CSCD 北大核心 2005年第1期11-13,16,共4页
分类是近年来自然语言处理领域的一个研究热点。在分析了传统的分类模型后,文中提出了用N元语言模型作为中文文本分类模型。该模型不以传统的"词袋"(bagofwords)方法表示文档,而将文档视为词的随机观察序列。根据该方法,设计... 分类是近年来自然语言处理领域的一个研究热点。在分析了传统的分类模型后,文中提出了用N元语言模型作为中文文本分类模型。该模型不以传统的"词袋"(bagofwords)方法表示文档,而将文档视为词的随机观察序列。根据该方法,设计并实现一个基于词的2元语言模型分类器。通过N元语言模型与传统分类模型(向量空间模型和NaiveBayes模型)的实验对比,结果表明:N元模型分类器具有更好的分类性能。 展开更多
关键词 文本分类 n语言模型 参数平滑
在线阅读 下载PDF
基于N-Gram模型的高速汉字编码识别系统 被引量:4
5
作者 李继锋 刘群 《计算机工程与应用》 CSCD 北大核心 2004年第3期39-41,177,共4页
该文提出了一个应用n元语法模型(N-Gram)自动识别文档中汉字编码的方法,并介绍了一个已投入使用的汉字编码自动识别系统的设计和具体实现。该系统采用的是以字为基本单位的一元语法模型Uni-Gram,建立在语料库的基础上,仅用输入前N个字... 该文提出了一个应用n元语法模型(N-Gram)自动识别文档中汉字编码的方法,并介绍了一个已投入使用的汉字编码自动识别系统的设计和具体实现。该系统采用的是以字为基本单位的一元语法模型Uni-Gram,建立在语料库的基础上,仅用输入前N个字的字频计算输入串的生成概率,可以高速、准确识别。 展开更多
关键词 编码识别 n元语法模型 一元语法模型 n—gram模型 自动识别文档 汉字编码
在线阅读 下载PDF
基于混合语言模型的中文智能输入技术
6
作者 章森 刘磊 刁麓弘 《北京工业大学学报》 EI CAS CSCD 北大核心 2007年第9期997-1001,共5页
分析了中文智能输入技术的研究现状和存在的问题,提出了基于混合n-gram的中文智能输入技术,给出了系统实现的架构,研究了混合2-gram模型的有关问题以及字词网格的求解算法,讨论了自动预测与系统学习功能的实现.测试结果表明拼音到汉字... 分析了中文智能输入技术的研究现状和存在的问题,提出了基于混合n-gram的中文智能输入技术,给出了系统实现的架构,研究了混合2-gram模型的有关问题以及字词网格的求解算法,讨论了自动预测与系统学习功能的实现.测试结果表明拼音到汉字自动转换正确率达到了92.1%,基本实现了预期目标. 展开更多
关键词 中文智能输入 n—gram语言模型 MARKOV模型 字词网格 用户行为
在线阅读 下载PDF
基于字符语言模型的垃圾邮件过滤 被引量:8
7
作者 苏绥 林鸿飞 叶正 《中文信息学报》 CSCD 北大核心 2009年第2期41-47,共7页
基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Na ve Bayes、SVM和基于... 基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Na ve Bayes、SVM和基于词的语言模型方法的性能差异,以及不同n值、不同特征选择方式对过滤结果的影响。实验结果表明,基于字符的语言模型实现简单且具有很高的性能,能较好地满足大规模在线邮件系统的需要,具有很高的实用价值。 展开更多
关键词 计算机应用 中文信息处理 垃圾邮件过滤 语言模型 朴素贝叶斯 支撑向量机 n—gram
在线阅读 下载PDF
一种基于N-Gram的垃圾邮件过滤方法研究 被引量:5
8
作者 林伟 柳荣其 徐熙 《计算机应用与软件》 CSCD 2010年第2期121-123,共3页
为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提... 为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提高了垃圾邮件过滤的性能。 展开更多
关键词 邮件过滤 n—gram 贝叶斯模型 特征选择
在线阅读 下载PDF
基于统计与规则相结合的汉语计算语言模型及其在语音识别中的应用 被引量:2
9
作者 关毅 王晓龙 张凯 《高技术通讯》 EI CAS CSCD 1998年第4期16-20,共5页
把基于统计的语料概率统计方法与基于规则的自然语言理解方法结合起来,提出了一种新的汉语计算语言模型,并把该模型应用于语音识别后处理模块中,取得了较理想的结果。
关键词 语言模型 短语规则 n元统计文法 语音识别
在线阅读 下载PDF
一种新的潜在语义分析语言模型 被引量:3
10
作者 任纪生 王作英 《高技术通讯》 CAS CSCD 北大核心 2005年第8期1-5,共5页
提出了基于聚类的方法实现词的快速量化表示,并由此导出潜在语义分析语言模型预测置信度,同时运用新提出的几何加权静态插值方式同三元文法模型相结合,构建了一种新的潜在语义分析语言模型,并将其应用于汉语语音识别.实验表明其效率和... 提出了基于聚类的方法实现词的快速量化表示,并由此导出潜在语义分析语言模型预测置信度,同时运用新提出的几何加权静态插值方式同三元文法模型相结合,构建了一种新的潜在语义分析语言模型,并将其应用于汉语语音识别.实验表明其效率和性能均优于传统基于奇异值分解的潜在语义分析语言模型,相比于三元文法模型,识别错误率相对下降为3.6%~7.1%左右,并为有效量化表示词对进一步提高潜在语义分析语言模型性能提供了新的途径. 展开更多
关键词 语言模型 语音识别 n元文法 潜在语义分析 奇异值分解 汉语语音识别 模型性能 模型预测 插值方式 量化表
在线阅读 下载PDF
关于汉语音字转换中语言模型零概率的问题 被引量:4
11
作者 张瑞强 王作英 陆大 《电子学报》 EI CAS CSCD 北大核心 1998年第8期43-46,共4页
本文研究了音字转换中使用的语言模型问题,从语言模型复杂度的角度研究了三种解决零概率问题的方法的效率,back-off方法,删除插值和非线性插值方法.并且给出了这些方法下使得语言模型复杂度最小的参数的递推公式,通过实验验证了这... 本文研究了音字转换中使用的语言模型问题,从语言模型复杂度的角度研究了三种解决零概率问题的方法的效率,back-off方法,删除插值和非线性插值方法.并且给出了这些方法下使得语言模型复杂度最小的参数的递推公式,通过实验验证了这些递推公式的正确性. 展开更多
关键词 语音识别 语言模型 n元文法
在线阅读 下载PDF
利用FP-树构造多词Trigger对语言模型 被引量:2
12
作者 许永林 史晓东 蔡骏 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第B06期243-246,共4页
在语音识别系统中,Trigger模型作为语言模型的一种,用于描述长距离词与词之间的关系,然而以往的Trigger语言模型多是针对单个词的模型,本文借鉴数据挖掘中关联规则发现的Apriori算法,利用效率比较高的FP树算法产生多词Trigger对,由此构... 在语音识别系统中,Trigger模型作为语言模型的一种,用于描述长距离词与词之间的关系,然而以往的Trigger语言模型多是针对单个词的模型,本文借鉴数据挖掘中关联规则发现的Apriori算法,利用效率比较高的FP树算法产生多词Trigger对,由此构造多词Trigger对语言模型,这种模型能够更多地利用历史数据,弥补了传统N元文法语言模型描述距离小于N的缺点. 展开更多
关键词 TRIGGER 语言模型 FP-树 构造 Apriori算法 语音识别系统 关联规则发现 er模型 数据挖掘 效率比较 模型描述 n元文法 历史数据 长距离 树算法
在线阅读 下载PDF
基于语义扩展模型的中文网页关键词抽取 被引量:4
13
作者 汪洋 帅建梅 《计算机工程》 CAS CSCD 2012年第22期163-166,共4页
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方... 提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。 展开更多
关键词 中文网页关键词抽取 语义扩展模型 邻接变化数 聚类算法 n—gram语言模型
在线阅读 下载PDF
协同学习环境中感知本体的构建方法 被引量:4
14
作者 詹永照 谢志峰 毛启容 《江苏大学学报(自然科学版)》 EI CAS 北大核心 2007年第2期164-167,共4页
为了对协同学习环境中的感知信息进行合理、有效的组织,提出了协同学习环境中的感知本体模型,其中包含成员概念、成员组概念、角色概念、知识域概念、事件概念、活动概念六个方面以及概念内部及概念之间的各种关系,可有效解决传统感知... 为了对协同学习环境中的感知信息进行合理、有效的组织,提出了协同学习环境中的感知本体模型,其中包含成员概念、成员组概念、角色概念、知识域概念、事件概念、活动概念六个方面以及概念内部及概念之间的各种关系,可有效解决传统感知信息组织能力受限、维护困难的问题,最大程度地提高协同学习效率.此外,在此模型的基础上提出了一种基于N-Grams的知识域相关关系提取方法,可以自动精确地提取相关关系,适合动态的感知信息处理. 展开更多
关键词 协同学习 感知本体模型 本体构建 n—grams 知识域
在线阅读 下载PDF
基于语音配列的汉语方言自动辨识 被引量:20
15
作者 顾明亮 沈兆勇 《中文信息学报》 CSCD 北大核心 2006年第5期77-82,共6页
本文首先讨论了汉语方言辨识的依据及特征选取的基本原则,并由此导出了区间差分倒谱特征。然后利用GMM符号发生器和N元语言模型及ANN建立了一个方言辨识系统,该系统与传统的语种识别系统相比,具有以下特点:第一,系统不需要标注好的语音... 本文首先讨论了汉语方言辨识的依据及特征选取的基本原则,并由此导出了区间差分倒谱特征。然后利用GMM符号发生器和N元语言模型及ANN建立了一个方言辨识系统,该系统与传统的语种识别系统相比,具有以下特点:第一,系统不需要标注好的语音库,从而降低了汉语方言语音库建设的劳动强度和要求;第二,GMM符号化器计算量远远低于音素辨识器,从而提高了方言辨识速度,便于今后实时处理。第三,具有更高的辨识效果和更好的容错性。汉语普通话和三种方言辨识实验结果表明,系统平均辨识率可以达到83.8%。 展开更多
关键词 计算机应用 中文信息处理 GMM符号化器 n语言模型 汉语方言辨识
在线阅读 下载PDF
基于音节首字母匹配的音译单元对齐方法 被引量:1
16
作者 赵明明 梁颖红 +1 位作者 周美玲 姚建民 《江南大学学报(自然科学版)》 CAS 2009年第6期639-642,共4页
音译涉及的两种语言采用不同的字母表和发音系统时(英语和汉语,英语和日语,英语和阿拉伯语等),机器音译就更复杂且更具有挑战性。音译单元对齐结果的好坏严重影响机器音译的准确率,为此研究了英汉机器音译中音译单元的对齐,提出了基于... 音译涉及的两种语言采用不同的字母表和发音系统时(英语和汉语,英语和日语,英语和阿拉伯语等),机器音译就更复杂且更具有挑战性。音译单元对齐结果的好坏严重影响机器音译的准确率,为此研究了英汉机器音译中音译单元的对齐,提出了基于音节首字母匹配的音译单元对齐方法,该方法在音译单元的对齐中有较好的表现。 展开更多
关键词 音译单元 机器音译 VITERBI算法 n—gram模型
在线阅读 下载PDF
无监督分词算法在新词识别中的应用 被引量:2
17
作者 姜涛 陆阳 +1 位作者 张洁 洪建 《小型微型计算机系统》 CSCD 北大核心 2020年第4期888-892,共5页
新词识别过程中,使用分词工具进行预分词的方法,受限于训练语料而对某些领域的分词准确率不佳.针对这个问题,本文提出了一种改进方法.该方法首先基于元语言模型进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现.同... 新词识别过程中,使用分词工具进行预分词的方法,受限于训练语料而对某些领域的分词准确率不佳.针对这个问题,本文提出了一种改进方法.该方法首先基于元语言模型进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现.同时方法中还结合了命名实体识别对发现的结果进行过滤,得到候选词组后使用网格搜索寻找最优的超参数组合.实验选取四种不同领域的语料,在统一的超参数下,前10%的新词准确率分别达到了88.3%、80.5%、85.9%、91.9%.实验表明,这种无监督的分词方法适用于新词识别领域,并具备良好的领域适应性. 展开更多
关键词 新词识别 互信息 邻接熵 n语言模型 中文分词
在线阅读 下载PDF
一种面向在线查询的拼写纠错算法 被引量:1
18
作者 王秀珍 丛瑞 王飞 《计算机工程与应用》 CSCD 北大核心 2015年第14期113-119,共7页
搜索引擎中,在线拼写纠错根据用户查询输入补全用户查询,并给出正确的拼写建议。提出了一种面向查询补全的在线拼写纠错算法。基于真实查询的噪声信道转换方式,算法建立了用户查询输入的生成模型;利用拼写纠错对,算法采用期望最大化算... 搜索引擎中,在线拼写纠错根据用户查询输入补全用户查询,并给出正确的拼写建议。提出了一种面向查询补全的在线拼写纠错算法。基于真实查询的噪声信道转换方式,算法建立了用户查询输入的生成模型;利用拼写纠错对,算法采用期望最大化算法训练能捕获用户误拼行为的马尔科夫N语法转换模型;算法采用不同剪枝策略的启发式改进A*搜索算法以实现实时给出纠错补全建议。实验结果表明,提出的算法相比其他同类算法更有效。 展开更多
关键词 拼写纠错 查询补全 期望最大化算法 n语法语言模型
在线阅读 下载PDF
一种抗噪音的中文网页分类方法 被引量:1
19
作者 王小冷 王斌 《中文信息学报》 CSCD 北大核心 2007年第4期48-54,共7页
网页分类可以看成是噪音环境下的文本分类问题。本文是在噪音环境下文本分类方法的一种探索:把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBayes)和基于分词的k近邻(kNN)分类方法应用到网... 网页分类可以看成是噪音环境下的文本分类问题。本文是在噪音环境下文本分类方法的一种探索:把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBayes)和基于分词的k近邻(kNN)分类方法应用到网页分类领域,在中文Web信息检索论坛提供的中文网页分类训练集——CCT2002-v1.1(Corp_1)和我们自己整理的中文网页集(Corp_2)进行了实验。验证了三种分类方法在非噪音环境下性能基本相当,而噪音环境下的实验结果表明,NGBayes的分类性能远远高于其他两种方法,这说明NGBayes对中文网页中的噪音不敏感。然后通过对特征的分析,探讨了NGBayes抗噪音的原因。从而得出结论:NGBayes是一种抗噪音的中文网页分类方法。 展开更多
关键词 计算机应用 中文信息处理 n—gram模型 nBayes Knn
在线阅读 下载PDF
连续手语识别中的文本纠正和补全方法 被引量:1
20
作者 龙广玉 陈益强 邢云冰 《计算机应用》 CSCD 北大核心 2021年第3期694-698,共5页
针对基于视频的连续手语识别的文本结果存在语义模糊、语序混乱的问题,提出一种两步法将连续手语识别结果的手语文本转化为通顺、可懂的汉语文本。第一步,基于自然手语规则以及N元语言模型(N-gram)对连续手语识别的结果进行文本调序;第... 针对基于视频的连续手语识别的文本结果存在语义模糊、语序混乱的问题,提出一种两步法将连续手语识别结果的手语文本转化为通顺、可懂的汉语文本。第一步,基于自然手语规则以及N元语言模型(N-gram)对连续手语识别的结果进行文本调序;第二步,利用汉语通用量词数据集训练双向长短期记忆(Bi-LSTM)网络模型,以解决手语语法无量词的问题,从而提升语句通顺度。使用绝对准确率和最长正确子序列占比作为文本调序的评价指标,实验结果显示,所提方法的文本调序结果绝对准确率为77.06%,最长正确子序列占比为86.55%,量词补全准确率为97.23%。所提的方法能够有效提升连续手语识别的文本结果的通畅度和可懂度,已成功应用于基于视频的连续手语识别,提升了听障人和健听人的无障碍交流体验。 展开更多
关键词 连续手语识别 n语言模型 文本调序 双向长短记忆网络 量词补全
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部