期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
利用覆盖歧义检测法和统计语言模型进行汉语自动分词 被引量:8
1
作者 王显芳 杜利民 《电子与信息学报》 EI CSCD 北大核心 2003年第9期1168-1173,共6页
该文探讨了利用覆盖歧义检测法和统计语言模型进行汉语自动分词的问题。采用了多次迭代的方法来进行汉语词层面统计语言模型的训练。该方法能够得到更优化的语言模型。该文详细介绍了统计语言模型的训练过程,给出了语言模型复杂度随迭... 该文探讨了利用覆盖歧义检测法和统计语言模型进行汉语自动分词的问题。采用了多次迭代的方法来进行汉语词层面统计语言模型的训练。该方法能够得到更优化的语言模型。该文详细介绍了统计语言模型的训练过程,给出了语言模型复杂度随迭代次数增加而减小的实验结果。还给出了在不同的统计语言模型阶数下切分正确率变化的情况,分析了切分正确率变化的原因。 展开更多
关键词 覆盖歧义检测法 统计语言模型 汉语 自动分词 切分正确率
在线阅读 下载PDF
一种改进的汉语N元文法统计语言模型 被引量:3
2
作者 田斌 田红心 易克初 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2000年第1期62-64,75,共4页
提出一种利用声学匹配结果平滑语言模型的新方法.根据汉语语言的特点,利用声学识别中提供的汉语分词信息修正统计语言模型中N元文法转移概率分布,有效地提高了汉语语音识别系统统计模型的顽健性能.
关键词 语音识别 统计语言模型 汉语
在线阅读 下载PDF
一种基于加速度与表面肌电信息融合和统计语言模型的连续手语识别方法 被引量:6
3
作者 田建勋 陈香 +1 位作者 李云 杨基海 《中国生物医学工程学报》 CAS CSCD 北大核心 2011年第3期333-339,共7页
加速计(ACC)和表面肌电(SEMG)传感器是两种有效轻便的手势捕获设备。本研究提出一种采用多级决策树融合ACC和SEMG信息识别手语词根,并引入统计语言模型进行词根接续判断和错误纠正的中国手语连续语句识别方法。对包含有120个词根的200... 加速计(ACC)和表面肌电(SEMG)传感器是两种有效轻便的手势捕获设备。本研究提出一种采用多级决策树融合ACC和SEMG信息识别手语词根,并引入统计语言模型进行词根接续判断和错误纠正的中国手语连续语句识别方法。对包含有120个词根的200组连续中国手语句子展开的识别实验结果表明,该方法可以有效的从连续信号中识别出词根序列,120个手语词根全局平均识别率接近95%,句子识别率接近90%,采用纠错模型的方法与未采用纠错模型相比,词根的平均识别率提高了4%左右,句子识别率提高了10%。这种结合模式识别和自然语言处理的手语识别方法在连续手语识别和人机交互领域有着广阔的应用前景。 展开更多
关键词 手语识别 表面肌电 信息融合 统计语言模型
在线阅读 下载PDF
基于统计语言模型及动态规划算法的蛋白质表达载体的优化设计
4
作者 方刚 《轻工学报》 CAS 2016年第4期88-94,共7页
针对合成生物学基因片段组装中选择最优"零件"组装功能性蛋白质表达载体费时且易出错的问题,提出一种基于引入统计语言模型(SLM)与动态规划算法的蛋白质表达载体设计方法.该方法通过统计合成生物学标准"零件"(Bio B... 针对合成生物学基因片段组装中选择最优"零件"组装功能性蛋白质表达载体费时且易出错的问题,提出一种基于引入统计语言模型(SLM)与动态规划算法的蛋白质表达载体设计方法.该方法通过统计合成生物学标准"零件"(Bio Brick)的参数,将基础"零件"组装过程转化为SLM,用动态规划算法找到最优路径,以实现蛋白质表达载体的设计.实验结果证明该方法准确率高,可以减少真实装配过程的冗余操作,节省时间和费用,可用来优化其他合成生物学软件设计结果,也可独立使用来模拟装配合成生物学基因片段产生蛋白质表达载体,还可被迭代从而给出不同的优化结果供选择. 展开更多
关键词 统计语言模型 动态规划算法 蛋白质表达载体 合成生物学标准“零件”
在线阅读 下载PDF
汉字层面的汉语语言统计模型
5
作者 王雪松 杜利民 《电子器件》 CAS 1997年第1期343-349,共7页
利用汉语语言的统计规律对汉语连续语音识别系统的声学到语音学的结果进行纠错及音字转换具有重要意义.本文介绍一个采用统计方法实现的字层面的三元语言模型.它较为充分地利用了前端声学匹配的结果,对于通常的汉语短语及句子的声学识... 利用汉语语言的统计规律对汉语连续语音识别系统的声学到语音学的结果进行纠错及音字转换具有重要意义.本文介绍一个采用统计方法实现的字层面的三元语言模型.它较为充分地利用了前端声学匹配的结果,对于通常的汉语短语及句子的声学识别结果,具有很高的纠错率及转换率. 展开更多
关键词 语言统计模型 语音识别
在线阅读 下载PDF
大标记集汉语字(词)Markov 语言模型的建立 被引量:3
6
作者 王轩 李巍 +1 位作者 王晓龙 赵淑香 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 1997年第5期23-27,共5页
给出了一种基于快速排序和归并排序的高阶汉语大标记集Markov统计语言模型的统计算法,并对算法的时间复杂性和空间复杂性进行了分析。依据这种统计算法,设计实现了一个汉语字(词)概率统计系统。通过对上千万字的汉语语料的统... 给出了一种基于快速排序和归并排序的高阶汉语大标记集Markov统计语言模型的统计算法,并对算法的时间复杂性和空间复杂性进行了分析。依据这种统计算法,设计实现了一个汉语字(词)概率统计系统。通过对上千万字的汉语语料的统计,建立起了汉语字(词)一元、二元和三元Markov模型,并对统计结果进行了分析。 展开更多
关键词 MARKOV模型 统计语言模型 汉语 信息处理
在线阅读 下载PDF
基于HTK的语音识别语言模型设计及性能分析 被引量:2
7
作者 张强 陶宏才 《成都信息工程学院学报》 2009年第2期142-146,共5页
在大词汇连续语音识别系统中,统计语言模型是该系统非常重要的一部分,对整个识别系统的识别效果产生重要的影响。分析了统计语言模型原理和相关技术,基于HTK设计了适合大词汇连续语音识别系统的统计语言模型,同时对该语言模型的复杂度... 在大词汇连续语音识别系统中,统计语言模型是该系统非常重要的一部分,对整个识别系统的识别效果产生重要的影响。分析了统计语言模型原理和相关技术,基于HTK设计了适合大词汇连续语音识别系统的统计语言模型,同时对该语言模型的复杂度、精确识别率进行分析,指出了影响统计语言模型性能的相关因素。 展开更多
关键词 语音识别 统计语言模型 HTK N-GRAM模型
在线阅读 下载PDF
汉语信息熵和语言模型的复杂度 被引量:14
8
作者 吴军 王作英 《电子学报》 EI CAS CSCD 北大核心 1996年第10期69-71,86,共4页
本文介绍了估计汉语信息摘的方法,井通过对大量语料的统计,给出了汉语信息熵的一个上界-5.17比特/汉字。本文还以此为基础对统计语言模型的能力进行了定量的描述,比较了常用的统计语言模型的性能,并给出了一种用低阶语言模型... 本文介绍了估计汉语信息摘的方法,井通过对大量语料的统计,给出了汉语信息熵的一个上界-5.17比特/汉字。本文还以此为基础对统计语言模型的能力进行了定量的描述,比较了常用的统计语言模型的性能,并给出了一种用低阶语言模型逼近高阶模型的方法。 展开更多
关键词 复杂度 统计语言模型 语音信号处理
在线阅读 下载PDF
结合主题依存特征和Bigram的汉语语言建模方法
9
作者 崔玉红 胡光锐 《上海交通大学学报》 EI CAS CSCD 北大核心 2002年第6期897-900,共4页
在 Bigram语言模型建模过程中 ,语言被看作符号集序列 ,没有考虑语言本身具有的语法和语义结构特征 .虽然在线的文本训练数据迅速增长 ,但语言模型的性能却很难再获得大幅度的提高 .基于统计方法语言建模的基本原理 ,提出了一种结合 Big... 在 Bigram语言模型建模过程中 ,语言被看作符号集序列 ,没有考虑语言本身具有的语法和语义结构特征 .虽然在线的文本训练数据迅速增长 ,但语言模型的性能却很难再获得大幅度的提高 .基于统计方法语言建模的基本原理 ,提出了一种结合 Bigram和主题依存特征的中文语言建模方法 .初步实验结果表明 ,该方法可有效地补充 Bigram模型提取特征的不足 。 展开更多
关键词 主题依存特征 汉语语言建模方法 统计语言模型 Bigram模型 主题依存模型 分支度 自然语语处理
在线阅读 下载PDF
基于文献的地质实体关系抽取方法研究 被引量:5
10
作者 吕鹏飞 王春宁 朱月琴 《中国矿业》 北大核心 2017年第10期167-172,共6页
实体关系抽取是信息抽取的一项重要内容,通过实体关系的抽取能够发现文本中的有价值信息。本文在分析和比较了有监督、无监督、弱监督以及开放式等关系抽取方法的原理和特点的基础上,建立了基于文献的地质实体关系抽取模型:采用统计语... 实体关系抽取是信息抽取的一项重要内容,通过实体关系的抽取能够发现文本中的有价值信息。本文在分析和比较了有监督、无监督、弱监督以及开放式等关系抽取方法的原理和特点的基础上,建立了基于文献的地质实体关系抽取模型:采用统计语言模型作为关系抽取方式、采用Bootstrapping算法作为关系扩展方式。最后据此进行了关联关系发现和关系扩展发现实验。 展开更多
关键词 文献 关系抽取 统计语言模型 BOOTSTRAPPING
在线阅读 下载PDF
基于相似度的词聚类算法 被引量:4
11
作者 袁里驰 钟义信 《微电子学与计算机》 CSCD 北大核心 2005年第8期93-95,共3页
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法。传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准。传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优。本文提出... 基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法。传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准。传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优。本文提出了词相似度定义、词集合相似度定义,一种自下而上的分层聚类算法。这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,从而提高聚类的使用效果。 展开更多
关键词 词相似度 词聚类 统计语言模型
在线阅读 下载PDF
智能通信终端 被引量:3
12
作者 王仁华 《中兴通讯技术》 2001年第5期44-48,共5页
社会信息量的日益膨胀,带来了通信产业的迅猛发展,通信模式也随之日新月异。通信业发展到今天,正在逐步验证着“傻瓜”网与智能终端的通信模式,智能通信终端的市场已渐渐走热。虽然智能终端目前仍处于研制阶段,相信在不久的将来,它终将... 社会信息量的日益膨胀,带来了通信产业的迅猛发展,通信模式也随之日新月异。通信业发展到今天,正在逐步验证着“傻瓜”网与智能终端的通信模式,智能通信终端的市场已渐渐走热。虽然智能终端目前仍处于研制阶段,相信在不久的将来,它终将“飞”入寻常百姓家。本期讲述智能语音接口技术。上一期讲座已阐述信息化对现代通信的影响以及智能通信终端。下一期将继续本期未完的内容,并进一步讲述智能终端与语音门户。 展开更多
关键词 电话语音识别 语音信号 智能通信终端 连续语音识别 统计语言模型 语音合成器 识别系统 特征矢量 声学模型 智能终端
在线阅读 下载PDF
基于时间序列分析的动态分布平滑方法
13
作者 黄永文 何中市 王海燕 《电子学报》 EI CAS CSCD 北大核心 2008年第B12期147-151,共5页
统计语言模型在实际应用中显示出了不俗的效果,但由于语言的灵活性,模型的数据稀疏问题始终不能避免,现有的平滑方法只考虑了模型中元素出现的频数,没有考虑到语言的使用是随着时间变化的.本文分析了模型中词语随着时间的变化而出现的... 统计语言模型在实际应用中显示出了不俗的效果,但由于语言的灵活性,模型的数据稀疏问题始终不能避免,现有的平滑方法只考虑了模型中元素出现的频数,没有考虑到语言的使用是随着时间变化的.本文分析了模型中词语随着时间的变化而出现的频数变化情况,利用时间序列模型分析中的预测方法获得下一个阶段的数据来估计模型的参数,提出了一种对在时间线上频数增加的词语增加概率值,对频数减少的则降低概率值的动态分布平滑方法.实验数据显示,本平滑方法具有一定的优越性. 展开更多
关键词 自然语言处理 统计语言模型 数据稀疏 时间序列分析 动态分布 2008.05.07 修回日期:2008.10.01
在线阅读 下载PDF
文本分类中支持向量机研究
14
作者 何焱 《河南科技》 2019年第29期8-10,共3页
随着我国现代科技的快速发展,文本分类逐渐在信息化技术与数字化技术领域得到重视。利用计算处理系统处理文本信息,能够有效提升文本分类的质量与效率,提升数据信息的利用率,从而促进信息化技术的普及。而支持向量机是处理文本内容,加... 随着我国现代科技的快速发展,文本分类逐渐在信息化技术与数字化技术领域得到重视。利用计算处理系统处理文本信息,能够有效提升文本分类的质量与效率,提升数据信息的利用率,从而促进信息化技术的普及。而支持向量机是处理文本内容,加强文本分类速度,并通过文档建模、中文分词、分类器评估等形式,构建出的行之有效的统计语言模型,它可以推动文本分类工作的发展。本文结合国内外研究现状,探析文本分类内涵及支持向量机原理,提出基于支持向量机的文本分类算法。 展开更多
关键词 文本分类 支持向量机 统计语言模型
在线阅读 下载PDF
文本情感分析在网购评论中的应用前景 被引量:3
15
作者 奚金金 霍欢 徐亚 《信息技术》 2013年第12期71-74,共4页
结合网购评论文本的特点,分别从网购评论文本情感信息的抽取、分类以及情感信息的检索与归纳三个方面来阐述文本情感分析在网购评论领域的实际应用前景。其中,网购评论文本情感信息的抽取和分类是进行网购评论文本情感信息检索与归纳的... 结合网购评论文本的特点,分别从网购评论文本情感信息的抽取、分类以及情感信息的检索与归纳三个方面来阐述文本情感分析在网购评论领域的实际应用前景。其中,网购评论文本情感信息的抽取和分类是进行网购评论文本情感信息检索与归纳的基础,而网购评论文本情感信息检索与归纳是与用户直接交互的接口,也是最具有实用价值和商业价值的部分。 展开更多
关键词 文本情感分析 网购评论 统计语言模型 情感词典 情感文摘
在线阅读 下载PDF
一种面向隐含主题的上下文树核
16
作者 徐超 周一民 沈磊 《电子与信息学报》 EI CSCD 北大核心 2010年第11期2695-2700,共6页
该文针对上下文树核用于文本表示时缺乏语义信息的问题,提出了一种面向隐含主题的上下文树核构造方法。首先采用隐含狄利克雷分配将文本中的词语映射到隐含主题空间,然后以隐含主题为单位建立上下文树模型,最后利用模型间的互信息构造... 该文针对上下文树核用于文本表示时缺乏语义信息的问题,提出了一种面向隐含主题的上下文树核构造方法。首先采用隐含狄利克雷分配将文本中的词语映射到隐含主题空间,然后以隐含主题为单位建立上下文树模型,最后利用模型间的互信息构造上下文树核。该方法以词的语义类别来定义文本的生成模型,解决了基于词的文本建模时所遇到的统计数据的稀疏性问题。在文本数据集上的聚类实验结果表明,文中提出的上下文树核能够更好地度量文本间主题的相似性,提高了文本聚类的性能。 展开更多
关键词 文本聚类 上下文树核 统计语言模型 隐含狄利克雷分配(LDA)
在线阅读 下载PDF
基于概率潜在语义分析优化拼音汉字转换 被引量:1
17
作者 郑叶清 刘功申 《信息技术》 2016年第11期33-37,41,共6页
文中拼音汉字转换在中文处理中有诸多应用。文中提出基于概率潜在语义获取拼音汉字转换过程之中文本所存在的潜在语义知识,从而将长距离的语义知识与拼音汉字转换模型相结合,提升汉字转换准确率;同时在实验中研究引入更多文本知识增强... 文中拼音汉字转换在中文处理中有诸多应用。文中提出基于概率潜在语义获取拼音汉字转换过程之中文本所存在的潜在语义知识,从而将长距离的语义知识与拼音汉字转换模型相结合,提升汉字转换准确率;同时在实验中研究引入更多文本知识增强模型性能,优化了拼音汉字转换模型应用效果。 展开更多
关键词 概率潜在语义分析 拼音汉字转换 统计语言模型
在线阅读 下载PDF
结合文本聚类和文本检索的语料选取方法
18
作者 何峰 丁晓青 《高技术通讯》 EI CAS CSCD 北大核心 2010年第12期1224-1228,共5页
为了克服用应用相关的文本数据进行语音识别、智能输入等各种自然语言处理中在有些情况下因很难收集到充足的相关数据和缺乏应用相关的训练数据带来的困难,提出了一种通过结合非监督文本聚类和文本检索技术实现相关语料选取的新方法。... 为了克服用应用相关的文本数据进行语音识别、智能输入等各种自然语言处理中在有些情况下因很难收集到充足的相关数据和缺乏应用相关的训练数据带来的困难,提出了一种通过结合非监督文本聚类和文本检索技术实现相关语料选取的新方法。该方法仅使用少量与特定应用相关的文本,即可从未经整理的大规模语料库中发现更多与此应用相关的文本。利用该方法在手机短信文本和未经整理的大规模语料库上进行了实验,实验结果表明该方法能够有效提取应用相关的文本。 展开更多
关键词 文本聚类 文本检索 Kullback.Leibler距离 统计语言模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部