期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
基于关联词的主题模型语义标注 被引量:2
1
作者 周亦鹏 杜军平 《智能系统学报》 北大核心 2012年第4期327-332,共6页
互联网主题分析中经常采用概率主题模型对主题进行描述,但存在对于一般用户难以理解的问题,提出一种概率主题模型的自动语义标注方法.首先通过基于语义分类的关联规则挖掘关联主题词并建立候选标签集合,然后以关联词在数据集中的概率分... 互联网主题分析中经常采用概率主题模型对主题进行描述,但存在对于一般用户难以理解的问题,提出一种概率主题模型的自动语义标注方法.首先通过基于语义分类的关联规则挖掘关联主题词并建立候选标签集合,然后以关联词在数据集中的概率分布来设计相关性判别函数,计算候选标签和主题模型的相关度,最后根据最大边缘相关选择高语义覆盖度和区分度的标签.在食品安全和旅游领域主题模型标注的实验表明,与最大概率主题词标记方法相比,提出的方法能够明显提高标注的准确性,并且解决了多标签标记中语义类别单一的问题,能够以较少数量的标签表达更为丰富的语义,这有助于进一步实现更为准确的主题跟踪和主题信息检索. 展开更多
关键词 主题分析 语义标注 生成模型 关联词 关联规则
在线阅读 下载PDF
融合N-Gram和多重注意力机制的能源领域新词发现方法
2
作者 王祎涵 张思佳 +2 位作者 曹恒 刘珈宁 张正龙 《科学技术与工程》 北大核心 2025年第18期7668-7677,共10页
随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据... 随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据特性,提出了一种融合N-Gram和多重注意力机制的能源领域新词发现方法(new word discovery method in the energy field combining N-Gram and multiple attention mechanism, ENFM)。该方法首先利用N-Gram模型对能源领域的文本数据进行初步处理,通过统计和分析词频来生成新词候选列表。随后,引入融合多重注意力机制的ERNIE-BiLSTM-CRF模型,以进一步提升新词发现的准确性和效率。与传统的新词发现技术相比,在新词的准确识别和整体效率上均有显著提升,将其于能源领域政策文本数据集,准确率、召回率和F1分别为95.71%、95.56%、95.63%。实验结果表明,该方法能够准确地在能源领域的大量文本数据中识别新词,有效识别出能源领域特有的词汇和表达方式,显著提高了中文分词任务中对能源领域专业术语的识别能力。 展开更多
关键词 能源领域 新词发现 预训练模型 n-gram 中文分词
在线阅读 下载PDF
基于前后文n-gram模型的古汉语句子切分 被引量:29
3
作者 陈天莹 陈蓉 +2 位作者 潘璐璐 李红军 于中华 《计算机工程》 CAS CSCD 北大核心 2007年第3期192-193,196,共3页
提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算... 提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率。 展开更多
关键词 n-gram模型 数据稀疏 平滑技术 基于前后文的n-gram模型
在线阅读 下载PDF
N-gram语言模型的数据平滑技术 被引量:11
4
作者 徐志明 王晓龙 关毅 《计算机应用研究》 CSCD 1999年第7期37-39,44,共4页
本文主要描述了N-gram统计语言模型的几种主要的数据平滑技术;并对各种数据平滑方法进行了经验性对比;讨论了影响这些数据平滑方法性能的有关因素;如训练集规模和N─gram模型的阶数。
关键词 数据平滑 n-gram语言 语言模型 语音识别
在线阅读 下载PDF
基于N-Gram模型的蒙古语文本语种识别算法的研究 被引量:3
5
作者 马志强 张泽广 +3 位作者 闫瑞 刘利民 冯永祥 苏依拉 《中文信息学报》 CSCD 北大核心 2016年第1期133-139,共7页
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的... 互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。 展开更多
关键词 语种识别 n-gram模型 平均距离识别算法 蒙古语文本
在线阅读 下载PDF
基于梯度核特征及N-gram模型的商品图像句子标注 被引量:5
6
作者 张红斌 姬东鸿 +1 位作者 尹兰 任亚峰 《计算机科学》 CSCD 北大核心 2016年第5期269-273,287,共6页
提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像... 提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像的文本描述中摘取关键单词,并采用N-gram模型把单词组装为蕴涵丰富语义信息且满足句法模式兼容性的修饰性短语,基于句子模板和修饰性短语生成句子。最后,构建Boosting模型,从若干标注结果中选取BLEU-3评分最优的句子标注商品图像。结果表明,Boosting模型的标注性能优于各基线。 展开更多
关键词 梯度核特征 n-gram模型 商品图像 句子标注 语义相关度计算 修饰性短语
在线阅读 下载PDF
N-gram统计模型在机器翻译系统中的应用 被引量:5
7
作者 张健 李素建 刘群 《计算机工程与应用》 CSCD 北大核心 2002年第8期73-75,78,共4页
文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时... 文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点。实验表明,这种方法具有良好的性能,且与被处理的语言无关。 展开更多
关键词 机器翻译系统 n-gram统计模型 语料库 自然语言处理 计算机
在线阅读 下载PDF
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 被引量:17
8
作者 毛伟 徐蔚然 郭军 《中文信息学报》 CSCD 北大核心 2006年第3期29-35,共7页
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数... 本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 展开更多
关键词 计算机应用 中文信息处理 中文文本分类 n-gram语言模型 链状朴素贝叶斯分类器
在线阅读 下载PDF
基于Web的无指导译文消歧词模型与N-gram模型及对比研究 被引量:3
9
作者 刘鹏远 赵铁军 《电子与信息学报》 EI CSCD 北大核心 2009年第12期2969-2974,共6页
该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不同搜索片段在Web上的Page Count作为主要消歧信息。词模型定义了汉语词汇与英语词汇之间的双语词汇Web相... 该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不同搜索片段在Web上的Page Count作为主要消歧信息。词模型定义了汉语词汇与英语词汇之间的双语词汇Web相关度,根据汉语上下文词汇与英语译文之间的相关度进行消歧;N-gram模型首先假设不同语义下的多义词N-gram序列行为模式不同,从而可对多义词不同语义类下词汇在实例中的N-gram序列进行统计与分析以进行消歧。两个模型的性能均超过了在国际语义评测SemEval2007的task#5上可比较的最好无指导系统。对这两个模型进行试验对比可发现N-gram模型性能优于词模型,也表明组合两类模型的结果有进一步提升消歧性能的潜力。 展开更多
关键词 计算语言学 无指导译文消歧 模型 n-gram模型 PAGE COUNT 双语词汇Web相关度
在线阅读 下载PDF
基于公共词块及N-gram模型的问句相似度算法 被引量:7
10
作者 黄贤英 谢晋 龙姝言 《重庆理工大学学报(自然科学)》 CAS 2017年第10期175-179,197,共6页
问句相似度算法是问答系统的核心问题,直接影响着问答系统的准确性。针对公共词块算法(CCS)对于中文文本的不适用性,提出一种改进的问句相似度算法(CNS)。该方法结合N-gram模型及公共词块来计算问句向量的相似度,其主要思路是把问句分... 问句相似度算法是问答系统的核心问题,直接影响着问答系统的准确性。针对公共词块算法(CCS)对于中文文本的不适用性,提出一种改进的问句相似度算法(CNS)。该方法结合N-gram模型及公共词块来计算问句向量的相似度,其主要思路是把问句分解成一元模型和二元模型,然后再分析问句之间的公共词块并考虑其顺序结构。实验结果表明:新算法在Top-N条数据集的平均相似度和不同相似度阈值下的准确率均优于常用的问句相似度算法。 展开更多
关键词 问句相似度 n-gram模型 一元模型 公共词块
在线阅读 下载PDF
汉语大词表N-gram统计语言模型构造算法
11
作者 徐志明 王晓龙 关毅 《计算机应用研究》 CSCD 1999年第6期23-25,共3页
本文提出了汉语大词表的N-gram统计语言模型构造技术,根据信息论的观点,给出了自然语言处理中各种应用中的统计语言建模的统一框架描述,提出了一种汉语大词表的Trigram语言模型构造算法。把构造的Trigram语言模... 本文提出了汉语大词表的N-gram统计语言模型构造技术,根据信息论的观点,给出了自然语言处理中各种应用中的统计语言建模的统一框架描述,提出了一种汉语大词表的Trigram语言模型构造算法。把构造的Trigram语言模型应用于大词表非特定人孤立词语音识别系统中,系统识别率达到82%。 展开更多
关键词 n-gram 统计语言模型 汉语大词表 语音识别 算法
在线阅读 下载PDF
一种基于N-gram模型和机器学习的汉语分词算法 被引量:24
12
作者 吴应良 韦岗 李海洲 《电子与信息学报》 EI CSCD 北大核心 2001年第11期1148-1153,共6页
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算... 汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。 展开更多
关键词 汉语分词算法 n-gram模型 机器学习 中文信息处理
在线阅读 下载PDF
OSN中基于分类器和改进n-gram模型的跨站脚本检测方法 被引量:3
13
作者 李沁蕾 王蕊 贾晓启 《计算机应用》 CSCD 北大核心 2014年第6期1661-1665,共5页
针对在线社交网络中跨站脚本(XSS)攻击的安全问题,提出了一种在线社交网络恶意网页的检测方法。该方法依据在线社交网络中跨站脚本恶意代码的传播特性,提取一组基于相似性和差异性的特征,构造分类器和改进n-gram模型,再利用两种模型的组... 针对在线社交网络中跨站脚本(XSS)攻击的安全问题,提出了一种在线社交网络恶意网页的检测方法。该方法依据在线社交网络中跨站脚本恶意代码的传播特性,提取一组基于相似性和差异性的特征,构造分类器和改进n-gram模型,再利用两种模型的组合,检测在线社交网络网页是否恶意。实验结果表明,与传统的分类器检测方法相比,结合了改进n-gram模型的检测方法保证了检测结果的可靠性,误报率约为5%。 展开更多
关键词 在线社交网络 跨站脚本攻击 分类器 n-gram模型 检测
在线阅读 下载PDF
基于要素提取关联词对的中文报道关系检测 被引量:2
14
作者 陈智敏 蒙祖强 林啟锋 《计算机应用》 CSCD 北大核心 2013年第1期182-185,共4页
针对现有中文报道关系检测的检测代价即误报率和丢失率较高的问题,在多向量空间模型基础上提取不同向量的要素(时间、地点、人物和内容)特征词组成关联词对,使用支持向量机(SVM)方法整合关联词对相似度和余弦相似度,从而提出了一种提取... 针对现有中文报道关系检测的检测代价即误报率和丢失率较高的问题,在多向量空间模型基础上提取不同向量的要素(时间、地点、人物和内容)特征词组成关联词对,使用支持向量机(SVM)方法整合关联词对相似度和余弦相似度,从而提出了一种提取要素关联词对报道关系检测方法。所提方法补充表示了报道内容,为检测提供了更多的比较依据,识别代价降低了将近11%。实验结果验证了算法的有效性。 展开更多
关键词 报道关系识别检测 关联词 报道要素 多向量空间模型
在线阅读 下载PDF
基于改进的N-gram模型和知识库的文本查错算法 被引量:9
15
作者 王琼 旷文珍 许丽 《计算机应用与软件》 北大核心 2021年第10期310-315,320,共7页
针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法。采用Witten-Bell平滑算法解决N-gram模型训练过程中数据稀疏问题,并对N-gram模型增加权重分配,增强模型对散串... 针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法。采用Witten-Bell平滑算法解决N-gram模型训练过程中数据稀疏问题,并对N-gram模型增加权重分配,增强模型对散串错误的查错率。针对铁路特殊用语规定和同音字错误,构建一种适应关键字的专业术语查错知识库,实现知识库的自动更新。经过实验对比,该算法查错确率为87.9%,相比通用的N-gram查错模型提高52.8百分点。该算法的提出为后续的纠错以及语音识别准确率的提高奠定了基础,并对铁路车务系统语音识别技术的应用具有重要意义。 展开更多
关键词 n-gram模型 铁路车务标准用语 散串错误 专业术语查错知识库 同音字错误
在线阅读 下载PDF
不同维度下维吾尔语N-gram语言模型性能分析 被引量:5
16
作者 毛丽旦.尼加提 古丽尼尕尔.买合木提 艾斯卡尔.艾木都拉 《现代电子技术》 北大核心 2019年第10期27-30,共4页
针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram语言模型做了对比实验,试图找出在一定规模的维吾尔语语料条件下使困惑度最低的N-gram语言模型。通过对... 针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram语言模型做了对比实验,试图找出在一定规模的维吾尔语语料条件下使困惑度最低的N-gram语言模型。通过对比分析最终得出结论,对于基于维吾尔语句子的N-gram模型,维度N取在介于3~5之间较宜,困惑度和计算复杂度等因素考虑N=3为较优。这一结论将有助于维吾尔语自然语言处理的发展。 展开更多
关键词 n-gram语言模型 性能分析 SRILM MITLM 困惑度 平滑算法 机器翻译
在线阅读 下载PDF
距离加权统计语言模型及其应用 被引量:8
17
作者 金凌 吴文虎 +1 位作者 郑方 吴根清 《中文信息学报》 CSCD 北大核心 2001年第6期47-52,共6页
本文在统计语言模型构造中 ,提出了将词间距离信息结合到N gram统计语言模型中的思路 ,并称之为距离加权的关联词统计语言模型。该模型可以考虑一个句子中非相邻词之间的关系 ,基于“词距越近关系越密切”的原则 ,通过距离加权函数来引... 本文在统计语言模型构造中 ,提出了将词间距离信息结合到N gram统计语言模型中的思路 ,并称之为距离加权的关联词统计语言模型。该模型可以考虑一个句子中非相邻词之间的关系 ,基于“词距越近关系越密切”的原则 ,通过距离加权函数来引入距离信息 ,提高模型的预测能力。本文还将其应用到一个中文整句拼音输入法系统中。实验表明 ,该模型与传统的N gram统计语言模型相比 ,汉字误识率有所降低 。 展开更多
关键词 n-gram关联词模型 距离加权 数据平滑 统计语言模型 距离信息 语音识别
在线阅读 下载PDF
使用最大熵模型进行中文文本分类 被引量:98
18
作者 李荣陆 王建会 +2 位作者 陈晓云 陶晓鹏 胡运发 《计算机研究与发展》 EI CSCD 北大核心 2005年第1期94-101,共8页
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵... 随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Bayes,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法. 展开更多
关键词 文本分类 最大熵模型 特征 n-gram
在线阅读 下载PDF
W-POS语言模型及其选择与匹配算法 被引量:4
19
作者 邱云飞 刘世兴 +1 位作者 魏海超 邵良杉 《计算机应用》 CSCD 北大核心 2015年第8期2210-2214,2248,共6页
n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模... n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模型,提出一种改进的n-grams语言模型——W-POS。将分词后文本中出现概率较小的词和冗余词用词性代替,得到由词和词性的不规则排列组成的W-POS语言模型,并提出该语言模型的选择规则、选择算法以及与测试集的匹配算法。在复旦大学中文语料库和英文语料库20Newsgroups中的实验结果表明,W-POS语言模型既继承了n-grams语言模型减少特征数量、携带部分语义和提高精度的优点,又克服了n-grams语言模型产生大量稀疏数据、含有冗余词的缺陷,并验证了选择和匹配算法的有效性。 展开更多
关键词 n-grams语言模型 词性 冗余度 稀疏数据 特征选择
在线阅读 下载PDF
基于统计的计算语言模型 被引量:3
20
作者 关毅 张凯 付国宏 《计算机应用研究》 CSCD 1999年第6期26-28,共3页
本文阐述了基于统计的计算语言模型的基本原理,并综述了现有几种主要的基于统计的计算语言模型,分析了各种基于统计的计算语言模型的原理以及优缺点。
关键词 语言模型 n-gram模型 N-pos模型 语音识别
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部