期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于渐进式丰富词典的分词方法研究 被引量:1
1
作者 杨柳 袁方 霍亮 《计算机工程与应用》 CSCD 北大核心 2006年第32期164-166,共3页
由于现代社会飞速发展,一些新的名词不断出现,在已有的字符串匹配的分词方法中,大部分的词典是固定的,如果出现新的词,那么就不能被正确识别出来。由此该文提出了渐进式丰富词典的分词方法,把那些不能正确分出来的字符串,利用统计词频... 由于现代社会飞速发展,一些新的名词不断出现,在已有的字符串匹配的分词方法中,大部分的词典是固定的,如果出现新的词,那么就不能被正确识别出来。由此该文提出了渐进式丰富词典的分词方法,把那些不能正确分出来的字符串,利用统计词频的方法记录下来,如果词频达到一定阈值,就可以把它认为是新词,可以把它加入到词典中,使得词典动态的增加。实验证明,该方法在保证分词速度不受影响的基础上,可以提高分词的精度。 展开更多
关键词 渐进式丰富词典 字符串匹配分词方法 统计分词方法
在线阅读 下载PDF
LDA模型下不同分词方法对文本分类性能的影响研究 被引量:9
2
作者 李湘东 高凡 丁丛 《计算机应用研究》 CSCD 北大核心 2017年第1期62-66,共5页
通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上... 通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上进行分类的适用性及影响分类性能的原因。结果表明:三项指标可以有效指明分词方法对语料在分类时产生的影响,Ik Analyzer和ICTCLAS分词法分别受类别复杂度和类别聚类密度的影响较大,二元分词法受三个指标的作用相当,使其对于不同语料具有较好的适应性。对于学术文献类型的语料,使用二元分词法时的分类效果较好,F1值均在80%以上;而网页类型的语料对于各种分词法的适应性更强。尝试通过对语料进行信息度量而非单纯的实验来选择提高该语料分类性能的最佳分词方法,以期为网页和学术文献等不同类型的文本在基于LDA模型的分类系统中选择合适的中文分词方法提供参考。 展开更多
关键词 文本分类 LDA主题模型 语料度量 分词方法
在线阅读 下载PDF
并行分词方法的研究 被引量:13
3
作者 吴胜远 《计算机研究与发展》 EI CSCD 北大核心 1997年第7期542-545,共4页
目前,中文分词方法都是属于串行分词方法.本文提出了一种并行分词方法,该方法是根据多级内码理论设计的,它大大提高了分词的速度.
关键词 并行分词 多级内码 中文分词方法
在线阅读 下载PDF
论汉语自动分词方法 被引量:55
4
作者 揭春雨 刘源 梁南元 《中文信息学报》 CSCD 1989年第1期1-9,共9页
文章简单考查了目前中文信息处理领域中已有的几种主要的汉语自动分词方法,提出自动分词方法的结构模型ASM(d,a,m),对各种分词方法的时间复杂度进行了计算,对于时间复杂度对分词速度的影响,以及分词方法对分词精度的影响也进行了分析;... 文章简单考查了目前中文信息处理领域中已有的几种主要的汉语自动分词方法,提出自动分词方法的结构模型ASM(d,a,m),对各种分词方法的时间复杂度进行了计算,对于时间复杂度对分词速度的影响,以及分词方法对分词精度的影响也进行了分析;同时指出并论证在自动分词中设立“切分标志”是没有意义的。 展开更多
关键词 汉语自动分词 分词方法 时间复杂度 中文信息处理 匹配法 自然语言理解 字符串匹配 增字 汉字编码方案 自动识别
在线阅读 下载PDF
书面汉语自动分词的“生成——测试”方法 被引量:11
5
作者 黄祥喜 《中文信息学报》 CSCD 1989年第4期42-49,共8页
词链现象是书面汉语自动分词的困难所在,本文针对词链现象的复杂性,提出了一种“生成——测试”分词法。这种方法以知识为基础,它通过词典的动态化、分词知识的分布化、分词系统和句法语义系统的协同工作等手段实现了词链的有效切分和... 词链现象是书面汉语自动分词的困难所在,本文针对词链现象的复杂性,提出了一种“生成——测试”分词法。这种方法以知识为基础,它通过词典的动态化、分词知识的分布化、分词系统和句法语义系统的协同工作等手段实现了词链的有效切分和汉语句子切分与理解(生成格结构)的并行。“生成——测试”方法反映了人的分词和理解过程。 展开更多
关键词 汉语自动分词 分词系统 字串 汉语句子 协同工作 句法语义 格结构 分词方法 语义分析 扩充转移网络
在线阅读 下载PDF
汉语自动分词与内容分析法研究 被引量:11
6
作者 邱均平 文庭孝 周黎明 《情报学报》 CSSCI 北大核心 2005年第3期309-317,共9页
汉语自动分词是计算机中文信息处理中的难题,也是文献内容分析中必须解决的关键问题之一.本文通过对已有自动分词方法及其应用研究的分析,指出了今后汉语自动分词研究的三个发展方向:克服汉语文本切分中的困难,继续研究传统文本切分的... 汉语自动分词是计算机中文信息处理中的难题,也是文献内容分析中必须解决的关键问题之一.本文通过对已有自动分词方法及其应用研究的分析,指出了今后汉语自动分词研究的三个发展方向:克服汉语文本切分中的困难,继续研究传统文本切分的有效方法; 将人工智能技术与汉语自动分词技术有机结合起来; 改造汉语文本书写规则使之利于计算机切分.并分析了汉语自动分词和内容分析法之间的密切关系,以及汉语自动分词对内容分析法的影响. 展开更多
关键词 汉语 自动分词 内容分析法 中文信息处理 分词方法 文献内容
在线阅读 下载PDF
中文分词十年回顾 被引量:251
7
作者 黄昌宁 赵海 《中文信息学报》 CSCD 北大核心 2007年第3期8-19,共12页
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可... 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。 展开更多
关键词 计算机应用 中文信息处理 中文分词 词语定义 未登录词识别 字标注分词方法
在线阅读 下载PDF
书面汉语自动分词专家系统设计原理 被引量:30
8
作者 何克抗 徐辉 孙波 《中文信息学报》 CSCD 1991年第2期1-14,28,共15页
本文深入地分析了歧义切分字段产生的根源和性质,把歧义字段从性质上划分为四类,并给出了消除每一类歧义切分字段的有效方法。在对歧义字段进行统计分析的基础上提出了切分精度的“四级指标体系”,井论证了专家系统方法是实现自动分词... 本文深入地分析了歧义切分字段产生的根源和性质,把歧义字段从性质上划分为四类,并给出了消除每一类歧义切分字段的有效方法。在对歧义字段进行统计分析的基础上提出了切分精度的“四级指标体系”,井论证了专家系统方法是实现自动分词系统的最佳方案。 展开更多
关键词 汉语自动分词 分词系统 歧义现象 系统设计原理 字串 语义问题 分词方法 语法分析 自然语言理解 句子意义
在线阅读 下载PDF
汉语自动分词研究进展 被引量:20
9
作者 文庭孝 《图书与情报》 CSSCI 2005年第5期54-63,共10页
汉语自动分词是计算机中文信息处理中的难题,文章通过对现有自动分词方法研究进展的分析,指出了今后汉语自动分词研究的三个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。
关键词 汉语分词 自动分词 分词方法
在线阅读 下载PDF
基于预训练汇编指令表征的二进制代码相似性检测方法 被引量:4
10
作者 王泰彦 潘祖烈 +1 位作者 于璐 宋景彬 《计算机科学》 CSCD 北大核心 2023年第4期288-297,共10页
二进制代码相似性检测技术近年来被广泛用于漏洞函数搜索、恶意代码检测与高级程序分析等领域,而由于程序代码与自然语言有一定程度的相似性,研究人员开始借助预训练等自然语言处理的相关技术来提高检测准确度。针对现有方法中未考虑程... 二进制代码相似性检测技术近年来被广泛用于漏洞函数搜索、恶意代码检测与高级程序分析等领域,而由于程序代码与自然语言有一定程度的相似性,研究人员开始借助预训练等自然语言处理的相关技术来提高检测准确度。针对现有方法中未考虑程序指令概率特征导致的准确率提升瓶颈,提出了一种基于预训练汇编指令表征技术的二进制代码相似性检测方法。设计了面向多架构汇编指令的分词方法,并在控制流与数据流关系基础上,考虑指令间顺序出现的概率与各个指令单元使用的频率等特征设计预训练任务,以实现对指令更好的向量化表征;结合预训练汇编指令表征方法,对二进制代码相似性检测下游任务进行改进,使用表征向量替换统计特征作为指令与基本块的表征,以提高检测准确率。实验结果表明,与现有方法相比,所提方法在指令表征能力方面最高提升23.7%,在基本块搜索准确度上最高提升33.97%,在二进制代码相似性检测的检出数量上最高增加4倍。 展开更多
关键词 二进制代码 相似性检测 指令表征 分词方法 预训练任务
在线阅读 下载PDF
字词频统计与汉语分词规范 被引量:1
11
作者 刘源 《语文建设》 CSSCI 北大核心 1992年第5期35-38,共4页
一、中文信息处理的字频统计我国在70年代曾组织“七四八工程”,对2100余万汉字的语料,进行汉字的字频统计,得出了《现代汉字综合使用频度表》,为《信息交换用汉字编码字符集——基本集》提供了基础。但由于当时的历史条件,统计资料有... 一、中文信息处理的字频统计我国在70年代曾组织“七四八工程”,对2100余万汉字的语料,进行汉字的字频统计,得出了《现代汉字综合使用频度表》,为《信息交换用汉字编码字符集——基本集》提供了基础。但由于当时的历史条件,统计资料有一定的局限性,而且是初次进行这项工作,技术和经验都嫌不足,致使以这一统计材料为依据的《信息交换用汉字编码字符集——基本集》中所收的一二级汉字中,有少数字的使用率极低。 展开更多
关键词 汉语分词 词频统计 中文信息处理 基本集 汉字编码字符集 分词方法 自动分词 现代汉字 使用频度 信息交换
在线阅读 下载PDF
鱼类病害查询诊断系统研究
12
作者 田云臣 陈成勋 华旭峰 《天津农学院学报》 CAS 2010年第4期44-47,共4页
为解决各种鱼类病害不能及时诊断的问题,提出了基于网络技术构建鱼类病害诊断系统的思路与方法。系统可对各种鱼病及时进行诊断。本文介绍了系统的结构、功能模块以及软件设计流程,叙述了推理算法及基于规则的汉语分词算法。测试结果表... 为解决各种鱼类病害不能及时诊断的问题,提出了基于网络技术构建鱼类病害诊断系统的思路与方法。系统可对各种鱼病及时进行诊断。本文介绍了系统的结构、功能模块以及软件设计流程,叙述了推理算法及基于规则的汉语分词算法。测试结果表明,系统诊断结论的准确率达91%以上。 展开更多
关键词 鱼类病害 查询 诊断 网络 分词方法 推理算法
在线阅读 下载PDF
Vari-gram language model based on word clustering
13
作者 袁里驰 《Journal of Central South University》 SCIE EI CAS 2012年第4期1057-1062,共6页
Category-based statistic language model is an important method to solve the problem of sparse data.But there are two bottlenecks:1) The problem of word clustering.It is hard to find a suitable clustering method with g... Category-based statistic language model is an important method to solve the problem of sparse data.But there are two bottlenecks:1) The problem of word clustering.It is hard to find a suitable clustering method with good performance and less computation.2) Class-based method always loses the prediction ability to adapt the text in different domains.In order to solve above problems,a definition of word similarity by utilizing mutual information was presented.Based on word similarity,the definition of word set similarity was given.Experiments show that word clustering algorithm based on similarity is better than conventional greedy clustering method in speed and performance,and the perplexity is reduced from 283 to 218.At the same time,an absolute weighted difference method was presented and was used to construct vari-gram language model which has good prediction ability.The perplexity of vari-gram model is reduced from 234.65 to 219.14 on Chinese corpora,and is reduced from 195.56 to 184.25 on English corpora compared with category-based model. 展开更多
关键词 word similarity word clustering statistical language model vari-gram language model
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部