期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
基于中文文本分类的分词方法研究 被引量:22
1
作者 湛燕 陈昊 +1 位作者 袁方 王熙照 《计算机工程与应用》 CSCD 北大核心 2003年第23期87-88,91,共3页
文本分类有助于用户有选择地阅读和处理海量文本,因此其预备工作分词系统的研究是很有意义的。该文主要提出了一种基于中文文本分类的分词方法,区别于常用的基于字符串匹配等方法,并利用数据库特有的查询技术设计和实现了该分词系统,旨... 文本分类有助于用户有选择地阅读和处理海量文本,因此其预备工作分词系统的研究是很有意义的。该文主要提出了一种基于中文文本分类的分词方法,区别于常用的基于字符串匹配等方法,并利用数据库特有的查询技术设计和实现了该分词系统,旨在通过新的分词方法提供更加准确的分词率,同时提高系统实现效率。 展开更多
关键词 文本分类 分词 查询 数据库 主题词
在线阅读 下载PDF
字典与统计相结合的中文分词方法 被引量:42
2
作者 翟凤文 赫枫龄 左万利 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1766-1771,共6页
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速... 提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%. 展开更多
关键词 中文分词 基于字典的分词 基于统计的分词 交集型分词歧义
在线阅读 下载PDF
基于统计方法的中文姓名识别 被引量:48
3
作者 刘秉伟 黄萱菁 +1 位作者 郭以昆 吴立德 《中文信息学报》 CSCD 北大核心 2000年第3期16-24,36,共10页
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 ... 本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。 展开更多
关键词 自动分词 未登录词 中文姓名识别 统计方法
在线阅读 下载PDF
汉语自动分词词典机制的实验研究 被引量:119
4
作者 孙茂松 左正平 黄昌宁 《中文信息学报》 CSCD 北大核心 2000年第1期1-6,共6页
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二... 分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。 展开更多
关键词 中文信息处理 汉语自动分词 分词词典机制
在线阅读 下载PDF
一种中文分词词典新机制——双字哈希机制 被引量:109
5
作者 李庆虎 陈玉健 孙家广 《中文信息学报》 CSCD 北大核心 2003年第4期13-18,共6页
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多... 汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。 展开更多
关键词 汉语自动分词 汉语信息处理 分词词典机制 双字哈希机制 分词速度 分词效率
在线阅读 下载PDF
汉语分词词典设计 被引量:12
6
作者 翟伟斌 周振柳 +1 位作者 蒋卓明 许榕生 《计算机工程与应用》 CSCD 北大核心 2007年第1期1-2,26,共3页
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。论文采用动态TRIE索引树的词典机制,设计并实现了汉语分词词典,有效地减少了词典空间。实验结果表明该词典具有较高的查询性能。
关键词 汉语分词 词典查询 中文信息处理
在线阅读 下载PDF
基于统计的中文姓名识别方法研究 被引量:23
7
作者 张锋 樊孝忠 许云 《计算机工程与应用》 CSCD 北大核心 2004年第10期53-54,77,共3页
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。
关键词 自动分词 未登录词 中文姓名识别
在线阅读 下载PDF
数据库汉语查询语言的分词研究与实现 被引量:6
8
作者 徐九韵 仝兆岐 +1 位作者 向逐聪 王新民 《中文信息学报》 CSCD 北大核心 1998年第4期53-59,8,共8页
在综合考虑数据库查询这一特殊性的基础上,根据查询语句中词汇对数据查询不同贡献程度分级建立分词词典;然后提出了分步--正向单扫描的分词方法(DSWS),并对该分词方法的时间复杂度进行了分析。
关键词 汉语分词 数据库查询 查询语言 分词 智能检索
在线阅读 下载PDF
基于Lucene的地名数据库快速检索系统 被引量:20
9
作者 张文元 周世宇 谈国新 《计算机应用研究》 CSCD 北大核心 2017年第6期1756-1761,共6页
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器... 针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。 展开更多
关键词 LUCENE 地名 全文检索 数据库 中文分词 相关度排序
在线阅读 下载PDF
一种中文文档的非受限无词典抽词方法 被引量:28
10
作者 金翔宇 孙正兴 张福炎 《中文信息学报》 CSCD 北大核心 2001年第6期33-39,共7页
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、... 本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。 展开更多
关键词 中文信息处理 自动分词 非受限无词典抽词 汉字结构模式 中文文档 抽词速度
在线阅读 下载PDF
基于字表的中文搜索引擎分词系统的设计与实现 被引量:15
11
作者 丁承 邵志清 《计算机工程》 CAS CSCD 北大核心 2001年第2期191-192,F003,共3页
分析了常用的基于词典的汉语分词方法应用于中文搜索引擎开发中的不足,提出基于字表的中文搜索引擎分词系统,并在索引、查询、排除歧义等方面进行了设计和实现。
关键词 字表 中文搜索引擎分词系统 设计 中文信息处理 INTERNET
在线阅读 下载PDF
基于词典的汉藏句子对齐研究与实现 被引量:10
12
作者 于新 吴健 洪锦玲 《中文信息学报》 CSCD 北大核心 2011年第4期57-62,共6页
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评... 双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。 展开更多
关键词 汉藏句子对齐 词典 分词粒度 平行语料库 藏文信息处理
在线阅读 下载PDF
快速的领域文档关键词自动提取算法 被引量:12
13
作者 杨春明 韩永国 《计算机工程与设计》 CSCD 北大核心 2011年第6期2142-2145,共4页
针对现有关键词提取算法需要大量训练数据及时间、常用词分词困难、互联网文档噪音等问题,提出了一种基于TF-IWF的领域文档关键词快速提取算法。该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域... 针对现有关键词提取算法需要大量训练数据及时间、常用词分词困难、互联网文档噪音等问题,提出了一种基于TF-IWF的领域文档关键词快速提取算法。该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典分词等方法提高了关键词提取的速度及准确度。对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在时间内完成。 展开更多
关键词 关键词提取 中文分词 领域词典 启发式知识 时间复杂度
在线阅读 下载PDF
信息检索中主题式词典的构建方法 被引量:5
14
作者 许静芳 李星 李粤 《计算机工程》 EI CAS CSCD 北大核心 2005年第21期143-145,共3页
提出了一种基于用户查询日志的主题式词典的构建方法,用于中文信息检索中分词。利用互信息从用户查询日志中提取短语并与通用词典相结合构建主题式词典。该词典能提高信息检索的准确率和效率,并有助于解决未登录词问题。
关键词 主题式词典 信息检索 中文分词 短语提取
在线阅读 下载PDF
中文分词词典结构的研究与改进 被引量:12
15
作者 叶继平 张桂珠 《计算机工程与应用》 CSCD 2012年第23期139-142,共4页
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。分析了三种典型的分词词典结构,提出了一种具有三级索引的新词典结构,并提出了最大正向匹配的改进型匹配算法,从而降低了匹配过程的时间复杂... 汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。分析了三种典型的分词词典结构,提出了一种具有三级索引的新词典结构,并提出了最大正向匹配的改进型匹配算法,从而降低了匹配过程的时间复杂度。最后通过实验,比较了三种典型词典结构与新词典结构的时间效率。实验结果表明,新词典结构具有更高的词典查询速度和分词速度,可以有效满足中文处理系统的需求。 展开更多
关键词 中文分词 正向最大匹配 词典 三级索引
在线阅读 下载PDF
基于双哈希结构的整词二分词典机制 被引量:3
16
作者 张贤坤 李亚南 田雪 《计算机工程与设计》 CSCD 北大核心 2014年第11期3956-3960,共5页
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典... 为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。 展开更多
关键词 中文分词 词典机制 尾字词典 哈希结构 逆向最大匹配算法
在线阅读 下载PDF
数据库汉语自然语言查询界面NLCQI的设计和实现 被引量:8
17
作者 许龙飞 唐世渭 《小型微型计算机系统》 CSCD 北大核心 1998年第7期26-33,共8页
本文介绍了我们所设计和研制的基于受限汉语的数据库自然语言查询界面NLCQI,它运用E-R语法,语义结构的汉语查询模型,建立一种以类关系代数语句模板为规则的中间语言MQL的转换机制,实现了从MQL到SQL的直接转换,本... 本文介绍了我们所设计和研制的基于受限汉语的数据库自然语言查询界面NLCQI,它运用E-R语法,语义结构的汉语查询模型,建立一种以类关系代数语句模板为规则的中间语言MQL的转换机制,实现了从MQL到SQL的直接转换,本文详细地介绍了该系统的结构原理以及主要的转换算法。 展开更多
关键词 数据库 自然语言 查询界面 NLCQI
在线阅读 下载PDF
基于二字词位图表的汉语自动分词词典机制 被引量:3
18
作者 蒋斌 杨超 赵欢 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第1期121-123,共3页
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的... 根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率. 展开更多
关键词 汉语自动分词 分词词典机制 二字词检测位图表
在线阅读 下载PDF
一种应用分治策略的中文分词方法 被引量:3
19
作者 赵春红 高希龙 +2 位作者 王柠 赵威 刘国华 《燕山大学学报》 CAS 2009年第5期444-449,共6页
自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一... 自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一种新的分词算法,幷对该算法进行了理论分析和实验验证。 展开更多
关键词 中文分词 词典机制 分治策略
在线阅读 下载PDF
基于农业垂直搜索引擎中文分词词典的构建研究 被引量:3
20
作者 张启宇 于辉辉 +1 位作者 陈英义 王磊 《广东农业科学》 CAS 2015年第3期165-169,共5页
在农业垂直搜索引擎研究过程中,中文分词是重要的研究方向。针对传统农业垂直搜索引擎搜索信息抽取不准确、速度慢等缺点,采用双数组Trie树为基本模型,利用中文词条首字区位码与数据库表行号相对应的方式,并根据农业垂直搜索引擎的需要... 在农业垂直搜索引擎研究过程中,中文分词是重要的研究方向。针对传统农业垂直搜索引擎搜索信息抽取不准确、速度慢等缺点,采用双数组Trie树为基本模型,利用中文词条首字区位码与数据库表行号相对应的方式,并根据农业垂直搜索引擎的需要设置了农业词汇的词性编码,以My SQL数据库为例设计了农业领域专用的分词词典。该分词词典可充分利用数据库的优势进行词典组织,并且可以进行词库的远程共享和共同维护,方便不同的系统进行访问;词条按首字分类存放构造双数组Trie树,可有效减少构造过程的内存空间。该农业分词词典结构对其他领域和行业也具有借鉴意义。 展开更多
关键词 中文分词 农业词典 MY SQL 词性编码
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部