期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
41
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于中文文本分类的分词方法研究
被引量:
22
1
作者
湛燕
陈昊
+1 位作者
袁方
王熙照
《计算机工程与应用》
CSCD
北大核心
2003年第23期87-88,91,共3页
文本分类有助于用户有选择地阅读和处理海量文本,因此其预备工作分词系统的研究是很有意义的。该文主要提出了一种基于中文文本分类的分词方法,区别于常用的基于字符串匹配等方法,并利用数据库特有的查询技术设计和实现了该分词系统,旨...
文本分类有助于用户有选择地阅读和处理海量文本,因此其预备工作分词系统的研究是很有意义的。该文主要提出了一种基于中文文本分类的分词方法,区别于常用的基于字符串匹配等方法,并利用数据库特有的查询技术设计和实现了该分词系统,旨在通过新的分词方法提供更加准确的分词率,同时提高系统实现效率。
展开更多
关键词
文本分类
分词
查询
数据库
主题词
在线阅读
下载PDF
职称材料
字典与统计相结合的中文分词方法
被引量:
42
2
作者
翟凤文
赫枫龄
左万利
《小型微型计算机系统》
CSCD
北大核心
2006年第9期1766-1771,共6页
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速...
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%.
展开更多
关键词
中文分词
基于字典的分词
基于统计的分词
交集型分词歧义
在线阅读
下载PDF
职称材料
基于统计方法的中文姓名识别
被引量:
48
3
作者
刘秉伟
黄萱菁
+1 位作者
郭以昆
吴立德
《中文信息学报》
CSCD
北大核心
2000年第3期16-24,36,共10页
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 ...
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。
展开更多
关键词
自动分词
未登录词
中文姓名识别
统计方法
在线阅读
下载PDF
职称材料
汉语自动分词词典机制的实验研究
被引量:
119
4
作者
孙茂松
左正平
黄昌宁
《中文信息学报》
CSCD
北大核心
2000年第1期1-6,共6页
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二...
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。
展开更多
关键词
中文信息处理
汉语自动分词
分词词典机制
在线阅读
下载PDF
职称材料
一种中文分词词典新机制——双字哈希机制
被引量:
109
5
作者
李庆虎
陈玉健
孙家广
《中文信息学报》
CSCD
北大核心
2003年第4期13-18,共6页
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多...
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。
展开更多
关键词
汉语自动分词
汉语信息处理
分词词典机制
双字哈希机制
分词速度
分词效率
在线阅读
下载PDF
职称材料
汉语分词词典设计
被引量:
12
6
作者
翟伟斌
周振柳
+1 位作者
蒋卓明
许榕生
《计算机工程与应用》
CSCD
北大核心
2007年第1期1-2,26,共3页
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。论文采用动态TRIE索引树的词典机制,设计并实现了汉语分词词典,有效地减少了词典空间。实验结果表明该词典具有较高的查询性能。
关键词
汉语分词
词典查询
中文信息处理
在线阅读
下载PDF
职称材料
基于统计的中文姓名识别方法研究
被引量:
23
7
作者
张锋
樊孝忠
许云
《计算机工程与应用》
CSCD
北大核心
2004年第10期53-54,77,共3页
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。
关键词
自动分词
未登录词
中文姓名识别
在线阅读
下载PDF
职称材料
数据库汉语查询语言的分词研究与实现
被引量:
6
8
作者
徐九韵
仝兆岐
+1 位作者
向逐聪
王新民
《中文信息学报》
CSCD
北大核心
1998年第4期53-59,8,共8页
在综合考虑数据库查询这一特殊性的基础上,根据查询语句中词汇对数据查询不同贡献程度分级建立分词词典;然后提出了分步--正向单扫描的分词方法(DSWS),并对该分词方法的时间复杂度进行了分析。
关键词
汉语分词
数据库查询
查询语言
分词
智能检索
在线阅读
下载PDF
职称材料
基于Lucene的地名数据库快速检索系统
被引量:
20
9
作者
张文元
周世宇
谈国新
《计算机应用研究》
CSCD
北大核心
2017年第6期1756-1761,共6页
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器...
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。
展开更多
关键词
LUCENE
地名
全文检索
数据库
中文分词
相关度排序
在线阅读
下载PDF
职称材料
一种中文文档的非受限无词典抽词方法
被引量:
28
10
作者
金翔宇
孙正兴
张福炎
《中文信息学报》
CSCD
北大核心
2001年第6期33-39,共7页
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、...
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。
展开更多
关键词
中文信息处理
自动分词
非受限无词典抽词
汉字结构模式
中文文档
抽词速度
在线阅读
下载PDF
职称材料
基于字表的中文搜索引擎分词系统的设计与实现
被引量:
15
11
作者
丁承
邵志清
《计算机工程》
CAS
CSCD
北大核心
2001年第2期191-192,F003,共3页
分析了常用的基于词典的汉语分词方法应用于中文搜索引擎开发中的不足,提出基于字表的中文搜索引擎分词系统,并在索引、查询、排除歧义等方面进行了设计和实现。
关键词
字表
中文搜索引擎分词系统
设计
中文信息处理
INTERNET
在线阅读
下载PDF
职称材料
基于词典的汉藏句子对齐研究与实现
被引量:
10
12
作者
于新
吴健
洪锦玲
《中文信息学报》
CSCD
北大核心
2011年第4期57-62,共6页
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评...
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。
展开更多
关键词
汉藏句子对齐
词典
分词粒度
平行语料库
藏文信息处理
在线阅读
下载PDF
职称材料
快速的领域文档关键词自动提取算法
被引量:
12
13
作者
杨春明
韩永国
《计算机工程与设计》
CSCD
北大核心
2011年第6期2142-2145,共4页
针对现有关键词提取算法需要大量训练数据及时间、常用词分词困难、互联网文档噪音等问题,提出了一种基于TF-IWF的领域文档关键词快速提取算法。该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域...
针对现有关键词提取算法需要大量训练数据及时间、常用词分词困难、互联网文档噪音等问题,提出了一种基于TF-IWF的领域文档关键词快速提取算法。该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典分词等方法提高了关键词提取的速度及准确度。对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在时间内完成。
展开更多
关键词
关键词提取
中文分词
领域词典
启发式知识
时间复杂度
在线阅读
下载PDF
职称材料
信息检索中主题式词典的构建方法
被引量:
5
14
作者
许静芳
李星
李粤
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第21期143-145,共3页
提出了一种基于用户查询日志的主题式词典的构建方法,用于中文信息检索中分词。利用互信息从用户查询日志中提取短语并与通用词典相结合构建主题式词典。该词典能提高信息检索的准确率和效率,并有助于解决未登录词问题。
关键词
主题式词典
信息检索
中文分词
短语提取
在线阅读
下载PDF
职称材料
中文分词词典结构的研究与改进
被引量:
12
15
作者
叶继平
张桂珠
《计算机工程与应用》
CSCD
2012年第23期139-142,共4页
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。分析了三种典型的分词词典结构,提出了一种具有三级索引的新词典结构,并提出了最大正向匹配的改进型匹配算法,从而降低了匹配过程的时间复杂...
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。分析了三种典型的分词词典结构,提出了一种具有三级索引的新词典结构,并提出了最大正向匹配的改进型匹配算法,从而降低了匹配过程的时间复杂度。最后通过实验,比较了三种典型词典结构与新词典结构的时间效率。实验结果表明,新词典结构具有更高的词典查询速度和分词速度,可以有效满足中文处理系统的需求。
展开更多
关键词
中文分词
正向最大匹配
词典
三级索引
在线阅读
下载PDF
职称材料
基于双哈希结构的整词二分词典机制
被引量:
3
16
作者
张贤坤
李亚南
田雪
《计算机工程与设计》
CSCD
北大核心
2014年第11期3956-3960,共5页
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典...
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。
展开更多
关键词
中文分词
词典机制
尾字词典
哈希结构
逆向最大匹配算法
在线阅读
下载PDF
职称材料
数据库汉语自然语言查询界面NLCQI的设计和实现
被引量:
8
17
作者
许龙飞
唐世渭
《小型微型计算机系统》
CSCD
北大核心
1998年第7期26-33,共8页
本文介绍了我们所设计和研制的基于受限汉语的数据库自然语言查询界面NLCQI,它运用E-R语法,语义结构的汉语查询模型,建立一种以类关系代数语句模板为规则的中间语言MQL的转换机制,实现了从MQL到SQL的直接转换,本...
本文介绍了我们所设计和研制的基于受限汉语的数据库自然语言查询界面NLCQI,它运用E-R语法,语义结构的汉语查询模型,建立一种以类关系代数语句模板为规则的中间语言MQL的转换机制,实现了从MQL到SQL的直接转换,本文详细地介绍了该系统的结构原理以及主要的转换算法。
展开更多
关键词
数据库
自然语言
查询界面
NLCQI
在线阅读
下载PDF
职称材料
基于二字词位图表的汉语自动分词词典机制
被引量:
3
18
作者
蒋斌
杨超
赵欢
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2006年第1期121-123,共3页
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的...
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率.
展开更多
关键词
汉语自动分词
分词词典机制
二字词检测位图表
在线阅读
下载PDF
职称材料
一种应用分治策略的中文分词方法
被引量:
3
19
作者
赵春红
高希龙
+2 位作者
王柠
赵威
刘国华
《燕山大学学报》
CAS
2009年第5期444-449,共6页
自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一...
自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一种新的分词算法,幷对该算法进行了理论分析和实验验证。
展开更多
关键词
中文分词
词典机制
分治策略
在线阅读
下载PDF
职称材料
基于农业垂直搜索引擎中文分词词典的构建研究
被引量:
3
20
作者
张启宇
于辉辉
+1 位作者
陈英义
王磊
《广东农业科学》
CAS
2015年第3期165-169,共5页
在农业垂直搜索引擎研究过程中,中文分词是重要的研究方向。针对传统农业垂直搜索引擎搜索信息抽取不准确、速度慢等缺点,采用双数组Trie树为基本模型,利用中文词条首字区位码与数据库表行号相对应的方式,并根据农业垂直搜索引擎的需要...
在农业垂直搜索引擎研究过程中,中文分词是重要的研究方向。针对传统农业垂直搜索引擎搜索信息抽取不准确、速度慢等缺点,采用双数组Trie树为基本模型,利用中文词条首字区位码与数据库表行号相对应的方式,并根据农业垂直搜索引擎的需要设置了农业词汇的词性编码,以My SQL数据库为例设计了农业领域专用的分词词典。该分词词典可充分利用数据库的优势进行词典组织,并且可以进行词库的远程共享和共同维护,方便不同的系统进行访问;词条按首字分类存放构造双数组Trie树,可有效减少构造过程的内存空间。该农业分词词典结构对其他领域和行业也具有借鉴意义。
展开更多
关键词
中文分词
农业词典
MY
SQL
词性编码
在线阅读
下载PDF
职称材料
题名
基于中文文本分类的分词方法研究
被引量:
22
1
作者
湛燕
陈昊
袁方
王熙照
机构
河北大学数学与计算机科学学院
出处
《计算机工程与应用》
CSCD
北大核心
2003年第23期87-88,91,共3页
基金
河北省自然科学基金(编号:698139)
河北省教育厅科研计划项目(编号:2001206)
文摘
文本分类有助于用户有选择地阅读和处理海量文本,因此其预备工作分词系统的研究是很有意义的。该文主要提出了一种基于中文文本分类的分词方法,区别于常用的基于字符串匹配等方法,并利用数据库特有的查询技术设计和实现了该分词系统,旨在通过新的分词方法提供更加准确的分词率,同时提高系统实现效率。
关键词
文本分类
分词
查询
数据库
主题词
Keywords
Text classification,
word
segmentation
,
query
,
database
,Thematic
word
s
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
字典与统计相结合的中文分词方法
被引量:
42
2
作者
翟凤文
赫枫龄
左万利
机构
吉林大学软件学院
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第9期1766-1771,共6页
基金
国家自然科学基金项目(60373099)资助.
文摘
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%.
关键词
中文分词
基于字典的分词
基于统计的分词
交集型分词歧义
Keywords
chinese
word
segmentation
chinese
word
segmentation
based on
dictionary
chinese
word
segmentation
based on statistical method
crossing ambiguities in
chinese
word
segmentation
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于统计方法的中文姓名识别
被引量:
48
3
作者
刘秉伟
黄萱菁
郭以昆
吴立德
机构
复旦大学计算机科学系
出处
《中文信息学报》
CSCD
北大核心
2000年第3期16-24,36,共10页
基金
上海市教委重点学科基金
国家自然科学基金
日本富士通公司资助
文摘
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。
关键词
自动分词
未登录词
中文姓名识别
统计方法
Keywords
Automatic
word
segmentation
Out of
dictionary
word
chinese
person names identification
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
汉语自动分词词典机制的实验研究
被引量:
119
4
作者
孙茂松
左正平
黄昌宁
机构
清华大学计算机科学与技术系
出处
《中文信息学报》
CSCD
北大核心
2000年第1期1-6,共6页
基金
国家自然科学基金资助!(合同号:69433010)
文摘
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。
关键词
中文信息处理
汉语自动分词
分词词典机制
Keywords
chinese
information processing
chinese
word
segmentation
dictionary
mechanism for
chinese
word
segmentation
分类号
H085.5 [语言文字—语言学]
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种中文分词词典新机制——双字哈希机制
被引量:
109
5
作者
李庆虎
陈玉健
孙家广
机构
清华大学计算机系
出处
《中文信息学报》
CSCD
北大核心
2003年第4期13-18,共6页
基金
教育部专项基金资助项目 (2 0 0 1BA10 1A12 - 0 2 )
973计划资助 (2 0 0 2CB312 0 0 6 )
文摘
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。
关键词
汉语自动分词
汉语信息处理
分词词典机制
双字哈希机制
分词速度
分词效率
Keywords
computer application
chinese
information processing
chinese
word
segmentation
dictionary
mechanism
double character hash indexing
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
汉语分词词典设计
被引量:
12
6
作者
翟伟斌
周振柳
蒋卓明
许榕生
机构
中国科学院高能物理研究所计算中心中国科学院研究生院
出处
《计算机工程与应用》
CSCD
北大核心
2007年第1期1-2,26,共3页
基金
国家自然科学基金资助项目(70471064)。
文摘
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。论文采用动态TRIE索引树的词典机制,设计并实现了汉语分词词典,有效地减少了词典空间。实验结果表明该词典具有较高的查询性能。
关键词
汉语分词
词典查询
中文信息处理
Keywords
chinese
word
segmentation
search
dictionary
chinese
information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于统计的中文姓名识别方法研究
被引量:
23
7
作者
张锋
樊孝忠
许云
机构
北京理工大学计算机科学工程系
出处
《计算机工程与应用》
CSCD
北大核心
2004年第10期53-54,77,共3页
文摘
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。
关键词
自动分词
未登录词
中文姓名识别
Keywords
automatic
segmentation
,out-of-
dictionary
word
,
chinese
names recognition
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
数据库汉语查询语言的分词研究与实现
被引量:
6
8
作者
徐九韵
仝兆岐
向逐聪
王新民
机构
石油大学(华东)计算机系
出处
《中文信息学报》
CSCD
北大核心
1998年第4期53-59,8,共8页
文摘
在综合考虑数据库查询这一特殊性的基础上,根据查询语句中词汇对数据查询不同贡献程度分级建立分词词典;然后提出了分步--正向单扫描的分词方法(DSWS),并对该分词方法的时间复杂度进行了分析。
关键词
汉语分词
数据库查询
查询语言
分词
智能检索
Keywords
chinese segmentation word segmentation dictionary database query
分类号
G354.4 [文化科学—情报学]
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于Lucene的地名数据库快速检索系统
被引量:
20
9
作者
张文元
周世宇
谈国新
机构
华中师范大学国家文化产业研究中心
出处
《计算机应用研究》
CSCD
北大核心
2017年第6期1756-1761,共6页
基金
国家科技支撑计划资助项目(2012BAH83F00)
文摘
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。
关键词
LUCENE
地名
全文检索
数据库
中文分词
相关度排序
Keywords
Lucene
place name
full-text search
database
chinese
word
segmentation
relevancy ranking
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种中文文档的非受限无词典抽词方法
被引量:
28
10
作者
金翔宇
孙正兴
张福炎
机构
南京大学软件新技术国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2001年第6期33-39,共7页
基金
国家自然科学基金项目 (6 990 30 0 6 )
教育部高等学校骨干教师资助计划(教技司[2 0 0 0 ]6 5号 )
中国博士后科学基金(中博基 [1997]11号 )
文摘
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。
关键词
中文信息处理
自动分词
非受限无词典抽词
汉字结构模式
中文文档
抽词速度
Keywords
chinese
information processing
automatic
word
segmentation
domain independent
dictionary
free lexical acquisition
co occurrence patterns of
chinese
characters
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于字表的中文搜索引擎分词系统的设计与实现
被引量:
15
11
作者
丁承
邵志清
机构
华东理工大学计算机科学与工程系
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第2期191-192,F003,共3页
文摘
分析了常用的基于词典的汉语分词方法应用于中文搜索引擎开发中的不足,提出基于字表的中文搜索引擎分词系统,并在索引、查询、排除歧义等方面进行了设计和实现。
关键词
字表
中文搜索引擎分词系统
设计
中文信息处理
INTERNET
Keywords
chinese
;Search engines;
word
segmentation
;Character table;
query
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于词典的汉藏句子对齐研究与实现
被引量:
10
12
作者
于新
吴健
洪锦玲
机构
中国科学院软件研究所
中国科学院研究生院
出处
《中文信息学报》
CSCD
北大核心
2011年第4期57-62,共6页
基金
中国科学院西部行动计划高新技术项目(KGCX2-YW-512)
文摘
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。
关键词
汉藏句子对齐
词典
分词粒度
平行语料库
藏文信息处理
Keywords
chinese
-Tibetan sentence alignment
dictionary
word
segmentation
granularity
parallel corpus
Tibetan information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
快速的领域文档关键词自动提取算法
被引量:
12
13
作者
杨春明
韩永国
机构
西南科技大学计算机科学与技术学院
出处
《计算机工程与设计》
CSCD
北大核心
2011年第6期2142-2145,共4页
文摘
针对现有关键词提取算法需要大量训练数据及时间、常用词分词困难、互联网文档噪音等问题,提出了一种基于TF-IWF的领域文档关键词快速提取算法。该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典分词等方法提高了关键词提取的速度及准确度。对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在时间内完成。
关键词
关键词提取
中文分词
领域词典
启发式知识
时间复杂度
Keywords
key
word
s extraction
chinese
word
segmentation
domain
dictionary
heuristic knowledge
time complexity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
信息检索中主题式词典的构建方法
被引量:
5
14
作者
许静芳
李星
李粤
机构
清华大学电子工程系
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第21期143-145,共3页
文摘
提出了一种基于用户查询日志的主题式词典的构建方法,用于中文信息检索中分词。利用互信息从用户查询日志中提取短语并与通用词典相结合构建主题式词典。该词典能提高信息检索的准确率和效率,并有助于解决未登录词问题。
关键词
主题式词典
信息检索
中文分词
短语提取
Keywords
Topic-specific
dictionary
Information retrieval
chinese
word
segmentation
Phrase extraction
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
中文分词词典结构的研究与改进
被引量:
12
15
作者
叶继平
张桂珠
机构
江南大学物联网工程学院
出处
《计算机工程与应用》
CSCD
2012年第23期139-142,共4页
基金
国家自然科学基金项目(No.60665001)
江南大学自主科研计划(No.JUSRP30909)
文摘
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。分析了三种典型的分词词典结构,提出了一种具有三级索引的新词典结构,并提出了最大正向匹配的改进型匹配算法,从而降低了匹配过程的时间复杂度。最后通过实验,比较了三种典型词典结构与新词典结构的时间效率。实验结果表明,新词典结构具有更高的词典查询速度和分词速度,可以有效满足中文处理系统的需求。
关键词
中文分词
正向最大匹配
词典
三级索引
Keywords
chinese
word
segmentation
positive matching method
word
dictionary
three-level index
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于双哈希结构的整词二分词典机制
被引量:
3
16
作者
张贤坤
李亚南
田雪
机构
天津科技大学计算机科学与信息工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2014年第11期3956-3960,共5页
基金
天津市科技型中小企业创新资金基金项目(12ZXCXGX33500)
文摘
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。
关键词
中文分词
词典机制
尾字词典
哈希结构
逆向最大匹配算法
Keywords
chinese
word
segmentation
dictionary
mechanism
last
word
dictionary
~ Hash structure
reverse maximum matching algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
数据库汉语自然语言查询界面NLCQI的设计和实现
被引量:
8
17
作者
许龙飞
唐世渭
机构
暨南大学计算机科学系
北京大学信息科学中心
出处
《小型微型计算机系统》
CSCD
北大核心
1998年第7期26-33,共8页
基金
国家自然科学基金
北京大学视觉听觉信息处理国家重点实验室资助
文摘
本文介绍了我们所设计和研制的基于受限汉语的数据库自然语言查询界面NLCQI,它运用E-R语法,语义结构的汉语查询模型,建立一种以类关系代数语句模板为规则的中间语言MQL的转换机制,实现了从MQL到SQL的直接转换,本文详细地介绍了该系统的结构原理以及主要的转换算法。
关键词
数据库
自然语言
查询界面
NLCQI
Keywords
database
model Natural language interface
chinese
language
query
Automatic
segmentation
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于二字词位图表的汉语自动分词词典机制
被引量:
3
18
作者
蒋斌
杨超
赵欢
机构
湖南大学计算机科学与通信学院
出处
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2006年第1期121-123,共3页
基金
湖南省自然科学基金资助项目(03JJY3097)
文摘
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率.
关键词
汉语自动分词
分词词典机制
二字词检测位图表
Keywords
chinese
word
segmentation
dictionary
mechanism
two-
word
-bitmap
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种应用分治策略的中文分词方法
被引量:
3
19
作者
赵春红
高希龙
王柠
赵威
刘国华
机构
燕山大学信息科学与工程学院
河北建材职业技术学院
齐齐哈尔大学计算机系
出处
《燕山大学学报》
CAS
2009年第5期444-449,共6页
基金
国家自然科学基金资助项目(60773100)
国家"十一五"科技支撑计划资助项目(2006BAK05BO2)
河北省自然科学基金资助项目(F2009000475)
文摘
自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一种新的分词算法,幷对该算法进行了理论分析和实验验证。
关键词
中文分词
词典机制
分治策略
Keywords
chinese
word
segmentation
dictionary
mechanism
divide-and-conquer strategy
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于农业垂直搜索引擎中文分词词典的构建研究
被引量:
3
20
作者
张启宇
于辉辉
陈英义
王磊
机构
中国农业大学烟台研究院
中国农业大学信息与电气工程学院
农业部农业信息获取技术重点实验室
山东省农业科学院科技信息研究所
出处
《广东农业科学》
CAS
2015年第3期165-169,共5页
基金
山东省自主创新专项(2012CX90204)
文摘
在农业垂直搜索引擎研究过程中,中文分词是重要的研究方向。针对传统农业垂直搜索引擎搜索信息抽取不准确、速度慢等缺点,采用双数组Trie树为基本模型,利用中文词条首字区位码与数据库表行号相对应的方式,并根据农业垂直搜索引擎的需要设置了农业词汇的词性编码,以My SQL数据库为例设计了农业领域专用的分词词典。该分词词典可充分利用数据库的优势进行词典组织,并且可以进行词库的远程共享和共同维护,方便不同的系统进行访问;词条按首字分类存放构造双数组Trie树,可有效减少构造过程的内存空间。该农业分词词典结构对其他领域和行业也具有借鉴意义。
关键词
中文分词
农业词典
MY
SQL
词性编码
Keywords
chinese
word
segmentation
agricultural
dictionary
MySQL
part of speech coding
分类号
S126 [农业科学—农业基础科学]
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于中文文本分类的分词方法研究
湛燕
陈昊
袁方
王熙照
《计算机工程与应用》
CSCD
北大核心
2003
22
在线阅读
下载PDF
职称材料
2
字典与统计相结合的中文分词方法
翟凤文
赫枫龄
左万利
《小型微型计算机系统》
CSCD
北大核心
2006
42
在线阅读
下载PDF
职称材料
3
基于统计方法的中文姓名识别
刘秉伟
黄萱菁
郭以昆
吴立德
《中文信息学报》
CSCD
北大核心
2000
48
在线阅读
下载PDF
职称材料
4
汉语自动分词词典机制的实验研究
孙茂松
左正平
黄昌宁
《中文信息学报》
CSCD
北大核心
2000
119
在线阅读
下载PDF
职称材料
5
一种中文分词词典新机制——双字哈希机制
李庆虎
陈玉健
孙家广
《中文信息学报》
CSCD
北大核心
2003
109
在线阅读
下载PDF
职称材料
6
汉语分词词典设计
翟伟斌
周振柳
蒋卓明
许榕生
《计算机工程与应用》
CSCD
北大核心
2007
12
在线阅读
下载PDF
职称材料
7
基于统计的中文姓名识别方法研究
张锋
樊孝忠
许云
《计算机工程与应用》
CSCD
北大核心
2004
23
在线阅读
下载PDF
职称材料
8
数据库汉语查询语言的分词研究与实现
徐九韵
仝兆岐
向逐聪
王新民
《中文信息学报》
CSCD
北大核心
1998
6
在线阅读
下载PDF
职称材料
9
基于Lucene的地名数据库快速检索系统
张文元
周世宇
谈国新
《计算机应用研究》
CSCD
北大核心
2017
20
在线阅读
下载PDF
职称材料
10
一种中文文档的非受限无词典抽词方法
金翔宇
孙正兴
张福炎
《中文信息学报》
CSCD
北大核心
2001
28
在线阅读
下载PDF
职称材料
11
基于字表的中文搜索引擎分词系统的设计与实现
丁承
邵志清
《计算机工程》
CAS
CSCD
北大核心
2001
15
在线阅读
下载PDF
职称材料
12
基于词典的汉藏句子对齐研究与实现
于新
吴健
洪锦玲
《中文信息学报》
CSCD
北大核心
2011
10
在线阅读
下载PDF
职称材料
13
快速的领域文档关键词自动提取算法
杨春明
韩永国
《计算机工程与设计》
CSCD
北大核心
2011
12
在线阅读
下载PDF
职称材料
14
信息检索中主题式词典的构建方法
许静芳
李星
李粤
《计算机工程》
EI
CAS
CSCD
北大核心
2005
5
在线阅读
下载PDF
职称材料
15
中文分词词典结构的研究与改进
叶继平
张桂珠
《计算机工程与应用》
CSCD
2012
12
在线阅读
下载PDF
职称材料
16
基于双哈希结构的整词二分词典机制
张贤坤
李亚南
田雪
《计算机工程与设计》
CSCD
北大核心
2014
3
在线阅读
下载PDF
职称材料
17
数据库汉语自然语言查询界面NLCQI的设计和实现
许龙飞
唐世渭
《小型微型计算机系统》
CSCD
北大核心
1998
8
在线阅读
下载PDF
职称材料
18
基于二字词位图表的汉语自动分词词典机制
蒋斌
杨超
赵欢
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2006
3
在线阅读
下载PDF
职称材料
19
一种应用分治策略的中文分词方法
赵春红
高希龙
王柠
赵威
刘国华
《燕山大学学报》
CAS
2009
3
在线阅读
下载PDF
职称材料
20
基于农业垂直搜索引擎中文分词词典的构建研究
张启宇
于辉辉
陈英义
王磊
《广东农业科学》
CAS
2015
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部