期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
面向信息检索的自适应中文分词系统 被引量:49
1
作者 曹勇刚 曹羽中 +1 位作者 金茂忠 刘超 《软件学报》 EI CSCD 北大核心 2006年第3期356-363,共8页
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和... 新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势. 展开更多
关键词 分词系统 分词算法 信息检索 新词识别 歧义消解
在线阅读 下载PDF
现代汉语通用分词系统中歧义切分的实用技术 被引量:19
2
作者 罗智勇 宋柔 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1122-1128,共7页
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(... 歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%· 展开更多
关键词 中文信息处理 通用分词系统 歧义切分
在线阅读 下载PDF
基于字表的中文搜索引擎分词系统的设计与实现 被引量:15
3
作者 丁承 邵志清 《计算机工程》 CAS CSCD 北大核心 2001年第2期191-192,F003,共3页
分析了常用的基于词典的汉语分词方法应用于中文搜索引擎开发中的不足,提出基于字表的中文搜索引擎分词系统,并在索引、查询、排除歧义等方面进行了设计和实现。
关键词 字表 中文搜索引擎分词系统 设计 中文信息处理 INTERNET
在线阅读 下载PDF
一种基于概率模型的分词系统 被引量:16
4
作者 李家福 张亚非 《系统仿真学报》 CAS CSCD 2002年第5期544-546,550,共4页
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectatio... 汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectation- Maximization)算法,最后给出了一个基于本模型的汉语文本处理仿真系统。 展开更多
关键词 概率模型 分词系统 EM算法 语料库 系统仿真 汉语自动分词 中文信息处理
在线阅读 下载PDF
基于神经网络的汉语自动分词系统的设计与分析 被引量:30
5
作者 尹锋 《情报学报》 CSSCI 北大核心 1998年第1期41-50,共10页
应用神经网络进行汉语自动分词研究是中文信息处理领域的重要课题。本文从分析神经网络的一个主要模型和算法入手,阐述了基于神经网络的汉语自动分词系统的设计方法,较详细地介绍了该系统的实验结果,并给出了必要的分析。
关键词 神经网络 汉语分词 分词系统 设计
在线阅读 下载PDF
现代汉语分词系统通用接口设计与实现 被引量:6
6
作者 娄珽 宋柔 +1 位作者 李卫亮 罗智勇 《中文信息学报》 CSCD 北大核心 2001年第5期1-7,共7页
现代汉语文本自动分词是中文信息处理的重要基石 ,为此提供一个通用的分词接口是非常重要的。本文提出了通用分词接口的目标 ,论述了它的原理和设计方案。
关键词 中文信息处理 汉语分词系统 通用接口 文本校对 信息检索 程序设计
在线阅读 下载PDF
书面汉语自动分词专家系统设计原理 被引量:30
7
作者 何克抗 徐辉 孙波 《中文信息学报》 CSCD 1991年第2期1-14,28,共15页
本文深入地分析了歧义切分字段产生的根源和性质,把歧义字段从性质上划分为四类,并给出了消除每一类歧义切分字段的有效方法。在对歧义字段进行统计分析的基础上提出了切分精度的“四级指标体系”,井论证了专家系统方法是实现自动分词... 本文深入地分析了歧义切分字段产生的根源和性质,把歧义字段从性质上划分为四类,并给出了消除每一类歧义切分字段的有效方法。在对歧义字段进行统计分析的基础上提出了切分精度的“四级指标体系”,井论证了专家系统方法是实现自动分词系统的最佳方案。 展开更多
关键词 汉语自动分词 分词系统 歧义现象 系统设计原理 字串 语义问题 分词方法 语法分析 自然语言理解 句子意义
在线阅读 下载PDF
一个自动分词分类系统的实现 被引量:14
8
作者 潘有能 《情报学报》 CSSCI 北大核心 2002年第1期38-41,共4页
本文介绍一个自动分词分类系统的实现过程。该系统采用“后控词表分词法” ,解决了词典分词法中词典构造困难、更新滞后的问题 ,提高了主题词标引的质量和效率 ,并通过对词表分类法的完善和优化 。
关键词 PDCS 后控词表分词 词表分类法 公安文献自动分词分类系统 主题词标引 主题词表
在线阅读 下载PDF
基于矩阵约束法的中文分词研究 被引量:11
9
作者 张素智 刘放美 《计算机工程》 CAS CSCD 北大核心 2007年第15期98-100,共3页
分词识别和歧义消除是影响信息检索系统准确度的重要因素,该文提出了一种基于语法和语义的使用约束矩阵的中文分词算法。该算法建立在语法和句法的基础上,从语境角度分析歧义字段,提高分词准确率。系统可以将输入的连续汉字串进行分词处... 分词识别和歧义消除是影响信息检索系统准确度的重要因素,该文提出了一种基于语法和语义的使用约束矩阵的中文分词算法。该算法建立在语法和句法的基础上,从语境角度分析歧义字段,提高分词准确率。系统可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,并得到一个词典。再用《现代汉语语法信息词典》进行处理,实验结果显示分词准确率能提高10%左右。 展开更多
关键词 中文分词 矩阵约束 歧义消除 分词系统
在线阅读 下载PDF
三字歧义链自动分词方法 被引量:4
10
作者 张翠英 亢临生 《情报学报》 CSSCI 北大核心 1998年第3期203-207,共5页
歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种在最大匹配法基础上,根据大量的真实语料中出现的歧义现象,把可能产生歧义切分的词进行特性分类。
关键词 歧义 分词系统 三字歧义链 自动分词 信息处理
在线阅读 下载PDF
自适应分词算法中的未登录词识别技术研究 被引量:5
11
作者 程冲 黄水清 《情报学报》 CSSCI 北大核心 2009年第4期530-536,共7页
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识... 深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题。在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%。 展开更多
关键词 汉语分词 未登录词识别 交集型歧义 汉语分词系统
在线阅读 下载PDF
书面汉语自动分词的“生成——测试”方法 被引量:11
12
作者 黄祥喜 《中文信息学报》 CSCD 1989年第4期42-49,共8页
词链现象是书面汉语自动分词的困难所在,本文针对词链现象的复杂性,提出了一种“生成——测试”分词法。这种方法以知识为基础,它通过词典的动态化、分词知识的分布化、分词系统和句法语义系统的协同工作等手段实现了词链的有效切分和... 词链现象是书面汉语自动分词的困难所在,本文针对词链现象的复杂性,提出了一种“生成——测试”分词法。这种方法以知识为基础,它通过词典的动态化、分词知识的分布化、分词系统和句法语义系统的协同工作等手段实现了词链的有效切分和汉语句子切分与理解(生成格结构)的并行。“生成——测试”方法反映了人的分词和理解过程。 展开更多
关键词 汉语自动分词 分词系统 字串 汉语句子 协同工作 句法语义 格结构 分词方法 语义分析 扩充转移网络
在线阅读 下载PDF
基于K近邻分类算法的涉恐信息过滤模型研究 被引量:13
13
作者 唐华 杨解君 +1 位作者 王俊 黄炜 《情报杂志》 CSSCI 北大核心 2018年第3期64-70,共7页
[目的/意义]针对现有的涉恐信息过滤在语义过滤和主题无关性方面还存在一定的不足,建立了基于K近邻分类算法的涉恐信息过滤模型。[方法/过程]通过采用K近邻分类算法、TF-IDF分词系统和语义相似度计算建立了一种新的涉恐信息过滤模型,并... [目的/意义]针对现有的涉恐信息过滤在语义过滤和主题无关性方面还存在一定的不足,建立了基于K近邻分类算法的涉恐信息过滤模型。[方法/过程]通过采用K近邻分类算法、TF-IDF分词系统和语义相似度计算建立了一种新的涉恐信息过滤模型,并从爬取主题的一次过滤到关键词匹配的二次过滤,最终进行语义分析的三次过滤,构建了一套完整的涉恐信息过滤体系。[结果/结论]本模型能够快速高效地获取涉恐信息,克服了语义和主题无关性等因素的干扰,较于传统的涉恐信息过滤在查全率和查准率上面有了很大的提升。 展开更多
关键词 涉恐信息 信息过滤 K近邻算法 分词系统 语义相似度
在线阅读 下载PDF
基于复杂网络的大型互联网企业高管分析
14
作者 郑喜亮 苏湛 艾均 《上海理工大学学报》 CAS CSCD 北大核心 2019年第5期461-468,共8页
采用复杂网络分析特定属性群体。以互联网企业高管简历作为原始数据,以高管姓名和分词系统抽取实体关键词作为节点,个人简历中是否包含关键词作为连接边的条件进行建模,使用复杂网络理论对所建网络进行分析。实验结果表明,部分关键词节... 采用复杂网络分析特定属性群体。以互联网企业高管简历作为原始数据,以高管姓名和分词系统抽取实体关键词作为节点,个人简历中是否包含关键词作为连接边的条件进行建模,使用复杂网络理论对所建网络进行分析。实验结果表明,部分关键词节点度值存在明显差异,归一化后的特征向量明显大于介数。通过统计分析发现,美国和北京相关背景很重要,同时对比归一化后的介数和特征向量证明两点:第一,社会关系中个体涉及的实体对象比在社会关系网络中的位置更为重要;第二,跨行业跳槽人员的职业背景经历可能会给其在新的企业中的个人发展带来不利影响。 展开更多
关键词 复杂网络 分词系统 中心性
在线阅读 下载PDF
预见与协作是飞跃的翅膀——记北京计算机界与语言学界合作讨论会
15
《语文建设》 CSSCI 北大核心 1989年第5期60-62,共3页
1989年7月13日,中文信息学会计算语言学专业委员会与北京部分语言学家共聚清华大学,就如何为推进我国中文信息处理事业携手合作展开了讨论。计算机界的专家同语言文字学者坐在一起讨论上述问题,在北京已经有过几次了,这次会议的意义在... 1989年7月13日,中文信息学会计算语言学专业委员会与北京部分语言学家共聚清华大学,就如何为推进我国中文信息处理事业携手合作展开了讨论。计算机界的专家同语言文字学者坐在一起讨论上述问题,在北京已经有过几次了,这次会议的意义在于双方经过几次接触之后,话题从为什么要合作、合作的可能性、必然性,转入到怎样进行合作等实质性问题。 展开更多
关键词 中文信息处理 计算机界 计算语言学 分词系统 自然语言理解 自动分词 自动抽取 句法分析 机器翻译系统 现代工具
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部