期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
15
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向信息检索的自适应中文分词系统
被引量:
49
1
作者
曹勇刚
曹羽中
+1 位作者
金茂忠
刘超
《软件学报》
EI
CSCD
北大核心
2006年第3期356-363,共8页
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和...
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.
展开更多
关键词
分词系统
分词
算法
信息检索
新词识别
歧义消解
在线阅读
下载PDF
职称材料
现代汉语通用分词系统中歧义切分的实用技术
被引量:
19
2
作者
罗智勇
宋柔
《计算机研究与发展》
EI
CSCD
北大核心
2006年第6期1122-1128,共7页
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(...
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·
展开更多
关键词
中文信息处理
通用
分词系统
歧义切分
在线阅读
下载PDF
职称材料
基于字表的中文搜索引擎分词系统的设计与实现
被引量:
15
3
作者
丁承
邵志清
《计算机工程》
CAS
CSCD
北大核心
2001年第2期191-192,F003,共3页
分析了常用的基于词典的汉语分词方法应用于中文搜索引擎开发中的不足,提出基于字表的中文搜索引擎分词系统,并在索引、查询、排除歧义等方面进行了设计和实现。
关键词
字表
中文搜索引擎
分词系统
设计
中文信息处理
INTERNET
在线阅读
下载PDF
职称材料
一种基于概率模型的分词系统
被引量:
16
4
作者
李家福
张亚非
《系统仿真学报》
CAS
CSCD
2002年第5期544-546,550,共4页
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectatio...
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectation- Maximization)算法,最后给出了一个基于本模型的汉语文本处理仿真系统。
展开更多
关键词
概率模型
分词系统
EM算法
语料库
系统
仿真
汉语自动
分词
中文信息处理
在线阅读
下载PDF
职称材料
基于神经网络的汉语自动分词系统的设计与分析
被引量:
30
5
作者
尹锋
《情报学报》
CSSCI
北大核心
1998年第1期41-50,共10页
应用神经网络进行汉语自动分词研究是中文信息处理领域的重要课题。本文从分析神经网络的一个主要模型和算法入手,阐述了基于神经网络的汉语自动分词系统的设计方法,较详细地介绍了该系统的实验结果,并给出了必要的分析。
关键词
神经网络
汉语
分词
分词系统
设计
在线阅读
下载PDF
职称材料
现代汉语分词系统通用接口设计与实现
被引量:
6
6
作者
娄珽
宋柔
+1 位作者
李卫亮
罗智勇
《中文信息学报》
CSCD
北大核心
2001年第5期1-7,共7页
现代汉语文本自动分词是中文信息处理的重要基石 ,为此提供一个通用的分词接口是非常重要的。本文提出了通用分词接口的目标 ,论述了它的原理和设计方案。
关键词
中文信息处理
汉语
分词系统
通用接口
文本校对
信息检索
程序设计
在线阅读
下载PDF
职称材料
书面汉语自动分词专家系统设计原理
被引量:
30
7
作者
何克抗
徐辉
孙波
《中文信息学报》
CSCD
1991年第2期1-14,28,共15页
本文深入地分析了歧义切分字段产生的根源和性质,把歧义字段从性质上划分为四类,并给出了消除每一类歧义切分字段的有效方法。在对歧义字段进行统计分析的基础上提出了切分精度的“四级指标体系”,井论证了专家系统方法是实现自动分词...
本文深入地分析了歧义切分字段产生的根源和性质,把歧义字段从性质上划分为四类,并给出了消除每一类歧义切分字段的有效方法。在对歧义字段进行统计分析的基础上提出了切分精度的“四级指标体系”,井论证了专家系统方法是实现自动分词系统的最佳方案。
展开更多
关键词
汉语自动
分词
分词系统
歧义现象
系统
设计原理
字串
语义问题
分词
方法
语法分析
自然语言理解
句子意义
在线阅读
下载PDF
职称材料
一个自动分词分类系统的实现
被引量:
14
8
作者
潘有能
《情报学报》
CSSCI
北大核心
2002年第1期38-41,共4页
本文介绍一个自动分词分类系统的实现过程。该系统采用“后控词表分词法” ,解决了词典分词法中词典构造困难、更新滞后的问题 ,提高了主题词标引的质量和效率 ,并通过对词表分类法的完善和优化 。
关键词
PDCS
后控词表
分词
法
词表分类法
公安文献自动
分词
分类
系统
主题词标引
主题词表
在线阅读
下载PDF
职称材料
基于矩阵约束法的中文分词研究
被引量:
11
9
作者
张素智
刘放美
《计算机工程》
CAS
CSCD
北大核心
2007年第15期98-100,共3页
分词识别和歧义消除是影响信息检索系统准确度的重要因素,该文提出了一种基于语法和语义的使用约束矩阵的中文分词算法。该算法建立在语法和句法的基础上,从语境角度分析歧义字段,提高分词准确率。系统可以将输入的连续汉字串进行分词处...
分词识别和歧义消除是影响信息检索系统准确度的重要因素,该文提出了一种基于语法和语义的使用约束矩阵的中文分词算法。该算法建立在语法和句法的基础上,从语境角度分析歧义字段,提高分词准确率。系统可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,并得到一个词典。再用《现代汉语语法信息词典》进行处理,实验结果显示分词准确率能提高10%左右。
展开更多
关键词
中文
分词
矩阵约束
歧义消除
分词系统
在线阅读
下载PDF
职称材料
三字歧义链自动分词方法
被引量:
4
10
作者
张翠英
亢临生
《情报学报》
CSSCI
北大核心
1998年第3期203-207,共5页
歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种在最大匹配法基础上,根据大量的真实语料中出现的歧义现象,把可能产生歧义切分的词进行特性分类。
关键词
歧义
分词系统
三字歧义链
自动
分词
信息处理
在线阅读
下载PDF
职称材料
自适应分词算法中的未登录词识别技术研究
被引量:
5
11
作者
程冲
黄水清
《情报学报》
CSSCI
北大核心
2009年第4期530-536,共7页
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识...
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题。在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%。
展开更多
关键词
汉语
分词
未登录词识别
交集型歧义
汉语
分词系统
在线阅读
下载PDF
职称材料
书面汉语自动分词的“生成——测试”方法
被引量:
11
12
作者
黄祥喜
《中文信息学报》
CSCD
1989年第4期42-49,共8页
词链现象是书面汉语自动分词的困难所在,本文针对词链现象的复杂性,提出了一种“生成——测试”分词法。这种方法以知识为基础,它通过词典的动态化、分词知识的分布化、分词系统和句法语义系统的协同工作等手段实现了词链的有效切分和...
词链现象是书面汉语自动分词的困难所在,本文针对词链现象的复杂性,提出了一种“生成——测试”分词法。这种方法以知识为基础,它通过词典的动态化、分词知识的分布化、分词系统和句法语义系统的协同工作等手段实现了词链的有效切分和汉语句子切分与理解(生成格结构)的并行。“生成——测试”方法反映了人的分词和理解过程。
展开更多
关键词
汉语自动
分词
分词系统
字串
汉语句子
协同工作
句法语义
格结构
分词
方法
语义分析
扩充转移网络
在线阅读
下载PDF
职称材料
基于K近邻分类算法的涉恐信息过滤模型研究
被引量:
13
13
作者
唐华
杨解君
+1 位作者
王俊
黄炜
《情报杂志》
CSSCI
北大核心
2018年第3期64-70,共7页
[目的/意义]针对现有的涉恐信息过滤在语义过滤和主题无关性方面还存在一定的不足,建立了基于K近邻分类算法的涉恐信息过滤模型。[方法/过程]通过采用K近邻分类算法、TF-IDF分词系统和语义相似度计算建立了一种新的涉恐信息过滤模型,并...
[目的/意义]针对现有的涉恐信息过滤在语义过滤和主题无关性方面还存在一定的不足,建立了基于K近邻分类算法的涉恐信息过滤模型。[方法/过程]通过采用K近邻分类算法、TF-IDF分词系统和语义相似度计算建立了一种新的涉恐信息过滤模型,并从爬取主题的一次过滤到关键词匹配的二次过滤,最终进行语义分析的三次过滤,构建了一套完整的涉恐信息过滤体系。[结果/结论]本模型能够快速高效地获取涉恐信息,克服了语义和主题无关性等因素的干扰,较于传统的涉恐信息过滤在查全率和查准率上面有了很大的提升。
展开更多
关键词
涉恐信息
信息过滤
K近邻算法
分词系统
语义相似度
在线阅读
下载PDF
职称材料
基于复杂网络的大型互联网企业高管分析
14
作者
郑喜亮
苏湛
艾均
《上海理工大学学报》
CAS
CSCD
北大核心
2019年第5期461-468,共8页
采用复杂网络分析特定属性群体。以互联网企业高管简历作为原始数据,以高管姓名和分词系统抽取实体关键词作为节点,个人简历中是否包含关键词作为连接边的条件进行建模,使用复杂网络理论对所建网络进行分析。实验结果表明,部分关键词节...
采用复杂网络分析特定属性群体。以互联网企业高管简历作为原始数据,以高管姓名和分词系统抽取实体关键词作为节点,个人简历中是否包含关键词作为连接边的条件进行建模,使用复杂网络理论对所建网络进行分析。实验结果表明,部分关键词节点度值存在明显差异,归一化后的特征向量明显大于介数。通过统计分析发现,美国和北京相关背景很重要,同时对比归一化后的介数和特征向量证明两点:第一,社会关系中个体涉及的实体对象比在社会关系网络中的位置更为重要;第二,跨行业跳槽人员的职业背景经历可能会给其在新的企业中的个人发展带来不利影响。
展开更多
关键词
复杂网络
分词系统
中心性
在线阅读
下载PDF
职称材料
预见与协作是飞跃的翅膀——记北京计算机界与语言学界合作讨论会
15
《语文建设》
CSSCI
北大核心
1989年第5期60-62,共3页
1989年7月13日,中文信息学会计算语言学专业委员会与北京部分语言学家共聚清华大学,就如何为推进我国中文信息处理事业携手合作展开了讨论。计算机界的专家同语言文字学者坐在一起讨论上述问题,在北京已经有过几次了,这次会议的意义在...
1989年7月13日,中文信息学会计算语言学专业委员会与北京部分语言学家共聚清华大学,就如何为推进我国中文信息处理事业携手合作展开了讨论。计算机界的专家同语言文字学者坐在一起讨论上述问题,在北京已经有过几次了,这次会议的意义在于双方经过几次接触之后,话题从为什么要合作、合作的可能性、必然性,转入到怎样进行合作等实质性问题。
展开更多
关键词
中文信息处理
计算机界
计算语言学
分词系统
自然语言理解
自动
分词
自动抽取
句法分析
机器翻译
系统
现代工具
在线阅读
下载PDF
职称材料
题名
面向信息检索的自适应中文分词系统
被引量:
49
1
作者
曹勇刚
曹羽中
金茂忠
刘超
机构
北京航空航天大学计算机学院
出处
《软件学报》
EI
CSCD
北大核心
2006年第3期356-363,共8页
基金
国家高技术研究发展计划(863)~~
文摘
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.
关键词
分词系统
分词
算法
信息检索
新词识别
歧义消解
Keywords
word segmentation system
word segmentation algorithm
information retrieval
new word recognition
disambiguation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
现代汉语通用分词系统中歧义切分的实用技术
被引量:
19
2
作者
罗智勇
宋柔
机构
北京工业大学计算机学院
北京语言大学信息科学学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第6期1122-1128,共7页
基金
国家自然科学基金项目(60272055)
国家"八六三"高技术研究发展计划基金项目(2001AA114111)
+1 种基金
教育部科学技术研究重点基金项目(00128)
教育部人文社会科学重点研究基地重大项目(02JAZJD740007)~~
文摘
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·
关键词
中文信息处理
通用
分词系统
歧义切分
Keywords
Chinese information processing
general-purpose word segmentation system
disambiguation
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于字表的中文搜索引擎分词系统的设计与实现
被引量:
15
3
作者
丁承
邵志清
机构
华东理工大学计算机科学与工程系
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第2期191-192,F003,共3页
文摘
分析了常用的基于词典的汉语分词方法应用于中文搜索引擎开发中的不足,提出基于字表的中文搜索引擎分词系统,并在索引、查询、排除歧义等方面进行了设计和实现。
关键词
字表
中文搜索引擎
分词系统
设计
中文信息处理
INTERNET
Keywords
Chinese;Search engines;Word segmentation;Character table;Query
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种基于概率模型的分词系统
被引量:
16
4
作者
李家福
张亚非
机构
解放军理工大学通信工程学院
解放军理工大学理学院
出处
《系统仿真学报》
CAS
CSCD
2002年第5期544-546,550,共4页
基金
国家自然科学基金项目(编号: 69975024)
国家自然科学基金重点项目(编号: 69931040)
文摘
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectation- Maximization)算法,最后给出了一个基于本模型的汉语文本处理仿真系统。
关键词
概率模型
分词系统
EM算法
语料库
系统
仿真
汉语自动
分词
中文信息处理
Keywords
word segmentation
EM algorithm
corpus
HMM, system simulation
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于神经网络的汉语自动分词系统的设计与分析
被引量:
30
5
作者
尹锋
机构
湖南省科技信息研究所
出处
《情报学报》
CSSCI
北大核心
1998年第1期41-50,共10页
文摘
应用神经网络进行汉语自动分词研究是中文信息处理领域的重要课题。本文从分析神经网络的一个主要模型和算法入手,阐述了基于神经网络的汉语自动分词系统的设计方法,较详细地介绍了该系统的实验结果,并给出了必要的分析。
关键词
神经网络
汉语
分词
分词系统
设计
Keywords
Chinese word segmenting,neural network.
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
现代汉语分词系统通用接口设计与实现
被引量:
6
6
作者
娄珽
宋柔
李卫亮
罗智勇
机构
北京工业大学
北京语言文化大学
出处
《中文信息学报》
CSCD
北大核心
2001年第5期1-7,共7页
基金
8 6 3计划(86 3- 30 6 -ZD0 3 - 0 4- 2 )
国家自然科学基金 (6 9882 0 0 1)
文摘
现代汉语文本自动分词是中文信息处理的重要基石 ,为此提供一个通用的分词接口是非常重要的。本文提出了通用分词接口的目标 ,论述了它的原理和设计方案。
关键词
中文信息处理
汉语
分词系统
通用接口
文本校对
信息检索
程序设计
Keywords
Chinese information processing
Chinese word segmentation
general purpose interface
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
书面汉语自动分词专家系统设计原理
被引量:
30
7
作者
何克抗
徐辉
孙波
机构
北京师范大学现代教育技术研究所
出处
《中文信息学报》
CSCD
1991年第2期1-14,28,共15页
基金
国家自然科学基金
文摘
本文深入地分析了歧义切分字段产生的根源和性质,把歧义字段从性质上划分为四类,并给出了消除每一类歧义切分字段的有效方法。在对歧义字段进行统计分析的基础上提出了切分精度的“四级指标体系”,井论证了专家系统方法是实现自动分词系统的最佳方案。
关键词
汉语自动
分词
分词系统
歧义现象
系统
设计原理
字串
语义问题
分词
方法
语法分析
自然语言理解
句子意义
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一个自动分词分类系统的实现
被引量:
14
8
作者
潘有能
机构
南京大学信息管理系
出处
《情报学报》
CSSCI
北大核心
2002年第1期38-41,共4页
文摘
本文介绍一个自动分词分类系统的实现过程。该系统采用“后控词表分词法” ,解决了词典分词法中词典构造困难、更新滞后的问题 ,提高了主题词标引的质量和效率 ,并通过对词表分类法的完善和优化 。
关键词
PDCS
后控词表
分词
法
词表分类法
公安文献自动
分词
分类
系统
主题词标引
主题词表
Keywords
PDCS,subsequent control table syncopation technique,table classification technique.
分类号
G354 [文化科学—情报学]
在线阅读
下载PDF
职称材料
题名
基于矩阵约束法的中文分词研究
被引量:
11
9
作者
张素智
刘放美
机构
郑州轻工业学院计算机与通信工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第15期98-100,共3页
基金
国家"863"计划基金资助项目(2004AAZZ420)
文摘
分词识别和歧义消除是影响信息检索系统准确度的重要因素,该文提出了一种基于语法和语义的使用约束矩阵的中文分词算法。该算法建立在语法和句法的基础上,从语境角度分析歧义字段,提高分词准确率。系统可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,并得到一个词典。再用《现代汉语语法信息词典》进行处理,实验结果显示分词准确率能提高10%左右。
关键词
中文
分词
矩阵约束
歧义消除
分词系统
Keywords
Chinese word
matrix restraint
disambiguation word
segmentation system
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
三字歧义链自动分词方法
被引量:
4
10
作者
张翠英
亢临生
机构
山西大学信息管理系
山西大学计算中心
出处
《情报学报》
CSSCI
北大核心
1998年第3期203-207,共5页
文摘
歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种在最大匹配法基础上,根据大量的真实语料中出现的歧义现象,把可能产生歧义切分的词进行特性分类。
关键词
歧义
分词系统
三字歧义链
自动
分词
信息处理
Keywords
ambiguity,characteristics in word segmentation,word segmentation system.
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
自适应分词算法中的未登录词识别技术研究
被引量:
5
11
作者
程冲
黄水清
机构
南京农业大学信息科技学院
出处
《情报学报》
CSSCI
北大核心
2009年第4期530-536,共7页
文摘
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题。在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%。
关键词
汉语
分词
未登录词识别
交集型歧义
汉语
分词系统
Keywords
Chinese segmentation
unlisted words identification
crossing ambiguity
Chinese segmentation system
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
TP316.7 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
书面汉语自动分词的“生成——测试”方法
被引量:
11
12
作者
黄祥喜
机构
吉林大学计算机科学系
出处
《中文信息学报》
CSCD
1989年第4期42-49,共8页
文摘
词链现象是书面汉语自动分词的困难所在,本文针对词链现象的复杂性,提出了一种“生成——测试”分词法。这种方法以知识为基础,它通过词典的动态化、分词知识的分布化、分词系统和句法语义系统的协同工作等手段实现了词链的有效切分和汉语句子切分与理解(生成格结构)的并行。“生成——测试”方法反映了人的分词和理解过程。
关键词
汉语自动
分词
分词系统
字串
汉语句子
协同工作
句法语义
格结构
分词
方法
语义分析
扩充转移网络
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于K近邻分类算法的涉恐信息过滤模型研究
被引量:
13
13
作者
唐华
杨解君
王俊
黄炜
机构
南京工业大学安全科学与工程学院
湖北工业大学信息技术中心
出处
《情报杂志》
CSSCI
北大核心
2018年第3期64-70,共7页
基金
湖北省教育厅人文社会科学研究青年项目"风险管理视角下的信息安全"(编号:15Q065)
国家自然科学基金项目"微博环境下实时主动感知网络舆情事件的多核方法研究"(编号:71303075)研究成果之一
文摘
[目的/意义]针对现有的涉恐信息过滤在语义过滤和主题无关性方面还存在一定的不足,建立了基于K近邻分类算法的涉恐信息过滤模型。[方法/过程]通过采用K近邻分类算法、TF-IDF分词系统和语义相似度计算建立了一种新的涉恐信息过滤模型,并从爬取主题的一次过滤到关键词匹配的二次过滤,最终进行语义分析的三次过滤,构建了一套完整的涉恐信息过滤体系。[结果/结论]本模型能够快速高效地获取涉恐信息,克服了语义和主题无关性等因素的干扰,较于传统的涉恐信息过滤在查全率和查准率上面有了很大的提升。
关键词
涉恐信息
信息过滤
K近邻算法
分词系统
语义相似度
Keywords
Information relating to terrorism Information filtering
K-nearest neighbor algorithm
Word segmentation
system
Semantic similarity
分类号
G350 [文化科学—情报学]
在线阅读
下载PDF
职称材料
题名
基于复杂网络的大型互联网企业高管分析
14
作者
郑喜亮
苏湛
艾均
机构
上海理工大学 光电信息与计算机工程学院
出处
《上海理工大学学报》
CAS
CSCD
北大核心
2019年第5期461-468,共8页
文摘
采用复杂网络分析特定属性群体。以互联网企业高管简历作为原始数据,以高管姓名和分词系统抽取实体关键词作为节点,个人简历中是否包含关键词作为连接边的条件进行建模,使用复杂网络理论对所建网络进行分析。实验结果表明,部分关键词节点度值存在明显差异,归一化后的特征向量明显大于介数。通过统计分析发现,美国和北京相关背景很重要,同时对比归一化后的介数和特征向量证明两点:第一,社会关系中个体涉及的实体对象比在社会关系网络中的位置更为重要;第二,跨行业跳槽人员的职业背景经历可能会给其在新的企业中的个人发展带来不利影响。
关键词
复杂网络
分词系统
中心性
Keywords
complex networks
segment system
centrality
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
预见与协作是飞跃的翅膀——记北京计算机界与语言学界合作讨论会
15
出处
《语文建设》
CSSCI
北大核心
1989年第5期60-62,共3页
文摘
1989年7月13日,中文信息学会计算语言学专业委员会与北京部分语言学家共聚清华大学,就如何为推进我国中文信息处理事业携手合作展开了讨论。计算机界的专家同语言文字学者坐在一起讨论上述问题,在北京已经有过几次了,这次会议的意义在于双方经过几次接触之后,话题从为什么要合作、合作的可能性、必然性,转入到怎样进行合作等实质性问题。
关键词
中文信息处理
计算机界
计算语言学
分词系统
自然语言理解
自动
分词
自动抽取
句法分析
机器翻译
系统
现代工具
分类号
H19 [语言文字—汉语]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向信息检索的自适应中文分词系统
曹勇刚
曹羽中
金茂忠
刘超
《软件学报》
EI
CSCD
北大核心
2006
49
在线阅读
下载PDF
职称材料
2
现代汉语通用分词系统中歧义切分的实用技术
罗智勇
宋柔
《计算机研究与发展》
EI
CSCD
北大核心
2006
19
在线阅读
下载PDF
职称材料
3
基于字表的中文搜索引擎分词系统的设计与实现
丁承
邵志清
《计算机工程》
CAS
CSCD
北大核心
2001
15
在线阅读
下载PDF
职称材料
4
一种基于概率模型的分词系统
李家福
张亚非
《系统仿真学报》
CAS
CSCD
2002
16
在线阅读
下载PDF
职称材料
5
基于神经网络的汉语自动分词系统的设计与分析
尹锋
《情报学报》
CSSCI
北大核心
1998
30
在线阅读
下载PDF
职称材料
6
现代汉语分词系统通用接口设计与实现
娄珽
宋柔
李卫亮
罗智勇
《中文信息学报》
CSCD
北大核心
2001
6
在线阅读
下载PDF
职称材料
7
书面汉语自动分词专家系统设计原理
何克抗
徐辉
孙波
《中文信息学报》
CSCD
1991
30
在线阅读
下载PDF
职称材料
8
一个自动分词分类系统的实现
潘有能
《情报学报》
CSSCI
北大核心
2002
14
在线阅读
下载PDF
职称材料
9
基于矩阵约束法的中文分词研究
张素智
刘放美
《计算机工程》
CAS
CSCD
北大核心
2007
11
在线阅读
下载PDF
职称材料
10
三字歧义链自动分词方法
张翠英
亢临生
《情报学报》
CSSCI
北大核心
1998
4
在线阅读
下载PDF
职称材料
11
自适应分词算法中的未登录词识别技术研究
程冲
黄水清
《情报学报》
CSSCI
北大核心
2009
5
在线阅读
下载PDF
职称材料
12
书面汉语自动分词的“生成——测试”方法
黄祥喜
《中文信息学报》
CSCD
1989
11
在线阅读
下载PDF
职称材料
13
基于K近邻分类算法的涉恐信息过滤模型研究
唐华
杨解君
王俊
黄炜
《情报杂志》
CSSCI
北大核心
2018
13
在线阅读
下载PDF
职称材料
14
基于复杂网络的大型互联网企业高管分析
郑喜亮
苏湛
艾均
《上海理工大学学报》
CAS
CSCD
北大核心
2019
0
在线阅读
下载PDF
职称材料
15
预见与协作是飞跃的翅膀——记北京计算机界与语言学界合作讨论会
《语文建设》
CSSCI
北大核心
1989
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部