期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
Effective Analysis of Chinese Word-Segmentation Accuracy
1
作者 MA Weiyin 《现代电子技术》 2007年第4期108-110,共3页
Automatic word-segmentation is widely used in the ambiguity cancellation when processing large-scale real text,but during the process of unknown word detection in Chinese word segmentation,many detected word candidate... Automatic word-segmentation is widely used in the ambiguity cancellation when processing large-scale real text,but during the process of unknown word detection in Chinese word segmentation,many detected word candidates are invalid.These false unknown word candidates deteriorate the overall segmentation accuracy,as it will affect the segmentation accuracy of known words.In this paper,we propose several methods for reducing the difficulties and improving the accuracy of the word-segmentation of written Chinese,such as full segmentation of a sentence,processing the duplicative word,idioms and statistical identification for unknown words.A simulation shows the feasibility of our proposed methods in improving the accuracy of word-segmentation of Chinese. 展开更多
关键词 中文信息处理 汉字处理 自动分割 效率分析
在线阅读 下载PDF
全二分最大匹配快速分词算法 被引量:39
2
作者 李振星 徐泽平 +1 位作者 唐卫清 唐荣锡 《计算机工程与应用》 CSCD 北大核心 2002年第11期106-109,共4页
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一... 分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。 展开更多
关键词 全二分最大匹配快速分词算法 自动分词 中文信息处理 数据结构
在线阅读 下载PDF
一种基于后缀数组的无词典分词方法 被引量:14
3
作者 张长利 赫枫龄 左万利 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2004年第4期548-553,共6页
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要... 提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理. 展开更多
关键词 无词典分词 数组 文档 散列表 计算速度 算法 中文信息处理 法能 频度 实验
在线阅读 下载PDF
基于统计的中文地名识别 被引量:49
4
作者 黄德根 岳广玲 杨元生 《中文信息学报》 CSCD 北大核心 2003年第2期36-41,共6页
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的... 本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整 ,系统闭式召回率和精确率分别为 90 2 4 %和 93 14 % ,开式召回率和精确率分别达 86 86 %和 91 4 8%。 展开更多
关键词 计算机应用 中文信息处理 中文地名识别 构词可信度 接续可信度 自动分词
在线阅读 下载PDF
一种组合型中文分词方法 被引量:11
5
作者 郑晓刚 韩立新 +1 位作者 白书奎 曾晓勤 《计算机应用与软件》 CSCD 北大核心 2012年第7期26-28,39,共4页
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。
关键词 中文信息处理 中文自动分词 组合型分词
在线阅读 下载PDF
基于FFT的网页正文提取算法研究与实现 被引量:15
6
作者 李蕾 王劲林 +1 位作者 白鹤 胡晶晶 《计算机工程与应用》 CSCD 北大核心 2007年第30期148-151,共4页
主要研究"正文式"网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特... 主要研究"正文式"网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特征,将问题转化为——给定一个底层网页的HTML源文件,求解最佳的正文区间;从而提出了一种基于快速傅立叶变换的网页正文内容提取算法。采用窗口分段的方法,利用统计学原理和FFT,得出每个可能区间的权值,从而求解出最佳正文区间。实验结果表明,此种方法能比较准确的对"正文式"网页的有效信息进行提取。 展开更多
关键词 中文信息处理 WEB页面 信息提取 页面结构 FFT 区域分割
在线阅读 下载PDF
一种中文文档的非受限无词典抽词方法 被引量:28
7
作者 金翔宇 孙正兴 张福炎 《中文信息学报》 CSCD 北大核心 2001年第6期33-39,共7页
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、... 本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。 展开更多
关键词 中文信息处理 自动分词 非受限无词典抽词 汉字结构模式 中文文档 抽词速度
在线阅读 下载PDF
中文地名的自动识别 被引量:10
8
作者 黄德根 孙迎红 《计算机工程》 CAS CSCD 北大核心 2006年第3期220-222,共3页
以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;为提高识别的召回率,采用了两级处理策略,其中每级采用不同的识别方法。开放... 以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;为提高识别的召回率,采用了两级处理策略,其中每级采用不同的识别方法。开放测试结果表明,召回率为92.23%,精确率为83.88%。 展开更多
关键词 地名识别 规则量化 自动分词 中文信息处理
在线阅读 下载PDF
基于规则和统计的中文自动文摘系统 被引量:21
9
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2006年第5期10-16,共7页
自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成... 自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成的文摘初稿进行可读性加工处理,使最终生成的文摘更具可读性。最后提出了一种新的文摘评价方法(F-new-m easure)对系统进行测试。系统测试表明该方法在不同文摘压缩率时,评价值均较为稳定。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 主题划分 可读性 评价
在线阅读 下载PDF
自动文摘系统中的主题划分问题研究 被引量:13
10
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2005年第6期28-35,共8页
随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空... 随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.2%,对单主题文章的主题划分准确率为99.1%。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 段落相似度 主题划分
在线阅读 下载PDF
基于最大熵模型的交集型切分歧义消解 被引量:6
11
作者 张锋 樊孝忠 《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第7期590-593,共4页
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过... 利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月《人民日报》中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%. 展开更多
关键词 中文信息处理 汉语自动分词 交集型歧义 最大熵模型
在线阅读 下载PDF
汉语文本中交集型切分歧义的分类处理 被引量:3
12
作者 李凯 左万利 吕巍 《小型微型计算机系统》 CSCD 北大核心 2004年第8期1486-1490,共5页
自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准... 自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准确性 .该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中 .实验效果表明 。 展开更多
关键词 自动分词 交集型歧义字段 宏结构 类别
在线阅读 下载PDF
多次Hash快速分词算法 被引量:22
13
作者 张科 《计算机工程与设计》 CSCD 北大核心 2007年第7期1716-1718,共3页
中文分词是中文信息处理的一个重要的组成部分。一些应用不仅要求有较高的准确率,速度也是至关重要的。通过对已有分词算法的分析,尤其是对快速分词算法的分析,提出了一种新的词典结构,并根据新的词典结构提出新的分词算法。该算法不仅... 中文分词是中文信息处理的一个重要的组成部分。一些应用不仅要求有较高的准确率,速度也是至关重要的。通过对已有分词算法的分析,尤其是对快速分词算法的分析,提出了一种新的词典结构,并根据新的词典结构提出新的分词算法。该算法不仅实现对词首字的Hash查找,也实现了词的其它字的Hash查找。理论分析和实验结果表明,该算法在速度上优于现有的其它分词算法。 展开更多
关键词 中文分词 中文信息处理 哈希 数据结构 时间复杂度
在线阅读 下载PDF
基于熵权的图像分割性能灰色评判 被引量:3
14
作者 俞峰 杨成梧 《兵工学报》 EI CAS CSCD 北大核心 2008年第8期930-934,共5页
为了克服传统的灰色综合评判中主观赋权的局限性,借助于信息工程学中的熵的概念,根据各评价指标的差异程度来修正权重,建立了一种新的综合评判模型——熵权灰色综合评判模型,并将该模型应用到图像分割性能评判当中。讨论影响图像分割性... 为了克服传统的灰色综合评判中主观赋权的局限性,借助于信息工程学中的熵的概念,根据各评价指标的差异程度来修正权重,建立了一种新的综合评判模型——熵权灰色综合评判模型,并将该模型应用到图像分割性能评判当中。讨论影响图像分割性能的各种因素,从评判的灰色性入手,运用灰色数学的原理和方法对各因素从理论上进行定量分析。对因素权重的确定,不是单凭主观判断,而是采用熵权系数法进行客观计算。评价对象的固有信息得到充分利用。避免了以往评价中只强调过程的某几项少数指标而忽略其它指标的缺点。因此,该模型具有更好的有效性和实用性。 展开更多
关键词 信息处理技术 信息融合 自动目标识别 图像分割 灰色数学 综合评判
在线阅读 下载PDF
一种基于词编码的中文文档格式 被引量:1
15
作者 焦慧 刘迁 贾惠波 《计算机科学》 CSCD 北大核心 2008年第10期162-164,共3页
分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中... 分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中文词的编码方法,以每个词作为一个单位,对词进行编码。此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路。采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果。 展开更多
关键词 中文信息处理 词典码 文档格式 自动分词
在线阅读 下载PDF
一种基于双哈希二叉树的中文分词词典机制 被引量:4
16
作者 罗洋 《计算机应用与软件》 CSCD 北大核心 2013年第5期251-253,306,共4页
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说... 汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。 展开更多
关键词 中文信息处理 自动分词 词典 哈希 二叉树 索引
在线阅读 下载PDF
无词典中文特征词自动抽取的桥接模式滤除算法 被引量:1
17
作者 宣照国 党延忠 《计算机应用研究》 CSCD 北大核心 2007年第7期168-170,共3页
提出一种不依赖于词典的抽取文本特征词的桥接模式滤除算法(BPFA)。该算法统计文本中的汉字结合模式及其出现频率,通过消除桥接频率得到模式的支持频率,并依此来判断和提取正确词语。实验结果显示,BPFA能够有效提高分词结果的查准率和... 提出一种不依赖于词典的抽取文本特征词的桥接模式滤除算法(BPFA)。该算法统计文本中的汉字结合模式及其出现频率,通过消除桥接频率得到模式的支持频率,并依此来判断和提取正确词语。实验结果显示,BPFA能够有效提高分词结果的查准率和查全率。该算法适用于对词语频率敏感的中文信息处理应用,如文本分类、文本自动摘要等。 展开更多
关键词 自动分词 桥接模式滤除算法 中文信息处理
在线阅读 下载PDF
汉语文本形式结构分析及其标引算法 被引量:5
18
作者 单永明 《中文信息学报》 CSCD 北大核心 2002年第2期14-19,26,共7页
本文从形式化的角度讨论了汉语文本的形式结构及有关的基本概念 ,给出了文本的标题、子标题、段落及其层次结构的一种划分与标记方法 ,提出了规范的与准规范的文本等概念 ,并以此为基础讨论了文本形式结构的标引问题 ,给出了两个标引算法。
关键词 中文信息处理 文本结构分析 标引树 自动标引算法 汉语文本分析 文本形式结构
在线阅读 下载PDF
一类规范文本篇章结构的自动标引 被引量:4
19
作者 单永明 《中文信息学报》 CSCD 北大核心 1998年第4期47-52,共6页
本文通过对汉语文本中标题和段的级、标题的型等概念的描述与分析,讨论了汉语文本篇章结构的标引问题,提出了规范文本的概念,并给出了规范文本篇章结构的一种标记方法,在此基础上,讨论并实现了规范文本篇章结构的自动标引,给出了... 本文通过对汉语文本中标题和段的级、标题的型等概念的描述与分析,讨论了汉语文本篇章结构的标引问题,提出了规范文本的概念,并给出了规范文本篇章结构的一种标记方法,在此基础上,讨论并实现了规范文本篇章结构的自动标引,给出了标引算法。 展开更多
关键词 中文信息处理 文本自动分析 自动标引 篇章结构
在线阅读 下载PDF
中文文语转换引擎SmartTalk研究与实现
20
作者 潘春华 武港山 《计算机应用研究》 CSCD 北大核心 2004年第4期143-145,共3页
随着汉语日益走向世界以及语音技术的发展,让计算机能讲汉语便自然成为了一种需求。介绍了一种汉语文语转换(TTS:Text—To—Speech),引擎SmartTalk的设计与实现。讨论了用于TTS的汉语语音库和汉语词库的设计,以及基于词库的分词算法和... 随着汉语日益走向世界以及语音技术的发展,让计算机能讲汉语便自然成为了一种需求。介绍了一种汉语文语转换(TTS:Text—To—Speech),引擎SmartTalk的设计与实现。讨论了用于TTS的汉语语音库和汉语词库的设计,以及基于词库的分词算法和基于音库的语音合成。 展开更多
关键词 汉语自动分词 文语转换 语音合成 中文信息处理
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部