期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
6
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于无指导学习策略的无词表条件下的汉语自动分词
被引量:
37
1
作者
孙茂松
肖明
邹嘉彦
《计算机学报》
EI
CSCD
北大核心
2004年第6期736-742,共7页
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统...
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统计量md ,并引入了峰和谷的概念 ,进而设计了相应的分词算法 .大规模开放测试结果显示 ,该算法关于字间位置的分词正确率为 85 .88% ,较单独使用互信息或t 测试差分别提高了 2 4 7%和 5 6 6 % .
展开更多
关键词
无指导学习
汉语自动分词
汉字Bigram
互信息
t-测试差
线性叠加
统计量
中文信息处理应用系统
在线阅读
下载PDF
职称材料
利用汉字二元语法关系解决汉语自动分词中的交集型歧义
被引量:
66
2
作者
孙茂松
黄昌宁
+2 位作者
邹嘉彦
陆方
沈达阳
《计算机研究与发展》
EI
CSCD
北大核心
1997年第5期332-339,共8页
本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为相关计算的基础,直接从生语料库中自动习得.初步的实验结果显示,可以正确处理...
本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为相关计算的基础,直接从生语料库中自动习得.初步的实验结果显示,可以正确处理90.
展开更多
关键词
汉语
自动分词
汉字二元语法
计算机语言学
在线阅读
下载PDF
职称材料
利用上下文信息解决汉语自动分词中的组合型歧义
被引量:
24
3
作者
肖云
孙茂松
邹嘉彦
《计算机工程与应用》
CSCD
北大核心
2001年第19期87-89,106,共4页
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分...
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。
展开更多
关键词
自然语言处理
中文计算
汉语自动分词
组合型歧义切分字段
中文信息处理
在线阅读
下载PDF
职称材料
机器学习在汉语关联词语识别中的应用
被引量:
7
4
作者
高维君
姚天顺
+2 位作者
黎邦洋
陈伟光
邹嘉彦
《中文信息学报》
CSCD
北大核心
2000年第3期1-8,共8页
关联词语在一些汉语议论文章中占很大的比重 ,因而 ,对于此类汉语文章的分析 ,关联词可以起到非常重要的作用。本文主要讨论如何将机器学习应用于汉语关联词的歧义辨别———原因 ,方法和效果。我们在已经加工完毕的 80篇汉语语料的基础...
关联词语在一些汉语议论文章中占很大的比重 ,因而 ,对于此类汉语文章的分析 ,关联词可以起到非常重要的作用。本文主要讨论如何将机器学习应用于汉语关联词的歧义辨别———原因 ,方法和效果。我们在已经加工完毕的 80篇汉语语料的基础上 ,抽取了用于机器学习的训练集和测试集 ,并使用C4.5进行了测试 ,识别正确率在 80 %以上。在文章的后面 ,我们还从语言学的角度对机器学习的结果进行了解释和分析。
展开更多
关键词
机器学习
关联词语识别
语料库
汉语
歧义问题
在线阅读
下载PDF
职称材料
高频最大交集型歧义切分字段在汉语自动分词中的作用
被引量:
51
5
作者
孙茂松
左正平
邹嘉彦
《中文信息学报》
CSCD
北大核心
1999年第1期27-34,共8页
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强...
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。
展开更多
关键词
中文信息处理
汉语自动分词
歧义切分字段
在线阅读
下载PDF
职称材料
基于k-近似的汉语词类自动判定
被引量:
9
6
作者
孙茂松
左正平
邹嘉彦
《计算机学报》
EI
CSCD
北大核心
2000年第2期166-170,共5页
生词处理在面向大规模真实文本的自然语言处理各项应用中占有重要位置 .词类自动判定就是对词类未知的生词由机器自动赋予一个合适的词类标记 .文中提出了一种基于 k-近似的词类自动判定算法 ,并在一个 1亿字汉语语料库及一个 6 0万字...
生词处理在面向大规模真实文本的自然语言处理各项应用中占有重要位置 .词类自动判定就是对词类未知的生词由机器自动赋予一个合适的词类标记 .文中提出了一种基于 k-近似的词类自动判定算法 ,并在一个 1亿字汉语语料库及一个 6 0万字经过人工分词和词类标注的汉语熟语料库的支持下 ,构造了相应实验 .实验结果初步显示 ,本算法对汉语开放词类——名词、动词、形容词的词类自动判定平均正确率分别为 99.2 1%、84.73%、70 .6 7% 。
展开更多
关键词
词类自动判定
生词处理
自然语言处理
汉语
在线阅读
下载PDF
职称材料
题名
基于无指导学习策略的无词表条件下的汉语自动分词
被引量:
37
1
作者
孙茂松
肖明
邹嘉彦
机构
清华
大学
智能技术与系统国家重点实验室
香港城市大学语言资讯科学研究中心
出处
《计算机学报》
EI
CSCD
北大核心
2004年第6期736-742,共7页
基金
国家自然科学基金 ( 60 0 83 0 0 5 )资助
文摘
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统计量md ,并引入了峰和谷的概念 ,进而设计了相应的分词算法 .大规模开放测试结果显示 ,该算法关于字间位置的分词正确率为 85 .88% ,较单独使用互信息或t 测试差分别提高了 2 4 7%和 5 6 6 % .
关键词
无指导学习
汉语自动分词
汉字Bigram
互信息
t-测试差
线性叠加
统计量
中文信息处理应用系统
Keywords
Algorithms
Computer applications
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
利用汉字二元语法关系解决汉语自动分词中的交集型歧义
被引量:
66
2
作者
孙茂松
黄昌宁
邹嘉彦
陆方
沈达阳
机构
清华
大学
计算机
科学
与技术系
香港城市大学语言资讯科学研究中心
出处
《计算机研究与发展》
EI
CSCD
北大核心
1997年第5期332-339,共8页
文摘
本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为相关计算的基础,直接从生语料库中自动习得.初步的实验结果显示,可以正确处理90.
关键词
汉语
自动分词
汉字二元语法
计算机语言学
Keywords
Chinese word segmentation, bigram, mutual information,difference of t test
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
利用上下文信息解决汉语自动分词中的组合型歧义
被引量:
24
3
作者
肖云
孙茂松
邹嘉彦
机构
清华
大学
智能技术与系统国家重点实验室
香港城市大学语言资讯科学研究中心
出处
《计算机工程与应用》
CSCD
北大核心
2001年第19期87-89,106,共4页
基金
国家重点基础研究发展规划项目资助课题(课题编号:G1998030507)
文摘
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。
关键词
自然语言处理
中文计算
汉语自动分词
组合型歧义切分字段
中文信息处理
Keywords
natural language processing,Chinese computing,Chinese word segmentation,Combinatorial ambiguity
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
机器学习在汉语关联词语识别中的应用
被引量:
7
4
作者
高维君
姚天顺
黎邦洋
陈伟光
邹嘉彦
机构
东北
大学
计算机
科学
研究
所
香港城市大学语言资讯科学研究中心
出处
《中文信息学报》
CSCD
北大核心
2000年第3期1-8,共8页
文摘
关联词语在一些汉语议论文章中占很大的比重 ,因而 ,对于此类汉语文章的分析 ,关联词可以起到非常重要的作用。本文主要讨论如何将机器学习应用于汉语关联词的歧义辨别———原因 ,方法和效果。我们在已经加工完毕的 80篇汉语语料的基础上 ,抽取了用于机器学习的训练集和测试集 ,并使用C4.5进行了测试 ,识别正确率在 80 %以上。在文章的后面 ,我们还从语言学的角度对机器学习的结果进行了解释和分析。
关键词
机器学习
关联词语识别
语料库
汉语
歧义问题
Keywords
Discourse marker Machine learning C4.5 Discourse analysis Corpus
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
高频最大交集型歧义切分字段在汉语自动分词中的作用
被引量:
51
5
作者
孙茂松
左正平
邹嘉彦
机构
清华
大学
智能技术与系统国家重点实验室
香港城市大学语言资讯科学研究中心
出处
《中文信息学报》
CSCD
北大核心
1999年第1期27-34,共8页
基金
国家自然科学基金
文摘
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。
关键词
中文信息处理
汉语自动分词
歧义切分字段
Keywords
Chinese information processing Chinese word segmentation maximal crossing ambiguities with high frequency memory based disambiguation strategy
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于k-近似的汉语词类自动判定
被引量:
9
6
作者
孙茂松
左正平
邹嘉彦
机构
清华
大学
智能技术与系统国家重点实验室
香港城市大学语言资讯科学研究中心
出处
《计算机学报》
EI
CSCD
北大核心
2000年第2期166-170,共5页
基金
国家自然科学基金!( 6970 5 0 0 5 )
文摘
生词处理在面向大规模真实文本的自然语言处理各项应用中占有重要位置 .词类自动判定就是对词类未知的生词由机器自动赋予一个合适的词类标记 .文中提出了一种基于 k-近似的词类自动判定算法 ,并在一个 1亿字汉语语料库及一个 6 0万字经过人工分词和词类标注的汉语熟语料库的支持下 ,构造了相应实验 .实验结果初步显示 ,本算法对汉语开放词类——名词、动词、形容词的词类自动判定平均正确率分别为 99.2 1%、84.73%、70 .6 7% 。
关键词
词类自动判定
生词处理
自然语言处理
汉语
Keywords
part of speech identification, unknown word processing, Chinese information processing, natural language processing, artificial intelligence
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于无指导学习策略的无词表条件下的汉语自动分词
孙茂松
肖明
邹嘉彦
《计算机学报》
EI
CSCD
北大核心
2004
37
在线阅读
下载PDF
职称材料
2
利用汉字二元语法关系解决汉语自动分词中的交集型歧义
孙茂松
黄昌宁
邹嘉彦
陆方
沈达阳
《计算机研究与发展》
EI
CSCD
北大核心
1997
66
在线阅读
下载PDF
职称材料
3
利用上下文信息解决汉语自动分词中的组合型歧义
肖云
孙茂松
邹嘉彦
《计算机工程与应用》
CSCD
北大核心
2001
24
在线阅读
下载PDF
职称材料
4
机器学习在汉语关联词语识别中的应用
高维君
姚天顺
黎邦洋
陈伟光
邹嘉彦
《中文信息学报》
CSCD
北大核心
2000
7
在线阅读
下载PDF
职称材料
5
高频最大交集型歧义切分字段在汉语自动分词中的作用
孙茂松
左正平
邹嘉彦
《中文信息学报》
CSCD
北大核心
1999
51
在线阅读
下载PDF
职称材料
6
基于k-近似的汉语词类自动判定
孙茂松
左正平
邹嘉彦
《计算机学报》
EI
CSCD
北大核心
2000
9
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部