检索结果-维普期刊中文期刊服务平台

基于无指导学习策略的无词表条件下的汉语自动分词被引量：37: 1; 作者孙茂松肖明邹嘉彦《计算机学报》 EI CSCD 北大核心 2004年第6期736-742,共7页; 探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统... 展开更多; 关键词无指导学习汉语自动分词汉字Bigram 互信息 t-测试差线性叠加统计量中文信息处理应用系统; 在线阅读下载PDF 职称材料

利用汉字二元语法关系解决汉语自动分词中的交集型歧义被引量：66: 2; 作者孙茂松黄昌宁 +2 位作者邹嘉彦陆方沈达阳《计算机研究与发展》 EI CSCD 北大核心 1997年第5期332-339,共8页; 本文提出了一种利用句内相邻字之间的互信息及ｔ－测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法．汉字二元语法关系（ｂｉｇｒａｍ）为相关计算的基础，直接从生语料库中自动习得．初步的实验结果显示，可以正确处理... 展开更多; 关键词汉语自动分词汉字二元语法计算机语言学; 在线阅读下载PDF 职称材料

利用上下文信息解决汉语自动分词中的组合型歧义被引量：24: 3; 作者肖云孙茂松邹嘉彦《计算机工程与应用》 CSCD 北大核心 2001年第19期87-89,106,共4页; 组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分... 展开更多; 关键词自然语言处理中文计算汉语自动分词组合型歧义切分字段中文信息处理; 在线阅读下载PDF 职称材料

机器学习在汉语关联词语识别中的应用被引量：7: 4; 作者高维君姚天顺 +2 位作者黎邦洋陈伟光邹嘉彦《中文信息学报》 CSCD 北大核心 2000年第3期1-8,共8页; 关联词语在一些汉语议论文章中占很大的比重 ,因而 ,对于此类汉语文章的分析 ,关联词可以起到非常重要的作用。本文主要讨论如何将机器学习应用于汉语关联词的歧义辨别———原因 ,方法和效果。我们在已经加工完毕的 80篇汉语语料的基础... 展开更多; 关键词机器学习关联词语识别语料库汉语歧义问题; 在线阅读下载PDF 职称材料

高频最大交集型歧义切分字段在汉语自动分词中的作用被引量：51: 5; 作者孙茂松左正平邹嘉彦《中文信息学报》 CSCD 北大核心 1999年第1期27-34,共8页; 交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念，并将之区分为真、伪两种主要类型。考察一个约１亿字的汉语语料库，我们发现，最大交集型歧义切分字段的高频部分表现出相当强... 展开更多; 关键词中文信息处理汉语自动分词歧义切分字段; 在线阅读下载PDF 职称材料

基于k-近似的汉语词类自动判定被引量：9: 6; 作者孙茂松左正平邹嘉彦《计算机学报》 EI CSCD 北大核心 2000年第2期166-170,共5页; 生词处理在面向大规模真实文本的自然语言处理各项应用中占有重要位置 .词类自动判定就是对词类未知的生词由机器自动赋予一个合适的词类标记 .文中提出了一种基于 k-近似的词类自动判定算法 ,并在一个 1亿字汉语语料库及一个 6 0万字... 展开更多; 关键词词类自动判定生词处理自然语言处理汉语; 在线阅读下载PDF 职称材料

题名基于无指导学习策略的无词表条件下的汉语自动分词被引量：37: 1; 作者孙茂松肖明邹嘉彦; 机构清华大学智能技术与系统国家重点实验室香港城市大学语言资讯科学研究中心; 出处《计算机学报》 EI CSCD 北大核心 2004年第6期736-742,共7页; 基金国家自然科学基金 ( 60 0 83 0 0 5 )资助; 文摘探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统计量md ,并引入了峰和谷的概念 ,进而设计了相应的分词算法 .大规模开放测试结果显示 ,该算法关于字间位置的分词正确率为 85 .88% ,较单独使用互信息或t 测试差分别提高了 2 4 7%和 5 6 6 % .; 关键词无指导学习汉语自动分词汉字Bigram 互信息 t-测试差线性叠加统计量中文信息处理应用系统; Keywords Algorithms Computer applications; 分类号 TP391.12 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名利用汉字二元语法关系解决汉语自动分词中的交集型歧义被引量：66: 2; 作者孙茂松黄昌宁邹嘉彦陆方沈达阳; 机构清华大学计算机科学与技术系香港城市大学语言资讯科学研究中心; 出处《计算机研究与发展》 EI CSCD 北大核心 1997年第5期332-339,共8页; 文摘本文提出了一种利用句内相邻字之间的互信息及ｔ－测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法．汉字二元语法关系（ｂｉｇｒａｍ）为相关计算的基础，直接从生语料库中自动习得．初步的实验结果显示，可以正确处理９０．; 关键词汉语自动分词汉字二元语法计算机语言学; Keywords Chinese word segmentation, bigram, mutual information,difference of t test; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名利用上下文信息解决汉语自动分词中的组合型歧义被引量：24: 3; 作者肖云孙茂松邹嘉彦; 机构清华大学智能技术与系统国家重点实验室香港城市大学语言资讯科学研究中心; 出处《计算机工程与应用》 CSCD 北大核心 2001年第19期87-89,106,共4页; 基金国家重点基础研究发展规划项目资助课题(课题编号:G1998030507); 文摘组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。; 关键词自然语言处理中文计算汉语自动分词组合型歧义切分字段中文信息处理; Keywords natural language processing,Chinese computing,Chinese word segmentation,Combinatorial ambiguity; 分类号 TP391.12 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名机器学习在汉语关联词语识别中的应用被引量：7: 4; 作者高维君姚天顺黎邦洋陈伟光邹嘉彦; 机构东北大学计算机科学研究所香港城市大学语言资讯科学研究中心; 出处《中文信息学报》 CSCD 北大核心 2000年第3期1-8,共8页; 文摘关联词语在一些汉语议论文章中占很大的比重 ,因而 ,对于此类汉语文章的分析 ,关联词可以起到非常重要的作用。本文主要讨论如何将机器学习应用于汉语关联词的歧义辨别———原因 ,方法和效果。我们在已经加工完毕的 80篇汉语语料的基础上 ,抽取了用于机器学习的训练集和测试集 ,并使用C4.5进行了测试 ,识别正确率在 80 %以上。在文章的后面 ,我们还从语言学的角度对机器学习的结果进行了解释和分析。; 关键词机器学习关联词语识别语料库汉语歧义问题; Keywords Discourse marker Machine learning C4.5 Discourse analysis Corpus; 分类号 TP391 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名高频最大交集型歧义切分字段在汉语自动分词中的作用被引量：51: 5; 作者孙茂松左正平邹嘉彦; 机构清华大学智能技术与系统国家重点实验室香港城市大学语言资讯科学研究中心; 出处《中文信息学报》 CSCD 北大核心 1999年第1期27-34,共8页; 基金国家自然科学基金; 文摘交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念，并将之区分为真、伪两种主要类型。考察一个约１亿字的汉语语料库，我们发现，最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性：前４，６１９个的覆盖率为５９．２０％，且覆盖率受领域变化的影响不大。而其中４，２７９个为伪歧义型，覆盖率高达５３．３５％。根据以上分析，我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略，可有效改善实用型非受限汉语自动分词系统的精度。; 关键词中文信息处理汉语自动分词歧义切分字段; Keywords Chinese information processing Chinese word segmentation maximal crossing ambiguities with high frequency memory based disambiguation strategy; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于k-近似的汉语词类自动判定被引量：9: 6; 作者孙茂松左正平邹嘉彦; 机构清华大学智能技术与系统国家重点实验室香港城市大学语言资讯科学研究中心; 出处《计算机学报》 EI CSCD 北大核心 2000年第2期166-170,共5页; 基金国家自然科学基金!( 6970 5 0 0 5 ); 文摘生词处理在面向大规模真实文本的自然语言处理各项应用中占有重要位置 .词类自动判定就是对词类未知的生词由机器自动赋予一个合适的词类标记 .文中提出了一种基于 k-近似的词类自动判定算法 ,并在一个 1亿字汉语语料库及一个 6 0万字经过人工分词和词类标注的汉语熟语料库的支持下 ,构造了相应实验 .实验结果初步显示 ,本算法对汉语开放词类——名词、动词、形容词的词类自动判定平均正确率分别为 99.2 1%、84.73%、70 .6 7% 。; 关键词词类自动判定生词处理自然语言处理汉语; Keywords part of speech identification, unknown word processing, Chinese information processing, natural language processing, artificial intelligence; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于无指导学习策略的无词表条件下的汉语自动分词	孙茂松肖明邹嘉彦	《计算机学报》 EI CSCD 北大核心	2004	37	在线阅读下载PDF 职称材料
2	利用汉字二元语法关系解决汉语自动分词中的交集型歧义	孙茂松黄昌宁邹嘉彦陆方沈达阳	《计算机研究与发展》 EI CSCD 北大核心	1997	66	在线阅读下载PDF 职称材料
3	利用上下文信息解决汉语自动分词中的组合型歧义	肖云孙茂松邹嘉彦	《计算机工程与应用》 CSCD 北大核心	2001	24	在线阅读下载PDF 职称材料
4	机器学习在汉语关联词语识别中的应用	高维君姚天顺黎邦洋陈伟光邹嘉彦	《中文信息学报》 CSCD 北大核心	2000	7	在线阅读下载PDF 职称材料
5	高频最大交集型歧义切分字段在汉语自动分词中的作用	孙茂松左正平邹嘉彦	《中文信息学报》 CSCD 北大核心	1999	51	在线阅读下载PDF 职称材料
6	基于k-近似的汉语词类自动判定	孙茂松左正平邹嘉彦	《计算机学报》 EI CSCD 北大核心	2000	9	在线阅读下载PDF 职称材料