检索结果-维普期刊中文期刊服务平台

一种基于字同现频率的汉语文本主题抽取方法被引量：49: 1; 作者马颖华王永成 +1 位作者苏贵洋张宇萌《计算机研究与发展》 EI CSCD 北大核心 2003年第6期874-878,共5页; 主题抽取是文本自动处理的基础工作之一 ,而主题的抽取一直以分词或者抽词作为第 1步由于汉语词间缺少明显的间隔 ,因此分词和抽词的效果往往不够理想 ,从而在一定程度上影响了主题抽取的质量提出以字为处理单位 ,基于字同现频率的... 展开更多; 关键词自然语言处理主题抽取同现频率; 在线阅读下载PDF 职称材料

基于义原同现频率的汉语词义排歧方法被引量：26: 2; 作者杨尔弘张国清张永奎《计算机研究与发展》 EI CSCD 北大核心 2001年第7期833-838,共6页; 词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个... 展开更多; 关键词自然语言处理知网义原同现频率汉语词义排歧语料库; 在线阅读下载PDF 职称材料

基于词同现频率的文本特征描述被引量：8: 3; 作者余刚陈华月 +1 位作者朱征宇高原《计算机工程与设计》 CSCD 北大核心 2005年第8期2180-2182,共3页; 文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种... 展开更多; 关键词向量空间模型文本挖掘词同现频率权重计算匹配; 在线阅读下载PDF 职称材料

无尺度图k-中心点聚类算法在文本挖掘中的应用被引量：3: 4; 作者沈亚田沈夏炯马庆华《计算机工程与科学》 CSCD 北大核心 2009年第12期65-66,99,共3页; 本文基于词的同现频率的方法对文本的特征进行提取,涉及了文档的语义。同时,引入了无尺度网络的理论,用无尺度图聚类算法对文本进行聚类。最后,我们使用错误分类度(MI)的均值和离差方法显示实验的结果。; 关键词无尺度网络同现频率无尺度图聚类中心顶点; 在线阅读下载PDF 职称材料

题名一种基于字同现频率的汉语文本主题抽取方法被引量：49: 1; 作者马颖华王永成苏贵洋张宇萌; 机构上海交通大学计算机科学与工程系; 出处《计算机研究与发展》 EI CSCD 北大核心 2003年第6期874-878,共5页; 基金国家自然科学基金 ( 60 0 82 0 0 3); 文摘主题抽取是文本自动处理的基础工作之一 ,而主题的抽取一直以分词或者抽词作为第 1步由于汉语词间缺少明显的间隔 ,因此分词和抽词的效果往往不够理想 ,从而在一定程度上影响了主题抽取的质量提出以字为处理单位 ,基于字同现频率的汉语文本主题自动抽取的新方法该方法速度快 ,适应多种文体类型 ,并完全避开了分词和抽词过程 ,可以广泛应用在主题句、主题段落等主题抽取的多个层面 ,而且同样适用于其他语言的文本主题抽取主题句自动抽取实验表明 ,该方法抽取新闻文本主题句的正确率达到 77 19% 汉语文本的主题抽取比较实验还表明。; 关键词自然语言处理主题抽取同现频率; Keywords natural language processing subject extraction co-occurrence; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于义原同现频率的汉语词义排歧方法被引量：26: 2; 作者杨尔弘张国清张永奎; 机构山西大学计算机科学系上海师范大学计算中心; 出处《计算机研究与发展》 EI CSCD 北大核心 2001年第7期833-838,共6页; 基金山西省青年基金项目 (2 0 0 0 10 17) 山西省自然科学基金项目 (9910 35 )资助; 文摘词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个知识源的特性 ,提出了一种基于义原同现频率的词义排岐方法 ,在很大程度上克服了数据稀疏问题 .此外 ,该方法还避免了繁重的人工标注语料的过程 ,通过在一个约 10万字的语料库上获得义原同现频率矩阵 ,并以此作为词义排岐的依据 .实验表明。; 关键词自然语言处理知网义原同现频率汉语词义排歧语料库; Keywords natural language processing, word sense disambiguation, Hownet, primitive co occurrence data; 分类号 TP391.12 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于词同现频率的文本特征描述被引量：8: 3; 作者余刚陈华月朱征宇高原; 机构重庆大学计算机学院; 出处《计算机工程与设计》 CSCD 北大核心 2005年第8期2180-2182,共3页; 文摘文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。; 关键词向量空间模型文本挖掘词同现频率权重计算匹配; Keywords VSM （vector space model） text mining word co-occurrence term-weighing matching; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名无尺度图k-中心点聚类算法在文本挖掘中的应用被引量：3: 4; 作者沈亚田沈夏炯马庆华; 机构河南大学计算机与信息工程学院; 出处《计算机工程与科学》 CSCD 北大核心 2009年第12期65-66,99,共3页; 文摘本文基于词的同现频率的方法对文本的特征进行提取,涉及了文档的语义。同时,引入了无尺度网络的理论,用无尺度图聚类算法对文本进行聚类。最后,我们使用错误分类度(MI)的均值和离差方法显示实验的结果。; 关键词无尺度网络同现频率无尺度图聚类中心顶点; Keywords scale-free network co-occurrence frequency scale free graph cluster hub vertex; 分类号 TP301.6 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料