期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
一种基于字同现频率的汉语文本主题抽取方法 被引量:49
1
作者 马颖华 王永成 +1 位作者 苏贵洋 张宇萌 《计算机研究与发展》 EI CSCD 北大核心 2003年第6期874-878,共5页
主题抽取是文本自动处理的基础工作之一 ,而主题的抽取一直以分词或者抽词作为第 1步 由于汉语词间缺少明显的间隔 ,因此分词和抽词的效果往往不够理想 ,从而在一定程度上影响了主题抽取的质量 提出以字为处理单位 ,基于字同现频率的... 主题抽取是文本自动处理的基础工作之一 ,而主题的抽取一直以分词或者抽词作为第 1步 由于汉语词间缺少明显的间隔 ,因此分词和抽词的效果往往不够理想 ,从而在一定程度上影响了主题抽取的质量 提出以字为处理单位 ,基于字同现频率的汉语文本主题自动抽取的新方法 该方法速度快 ,适应多种文体类型 ,并完全避开了分词和抽词过程 ,可以广泛应用在主题句、主题段落等主题抽取的多个层面 ,而且同样适用于其他语言的文本主题抽取 主题句自动抽取实验表明 ,该方法抽取新闻文本主题句的正确率达到 77 19% 汉语文本的主题抽取比较实验还表明 。 展开更多
关键词 自然语言处理 主题抽取 同现频率
在线阅读 下载PDF
基于义原同现频率的汉语词义排歧方法 被引量:26
2
作者 杨尔弘 张国清 张永奎 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期833-838,共6页
词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个... 词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个知识源的特性 ,提出了一种基于义原同现频率的词义排岐方法 ,在很大程度上克服了数据稀疏问题 .此外 ,该方法还避免了繁重的人工标注语料的过程 ,通过在一个约 10万字的语料库上获得义原同现频率矩阵 ,并以此作为词义排岐的依据 .实验表明 。 展开更多
关键词 自然语言处理 知网 义原同现频率 汉语词义排歧 语料库
在线阅读 下载PDF
基于词同现频率的文本特征描述 被引量:8
3
作者 余刚 陈华月 +1 位作者 朱征宇 高原 《计算机工程与设计》 CSCD 北大核心 2005年第8期2180-2182,共3页
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种... 文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。 展开更多
关键词 向量空间模型 文本挖掘 同现频率 权重计算 匹配
在线阅读 下载PDF
无尺度图k-中心点聚类算法在文本挖掘中的应用 被引量:3
4
作者 沈亚田 沈夏炯 马庆华 《计算机工程与科学》 CSCD 北大核心 2009年第12期65-66,99,共3页
本文基于词的同现频率的方法对文本的特征进行提取,涉及了文档的语义。同时,引入了无尺度网络的理论,用无尺度图聚类算法对文本进行聚类。最后,我们使用错误分类度(MI)的均值和离差方法显示实验的结果。
关键词 无尺度网络 同现频率 无尺度图聚类 中心顶点
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部