-
题名一种基于字同现频率的汉语文本主题抽取方法
被引量:49
- 1
-
-
作者
马颖华
王永成
苏贵洋
张宇萌
-
机构
上海交通大学计算机科学与工程系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2003年第6期874-878,共5页
-
基金
国家自然科学基金 ( 60 0 82 0 0 3)
-
文摘
主题抽取是文本自动处理的基础工作之一 ,而主题的抽取一直以分词或者抽词作为第 1步 由于汉语词间缺少明显的间隔 ,因此分词和抽词的效果往往不够理想 ,从而在一定程度上影响了主题抽取的质量 提出以字为处理单位 ,基于字同现频率的汉语文本主题自动抽取的新方法 该方法速度快 ,适应多种文体类型 ,并完全避开了分词和抽词过程 ,可以广泛应用在主题句、主题段落等主题抽取的多个层面 ,而且同样适用于其他语言的文本主题抽取 主题句自动抽取实验表明 ,该方法抽取新闻文本主题句的正确率达到 77 19% 汉语文本的主题抽取比较实验还表明 。
-
关键词
自然语言处理
主题抽取
同现频率
-
Keywords
natural language processing
subject extraction
co-occurrence
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于义原同现频率的汉语词义排歧方法
被引量:26
- 2
-
-
作者
杨尔弘
张国清
张永奎
-
机构
山西大学计算机科学系
上海师范大学计算中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第7期833-838,共6页
-
基金
山西省青年基金项目 (2 0 0 0 10 17)
山西省自然科学基金项目 (9910 35 )资助
-
文摘
词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个知识源的特性 ,提出了一种基于义原同现频率的词义排岐方法 ,在很大程度上克服了数据稀疏问题 .此外 ,该方法还避免了繁重的人工标注语料的过程 ,通过在一个约 10万字的语料库上获得义原同现频率矩阵 ,并以此作为词义排岐的依据 .实验表明 。
-
关键词
自然语言处理
知网
义原同现频率
汉语词义排歧
语料库
-
Keywords
natural language processing, word sense disambiguation, Hownet, primitive co occurrence data
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词同现频率的文本特征描述
被引量:8
- 3
-
-
作者
余刚
陈华月
朱征宇
高原
-
机构
重庆大学计算机学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2005年第8期2180-2182,共3页
-
文摘
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。
-
关键词
向量空间模型
文本挖掘
词同现频率
权重计算
匹配
-
Keywords
VSM (vector space model)
text mining
word co-occurrence
term-weighing
matching
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名无尺度图k-中心点聚类算法在文本挖掘中的应用
被引量:3
- 4
-
-
作者
沈亚田
沈夏炯
马庆华
-
机构
河南大学计算机与信息工程学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2009年第12期65-66,99,共3页
-
文摘
本文基于词的同现频率的方法对文本的特征进行提取,涉及了文档的语义。同时,引入了无尺度网络的理论,用无尺度图聚类算法对文本进行聚类。最后,我们使用错误分类度(MI)的均值和离差方法显示实验的结果。
-
关键词
无尺度网络
同现频率
无尺度图聚类
中心顶点
-
Keywords
scale-free network
co-occurrence frequency
scale free graph cluster
hub vertex
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-