-
题名基于概念统计和语义层次分析的英文自动文摘研究
被引量:9
- 1
-
-
作者
季姮
罗振声
万敏
高小云
-
机构
清华大学人文学院计算语言学研究室
-
出处
《中文信息学报》
CSCD
北大核心
2003年第2期14-20,共7页
-
基金
国家自然科学基金资助项目 (6 9972 0 2 5 )
-
文摘
传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计 ,基于主题概念构建向量空间模型 ,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块 ,以意义块为单元抽取文摘 ,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造 ,主题概念的抽取步骤 ,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明 ,通过概念统计和语义层次分析的方法 ,我们设计了更理想的向量空间模型 ,系统生成的文摘精度较高 。
-
关键词
计算机应用
中文信息处理
概念统计
主题概念
向量空间模型
句子重要度
意义块划分
-
Keywords
computer application
Chinese information processing
concept counting
topic concept
vector space model
sentence significance
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于概念统计的英文自动文摘研究
被引量:9
- 2
-
-
作者
万敏
罗振声
季姮
高小云
-
机构
清华大学人文学院计算语言学研究室
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第24期7-9,16,共4页
-
基金
国家自然科学基金项目(批准号:69972025)
-
文摘
文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分布划分意义块,以意义块为单位抽取文摘,初步解决多主题文章的文摘结构不平衡问题。该文主要介绍概念层次树的构造,主题概念的抽取步骤,句子重要度的计算和意义块的划分算法。测试表明该文提到的方法比传统的基于词频统计的方法有更高的召回率与精确率。
-
关键词
概念统计
英文自动文摘
主题概念
向量空间模型
句子重要度
计算机
-
Keywords
Concept counting,Topic concept ,Vector space model,Sentence significance
-
分类号
G353.23
[文化科学—情报学]
-
-
题名基于概念层次的英文文本自动分类研究
被引量:3
- 3
-
-
作者
厉宇航
罗振声
程慕胜
-
机构
清华大学人文学院计算语言学研究室
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第11期75-77,共3页
-
文摘
该文意在设计并且实现一个针对英文文本的自动归类以及检索系统,重点在于提高分类方法的准确率。自动文本分类系统中,一般来说文本内容是以N维特征空间的形式存储的,所以特征提取的方法和准确率极大地影响到分类结果的正确率。传统方法是基于词形的,并不考察词语的意义,忽略了同一意义下词形的多样性、不确定性以及词义之间的关系,尤其是上下位关系。该文提出的方法,在向量空间模型(VSM)的基础上,以“概念”为基础,同时考虑词义的上位关系,使得训练过程中可以从词语中提炼出更加概括性的信息,从而达到提高分类精度的目的。
-
关键词
自动文本分类
概念层次
VSM
WORDNET
-
Keywords
Automatic text classification,Concepts hierarchy,VSM,WordNet
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语句子谓语中心词的自动识别
被引量:18
- 4
-
-
作者
龚小谨
罗振声
骆卫华
-
机构
清华大学人文学院计算语言学研究室
-
出处
《中文信息学报》
CSCD
北大核心
2003年第2期7-13,共7页
-
文摘
谓语中心词的识别是句法成分分析中的一个非常重要的部分。本文提出了一种规则和特征学习相结合的谓语识别方法 ,将整个谓语识别的过程分为语片捆绑、谓语粗筛选和谓语精筛选三个阶段。在谓语粗筛选中 ,利用规则过滤掉明显不能充当谓语的词 ,得到一个准谓语集 ;在精筛选阶段 ,选择谓语的支持特征 ,根据统计计算得到每个特征对谓语的支持度 ,然后利用准谓语在句子中的上下文出现的特征对准谓语集中的词进行再次筛选 ,从而确定出句子的谓语中心词。经过测试表明 。
-
关键词
计算机应用
中文信息处理
谓语中心词的识别
基于规则
特征选择
粗筛选
精筛选
-
Keywords
computer application
Chinese information processing
recognize the predicate head
rule based
feature selection
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名中文文本自动校对中的语法错误检查
被引量:15
- 5
-
-
作者
龚小谨
罗振声
骆卫华
-
机构
清华大学人文学院计算语言学研究室
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第8期98-100,127,共4页
-
文摘
文章将中文文本的语法错误分为搭配错误和与句型成分相关的错误两大类。分别采用模式匹配的方法和基于句型成分分析的进行检查,这两种方法的结合,可以同时考虑局部和全局的语法限制信息,并且降低了语法检查的复杂度。通过对实验结果的分析和评测,证明文章所述的方法是可行的。
-
关键词
语法错误
模式匹配
句型成分分析
-
Keywords
Syntactic error,Pattern matching,Analysis of sentence components
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-