-
题名语言学与统计方法结合建立汉语动词SCF类型集
被引量:2
- 1
-
-
作者
冀铁亮
孙薇薇
穗志方
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第5期118-125,共8页
-
基金
国家自然科学基金资助项目(60503071)
-
文摘
动词子语类框架(Subcategorization Frame以下简称SCF)在句法分析、语义角色标注等方面的研究中具有不可或缺的重要作用。在子语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。目前英语研究已经建立了获得普遍共识的子语类框架类型集。而汉语方面还没有标准的动词子类框架类型集。本文提出一种语言学知识与统计方法相结合的汉语动词子语类框架类型集的半自动获取方案。初步建立起既符合统计结果又基本符合语言学理论的汉语动词子语类框架类型集。实验证明,加入语言学理论的子语类框架类型集降低了对语料的依赖程度,比完全由分析语料产生的类型集更完备。
-
关键词
计算机应用
中文信息处理
动词子语类框架
类型集
语言学与统计方法结合
-
Keywords
computer application
chinese information processing
verb' s subcategorization frame
lexicon
the hybrid of linguistic theory and statistical algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于弱指导SVM的汉语动词次范畴化自动获取
被引量:2
- 2
-
-
作者
韩习武
赵铁军
-
机构
黑龙江大学计算机学院
哈尔滨工业大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第28期9-11,27,共4页
-
基金
国家自然科学基金项目资助(编号:60373101)
-
文摘
动词次范畴化自动获取过程主要涉及到两个典型步骤一、依据启发性规则生成次范畴化假设;二、应用统计方法对假设集合进行过滤,选择可靠的次范畴化类型。此前改进获取性能的研究都集中在统计过滤阶段,并且相关实验的假设生成阶段都没有涉及到有指导的训练过程,因此所有这些方法都是无指导的。文章提出一种弱指导的汉语动词次范畴化自动获取方案,并应用SVM分类器取代原系统中的无指导假设生成模块。实验结果表明,最终获取性能有了统计意义上的改善。
-
关键词
汉语动词
次范畴化
弱指导
SVM
-
Keywords
chinese verbs, subcategorization,weakly supervised, SVM
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名从真实语料中自动获取汉语动词次范畴化信息
被引量:1
- 3
-
-
作者
韩习武
赵铁军
-
机构
哈尔滨工业大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2005年第19期1-4,181,共5页
-
基金
国家自然科学基金项目"汉语动词次范畴化自动获取技术的研究"(编号:60373101)
-
文摘
描述了一种自动获取汉语动词次范畴化信息的可行技术和一个从大规模真实文本中构建动词次范畴化词汇知识库的系统性实验。实验基于语言学启发信息生成次范畴化框架假设,然后应用统计方法进行假设检验。对20个句模多元化动词获取结果的初步评价表明,该技术已经达到了目前国际上同类研究相应水平的精确率和召回率;并且,所得知识库在一个PCFG句法分析器上的简单应用体现了次范畴化信息在自然语言处理领域有着可观的潜在价值。
-
关键词
汉语动词
谓词
次范畴化
次范畴化框架
-
Keywords
chinese verb,predicate,subcategorization,subcategorization frame
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名词汇化句法分析与子语类框架获取的互动方法
被引量:3
- 4
-
-
作者
冀铁亮
穗志方
-
机构
北京大学计算语言研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第1期120-126,共7页
-
基金
国家自然科学基金资助项目(60503071
60372016)
北京市自然科学基金资助项目(4052019)
-
文摘
概率句法分析器(PCFG Parser)是基于概率规则集的上下文无关文法的句法分析器。规则集主要是针对词类和短语类。然而事实上,词性相同而词汇不同,其所常用的句法规则也通常不同。目前NLP研究的一个趋势和热点就是词汇化的句法分析。针对概率句法分析独立性假设中缺乏词汇化的缺陷,本文将谓语动词的子语类信息与概率句法分析结合起来,提出一种基于动词子语类信息的词汇化概率句法分析方法。论文建立了基于汉语动词子语类框架的统计句法分析模型,并且针对动词子语类框架难以获取的问题,提出一种词汇化概率句法分析与动词子语类框架获取的互动方法。实验利用这种互动的方法获取了汉语中十个常用高频动词的概率化子语类信息,并结合原有的概率句法分析器PCFG实现了一个基于动词子语类信息的概率句法分析器原型系统S-PCFG。实验证明了基于动词子语类信息的概率句法分析对自然语言句法分析的准确率和速度均有所提高。同时分析了新的概率句法分析器的不足之处,为进一步的改进提供条件。
-
关键词
计算机应用
中文信息处理
词汇化概率句法分析
子语类框架
词汇知识自动获取
-
Keywords
computer application
chinese information processing
lexicalized probabilistic parsing
subcategorization frame acquisition
lexical knowledge acquisition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉英动词次范畴化对应类型的统计分析
- 5
-
-
作者
韩习武
赵铁军
-
机构
黑龙江大学计算机科学技术学院
哈尔滨工业大学计算机科学技术学院
-
出处
《计算机科学》
CSCD
北大核心
2010年第3期230-233,共4页
-
基金
国家自然科学基金(60773069
60873169)资助
-
文摘
基于大规模句子级,对齐双语语料库进行了统计分析汉英动词次范畴化对应类型的系统性实验。首先以语言学量度为启发,应用双重最大似然检验的统计过滤方法初步估计了654种汉英次范畴化对应类型的概率分布;然后根据汉英句法特点对次范畴化对应类型进行了语言学分类;最后针对每一种对应类型及其背景语料进行了基于支持向量机的语言学类别标注和统计可靠性分析。
-
关键词
汉英动词次范畴化
统计分析
支持向量机
-
Keywords
chinese-English verb subcategorization, Statistical analysis, SVM
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-