-
题名现代汉语语法信息词典规格说明书
被引量:34
- 1
-
-
作者
俞士汶
朱学锋
王惠
张芸芸
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
1996年第2期1-22,共22页
-
基金
国家自然科学基金
七五攻关项目
八五攻关项目
-
文摘
《现代汉语语法信息词典》是为计算机实现汉语分析和汉语生成而研制的一部电子词典。这部电子词典可以在语言信息处理的广泛领域中得到应用。本词典的详细规格说明书(specification)的初稿制订于1990年。在八五攻关期间(1991年至1995年),一方面严格按照规格说明书进行词典内容的开发,一方面在开发过程中又对规格说明书进行了局部的调整与修订,于1995年11月形成了现在的版本、这份规格说明书也是汉语信息处理研究的一项重要成果。现在发表的这份规格说明书共分以下五章:第一章介绍词典的设计目标与结构。第二章介绍总库的属性字段。第三章介绍各类词库的共同属性字段、第四章介绍各类词库专有的属性字段。第五章介绍《现代汉语语法信息词典》于1995年11月通过专家鉴定时所达到的规模。附录给出了面向信息处理的现代汉语词语分类体系的词类代码表。
-
关键词
现代汉语
电子词典
语法信息词典
语言信息处理
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名《现代汉语语法信息词典》的新进展
被引量:9
- 2
-
-
作者
俞士汶
朱学锋
王惠
-
机构
北京大学计算机系计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2001年第1期59-64,F003,共7页
-
基金
国家社科基金 !( 97@yy0 0 1-6)
国家自然科学基金! ( 69973 0 0 5)
+1 种基金
国家 973项目! (G 19980 3 0 50 7-4 )
北京大学985项目
-
文摘
:《现代汉语语法信息词典》是面向汉语信息处理的基本语言知识库。 1995年 11月底通过技术鉴定。 5年来 ,北大计算语言学研究所在应用、推广的同时 ,仍把重要的力量投入词典本身的发展。至目前为止 ,词典收词已由 5万条增加到 7.3万条 ,并且全部完成了归类 ;为了处理未定义词 ,还开发了一个全新的语素库 ;词语语法属性描述中的瑕疵得到了进一步的修正 ,新增了 2 0多个语法属性项目和大量的实例。
-
关键词
中文信息处理
语法属性描述
语言知识库
语素库
《现代汉语语法信息词典》
语法属性项目
-
Keywords
Chinese information processing
contemporary Chinese
grammatical attribute description
grammatical knowledge base
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名《现汉》与《语法信息词典》词类对应分析
被引量:3
- 3
-
-
作者
邱立坤
赵慧
俞士汶
朱学锋
-
机构
鲁东大学文学院
北京大学计算语言学教育部重点实验室
语言能力协同创新中心
-
出处
《中文信息学报》
CSCD
北大核心
2017年第5期1-7,20,共8页
-
基金
国家自然科学基金(61572245)
国家重点基础研究发展计划(2014CB340504)
国家社会科学基金(15BYY094)
-
文摘
词类标注问题历来受到中文信息处理、汉语语法和词汇学界的共同关注,学者们已提出多种词类标记体系,彼此间存在较大差异,但迄今尚无人对大规模词类标注工程进行系统比较。该文以《现代汉语词典》第5版和《现代汉语语法信息词典》两个大型词典词类标注工程为比较对象,基于所提出的词类对应算法,自动找出两部词典词类标注上的差异,进而对形成差异的原因进行分析。分析结果表明,两部词典词类标注一致性较高(83.5%完全相同),而存在差异的地方可归结为三类主要原因:词类迁移;词类判断标准不一致;收录义项不同。
-
关键词
现代汉语词典
现代汉语语法信息词典
词类标注
词类对应
-
Keywords
Dictionary of Contemporary Chinese
Grammatical Knowledge-Base Dictionary
part-of-speech annotation
part-of-speech correspondence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名现代汉语名词语法属性的计量研究初探
被引量:2
- 4
-
-
作者
王萌
俞士汶
段慧明
孙薇薇
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2008年第5期22-29,38,共9页
-
基金
国家973课题资助项目(2004CB318102)
-
文摘
以《现代汉语语法信息词典》中语法属性的概率化描述为目标,基于1998年上半年《人民日报》标注语料,对名词语法属性的概率化进行了初步的实验研究。首先,考察了名词与数词、名词与量词搭配的相关属性,引进"分散度"概念,利用它对"数名"结构进行了定量分析;其次,考察了名词受不同量词修饰的分布情况。最后,把实验结果与《现代汉语语法信息词典》的相应属性进行了比照和分析,在属性概率化的同时也对其正确性进行了验证。
-
关键词
计算机应用
中文信息处理
现代汉语
现代汉语语法信息词典
概率语法属性描述
基本标注语料库
“数名”结构
“数量名”短语
-
Keywords
computer application
Chinese information processing
contemporary Chinese
the grammatical knowledge-base of contemporary Chinese
description of probabilistic grammatical attribute^POS tagged corpus
"numeral- noun" structure
"numerallassifier-noun" phrase
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名综合型语言知识库及其前景
被引量:9
- 5
-
-
作者
俞士汶
穗志方
朱学锋
-
机构
北京大学计算语言学教育部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2011年第6期12-20,共9页
-
基金
国家自然科学基金资助项目(60970083)
国家社会科学基金资助项目(09BYY032)
-
文摘
北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。尽管CLKB已形成阶段性成果,但它仍在发展中。该文重点介绍CLKB的语言知识库,也探讨其发展方向。
-
关键词
自然语言处理
计算语言学
语言工程
综合型语言知识库
现代汉语语法信息词典
-
Keywords
natural language processing
computational linguistics
language engineering
comprehensive language knowledge Base
grammatical knowledge-base of contemporary Chinese
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名词汇计量研究与常用词知识库建设
被引量:5
- 6
-
-
作者
俞士汶
朱学锋
-
机构
北京大学计算语言学研究所计算语言学教育部重点实验室
语言能力协同创新中心
-
出处
《中文信息学报》
CSCD
北大核心
2015年第3期16-20,共5页
-
基金
国家重点基础研究发展计划(2014CB340504)
国家自然科学基金(61272221
61170163)
-
文摘
面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及"部件词"的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。
-
关键词
汉语常用词知识库
《中国语言生活状况报告》
综合型语言知识库
《现代汉语语法信息词典》
部件词
-
Keywords
knowledge base of Chinese commonly used words
Language Situation in China
comprehensive lan-guage knowledge base
Grammatical Knowledge base of Contemporary Chinese
component word
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-