-
题名综合型语言知识库及其前景
被引量:9
- 1
-
-
作者
俞士汶
穗志方
朱学锋
-
机构
北京大学计算语言学教育部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2011年第6期12-20,共9页
-
基金
国家自然科学基金资助项目(60970083)
国家社会科学基金资助项目(09BYY032)
-
文摘
北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。尽管CLKB已形成阶段性成果,但它仍在发展中。该文重点介绍CLKB的语言知识库,也探讨其发展方向。
-
关键词
自然语言处理
计算语言学
语言工程
综合型语言知识库
现代汉语语法信息词典
-
Keywords
natural language processing
computational linguistics
language engineering
comprehensive language knowledge Base
grammatical knowledge-base of contemporary Chinese
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名建设综合型语言知识库的理念与成果的价值
被引量:13
- 2
-
-
作者
俞士汶
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第6期3-12,共10页
-
基金
国家973课题资助项目(2004CB318102)
-
文摘
积20余年之努力与锤炼,北京大学计算语言学研究所完成的一项科研成果"综合型语言知识库"于2007年2月通过了教育部组织的技术鉴定。鉴定结论认为"其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平"。本文在介绍以《现代汉语语法信息词典》为基础的综合型语言知识库的规模、构成、内容、品质和发展历程之后,陈述建设综合型语言知识库的理念,期望与读者分享在计算语言学和自然语言处理这一交叉学科领域内治学的心得与研发的经验。同时也对这项成果的应用实例进行分析,评估它的应用潜力,期望它在以汉语为核心的多语言信息处理事业的发展中起到铺路填坑或者投石问路的作用。
-
关键词
计算机应用
中文信息处理
综合型语言知识库
多语言信息处理
计算语言学
自然语言处理
现代汉语语
法信息词典
治学心得
-
Keywords
computer application
Chinese information processing
comprehensive language knowledge-base
multilanguage information processing
computational linguistics
natural language processing
grammatical kvowledgebase of contemporary Chinese
research experience
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名词汇计量研究与常用词知识库建设
被引量:5
- 3
-
-
作者
俞士汶
朱学锋
-
机构
北京大学计算语言学研究所计算语言学教育部重点实验室
语言能力协同创新中心
-
出处
《中文信息学报》
CSCD
北大核心
2015年第3期16-20,共5页
-
基金
国家重点基础研究发展计划(2014CB340504)
国家自然科学基金(61272221
61170163)
-
文摘
面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及"部件词"的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。
-
关键词
汉语常用词知识库
《中国语言生活状况报告》
综合型语言知识库
《现代汉语语法信息词典》
部件词
-
Keywords
knowledge base of Chinese commonly used words
Language Situation in China
comprehensive lan-guage knowledge base
Grammatical Knowledge base of Contemporary Chinese
component word
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-