-
题名北京大学现代汉语语料库基本加工规范
被引量:131
- 1
-
-
作者
俞士汶
段慧明
朱学锋
孙斌
-
机构
北京大学计算机系
-
出处
《中文信息学报》
CSCD
北大核心
2002年第5期49-64,共16页
-
基金
国家自然基金(69483003)
973项目(G1998030507-4)
863项目(2001AA1140)
-
文摘
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。
-
关键词
北京大学
现代汉语语料库
基本加工规范
词语切分
词性标注
汉字处理系统
名词标注
语素子类标注
-
Keywords
contemporary Chinese
corpus
word segmentation
part-of-speech tagging
specification
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名北京大学现代汉语语料库基本加工规范(续)
被引量:19
- 2
-
-
作者
俞士汶
段慧明
朱学锋
孙斌
-
机构
北京大学计算机系
-
出处
《中文信息学报》
CSCD
北大核心
2002年第6期58-65,共8页
-
基金
国家自然基金 (6 94 830 0 3)
973项目 (G19980 30 5 0 7- 4 )
86 3项目 (2 0 0 1AA114 0 )
-
文摘
北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉 ,更广泛地向专家、同行征询意见 ,以便进一步修订。
-
关键词
北京大学
现代汉语语料库
加工规范
词语切分
词性标注
名词标注
汉字处理系统
-
Keywords
contemporary Chinese
corpus
word segmentation
part of speech tagging
specification
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名大规模现代汉语标注语料库的加工规范
被引量:31
- 3
-
-
作者
俞士汶
朱学锋
段慧明
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2000年第6期58-64,共7页
-
基金
富士通公司及北京大学 985项目
-
文摘
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为 2 70 0万字。现在已经完成了 1 40 0万字的任务 ,而且质量很高。要建成高质量的标注语料库 ,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。
-
关键词
现代汉语标注语料库
词语切分
词性标注
加工
-
Keywords
contemporary Chinese tagged corpus
segmentation
part of speech tagging
the grammatical knowledge base of contemporary Chinese
processing guidline
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-