-
题名基于历史模型的蒙古文自动词性标注研究
被引量:1
- 1
-
-
作者
赵建东
高光来
飞龙
-
机构
内蒙古大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2013年第5期156-159,165,共5页
-
基金
国家自然科学基金资助项目(61263037)
内蒙古自然科学基金重大资助项目(2011ZD11)
-
文摘
蒙古文自动词性标注方面的研究工作较少,制约了对蒙古文的机器翻译、语法分析及语义分析等领域的深入研究。针对于此,提出了加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法。实验表明,加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法对蒙古文的未登录词、集内词、总体词自动词性标注的准确率分别达到了71.276 6%、99.148 2%、95.301 0%,说明此方法可以较好地进行蒙古文的自动词性标注。
-
关键词
历史模型
LOOKAHEAD
蒙古文
自动词性标注
-
Keywords
History-models
learning with lookahead
Mongolian
automatic POS tagging
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语词性自动标注系统的设计与实现
被引量:4
- 2
-
-
作者
王素格
张永奎
-
机构
山西大学计算机科学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第3期7-8,65,共3页
-
基金
国家自然科学基金项目(69575011)
国家863项目(863-306-ZT03-03-1)
山西省自然科学基金项目(99
-
文摘
介绍了汉语词性自动标注系统的设计与实现.该系统实现了统计与规则相结合的方法进行汉语词性自动标注.描述了该系统的总体结构,以及所使用的非兼类词表、兼类词表、标记集和词性标注规则的组织,特别对稀疏矩阵及其存储方法进行了详细的介绍。
-
关键词
汉语词性自动标注系统
自然语言理解
语料库
神经网络
设计
-
Keywords
Part-of-speech automatic tagging
Word table
Corpus
Rough set
Collocation mode
Statistic model
-
分类号
TB391.12
[一般工业技术—材料科学与工程]
-
-
题名从词性标注看小句的中枢地位
被引量:12
- 3
-
-
作者
温锁林
-
机构
山西大学文学院
-
出处
《汉语学报》
2004年第1期52-60,共9页
-
文摘
“本位”是语法描写的坐标和基点,是语法体系的核心。本文对《马氏文通》以来汉语语法学界提出的五种“本位”进行了简要的分析与评论,认为“小句中枢”是一种立足于汉语而提出来的语法描写理论,相对于其他语法描写的本位更符合汉语的实际。文章主要以中文信息处理词性自动标注软件设计中遇到的大量语言事实为依据,论述了小句在词性的辨别特别是汉语兼类词的处理中的独特优势。以小句为基点标注汉语词性,不仅可以保证词性标注的一致性和科学性,而且符合汉人的认知,因此,小句是词类的最佳观察站。
-
关键词
本位
小句
小句中枢
词性自动标注
中文信息处理
-
分类号
H146.3
[语言文字—汉语]
-
-
题名基于边界点词性特征统计的韵律短语切分
被引量:13
- 4
-
-
作者
牛正雨
柴佩琪
-
机构
同济大学计算机科学与工程系
-
出处
《中文信息学报》
CSCD
北大核心
2001年第5期19-25,共7页
-
文摘
由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则 ,而且很难保证它在处理大规模真实文本时的强壮性 ,因此本文在使用统计方法进行韵律短语切分方面做了一些有益的探索。先对文本进行自动分词和自动词性标注 ,然后利用从已经经过人工标注的语料库中得到的韵律短语切分点的边界模式以及概率信息 ,对文本中的韵律短语切分点进行自动预测 ,最后利用规则进行适当的纠错。通过对一千句的真实文本进行封闭和开放测试 ,词性标注的正确率在 95%左右 ,韵律短语切分的召回率在 6 0 %左右 ,正确率达到了 80 %。
-
关键词
韵律短语切分
自动词性标注
语料库
统计方法
自动分词
边界点词性
文本处理系统
-
Keywords
prosodic phrasing
part-of-speech tagging
corpus
statistical approach
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-