-
题名现代汉语虚词知识库的研究
被引量:27
- 1
-
-
作者
昝红英
张坤丽
柴玉梅
俞士汶
-
机构
郑州大学信息工程学院
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第5期107-111,共5页
-
基金
国家973项目(2004CB318102)
河南省教育厅自然科学基金资助项目(2007520050)
-
文摘
现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对真实语料中虚词用法规律的考察,着力构建面向机器的现代汉语虚词用法信息词典和虚词用法规则库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。
-
关键词
计算机应用
中文信息处理
虚词
语言知识库
用法属性
规则库
-
Keywords
computer application
chinese information processing
functional word
language knowledge base
attributes of usage
rule base
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名词汇计量研究与常用词知识库建设
被引量:5
- 2
-
-
作者
俞士汶
朱学锋
-
机构
北京大学计算语言学研究所计算语言学教育部重点实验室
语言能力协同创新中心
-
出处
《中文信息学报》
CSCD
北大核心
2015年第3期16-20,共5页
-
基金
国家重点基础研究发展计划(2014CB340504)
国家自然科学基金(61272221
61170163)
-
文摘
面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及"部件词"的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。
-
关键词
汉语常用词知识库
《中国语言生活状况报告》
综合型语言知识库
《现代汉语语法信息词典》
部件词
-
Keywords
knowledge base of chinese commonly used words
Language Situation in China
comprehensive lan-guage knowledge base
Grammatical knowledge base of Contemporary chinese
component word
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名WNCT:一种WordNet概念自动翻译方法
被引量:6
- 3
-
-
作者
王石
曹存根
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
中国科学院研究生院
-
出处
《中文信息学报》
CSCD
北大核心
2009年第4期63-70,94,共9页
-
基金
国家自然科学基金资助项目(60496326
60573063
+1 种基金
60573064)
国家863计划资助项目(2007AA01Z325)
-
文摘
WordNet是在自然语言处理领域有重要作用的英语词汇知识库,该文提出了一种将WordNet中词汇概念自动翻译为中文的方法。首先,利用电子词典和术语翻译工具将英语词汇在义项的粒度上翻译为中文;其次,将特定概念中词汇的正确义项选择看作分类问题,归纳出基于翻译唯一性、概念内和概念间翻译交集、中文短语结构规则,以及基于PMI的翻译相关性共12个特征,训练分类模型实现正确义项的选择。实验结果表明,该方法对WordNet 3.0中概念翻译的覆盖率为85.21%,准确率为81.37%。
-
关键词
人工智能
机器翻译
WordNet翻译
词汇翻译
翻译消歧
中文词汇知识库
中文信息处理
-
Keywords
artificial intelligence
machine translation
WordNet translation
word translation
translation disambiguation
chinese lexical knowledge base
chinese information processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名农业知识库系统设计与实现
被引量:2
- 4
-
-
作者
方逵
罗武
朱幸辉
-
机构
湖南农业大学信息科学技术学院
-
出处
《农机化研究》
北大核心
2013年第5期8-11,共4页
-
基金
"十二五"国家科技支撑计划项目(2011BAD21B03)
湖南省科技重大专项(2010FJ1006)
-
文摘
提出了农业知识库系统的架构设计。同时,介绍了农业知识库的设计、中文农业专业分词器以及查重器设计与实现;并给出了中文农业专业分词算法评估和查重算法评估。实际应用结果表明,所设计的中文农业专业分词器和查重器满足系统的要求,为农村信息化建设提供了支持。
-
关键词
农业知识库
中文分词器
查重机制
算法评估
-
Keywords
agriculture knowledge base
chinese word segmentation
repeat-look mechanism
evaluation of algorithms
-
分类号
S126
[农业科学—农业基础科学]
-
-
题名中文农业专业分词器设计与实现
被引量:3
- 5
-
-
作者
方逵
罗武
王玉娟
卜伟琼
-
机构
湖南农业大学信息科学技术学院
-
出处
《农业工程》
2012年第3期18-20,共3页
-
基金
"十二五"国家科技计划课题 (项目编号:2011BAD21B03)
湖南省科技重大专项 (项目编号:2010FJ1006)
-
文摘
利用Hash表在查找效率上的优势,提出了基于Hash机制的词典查找、更新、删除和添加等操作算法。该算法根据汉字GB码的特点,将保存首字GB码,提高了存储空间利用率;在词典中建立农业专业词汇和方言词汇一对多的对应关系,在满足系统需求的同时,提高了分词的准确性。
-
关键词
农村信息化
知识库
中文分词器
分词词典
算法评估
-
Keywords
Agriculture information,knowledge base,chinese word segmentation,Word segmentation dictionary,Algorithm assessment
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语语音听写机技术的研究与实现
被引量:6
- 6
-
-
作者
郑方
牟晓隆
徐明星
武健
宋战江
-
机构
清华大学计算机科学与技术系语音实验室
-
出处
《软件学报》
EI
CSCD
北大核心
1999年第4期436-444,共9页
-
基金
国家863高科技项目基金
-
文摘
文章从声学基元和词法树两个方面对连续语音识别和汉语语音听写机中声学层面的搜索策略进行了分析,提出了基于统计知识的帧同步搜索算法和基于词法约束的词搜索树结构,构成了声学层面的双层搜索网络.算法中利用了统计知识,包括声学层面的差分状态驻留信息和特征变化量信息等.实验结果表明,基于知识的搜索策略使连续语音识别的性能提高了36.6%.文章还介绍了N-Gram统计语言模型的修正退化频度估计算法和搜索算法原理.通过对多年研究成果的分析,实现了一个汉语语音听写机的引擎。
-
关键词
汉语语音听写机
汉语信息处理
语音识别
-
Keywords
CSR (Continuous speech recognition), CDM (chinese dictation machine), search strategy, SKBFSS (statistical knowledge based frame synchronous search) algorithm, differential state dwell, feature difference sum, WST (word search tree), TLSN (twolevel search
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TN912.34
[电子电信—通信与信息系统]
-
-
题名汉语常用语气词用法规则自动改进算法研究
- 7
-
-
作者
周溢辉
杨娜
昝红英
-
机构
河南商业高等专科学校计算机应用系
郑州大学信息工程学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2012年第12期73-76,共4页
-
基金
国家自然科学基金项目(60970083)
河南省科技创新人才杰出青年基金项目(104100510026)
河南省教育厅自然科学研究计划项目(2011A520019)
-
文摘
现代汉语语气词用法的自动识别采用语气词用法词典、语气词用法规则库、语气词用法语料库"三位一体"的方式。由于语料规模较大,真实文本中语气词的用法又各具特点,因此人工书写的规则库主观性较强且难以全面的覆盖各种用法。针对现代汉语10个常用的语气词,研究了基于错误驱动的规则自动改进算法。实验结果表明,这种方法使大部分常用语气词的用法识别准确率有了一定程度的提高。
-
关键词
虚词知识库
汉语语气词
错误驱动
规则自动改进
-
Keywords
Functional words knowledge base chinese modal particles Error-driven Automatic rules improvement
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-