检索结果-维普期刊中文期刊服务平台

基于词典信息的先秦汉语全文词义标注方法研究被引量：5: 1; 作者张颖杰李斌 +1 位作者陈家骏陈小荷《中文信息学报》 CSCD 北大核心 2012年第3期65-71,103,共8页; 词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的... 展开更多; 关键词词义消歧义项标注古汉语自然语言处理; 在线阅读下载PDF 职称材料

一种利用注疏的《左传》分词新方法被引量：20: 2; 作者徐润华陈小荷《中文信息学报》 CSCD 北大核心 2012年第2期13-17,45,共6页; 先秦文献的注疏文献中包含有大量词汇语义知识,是先秦文献自动分词的重要依据。该文以篇幅最大的先秦文献《左传》为研究对象,在对《左传》及其注疏文献进行自动对齐的基础上,提出了一种利用注疏的《左传》分词新方法。分词实验的F值达... 展开更多; 关键词先秦文献注疏文献自动对齐自动分词; 在线阅读下载PDF 职称材料

先秦词汇的时代特征自动获取及文献时代的自动判定被引量：4: 3; 作者刘浏李斌 +1 位作者曲维光陈小荷《中文信息学报》 CSCD 北大核心 2013年第5期107-113,共7页; 词汇的时代特征能反应词汇在一个时代发展变化的规律。该文将先秦分为前春秋、春秋和战国三个时代,获取并研究这三个时代的时代独有词、时代特征词及时代发源词。该文提出两种自动判断先秦文献时代的方法,分别基于向量相似度和朴素贝叶... 展开更多; 关键词先秦词汇时代向量空间模型朴素贝叶斯分类器; 在线阅读下载PDF 职称材料

基于双语平行语料的中文缩略语提取方法被引量：2: 4; 作者刘友强李斌 +1 位作者奚宁陈家骏《中文信息学报》 CSCD 北大核心 2012年第2期69-74,共6页; 汉语缩略语在现代汉语中被广泛使用,其研究对于中文信息处理有着重要地意义。该文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。首先对双语语料进行词对齐,再抽取出与词对齐信息一致的双语短语对,然后用SVM分类器提取出质量... 展开更多; 关键词缩略语平行语料库短语抽取分类; 在线阅读下载PDF 职称材料

基于CRF和转换错误驱动学习的浅层句法分析被引量：1: 5; 作者张芬曲维光 +1 位作者赵红艳周俊生《广西师范大学学报（自然科学版）》 CAS 北大核心 2011年第3期147-150,共4页; 本文提出一种CRF和基于转换错误驱动相结合的中文浅层句法分析方法。该方法应用于宾州大学中文树库,取得不错的组块识别效果。在CRF识别的基础上,对初始识别结果中的组块标注信息进行统计分析,获得候选转换规则集合;再根据定义的规则评... 展开更多; 关键词浅层句法分析 CRF 转换错误驱动学习转换规则集; 在线阅读下载PDF 职称材料

题名基于词典信息的先秦汉语全文词义标注方法研究被引量：5: 1; 作者张颖杰李斌陈家骏陈小荷; 机构南京大学计算机软件新技术国家重点实验室南京师范大学语言信息科技研究中心; 出处《中文信息学报》 CSCD 北大核心 2012年第3期65-71,103,共8页; 基金先秦文献词汇知识挖掘资助项目(2010JDXM023) 211项目"先秦汉语词汇统计与知识检索" +2 种基金 10CYY021 08BYY054); 文摘词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的例句作为训练语料,使用基于支持向量机(SVM)的半指导方法对《左传》进行全文的词义标注。按照频度不同、义项数量不同的原则,我们随机选取了22个词进行了人工检查,平均正确率达到67%。该方法可以广泛用于缺乏训练语料的古汉语义项标注工作,能够在古汉语全文词义标注的起步阶段提供初始结果,为人工标注词语义项提供良好的数据底本,补正传统词典释义不全的问题,进一步丰富汉语史发展研究资料。; 关键词词义消歧义项标注古汉语自然语言处理; Keywords word sense disambiguation sense tagging ancient Chinese natural language processing; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名一种利用注疏的《左传》分词新方法被引量：20: 2; 作者徐润华陈小荷; 机构南京师范大学语言信息科技研究中心; 出处《中文信息学报》 CSCD 北大核心 2012年第2期13-17,45,共6页; 基金国家"211工程"三期重点学科建设项目"语言科技创新及工作平台建设"子课题"先秦文献词汇统计与知识检索系统" 江苏高校哲学社会科学重点研究基地重大项目"先秦文献词汇知识挖掘"(2010JDXM023); 文摘先秦文献的注疏文献中包含有大量词汇语义知识,是先秦文献自动分词的重要依据。该文以篇幅最大的先秦文献《左传》为研究对象,在对《左传》及其注疏文献进行自动对齐的基础上,提出了一种利用注疏的《左传》分词新方法。分词实验的F值达到89.0%,较之baseline有明显提升。该方法无需训练语料,利用注疏文献辅助分词的思想也适合推广到其他先秦文献的自动分词任务中去。; 关键词先秦文献注疏文献自动对齐自动分词; Keywords Pre-Qin documents commentaries documents automatic alignment automatic segmentation; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名先秦词汇的时代特征自动获取及文献时代的自动判定被引量：4: 3; 作者刘浏李斌曲维光陈小荷; 机构南京师范大学语言信息科技研究中心南京大学计算机软件新技术国家重点实验室南京师范大学计算机科学与技术学院; 出处《中文信息学报》 CSCD 北大核心 2013年第5期107-113,共7页; 基金国家社科基金资助项目(10CYY021、10&ZD117) 江苏省哲社重点研究基地课题资助项目(2010JDXM023) +4 种基金江苏高校优势学科建设工程江苏省普通高校研究生科研创新计划项目(CXLX12_0357); 文摘词汇的时代特征能反应词汇在一个时代发展变化的规律。该文将先秦分为前春秋、春秋和战国三个时代,获取并研究这三个时代的时代独有词、时代特征词及时代发源词。该文提出两种自动判断先秦文献时代的方法,分别基于向量相似度和朴素贝叶斯分类器,在25种先秦文献上后者的分类性能更稳定。最后该文使用朴素贝叶斯分类器验证了《列子》并非成书于先秦。; 关键词先秦词汇时代向量空间模型朴素贝叶斯分类器; Keywords Pre-Qin words times VSM Naive Bayes classifier; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于双语平行语料的中文缩略语提取方法被引量：2: 4; 作者刘友强李斌奚宁陈家骏; 机构南京大学计算机软件新技术国家重点实验室南京师范大学语言信息科技研究中心; 出处《中文信息学报》 CSCD 北大核心 2012年第2期69-74,共6页; 基金国家自然科学基金(61003112 61073119) +1 种基金国家社会科学基金(10CYY021) 南京大学计算机软件新技术国家重点实验室(KFKT2011B03); 文摘汉语缩略语在现代汉语中被广泛使用,其研究对于中文信息处理有着重要地意义。该文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。首先对双语语料进行词对齐,再抽取出与词对齐信息一致的双语短语对,然后用SVM分类器提取出质量高的双语短语对,最后再从质量高的短语对集合中利用相同英文及少量汉语缩略—全称对应规则提取出汉语缩略语及全称语对。实验结果表明,利用平行语料的双语对译信息,自动提取出的缩略语具有较高地准确率,可以作为一种自动获取缩略语词典的有效方法。; 关键词缩略语平行语料库短语抽取分类; Keywords abbreviation parallel corpus phrase extraction classify; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于CRF和转换错误驱动学习的浅层句法分析被引量：1: 5; 作者张芬曲维光赵红艳周俊生; 机构南京师范大学计算机科学与技术学院江苏省信息安全保密技术研究中心南京师范大学语言信息科技研究中心; 出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2011年第3期147-150,共4页; 基金国家自然科学基金资助项目(60773173 61073119) +3 种基金江苏省高校社科基金资助项目(06SJB71007); 文摘本文提出一种CRF和基于转换错误驱动相结合的中文浅层句法分析方法。该方法应用于宾州大学中文树库,取得不错的组块识别效果。在CRF识别的基础上,对初始识别结果中的组块标注信息进行统计分析,获得候选转换规则集合;再根据定义的规则评价函数对候选集进行筛选,得到最终的转换规则集合;最后应用转换规则集对CRF标注的结果进行校正。实验结果表明,与单独使用CRF结果相比,组块识别的精确率、召回率以及F值均得到了提高。; 关键词浅层句法分析 CRF 转换错误驱动学习转换规则集; Keywords shallow parsing CRF transformation-based error-driven learning transformation rules; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于词典信息的先秦汉语全文词义标注方法研究	张颖杰李斌陈家骏陈小荷	《中文信息学报》 CSCD 北大核心	2012	5	在线阅读下载PDF 职称材料
2	一种利用注疏的《左传》分词新方法	徐润华陈小荷	《中文信息学报》 CSCD 北大核心	2012	20	在线阅读下载PDF 职称材料
3	先秦词汇的时代特征自动获取及文献时代的自动判定	刘浏李斌曲维光陈小荷	《中文信息学报》 CSCD 北大核心	2013	4	在线阅读下载PDF 职称材料
4	基于双语平行语料的中文缩略语提取方法	刘友强李斌奚宁陈家骏	《中文信息学报》 CSCD 北大核心	2012	2	在线阅读下载PDF 职称材料
5	基于CRF和转换错误驱动学习的浅层句法分析	张芬曲维光赵红艳周俊生	《广西师范大学学报（自然科学版）》 CAS 北大核心	2011	1	在线阅读下载PDF 职称材料