期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于词典信息的先秦汉语全文词义标注方法研究 被引量:5
1
作者 张颖杰 李斌 +1 位作者 陈家骏 陈小荷 《中文信息学报》 CSCD 北大核心 2012年第3期65-71,103,共8页
词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的... 词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的例句作为训练语料,使用基于支持向量机(SVM)的半指导方法对《左传》进行全文的词义标注。按照频度不同、义项数量不同的原则,我们随机选取了22个词进行了人工检查,平均正确率达到67%。该方法可以广泛用于缺乏训练语料的古汉语义项标注工作,能够在古汉语全文词义标注的起步阶段提供初始结果,为人工标注词语义项提供良好的数据底本,补正传统词典释义不全的问题,进一步丰富汉语史发展研究资料。 展开更多
关键词 词义消歧 义项标注 古汉语 自然语言处理
在线阅读 下载PDF
一种利用注疏的《左传》分词新方法 被引量:20
2
作者 徐润华 陈小荷 《中文信息学报》 CSCD 北大核心 2012年第2期13-17,45,共6页
先秦文献的注疏文献中包含有大量词汇语义知识,是先秦文献自动分词的重要依据。该文以篇幅最大的先秦文献《左传》为研究对象,在对《左传》及其注疏文献进行自动对齐的基础上,提出了一种利用注疏的《左传》分词新方法。分词实验的F值达... 先秦文献的注疏文献中包含有大量词汇语义知识,是先秦文献自动分词的重要依据。该文以篇幅最大的先秦文献《左传》为研究对象,在对《左传》及其注疏文献进行自动对齐的基础上,提出了一种利用注疏的《左传》分词新方法。分词实验的F值达到89.0%,较之baseline有明显提升。该方法无需训练语料,利用注疏文献辅助分词的思想也适合推广到其他先秦文献的自动分词任务中去。 展开更多
关键词 先秦文献 注疏文献 自动对齐 自动分词
在线阅读 下载PDF
先秦词汇的时代特征自动获取及文献时代的自动判定 被引量:4
3
作者 刘浏 李斌 +1 位作者 曲维光 陈小荷 《中文信息学报》 CSCD 北大核心 2013年第5期107-113,共7页
词汇的时代特征能反应词汇在一个时代发展变化的规律。该文将先秦分为前春秋、春秋和战国三个时代,获取并研究这三个时代的时代独有词、时代特征词及时代发源词。该文提出两种自动判断先秦文献时代的方法,分别基于向量相似度和朴素贝叶... 词汇的时代特征能反应词汇在一个时代发展变化的规律。该文将先秦分为前春秋、春秋和战国三个时代,获取并研究这三个时代的时代独有词、时代特征词及时代发源词。该文提出两种自动判断先秦文献时代的方法,分别基于向量相似度和朴素贝叶斯分类器,在25种先秦文献上后者的分类性能更稳定。最后该文使用朴素贝叶斯分类器验证了《列子》并非成书于先秦。 展开更多
关键词 先秦词汇 时代 向量空间模型 朴素贝叶斯分类器
在线阅读 下载PDF
基于双语平行语料的中文缩略语提取方法 被引量:2
4
作者 刘友强 李斌 +1 位作者 奚宁 陈家骏 《中文信息学报》 CSCD 北大核心 2012年第2期69-74,共6页
汉语缩略语在现代汉语中被广泛使用,其研究对于中文信息处理有着重要地意义。该文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。首先对双语语料进行词对齐,再抽取出与词对齐信息一致的双语短语对,然后用SVM分类器提取出质量... 汉语缩略语在现代汉语中被广泛使用,其研究对于中文信息处理有着重要地意义。该文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。首先对双语语料进行词对齐,再抽取出与词对齐信息一致的双语短语对,然后用SVM分类器提取出质量高的双语短语对,最后再从质量高的短语对集合中利用相同英文及少量汉语缩略—全称对应规则提取出汉语缩略语及全称语对。实验结果表明,利用平行语料的双语对译信息,自动提取出的缩略语具有较高地准确率,可以作为一种自动获取缩略语词典的有效方法。 展开更多
关键词 缩略语 平行语料库 短语抽取 分类
在线阅读 下载PDF
基于CRF和转换错误驱动学习的浅层句法分析 被引量:1
5
作者 张芬 曲维光 +1 位作者 赵红艳 周俊生 《广西师范大学学报(自然科学版)》 CAS 北大核心 2011年第3期147-150,共4页
本文提出一种CRF和基于转换错误驱动相结合的中文浅层句法分析方法。该方法应用于宾州大学中文树库,取得不错的组块识别效果。在CRF识别的基础上,对初始识别结果中的组块标注信息进行统计分析,获得候选转换规则集合;再根据定义的规则评... 本文提出一种CRF和基于转换错误驱动相结合的中文浅层句法分析方法。该方法应用于宾州大学中文树库,取得不错的组块识别效果。在CRF识别的基础上,对初始识别结果中的组块标注信息进行统计分析,获得候选转换规则集合;再根据定义的规则评价函数对候选集进行筛选,得到最终的转换规则集合;最后应用转换规则集对CRF标注的结果进行校正。实验结果表明,与单独使用CRF结果相比,组块识别的精确率、召回率以及F值均得到了提高。 展开更多
关键词 浅层句法分析 CRF 转换错误驱动学习 转换规则集
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部