期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
中文分词十年回顾 被引量:251
1
作者 黄昌宁 赵海 《中文信息学报》 CSCD 北大核心 2007年第3期8-19,共12页
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可... 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。 展开更多
关键词 计算机应用 中文信息处理 中文分词 词语定义 未登录词识别 字标注分词方法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部