期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于CRFs和歧义模型的越南语分词 被引量:2
1
作者 熊明明 李英 +2 位作者 郭剑毅 毛存礼 余正涛 《数据采集与处理》 CSCD 北大核心 2017年第3期636-642,共7页
通过对越南语词法特点的研究,把越南语的基本特征融入到条件随机场中(Condition random fields,CRFs),提出了一种基于CRFs和歧义模型的越南语分词方法。通过机器标注、人工校对的方式获取了25 981条越南语分词语料作为CRFs的训练语料。... 通过对越南语词法特点的研究,把越南语的基本特征融入到条件随机场中(Condition random fields,CRFs),提出了一种基于CRFs和歧义模型的越南语分词方法。通过机器标注、人工校对的方式获取了25 981条越南语分词语料作为CRFs的训练语料。越南语中交叉歧义广泛分布在句子中,为了克服交叉歧义的影响,通过词典的正向和逆向匹配算法从训练语料中抽取了5 377条歧义片段,并通过最大熵模型训练得到一个歧义模型,并融入到分词模型中。把训练语料均分为10份做交叉验证实验,分词准确率达到了96.55%。与已有越南语分词工具VnTokenizer比较,实验结果表明该方法提高了越南语分词的准确率、召回率和F值。 展开更多
关键词 条件随机场模型 越南语分词 词法 基本特征 最大熵 歧义模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部