由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克...由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克语基本动词短语(Kz Base VP)进行识别。在该混合策略系统中,根据专属Kz Base VP的特点构建了Kz Base VP搭配规则集,通过规则集对无歧义的Kz Base VP进行标注,其正确率为85.43%;运用基于统计的最大熵模型对存在歧义的Kz Base VP进行识别,根据哈萨克语的单词、词性、词缀和上下文信息等来设计最大熵模型的特征模板,并对模型进行了改进,在解码中选取概率最大的前n个上下文信息分别加入到下一个VP的特征向量中,以此类推直至文本结束,最终选出一条概率最优的VP标注。实验证明,在封闭和开发测试条件下对基本动词短语的识别准确率分别为97.23%和93.22%。展开更多
为了提高藏文人名识别的效果,提出了结合三层的层次特征的藏文人名识别算法。提出了无须分词,仅在藏文音节粒度上,基于藏文人名三层特征:内部特征、上下文信息、并列关系特征,利用条件随机场(conditional random fields,CRF)算法进行藏...为了提高藏文人名识别的效果,提出了结合三层的层次特征的藏文人名识别算法。提出了无须分词,仅在藏文音节粒度上,基于藏文人名三层特征:内部特征、上下文信息、并列关系特征,利用条件随机场(conditional random fields,CRF)算法进行藏文人名识别的研究。首先将人名的内部和上下文特征作为CRF特征,然后将人名并列关系特征设计为规则进一步提高识别效果。在不影响准确率的情况下,最终将人名识别的召回率提高了10.43%,综合F值达到了95.02%。其中对于藏族人名的F值提升了11%,音译人名识别的F值达到了94.09%。实验结果表明,该方法可以有效提升藏文人名的识别效果。展开更多
文摘由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克语基本动词短语(Kz Base VP)进行识别。在该混合策略系统中,根据专属Kz Base VP的特点构建了Kz Base VP搭配规则集,通过规则集对无歧义的Kz Base VP进行标注,其正确率为85.43%;运用基于统计的最大熵模型对存在歧义的Kz Base VP进行识别,根据哈萨克语的单词、词性、词缀和上下文信息等来设计最大熵模型的特征模板,并对模型进行了改进,在解码中选取概率最大的前n个上下文信息分别加入到下一个VP的特征向量中,以此类推直至文本结束,最终选出一条概率最优的VP标注。实验证明,在封闭和开发测试条件下对基本动词短语的识别准确率分别为97.23%和93.22%。
文摘为了提高藏文人名识别的效果,提出了结合三层的层次特征的藏文人名识别算法。提出了无须分词,仅在藏文音节粒度上,基于藏文人名三层特征:内部特征、上下文信息、并列关系特征,利用条件随机场(conditional random fields,CRF)算法进行藏文人名识别的研究。首先将人名的内部和上下文特征作为CRF特征,然后将人名并列关系特征设计为规则进一步提高识别效果。在不影响准确率的情况下,最终将人名识别的召回率提高了10.43%,综合F值达到了95.02%。其中对于藏族人名的F值提升了11%,音译人名识别的F值达到了94.09%。实验结果表明,该方法可以有效提升藏文人名的识别效果。