-
题名语言建模中最小化样本风险算法的研究和改进
- 1
-
-
作者
袁伟
高剑峰
步丰林
-
机构
上海交通大学计算机科学与工程系
Natural Language Processing Group
-
出处
《软件学报》
EI
CSCD
北大核心
2007年第2期196-204,共9页
-
文摘
目前,一些主流的判别学习算法只能优化光滑可导的损失函数,但在自然语言处理(natural language processing,简称NLP)中,很多应用的直接评价标准(如字符转换错误数(character error rate,简称CER))都是不可导的阶梯形函数.为解决此问题,研究了一种新提出的判别学习算法——最小化样本风险(minimum sample risk,简称MSR)算法.与其他判别训练算法不同,MSR算法直接使用阶梯形函数作为其损失函数.首先,对MSR算法的时空复杂性作了分析和提高;同时,提出了改进的算法MSR-II,使得特征之间相关性的计算更加稳定.此外,还通过大量领域适应性建模实验来考察MSR-II的鲁棒性.日文汉字输入实验的评测结果表明:(1)MSR/MSR-II显著优于传统三元模型,使错误率下降了20.9%;(2)MSR/MSR-II与另两类主流判别学习算法Boosting和Perceptron表现相当;(3)MSR-II不仅在时空复杂度上优于MSR,特征选择的稳定性也更高;(4)领域适应性建模的结果证明了MSR-II的良好鲁棒性.总之,MSR/MSR-II是一种非常有效的算法.由于其使用的是阶梯形的损失函数,因此可以广泛应用于自然语言处理的各个领域,如拼写校正和机器翻译.
-
关键词
语言建模
判别训练算法
输入法编辑器
最小化样本风险
领域适应性建模
-
Keywords
language modeling
discriminative training method
input method editor
minimum sample risk
domain adaptation modeling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-