提出一种基于判别模型的拼写校正方法.它针对已有拼写校正系统Aspell的输出进行重排序,使用判别模型Ranking SVM来改进其性能.将现今较为成熟的拼写校正技术(包括编辑距离、基于字母的n元语法、发音相似度和噪音信道模型)以特征的形式...提出一种基于判别模型的拼写校正方法.它针对已有拼写校正系统Aspell的输出进行重排序,使用判别模型Ranking SVM来改进其性能.将现今较为成熟的拼写校正技术(包括编辑距离、基于字母的n元语法、发音相似度和噪音信道模型)以特征的形式整合到该模型中来,显著地提高了基准系统Aspell的初始排序质量,同时性能也超过了一些商用系统(如Microsoft Word 2003)的拼写校正模块.此外,还提出了一种在搜索引擎查询日志链中自动抽取拼写校正训练对的方法.基于这种方法训练的模型获得了基于人工标注数据所得结果相近的性能,它们分别将基准系统的错误率降低了32.2%和32.6%.展开更多
针对光学字符识别(Optical Character Recognition,OCR)过程中出现的英文字母识别错误问题,通过分析其出错原因,提出一种将拼写错误、OCR错误规则和编辑距离法相结合的校正算法,并实现了拼写校正系统最重要的2项功能:拼写检查和拼写校...针对光学字符识别(Optical Character Recognition,OCR)过程中出现的英文字母识别错误问题,通过分析其出错原因,提出一种将拼写错误、OCR错误规则和编辑距离法相结合的校正算法,并实现了拼写校正系统最重要的2项功能:拼写检查和拼写校正。其中,拼写检查模块采用了查字典技术;校正过程中则采用了编辑距离法。通过选取5种常用字体的打印档的辨识情况,测试了算法的有效性。实例证明,校正后的识别率都提高了2%~4%。展开更多
基金Supported by the National Natural Science Foundation of China under Grant No.60603027 (国家自然科学基金)the Science-Technology Development Project of Tianjin of China under Grant No.04310941R (天津市科技发展计划)the Applied Basic Research Project of Tianjin of China under Grant No.05YFJMJC11700 (天津市应用基础研究计划)
文摘提出一种基于判别模型的拼写校正方法.它针对已有拼写校正系统Aspell的输出进行重排序,使用判别模型Ranking SVM来改进其性能.将现今较为成熟的拼写校正技术(包括编辑距离、基于字母的n元语法、发音相似度和噪音信道模型)以特征的形式整合到该模型中来,显著地提高了基准系统Aspell的初始排序质量,同时性能也超过了一些商用系统(如Microsoft Word 2003)的拼写校正模块.此外,还提出了一种在搜索引擎查询日志链中自动抽取拼写校正训练对的方法.基于这种方法训练的模型获得了基于人工标注数据所得结果相近的性能,它们分别将基准系统的错误率降低了32.2%和32.6%.
文摘针对光学字符识别(Optical Character Recognition,OCR)过程中出现的英文字母识别错误问题,通过分析其出错原因,提出一种将拼写错误、OCR错误规则和编辑距离法相结合的校正算法,并实现了拼写校正系统最重要的2项功能:拼写检查和拼写校正。其中,拼写检查模块采用了查字典技术;校正过程中则采用了编辑距离法。通过选取5种常用字体的打印档的辨识情况,测试了算法的有效性。实例证明,校正后的识别率都提高了2%~4%。