期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
融合字符结构特征的多任务老挝语文字识别研究 被引量:1
1
作者 陈琢 周兰江 +1 位作者 郝永彬 张建安 《中文信息学报》 CSCD 北大核心 2023年第4期34-44,共11页
老挝语属于资源稀缺型语言,直接从互联网中获取老挝语文本语料较为困难,老挝语文字识别研究可在有限的图片文本资源中获取更多的老挝语文本语料。在开展老挝文字光学字符识别的研究工作中,针对老挝单字符误切分、上/下位元音以及音调识... 老挝语属于资源稀缺型语言,直接从互联网中获取老挝语文本语料较为困难,老挝语文字识别研究可在有限的图片文本资源中获取更多的老挝语文本语料。在开展老挝文字光学字符识别的研究工作中,针对老挝单字符误切分、上/下位元音以及音调识别位置存在偏差和相似老挝字符的识别问题,该文研究了老挝字符书写等级和下位辅音,提出一种有效融合老挝字符结构特征的多任务字符识别方法。首先,利用深度残差网络提取字符图片中的老挝字符结构特征,通过边框回归矫正单字符包围框;其次,将已矫正切分结果和提取的字符特征作为联合输入,通过双向长短时记忆网络预测老挝字符序列,利用连接主义时间分类对预测结果进行序列对齐;最后,根据老挝字符固定组合优化模型预测结果。实验结果表明:该方法可以精确识别已切分的老挝字符序列,字符错误率指标低至13.06%。 展开更多
关键词 老挝印刷字符识别 老挝字符结构特征 多任务识别 端到端模型
在线阅读 下载PDF
融合多粒度特征的老挝语词性标注研究 被引量:1
2
作者 唐文 周兰江 张建安 《中文信息学报》 CSCD 北大核心 2023年第4期52-62,共11页
词性标注是自然语言处理领域的基础任务之一。语料稀缺、词形复杂、存在大量低频词和未登录词,句式较长,在数据传递过程中信息易丢失,这些都是导致老挝语词性标注不准确的主要原因。因此,该文提出一种融合多粒度特征的老挝语词性标注方... 词性标注是自然语言处理领域的基础任务之一。语料稀缺、词形复杂、存在大量低频词和未登录词,句式较长,在数据传递过程中信息易丢失,这些都是导致老挝语词性标注不准确的主要原因。因此,该文提出一种融合多粒度特征的老挝语词性标注方法,构建了融合老挝词、字符和音节特征的Transformer-CRF模型。首先,在传统词向量的基础上融合老挝语字符和音节特征向量,使模型在三个粒度级别上充分利用语料信息;其次,使用Trans-former对老挝语句子进行长远上下文信息提取,解决重要信息丢失问题;最后,使用CRF提取相邻词性约束关系,从而获取最优词性标签。实验结果表明,在语料有限的情况下,该模型与其他主流模型相比达到了更显著的效果,精确率、召回率和F1值分别为94.76%、93.93%、94.34%。 展开更多
关键词 多粒度 老挝语 词性标注 TRANSFORMER
在线阅读 下载PDF
融合词性位置特征的多任务汉老双语短文本相似度计算方法
3
作者 李炫达 周兰江 张建安 《中文信息学报》 CSCD 北大核心 2023年第4期18-27,33,共11页
老挝语属于低资源语言,在有限的语料中获取更多的语义信息可以有效解决汉语和老挝语短文本相似度计算不准确的问题。多任务学习是有效获取语义信息的一种方法,该文对汉语和老挝语短文本特点进行研究后,提出一种融合词性位置特征的多任... 老挝语属于低资源语言,在有限的语料中获取更多的语义信息可以有效解决汉语和老挝语短文本相似度计算不准确的问题。多任务学习是有效获取语义信息的一种方法,该文对汉语和老挝语短文本特点进行研究后,提出一种融合词性位置特征的多任务汉老双语短文本相似度计算方法:首先,通过词性位置特征权重和TF-IDF权重加权表征双语短文本的同时,使用改进后的TextRank算法获取双语短文本的核心句;然后,通过带有自注意力机制的双向长短时记忆网络分别计算双语短文本的相似度与双语短文本对应核心句的相似度;最后,使用多任务学习方法,将双语短文本的核心句相似度计算作为辅助任务,获取更多的语义信息进行共享以提升汉老双语短文本相似度计算模型的性能。实验结果表明,该文提出的方法在有限的训练语料下取得了更好的效果,F_(1)值达76.16%。 展开更多
关键词 汉语-老挝语 词性位置特征 多任务学习 短文本相似度计算
在线阅读 下载PDF
基于互译特征词对匹配的老-汉双语句子相似度计算方法研究 被引量:1
4
作者 李思卓 周兰江 +1 位作者 周枫 张建安 《现代电子技术》 北大核心 2019年第24期79-83,87,共6页
句子相似度的计算在自然语言处理的各个领域有很广泛的应用,但跨语言的句子相似度计算方法却非常少。文中提出一种基于互译特征词对匹配,构建老-汉双语句子相似度计算方法,改进了传统的依赖于词形词序通过计算相同词个数和共有单词的位... 句子相似度的计算在自然语言处理的各个领域有很广泛的应用,但跨语言的句子相似度计算方法却非常少。文中提出一种基于互译特征词对匹配,构建老-汉双语句子相似度计算方法,改进了传统的依赖于词形词序通过计算相同词个数和共有单词的位置信息的相似度计算方法,充分考虑了老挝语和汉语句子中的词汇互译信息、相似概率,避免了由于特征词位置导致的精度丢失。此方法用来最终识别相似度较高的老-汉双语平行句对,依据相似度对源句子和目标句子进行对齐,在老-汉双语平行语料库的建设中使用。实验结果表明,此方法在一定程度上提高了老-汉双语句子相似度计算的准确率。 展开更多
关键词 老-汉双语词典 相似度计算 算法改进 双语句对识别 词汇互译 实验验证
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部