期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
领域专有平行语料库的敏捷构建方法
1
作者
李铭
张克亮
《厦门大学学报(自然科学版)》
北大核心
2025年第4期586-596,共11页
[目的]针对领域平行语料库数量不足,构建困难的问题,研究能够敏捷构建满足垂直领域模型训练要求的领域平行语料库的方法.[方法]在构建的通用大规模跨领域平行语料库的基础上提出了领域专有平行语料库的自动构建方法.该方法结合语言学理...
[目的]针对领域平行语料库数量不足,构建困难的问题,研究能够敏捷构建满足垂直领域模型训练要求的领域平行语料库的方法.[方法]在构建的通用大规模跨领域平行语料库的基础上提出了领域专有平行语料库的自动构建方法.该方法结合语言学理论概念层次网络与词向量模型构建目标领域核心词汇,并依此抽取目标领域平行句对,从而实现领域专有平行语料库敏捷构建.[结果]以军事领域为例,进行领域专有平行语料库构建与领域机器翻译的测试结果表明:相较于使用关键词对比、预训练模型与语言大模型等方法,本文方法所构建的领域平行语料库具有更高的F_(1)值.使用该方法生成语料所训练的机器翻译模型在该领域的翻译结果相比于上述方法与商业翻译引擎具有更高的双语互译评估(BLEU)值.[结论]本文所提方法能够有效复用现有的高质量开源语料资源,并在数小时之内完成最贴合目标领域的平行语料库的构建,从而提升领域机器翻译的效果.
展开更多
关键词
领域专有平行语料库
概念层次网络
句对抽取算法
语义距离计算
在线阅读
下载PDF
职称材料
题名
领域专有平行语料库的敏捷构建方法
1
作者
李铭
张克亮
机构
国防科技大学外国语学院
出处
《厦门大学学报(自然科学版)》
北大核心
2025年第4期586-596,共11页
文摘
[目的]针对领域平行语料库数量不足,构建困难的问题,研究能够敏捷构建满足垂直领域模型训练要求的领域平行语料库的方法.[方法]在构建的通用大规模跨领域平行语料库的基础上提出了领域专有平行语料库的自动构建方法.该方法结合语言学理论概念层次网络与词向量模型构建目标领域核心词汇,并依此抽取目标领域平行句对,从而实现领域专有平行语料库敏捷构建.[结果]以军事领域为例,进行领域专有平行语料库构建与领域机器翻译的测试结果表明:相较于使用关键词对比、预训练模型与语言大模型等方法,本文方法所构建的领域平行语料库具有更高的F_(1)值.使用该方法生成语料所训练的机器翻译模型在该领域的翻译结果相比于上述方法与商业翻译引擎具有更高的双语互译评估(BLEU)值.[结论]本文所提方法能够有效复用现有的高质量开源语料资源,并在数小时之内完成最贴合目标领域的平行语料库的构建,从而提升领域机器翻译的效果.
关键词
领域专有平行语料库
概念层次网络
句对抽取算法
语义距离计算
Keywords
domain-specific parallel corpora
HNC
sentence extraction algorithm
semantic distance computation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
G35 [文化科学—情报学]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
领域专有平行语料库的敏捷构建方法
李铭
张克亮
《厦门大学学报(自然科学版)》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部