期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
结构特征一致性约束的双语平行句对抽取
被引量:
2
1
作者
毛存礼
高旭
+3 位作者
余正涛
王振晗
高盛祥
满志博
《重庆大学学报》
EI
CAS
CSCD
北大核心
2021年第1期46-56,共11页
平行句对抽取是解决低资源神经机器翻译平行语料不足的有效途径。基于孪生神经网络的平行句对抽取方法的核心是通过跨语言语义相似度判断2个句子是否平行,在相似的语言对上取得了非常显著的效果。然而针对英语东南亚语言双语句对抽取任...
平行句对抽取是解决低资源神经机器翻译平行语料不足的有效途径。基于孪生神经网络的平行句对抽取方法的核心是通过跨语言语义相似度判断2个句子是否平行,在相似的语言对上取得了非常显著的效果。然而针对英语东南亚语言双语句对抽取任务,面临语言空间和句子长度存在较大差异,仅考虑跨语言语义相似度而忽略句子长度特征会导致模型对仅有语义包含关系但不平行句对的误判。笔者提出一种结构特征一致性约束的双语平行句对抽取方法,该方法是对基于孪生神经网络的双语平行句对抽取模型的扩展,首先通过多语言BERT预训练语言模型在嵌入层将两种语言编码到同一语义空间,以此缩小语义空间中语言的差异。其次分别对两种语言句子的长度特征进行编码,与孪生网络编码后的句子语义向量进行融合,增强平行句对在语义及结构特征上的表示,降低模型对语义相似但不平行句对的误判。在英缅双语数据集上进行实验,结果表明提出的方法相比基线模型准确率提高了4.64%,召回率提高了2.52%,F 1值提高了3.51%。
展开更多
关键词
双语平行句对
低资源语言
BERT预训练
孪生网络
结构
在线阅读
下载PDF
职称材料
Web环境下自动获取汉、维语料库
被引量:
1
2
作者
姜子进
吐尔根.依布拉音
+1 位作者
赛依旦.阿不力米提
田生伟
《计算机应用与软件》
CSCD
2011年第12期19-21,70,共4页
句子级的语料库是机器翻译的重要资源,但由于获取途径的限制,句子级的语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。根据锚文本信息通过搜索引擎在网络上找到汉维双语平行网站,并下载网站中所有的双语平行网页。...
句子级的语料库是机器翻译的重要资源,但由于获取途径的限制,句子级的语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。根据锚文本信息通过搜索引擎在网络上找到汉维双语平行网站,并下载网站中所有的双语平行网页。提取出有正文的网页,根据html特征,建立html树,提出一种将html树结构作为识别网页正文内容重要特征的网页分析方法,并根据正文内容信息相似性提取网页正文。对提取出的正文进行句子切分,分别创建句子级的汉、维语料库,为以后创建句子级的汉维双语平行语料库服务。
展开更多
关键词
双语
平行
语料库
双语平行句对
正文提取
在线阅读
下载PDF
职称材料
题名
结构特征一致性约束的双语平行句对抽取
被引量:
2
1
作者
毛存礼
高旭
余正涛
王振晗
高盛祥
满志博
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
出处
《重庆大学学报》
EI
CAS
CSCD
北大核心
2021年第1期46-56,共11页
基金
国家自然科学基金重点资助项目(61732005)
国家自然科学基金资助项目(61662041,61761026,61866019,61972186)
+1 种基金
云南省应用基础研究计划重点资助项目(2019FA023)
云南省中青年学术和技术带头人后备人才资助项目(2019HB006)。
文摘
平行句对抽取是解决低资源神经机器翻译平行语料不足的有效途径。基于孪生神经网络的平行句对抽取方法的核心是通过跨语言语义相似度判断2个句子是否平行,在相似的语言对上取得了非常显著的效果。然而针对英语东南亚语言双语句对抽取任务,面临语言空间和句子长度存在较大差异,仅考虑跨语言语义相似度而忽略句子长度特征会导致模型对仅有语义包含关系但不平行句对的误判。笔者提出一种结构特征一致性约束的双语平行句对抽取方法,该方法是对基于孪生神经网络的双语平行句对抽取模型的扩展,首先通过多语言BERT预训练语言模型在嵌入层将两种语言编码到同一语义空间,以此缩小语义空间中语言的差异。其次分别对两种语言句子的长度特征进行编码,与孪生网络编码后的句子语义向量进行融合,增强平行句对在语义及结构特征上的表示,降低模型对语义相似但不平行句对的误判。在英缅双语数据集上进行实验,结果表明提出的方法相比基线模型准确率提高了4.64%,召回率提高了2.52%,F 1值提高了3.51%。
关键词
双语平行句对
低资源语言
BERT预训练
孪生网络
结构
Keywords
parallel sentence
low-resource
BERT pretrain
siamese network
structural
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
Web环境下自动获取汉、维语料库
被引量:
1
2
作者
姜子进
吐尔根.依布拉音
赛依旦.阿不力米提
田生伟
机构
新疆大学信息科学与工程学院
出处
《计算机应用与软件》
CSCD
2011年第12期19-21,70,共4页
基金
国家自然科学基金资助项目(60963017)
国家社科基金资助项目(10BTQ045)
新疆自治区高校科研计划重点项目(XJEDU2009I05)
文摘
句子级的语料库是机器翻译的重要资源,但由于获取途径的限制,句子级的语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。根据锚文本信息通过搜索引擎在网络上找到汉维双语平行网站,并下载网站中所有的双语平行网页。提取出有正文的网页,根据html特征,建立html树,提出一种将html树结构作为识别网页正文内容重要特征的网页分析方法,并根据正文内容信息相似性提取网页正文。对提取出的正文进行句子切分,分别创建句子级的汉、维语料库,为以后创建句子级的汉维双语平行语料库服务。
关键词
双语
平行
语料库
双语平行句对
正文提取
Keywords
Bilingual parallel corpus library Bilingual parallel sentence pair Text extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
结构特征一致性约束的双语平行句对抽取
毛存礼
高旭
余正涛
王振晗
高盛祥
满志博
《重庆大学学报》
EI
CAS
CSCD
北大核心
2021
2
在线阅读
下载PDF
职称材料
2
Web环境下自动获取汉、维语料库
姜子进
吐尔根.依布拉音
赛依旦.阿不力米提
田生伟
《计算机应用与软件》
CSCD
2011
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部