期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于跨语言模型的中美数字经济政策对比
1
作者 邹雨衡 路冬媛 桑栋 《复杂系统与复杂性科学》 北大核心 2025年第2期82-89,共8页
在中美战略竞争日益加剧的背景下,对比分析中美数字经济政策具有重大的战略意义。面对传统政策对比方法在样本范围和人工分析的局限性,本研究提出了一种创新性的基于跨语言模型的复杂分析框架,结合数字经济政策特性,通过针对性微调跨语... 在中美战略竞争日益加剧的背景下,对比分析中美数字经济政策具有重大的战略意义。面对传统政策对比方法在样本范围和人工分析的局限性,本研究提出了一种创新性的基于跨语言模型的复杂分析框架,结合数字经济政策特性,通过针对性微调跨语言模型,对中美数字经济政策进行多维分类与多语言相似度计算,实现了中美数字经济政策环境的自动化对比分析。通过实验表明,本文提出的方法能够在政策工具、数字经济组成要素等多个维度准确识别政策文本特征,在多个分类维度上的准确率均优于基线方法。基于本文方法,通过对1.6万余篇中美数字经济政策文本进行对比分析,本文揭示了两国政策在政策工具使用、数字经济产业发展重心等方面的关键差异,并针对性提出了进一步发展数字经济的政策建议。 展开更多
关键词 数字经济 政策对比 跨语言模型
在线阅读 下载PDF
基于跨语种预训练语言模型XLM-R的神经机器翻译方法 被引量:12
2
作者 王倩 李茂西 +1 位作者 吴水秀 王明文 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第1期29-36,共8页
探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端,提高机器翻译的质量。提出3种网络模型,分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示。在WMT英语-德... 探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端,提高机器翻译的质量。提出3种网络模型,分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示。在WMT英语-德语、IWSLT英语-葡萄牙语以及英语-越南语等翻译中的实验结果表明,对双语平行语料资源丰富的翻译任务,引入XLM-R可以很好地对源语言句子进行编码,从而提高翻译质量;对双语平行语料资源匮乏的翻译任务,引入XLM-R不仅可以很好地对源语言句子进行编码,还可以对源语言端和目标语言端的知识同时进行补充,提高翻译质量。 展开更多
关键词 语种预训练语言模型 神经机器翻译 Transformer网络模型 XLM-R模型 微调
在线阅读 下载PDF
基于跨语言广义向量空间模型的跨语言文档聚类方法 被引量:6
3
作者 唐国瑜 夏云庆 +1 位作者 张民 郑方 《中文信息学报》 CSCD 北大核心 2012年第2期116-120,共5页
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual ... 跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。 展开更多
关键词 语言文档聚类 语言广义向量空间模型 文档聚类 语言信息检索
在线阅读 下载PDF
利用语义关联增强的跨语言预训练模型的译文质量评估 被引量:2
4
作者 叶恒 贡正仙 《中文信息学报》 CSCD 北大核心 2023年第3期79-88,共10页
机器翻译质量评估(QE)是在不依赖参考译文的条件下,自动对机器翻译译文进行评估。当前人工标注数据稀缺,使得神经QE模型在自动检测译文错误方面还存在较大问题。为了更好地利用规模庞大但却缺少人工标注信息的平行语料,该文提出一种基... 机器翻译质量评估(QE)是在不依赖参考译文的条件下,自动对机器翻译译文进行评估。当前人工标注数据稀缺,使得神经QE模型在自动检测译文错误方面还存在较大问题。为了更好地利用规模庞大但却缺少人工标注信息的平行语料,该文提出一种基于平行语料的翻译知识迁移方案。首先采用跨语言预训练模型XLM-R构建神经质量评估基线系统,在此基础上提出三种预训练策略增强XLM-R的双语语义关联能力。该文方法在WMT 2017和WMT 2019的英德翻译质量评估数据集上都达到了最高性能。 展开更多
关键词 机器翻译质量评估 语言预训练模型 语义关联 预训练策略
在线阅读 下载PDF
大语言模型与多语言智能的研究进展与启示 被引量:19
5
作者 徐月梅 胡玲 +2 位作者 赵佳艺 杜宛泽 王文清 《计算机应用》 CSCD 北大核心 2023年第S02期1-8,共8页
针对大语言模型(LLM)在高资源语言上表现优异而在低资源语言上表现欠佳的现状,深入分析LLM在多语言场景下的研究现状、技术与局限。首先,从2018年至今以Multi-BERT(multi-lingual Bidirectional Encoder Representations from Transform... 针对大语言模型(LLM)在高资源语言上表现优异而在低资源语言上表现欠佳的现状,深入分析LLM在多语言场景下的研究现状、技术与局限。首先,从2018年至今以Multi-BERT(multi-lingual Bidirectional Encoder Representations from Transformers)、GPT(Generative Pre-trained Transformer)和ChatGPT(Chat Generative Pre-trained Transformer)等语言模型为代表,综述LLM的发展脉络;然后,具体分析了大语言模型在多语言智能上的探索,总结现有LLM在多语言智能的研究局限及其改进方向;最后,探讨LLM未来的多语言智能应用场景。分析指出现有LLM受限于多语言训练语料不均衡,存在语言文化的伦理偏见、语言模型的风格趋同化、多语言能力评估基准缺乏以及多语言场景下的模型幻象输出等问题,未来可采用同一语系家族语言的联合训练、多语言适配器技术、跨语言迁移学习技术、提示语工程技术、基于人工智能反馈的强化学习技术等策略实现多语言智能的LLM。 展开更多
关键词 语言模型 语言智能 跨语言模型 通用人工智能 迁移学习
在线阅读 下载PDF
基于多语义空间的机器译文质量估计
6
作者 陈康 刘尧舜 +2 位作者 李茂西 王倩 吴水秀 《中文信息学报》 北大核心 2025年第5期72-81,共10页
在不需要人工参考译文对照的情况下,仅利用源语言句子对机器译文的质量进行评估是机器译文质量估计任务的目标。当前的机器译文质量估计方法仅在单个语义空间内比较源语言句子和机器译文,难以全面捕捉不同语言的语义特征,导致译文质量... 在不需要人工参考译文对照的情况下,仅利用源语言句子对机器译文的质量进行评估是机器译文质量估计任务的目标。当前的机器译文质量估计方法仅在单个语义空间内比较源语言句子和机器译文,难以全面捕捉不同语言的语义特征,导致译文质量估计的准确性和可靠性不足。针对这个问题,该文提出基于多语义空间的机器译文质量估计方法,通过融合源语言、目标语言和跨语言语义空间质量特征,更准确地评估机器译文的质量。该文方法借助大语言模型和相应提示对源语言句子进行翻译生成伪参考译文,对机器译文进行翻译生成回译;利用跨语言预训练模型X-MOD表征源语言句子和回译提取在源语言语义空间的机器译文质量特征、利用X-MOD表征源语言句子和机器译文提取在跨语言语义空间的机器译文质量特征、利用X-MOD表征机器译文和伪参考译文提取在目标语言语义空间的机器译文质量特征;通过多头自注意力机制和前馈神经网络融合多语义空间特征构建端到端的机器译文质量估计神经网络模型。在WMT′23句子级别机器译文质量估计任务基准数据集上的实验结果表明,该文方法性能超过了当前先进的机器译文质量估计方法TransQuest和UniTE,并超过了参与评测的最优系统。 展开更多
关键词 机器译文质量估计 语言预训练模型 多语义空间特征 伪参考译文 回译
在线阅读 下载PDF
基于多语BERT的无监督攻击性言论检测 被引量:5
7
作者 师夏阳 张风远 +1 位作者 袁嘉琪 黄敏 《计算机应用》 CSCD 北大核心 2022年第11期3379-3385,共7页
攻击性言论会对社会安定造成严重不良影响,但目前攻击性言论自动检测主要集中在少数几种高资源语言,对低资源语言缺少足够的攻击性言论标注语料导致检测困难,为此,提出一种跨语言无监督攻击性迁移检测方法。首先,使用多语BERT(mBERT)模... 攻击性言论会对社会安定造成严重不良影响,但目前攻击性言论自动检测主要集中在少数几种高资源语言,对低资源语言缺少足够的攻击性言论标注语料导致检测困难,为此,提出一种跨语言无监督攻击性迁移检测方法。首先,使用多语BERT(mBERT)模型在高资源英语数据集上进行对攻击性特征的学习,得到一个原模型;然后,通过分析英语与丹麦语、阿拉伯语、土耳其语、希腊语的语言相似程度,将原模型迁移到这四种低资源语言上,实现对低资源语言的攻击性言论自动检测。实验结果显示,与BERT、线性回归(LR)、支持向量机(SVM)、多层感知机(MLP)这四种方法相比,所提方法在丹麦语、阿拉伯语、土耳其语、希腊语这四种语言上的攻击性言论检测的准确率和F1值均提高了近2个百分点,接近目前的有监督检测,可见采用跨语言模型迁移学习和迁移检测相结合的方法能够实现对低资源语言的无监督攻击性检测。 展开更多
关键词 跨语言模型 攻击性言论检测 BERT 无监督方法 迁移学习
在线阅读 下载PDF
融合XLM词语表示的神经机器译文自动评价方法 被引量:1
8
作者 胡纬 李茂西 +1 位作者 裘白莲 王明文 《中文信息学报》 CSCD 北大核心 2023年第9期46-54,共9页
机器译文自动评价对机器翻译的发展和应用起着重要的促进作用,其一般通过计算机器译文和人工参考译文的相似度来度量机器译文的质量。该文通过跨语种预训练语言模型XLM将源语言句子、机器译文和人工参考译文映射到相同的语义空间,结合... 机器译文自动评价对机器翻译的发展和应用起着重要的促进作用,其一般通过计算机器译文和人工参考译文的相似度来度量机器译文的质量。该文通过跨语种预训练语言模型XLM将源语言句子、机器译文和人工参考译文映射到相同的语义空间,结合分层注意力和内部注意力提取源语言句子与机器译文、机器译文与人工参考译文以及源语言句子与人工参考译文之间的差异特征,并将其融入基于Bi-LSTM神经译文自动评价方法中。在WMT 19译文自动评价数据集上的实验结果表明,融合XLM词语表示的神经机器译文自动评价方法显著提高了其与人工评价的相关性。 展开更多
关键词 机器翻译 译文自动评价 语种预训练语言模型 差异特征
在线阅读 下载PDF
相似度增强的译文质量评估方法
9
作者 陈世男 贡正仙 +1 位作者 李军辉 周国栋 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期646-653,共8页
机器翻译的质量评估作为不依赖参考译文而预测翻译质量的任务,在机器翻译领域中起到了重要的作用.相较于机器翻译,质量评估的数据资源非常稀缺,将跨语言预训练模型应用到该任务中,不但能受益于从大规模语料中学习到的跨语言知识,解决数... 机器翻译的质量评估作为不依赖参考译文而预测翻译质量的任务,在机器翻译领域中起到了重要的作用.相较于机器翻译,质量评估的数据资源非常稀缺,将跨语言预训练模型应用到该任务中,不但能受益于从大规模语料中学习到的跨语言知识,解决数据量不足的问题,而且极大地节约了计算资源.但与建立跨语言预训练模型采用的正常数据不同,译文质量评估面对的是正常的源端文本和错误程度不同的目标端文本,即它需要应对更大的两端语义差异.因此,本文为基于跨语言预训练模型的译文质量评估系统引入了特殊的语义关联处理层,通过相似度增强的拼接机制来增强原文与译文的语义关联性,从而提高质量评估的准确性.该方法在WMT19质量评估任务数据集上的实验结果验证了上述方法的有效性. 展开更多
关键词 质量评估 机器翻译 语言预训练模型 语义关联层 相似度增强
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部