期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种提高跨语言理解的NLP迁移学习 被引量:3
1
作者 王坤 盛鸿宇 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期153-163,共11页
随着互联网信息的发展,如何有效地表示不同语言所含的信息已成为自然语言处理(Natural Language Processing,NLP)领域的一项重要任务.然而,很多传统的机器学习模型依赖在高资源语言中进行训练,无法迁移到低资源语言中使用.为了解决这一... 随着互联网信息的发展,如何有效地表示不同语言所含的信息已成为自然语言处理(Natural Language Processing,NLP)领域的一项重要任务.然而,很多传统的机器学习模型依赖在高资源语言中进行训练,无法迁移到低资源语言中使用.为了解决这一问题,结合迁移学习和深度学习模型,提出一种多语言双向编码器表征量(Multi-lingual Bidirectional Encoder Representations from Transformers,M-BERT)的迁移学习方法.该方法利用M-BERT作为特征提取器,在源语言领域和目标语言领域之间进行特征转换,减小不同语言领域之间的差异,从而提高目标任务在不同领域之间的泛化能力.首先,在构建BERT模型的基础上,通过数据收集处理、训练设置、参数估计和模型训练等预训练操作完成M-BERT模型的构建,并在目标任务上进行微调.然后,利用迁移学习实现M-BERT模型在跨语言文本分析方面的应用.最后,在从英语到法语和德语的跨语言迁移实验中,证明了本文模型具有较高的性能质量和较小的计算量,并在联合训练方案中达到了96.2%的准确率.研究结果表明,该文模型实现了跨语言数据迁移,且验证了其在跨语言NLP领域的有效性和创新性. 展开更多
关键词 自然语言处理 语言双向编码器表征量 迁移学习 语言 深度学习
在线阅读 下载PDF
基于深度学习的电力实体信息识别方法 被引量:34
2
作者 蒋晨 王渊 +4 位作者 胡俊华 徐积全 陈珉 王雅雯 马国明 《电网技术》 EI CSCD 北大核心 2021年第6期2141-2149,共9页
电力设备在长期运行与维护过程中积累了大量电力文本,文本中含有常见的故障部位、故障现象与故障检修方法,由于电力文本常采用非结构化的形式进行记录,所以电力信息的自动挖掘难以准确实现。提出了一种新的电力实体信息识别方法(PowerBE... 电力设备在长期运行与维护过程中积累了大量电力文本,文本中含有常见的故障部位、故障现象与故障检修方法,由于电力文本常采用非结构化的形式进行记录,所以电力信息的自动挖掘难以准确实现。提出了一种新的电力实体信息识别方法(PowerBERT+Bi-LSTM+CRF,PBERTBiLC)。该方法首先采用预训练方式对通用BERT进行参数初置,形成PowerBERT(电力BERT),再将PowerBERT作为文本的字向量语义编码层,以Bi-LSTM作为字符实体信息标签预测层,CRF作为全局标签优化层,共同构建电力实体信息识别模型,实现了电力文本信息的高准确率识别。对现场560份电力设备故障检修文本进行实体识别,在不同实体信息类别上,基于PBERTBiLC的实体信息识别方法比基于词典和最大后向匹配算法的F1值高15.75%~34.38%;且比目前常用的word2vec+Bi-LSTM+CRF的F1值高2.33%~11.25%。 展开更多
关键词 深度学习 双向语言编码 电力实体识别 双向长短时记忆 自然语言处理
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部