期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
融入实体翻译的汉越神经机器翻译模型
1
作者 高盛祥 侯哲 +1 位作者 余正涛 赖华 《计算机应用》 北大核心 2025年第1期69-74,共6页
在汉越低资源翻译任务中,句子中的实体词准确翻译是一大难点。针对实体词在训练语料中出现的频率较低,模型无法构建双语实体词之间的映射关系等问题,构建一种融入实体翻译的汉越神经机器翻译模型。首先,通过汉越实体双语词典预先获取源... 在汉越低资源翻译任务中,句子中的实体词准确翻译是一大难点。针对实体词在训练语料中出现的频率较低,模型无法构建双语实体词之间的映射关系等问题,构建一种融入实体翻译的汉越神经机器翻译模型。首先,通过汉越实体双语词典预先获取源句中实体词的翻译结果;其次,将结果拼接在源句末端作为模型的输入,同时在编码端引入“约束提示信息”增强表征;最后,在解码端融入指针网络机制,以确保模型能复制输出源端句的词汇。实验结果表明,该模型相较于跨语言模型XLM-R(Cross-lingual Language Model-RoBERTa)的双语评估替补(BLEU)值在汉越方向提升了1.37,越汉方向提升了0.21,时间性能上相较于Transformer该模型在汉越方向和越汉方向分别缩短3.19%和3.50%,可有效地提升句子中实体词翻译的综合性能。 展开更多
关键词 汉越神经机器翻译 实体翻译 双语词典 指针网络 低资源
在线阅读 下载PDF
基于编辑约束的端到端越南语文本正则化方法
2
作者 蒋铭 王琳钦 +1 位作者 赖华 高盛祥 《计算机应用》 北大核心 2025年第2期362-370,共9页
文本正则化是语音合成(TTS)前端分析任务中不可或缺的步骤,而语义歧义性是文本正则化任务面临的主要问题,比如数字、日期、时间等非标准词的语义歧义性。针对该问题,提出一种基于编辑约束的端到端文本正则化方法,并且在充分考虑越南语... 文本正则化是语音合成(TTS)前端分析任务中不可或缺的步骤,而语义歧义性是文本正则化任务面临的主要问题,比如数字、日期、时间等非标准词的语义歧义性。针对该问题,提出一种基于编辑约束的端到端文本正则化方法,并且在充分考虑越南语的语言特点后,设计专门用于越南语的标注方法,以提高模型对上下文语义信息的建模能力。此外,针对神经网络模型容易产生不可恢复性错误的问题,提出一种编辑对齐算法以有效约束非标准词文本的范围,减小解码端的搜索空间,从而避免模型自身局限性所导致的非正则化文本预测错误。选取FastCorrect模型作为基准模型,将各类优化方法应用到基准模型中得到新模型。实验结果表明,所提模型在越南语不同优化方式的对比实验中的精准率相比使用无标注数据的基准模型提高了23.71个百分点,在同类中文实验中的精准率提高了26.24个百分点。可见,所提方法不仅在越南语上表现出色,而且在中文开源数据上也取得了显著的效果,验证了该方法在越南语之外的适用性。而且,与六类基线模型相比,使用所提方法的模型取得了最高的97.14%的精准率,在F1值上超过加权有限状态转换器(WFST)的两阶段方法2.29个百分点,证明了所提方法在文本正则化任务上的优越性。 展开更多
关键词 越南语 文本正则化 编辑对齐算法 语音合成 端到端
在线阅读 下载PDF
多模态特征的越南语语音识别文本标点恢复 被引量:2
3
作者 赖华 孙童 +3 位作者 王文君 余正涛 高盛祥 董凌 《计算机应用》 CSCD 北大核心 2024年第2期418-423,共6页
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南... 越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。 展开更多
关键词 语音识别 标点恢复 越南语 BERT 多模态
在线阅读 下载PDF
面向域外说话人适应场景的多层级解耦个性化语音合成 被引量:1
4
作者 高盛祥 杨元樟 +3 位作者 王琳钦 莫尚斌 余正涛 董凌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不... 个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 展开更多
关键词 语音合成 零资源 说话人表征 域外说话人 特征解耦
在线阅读 下载PDF
融入三维语义特征的常识推理问答方法
5
作者 王红斌 房晓 江虹 《计算机应用》 CSCD 北大核心 2024年第1期138-144,共7页
现有使用预训练语言模型和知识图谱的常识问答方法主要集中于构建知识图谱子图及跨模态信息结合的研究,忽略了知识图谱自身丰富的语义特征,且缺少对不同问答任务的知识图谱子图节点相关性的动态调整,导致预测准确率低。为解决以上问题,... 现有使用预训练语言模型和知识图谱的常识问答方法主要集中于构建知识图谱子图及跨模态信息结合的研究,忽略了知识图谱自身丰富的语义特征,且缺少对不同问答任务的知识图谱子图节点相关性的动态调整,导致预测准确率低。为解决以上问题,提出一种融入三维语义特征的常识推理问答方法。首先提出知识图谱节点的关系层级、实体层级、三元组层级三维语义特征量化指标;其次,通过注意力机制动态计算关系层级、实体层级、三元组层级三种维度的语义特征对不同实体节点间的重要性;最后,通过图神经网络进行多层聚合迭代嵌入三维语义特征,获得更多的外推知识表示,更新知识图谱子图节点表示,提升答案预测精度。与QA-GNN常识问答推理方法相比,所提方法在CommonsenseQA数据集上的验证集和测试集的准确率分别提高了1.70个百分点和0.74个百分点,在OpenBookQA数据集上使用AristoRoBERTa数据处理方法的准确率提高了1.13个百分点。实验结果表明,所提出的融入三维语义特征的常识推理问答方法能够有效提高常识问答任务准确率。 展开更多
关键词 常识问答 知识图谱 图神经网络 语义特征 注意力机制
在线阅读 下载PDF
面向版本演化的APP软件缺陷跟踪分析方法 被引量:1
6
作者 刘海毅 姜瑛 赵泽江 《软件学报》 EI CSCD 北大核心 2024年第7期3180-3203,共24页
移动应用(APP)软件的版本更新速度正在加快,对软件缺陷的有效分析,可以帮助开发人员理解和及时修复软件缺陷.然而,现有研究的分析对象大多较为单一,存在信息孤立、零散、质量差等问题,并且没有充分考虑数据验证及版本失配问题,分析结果... 移动应用(APP)软件的版本更新速度正在加快,对软件缺陷的有效分析,可以帮助开发人员理解和及时修复软件缺陷.然而,现有研究的分析对象大多较为单一,存在信息孤立、零散、质量差等问题,并且没有充分考虑数据验证及版本失配问题,分析结果存在较大误差,导致无效的软件演化.为了提供更有效的缺陷分析结果,提出一种面向版本演化的APP软件缺陷跟踪分析方法(ASD-TAOVE).首先,从多源、异构的APP软件数据中抽取APP软件缺陷内容并挖掘缺陷事件的因果关系;接着,设计了一种APP软件缺陷内容验证方法,基于信息熵结合文本特征和结构特征定量分析缺陷怀疑度,用于缺陷内容验证并构建APP软件缺陷内容异构图;然后,为了考虑版本演化带来的影响,设计了一个APP软件缺陷跟踪分析方法,用于在版本演化中分析缺陷的演化关系,并将其转化为缺陷/演化元路径;最后,通过一个基于深度学习的异构信息网络完成APP软件缺陷分析.针对4个研究问题(RQ)的实验结果,证实了ASD-TAOVE方法在面向版本演化过程中对缺陷内容验证与跟踪分析的有效性,缺陷识别准确率分别提升约9.9%和5%(平均7.5%).与同类基线方法相比,ASD-TAOVE方法可分析丰富的APP软件数据,提供有效的缺陷信息. 展开更多
关键词 APP软件缺陷 跟踪分析 版本演化 缺陷内容提取 缺陷内容验证 异构信息网络
在线阅读 下载PDF
基于多路信息聚合协同解码的单通道语音增强
7
作者 莫尚斌 王文君 +2 位作者 董凌 高盛祥 余正涛 《计算机应用》 CSCD 北大核心 2024年第8期2611-2617,共7页
为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复... 为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复数谱特征,由4层Conformer分别从时间和频率维度对提取特征建模,采用残差连接将双路编码器提取的语音幅度、复数特征引入三路信息聚合解码器,并利用所提通道-时频注意力(CTF-Attention)机制根据语音能量分布情况调节解码器中聚合信息,有效缓解解码时可用声学信息缺失严重的问题。在公开数据集Voice Bank DEMAND上的实验结果表明,与用于单通道语音增强的协作学习框架(GaGNet)相比,MIACD在客观评价指标宽带感知评估语音质量(WB-PESQ)上提升了5.1%,短时客观可懂度(STOI)达到96.7%,验证所提方法可充分利用语音信息重构信号,有效抑制噪声并提升语音可理解性。 展开更多
关键词 声学特征 多路信息聚合 双路编码器 三路信息聚合解码器 通道-时频注意力机制
在线阅读 下载PDF
一种基于属性相似性和分布结构连通性的聚类算法
8
作者 孙浩文 丁家满 +1 位作者 李博文 贾连印 《计算机科学》 CSCD 北大核心 2024年第7期124-132,共9页
聚类分析针对不同的数据特点采用不同的相似性度量,现实世界中数据分布复杂,存在分布无规律、密度不均匀等现象,单独考虑实例属性相似性或分布结构连通性会影响聚类效果。为此,提出了一种基于属性相似性和分布结构连通性的聚类算法(A Cl... 聚类分析针对不同的数据特点采用不同的相似性度量,现实世界中数据分布复杂,存在分布无规律、密度不均匀等现象,单独考虑实例属性相似性或分布结构连通性会影响聚类效果。为此,提出了一种基于属性相似性和分布结构连通性的聚类算法(A Clustering Algorithm Based on Attribute Similarity and Distributed Structure Connectivity, ASDSC)。首先,利用待聚类数据集中的所有数据实例构建完全无向图,定义了一种兼顾属性相似和分布结构连通的新颖相似性度量方式,用于计算节点相似性,并构造邻接矩阵更新边的权重;其次,借助邻接矩阵执行递增步长的随机游走,依据顶点的连通中心性来识别簇中心并给定簇编号,同时获取其他顶点的连通性;然后,利用连通性计算顶点间的依赖关系,并据此进行簇编号的传播,直至完成聚类。最后,为了验证该方法的聚类性能,在16个合成数据集和10个真实数据集上与5种先进聚类算法进行了对比实验,ASDSC算法取得了优异性能。 展开更多
关键词 聚类 相似性度量 属性相似性 分布结构连通性 簇编号传播
在线阅读 下载PDF
基于生成提示的无监督文本情感转换方法
9
作者 黄于欣 徐佳龙 +2 位作者 余正涛 侯书楷 周家啟 《计算机应用》 CSCD 北大核心 2024年第9期2667-2673,共7页
文本情感转换是在保留内容的基础上更改文本的情感属性。由于缺乏平行语料,现有无监督文本情感转换的方法主要通过文本重建和分类损失来构建情感和内容的潜在表征,实现情感转换。然而,这种弱监督信号训练策略在提示学习范式下的模型性... 文本情感转换是在保留内容的基础上更改文本的情感属性。由于缺乏平行语料,现有无监督文本情感转换的方法主要通过文本重建和分类损失来构建情感和内容的潜在表征,实现情感转换。然而,这种弱监督信号训练策略在提示学习范式下的模型性能退化严重。针对以上问题,提出一种基于生成提示的无监督文本情感转换方法。首先,通过提示生成器生成文本内容提示;其次,融合目标情感提示作为最终提示;最后,构建两阶段的训练策略,为模型训练提供平滑的训练梯度以解决模型性能退化的问题。在情感转换的公共数据集Yelp上的实验结果表明,所提方法的文本保留度、情感转换分数和BLEU(BiLingual Evaluation Understudy)显著优于基于生成的方法UnpairedRL,分别提高了39.1%、62.3%和14.5%。 展开更多
关键词 无监督 情感转换 内容生成提示 文本重建 情感分类
在线阅读 下载PDF
基于关联规则和拓扑序列的分类器链方法 被引量:4
10
作者 丁家满 周蜀杰 +2 位作者 李润鑫 付晓东 贾连印 《软件学报》 EI CSCD 北大核心 2023年第9期4210-4224,共15页
在分类器链方法中,如何确定标签学习次序至关重要,为此,提出一种基于关联规则和拓扑序列的分类器链方法 (TSECC).首先结合频繁模式设计了一种基于强关联规则的标签依赖度量策略;接下来通过标签间依赖关系构建有向无环图,对图中所有顶点... 在分类器链方法中,如何确定标签学习次序至关重要,为此,提出一种基于关联规则和拓扑序列的分类器链方法 (TSECC).首先结合频繁模式设计了一种基于强关联规则的标签依赖度量策略;接下来通过标签间依赖关系构建有向无环图,对图中所有顶点进行拓扑排序;最后将得到的拓扑序列作为分类器链方法中标签的学习次序,对每个标签的分类器依次迭代更新.特别地,为减少无标签依赖或标签依赖度较低的“孤独”标签对其余标签预测性能的影响,将“孤独”标签排在拓扑序列之外,利用二元关联模型训练.在多种公共多标签数据集上的实验结果表明, TSECC能够有效提升分类性能. 展开更多
关键词 多标签学习 分类器链 标签依赖 强关联规则 拓扑序列 二元关联
在线阅读 下载PDF
基于句子关联图的汉越双语多文档新闻观点句识别 被引量:2
11
作者 王剑 唐珊 +1 位作者 黄于欣 余正涛 《计算机应用》 CSCD 北大核心 2020年第10期2845-2849,共5页
传统的观点句识别多利用句子内部的情感特征进行分类,而在跨语言的多文档观点句识别任务中,不同语言、不同文档的句子之间具有密切的关联,这些关联特征对于观点句识别有一定的支撑作用。因此,提出一种基于双向长短期记忆(Bi-LSTM)网络... 传统的观点句识别多利用句子内部的情感特征进行分类,而在跨语言的多文档观点句识别任务中,不同语言、不同文档的句子之间具有密切的关联,这些关联特征对于观点句识别有一定的支撑作用。因此,提出一种基于双向长短期记忆(Bi-LSTM)网络框架并融入句子关联特征的汉越双语多文档新闻观点句识别方法。首先提取汉越双语句子的情感要素和事件要素,构建句子关联图,并利用TextRank算法得到句子关联特征;然后基于双语词嵌入和Bi-LSTM将汉语和越语的新闻文本编码在同一个语义空间;最后联合考虑句子编码特征和关联特征进行观点句识别。理论分析和模拟结果表明,融入句子关联图能够有效地提升多文档观点句识别的准确率。 展开更多
关键词 汉越双语新闻 观点句识别 句子关联图 事件要素 情感要素
在线阅读 下载PDF
利用双主题表征的涉案微博评价对象识别方法 被引量:1
12
作者 相艳 余正涛 +2 位作者 郭军军 黄于欣 线岩团 《软件学报》 EI CSCD 北大核心 2023年第4期1811-1823,共13页
微博评价对象识别是涉案网络舆情分析的基础.目前基于主题表征的评价对象识别方法需要预设固定的主题数目,且最终评价对象识别依赖人工推断.针对此问题,提出一种弱监督涉案微博评价对象识别方法,仅采用少量标签评论即可实现对评价对象... 微博评价对象识别是涉案网络舆情分析的基础.目前基于主题表征的评价对象识别方法需要预设固定的主题数目,且最终评价对象识别依赖人工推断.针对此问题,提出一种弱监督涉案微博评价对象识别方法,仅采用少量标签评论即可实现对评价对象的自动识别.具体实现思路为:首先基于变分双主题表征网络对评论进行两次编码和重构,获得丰富的主题特征;然后,利用少量标签评论,引导主题表征网络自动判别评价对象类别;最后采用联合训练策略,对双主题表征的重构损失与评价对象分类损失进行联合调优,最终实现对评价对象的自动分类和评价对象词项的挖掘.在涉案舆情的两个数据集上进行了实验,结果表明,所提出的模型在评价对象分类、评价对象词项的主题连贯性和多样性等方面均优于几个基线模型. 展开更多
关键词 评价对象识别 变分编码 主题模型 弱监督学习 涉案舆情
在线阅读 下载PDF
结合重检测机制的多卷积层特征响应跟踪算法 被引量:5
13
作者 张晶 黄浩淼 《计算机科学与探索》 CSCD 北大核心 2021年第3期533-544,共12页
针对基于深度特征的目标跟踪算法在目标快速运动、长时间遮挡容易导致跟踪漂移的问题,提出了一种结合重检测机制的多卷积层特征响应跟踪算法。首先基于图像分块的混合高斯模型检测出目标区域,其次多卷积层根据加权梯度的类激活映射提取... 针对基于深度特征的目标跟踪算法在目标快速运动、长时间遮挡容易导致跟踪漂移的问题,提出了一种结合重检测机制的多卷积层特征响应跟踪算法。首先基于图像分块的混合高斯模型检测出目标区域,其次多卷积层根据加权梯度的类激活映射提取目标深度特征图,并训练出相互独立的相关滤波器,然后融合底层空间特征和高层语义特征的卷积层滤波器得到目标响应位置,再由重检测机制约束项平滑输出响应值,从而构建出强跟踪器,最后自适应地更新模型参数和权重系数,避免模型中参数过拟合,达到实时跟踪效果。实验结果表明,该算法在目标严重形变、快速运动、长时期遮挡等复杂情景下,跟踪结果具有很高的精确度和成功率。 展开更多
关键词 深度特征图 强跟踪器 混合高斯模型 检测机制
在线阅读 下载PDF
融合双向依存自注意力机制的神经机器翻译 被引量:8
14
作者 李治瑾 赖华 +1 位作者 文永华 高盛祥 《计算机应用》 CSCD 北大核心 2022年第12期3679-3685,共7页
针对神经机器翻译中资源稀缺的问题,提出了一种基于双向依存自注意力机制(Bi-Dependency)的依存句法知识融合方法。首先,利用外部解析器对源句子解析得到依存解析数据;然后,将依存解析数据转化为父词位置向量和子词权重矩阵;最后,将依... 针对神经机器翻译中资源稀缺的问题,提出了一种基于双向依存自注意力机制(Bi-Dependency)的依存句法知识融合方法。首先,利用外部解析器对源句子解析得到依存解析数据;然后,将依存解析数据转化为父词位置向量和子词权重矩阵;最后,将依存知识融合到Transformer编码器的多头注意力机制上。利用Bi-Dependency,翻译模型可以同时对父词到子词、子词到父词两个方向的依存信息进行关注。双向翻译的实验结果表明,与Transformer模型相比,在富资源情况下,所提方法在汉-泰翻译上的BLEU值分别提升了1.07和0.86,在汉-英翻译上的BLEU值分别提升了0.79和0.68;在低资源情况下,所提方法在汉-泰翻译上的BLEU值分别提升了0.51和1.06,在汉-英翻译上的BLEU值分别提升了1.04和0.40。可见Bi-Dependency为模型提供了更丰富的依存信息,能够有效提升翻译性能。 展开更多
关键词 神经机器翻译 双向依存注意力 多头注意力 父词 子词
在线阅读 下载PDF
融合句法解析树的汉-越卷积神经机器翻译 被引量:9
15
作者 王振晗 何建雅琳 +3 位作者 余正涛 文永华 郭军军 高盛祥 《软件学报》 EI CSCD 北大核心 2020年第12期3797-3807,共11页
神经机器翻译是目前应用最广泛的机器翻译方法,在语料资源丰富的语种上取得了良好的效果.但是在汉语-越南语这类缺乏双语数据的语种上表现不佳.考虑汉语和越南语在语法结构上的差异性,提出一种融合源语言句法解析树的汉越神经机器翻译方... 神经机器翻译是目前应用最广泛的机器翻译方法,在语料资源丰富的语种上取得了良好的效果.但是在汉语-越南语这类缺乏双语数据的语种上表现不佳.考虑汉语和越南语在语法结构上的差异性,提出一种融合源语言句法解析树的汉越神经机器翻译方法,利用深度优先遍历得到源语言的句法解析树的向量化表示,将句法向量与源语言词嵌入相加作为输入,训练翻译模型.在汉-越语言对上进行了实验,相较于基准系统,获得了0.6个BLUE值的提高.实验结果表明,融合句法解析树可以有效提高在资源稀缺情况下机器翻译模型的性能. 展开更多
关键词 神经机器翻译 资源稀缺 句法解析树
在线阅读 下载PDF
基于局部学习和多目标优化的选择性异质集成超短期风电功率预测方法 被引量:13
16
作者 石立贤 金怀平 +2 位作者 杨彪 钱斌 金怀康 《电网技术》 EI CSCD 北大核心 2022年第2期568-577,共10页
风能的间歇性、波动性和随机性会对电网造成巨大冲击,准确的风电功率预测对于制定发电计划和统筹调度至关重要,因此提出一种基于进化多目标优化的选择性异质集成(evolutionary multi-objective optimization based selection heterogene... 风能的间歇性、波动性和随机性会对电网造成巨大冲击,准确的风电功率预测对于制定发电计划和统筹调度至关重要,因此提出一种基于进化多目标优化的选择性异质集成(evolutionary multi-objective optimization based selection heterogeneous ensemble,EMOSHeE)风电功率预测方法。首先,结合K近邻和K均值聚类的优势构建多样性局部区域并通过概率分析剔除冗余状态,从而获得涵盖不同波动状态下的样本子集。其次,在每个局部区域上利用偏最小二乘、支持向量回归和高斯过程回归3种方法分别建立预测模型,得到一个具有较高多样性的异质模型库。随后,利用进化多目标优化算法对异质模型库进行集成修剪,从而获得一组较小规模、多样且高性能的异质模型集。最后,引入简单平均策略实现修剪后的异质模型集的融合并获得最终的预测结果。利用云南省和国外某风电场的真实数据验证了所提方法的有效性。 展开更多
关键词 风电功率预测 集成学习 局部学习 集成修剪 进化多目标优化 异质集成
在线阅读 下载PDF
基于多策略原型生成的低资源神经机器翻译 被引量:4
17
作者 于志强 余正涛 +2 位作者 黄于欣 郭军军 线岩团 《软件学报》 EI CSCD 北大核心 2023年第11期5113-5125,共13页
资源丰富场景下,利用相似性翻译作为目标端原型序列,能够有效提升神经机器翻译的性能.然而在低资源场景下,由于平行语料资源匮乏,导致不能匹配得到原型序列或序列质量不佳.针对此问题,提出一种基于多种策略进行原型生成的方法.首先结合... 资源丰富场景下,利用相似性翻译作为目标端原型序列,能够有效提升神经机器翻译的性能.然而在低资源场景下,由于平行语料资源匮乏,导致不能匹配得到原型序列或序列质量不佳.针对此问题,提出一种基于多种策略进行原型生成的方法.首先结合利用关键词匹配和分布式表示匹配检索原型序列,如未能获得匹配,则利用伪原型生成方法产生可用的伪原型序列.其次,为有效地利用原型序列,对传统的编码器-解码器框架进行改进.编码端使用额外的编码器接收原型序列输入;解码端在利用门控机制控制信息流动的同时,使用改进的损失函数减少低质量原型序列对模型的影响.多个数据集上的实验结果表明,相比基线模型,所提出的方法能够有效提升低资源场景下的机器翻译性能. 展开更多
关键词 神经机器翻译 低资源 多策略 原型
在线阅读 下载PDF
基于跨语言神经主题模型的汉越新闻话题发现方法 被引量:6
18
作者 杨威亚 余正涛 +1 位作者 高盛祥 宋燃 《计算机应用》 CSCD 北大核心 2021年第10期2879-2884,共6页
针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的... 针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务。首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用K-means方法对双语主题表征进行聚类,从而发现新闻事件簇的话题。实验结果表明,所提方法相较于面向中英文的隐狄利克雷分配主题改进模型(ICE-LDA)在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点,可见所提方法可有效提升新闻话题的聚类效果与话题可解释性。 展开更多
关键词 跨语言 主题对齐 神经主题模型 K-MEANS聚类 话题发现
在线阅读 下载PDF
融合单语语言模型的汉越伪平行语料生成 被引量:2
19
作者 贾承勋 赖华 +2 位作者 余正涛 文永华 于志强 《计算机应用》 CSCD 北大核心 2021年第6期1652-1658,共7页
神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳。目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据。考虑到单语数据的可利用性,在回译方法的基础上... 神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳。目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据。考虑到单语数据的可利用性,在回译方法的基础上,首先将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合,然后在回译过程中通过语言模型融入语言特性,以此生成更规范质量更优的伪平行数据,最后将生成的语料添加到原始小规模语料中训练最终翻译模型。在汉越翻译任务上的实验结果表明,与普通的回译方法相比,通过融合语言模型生成的伪平行数据使汉越神经机器翻译的BLEU值提升了1.41个百分点。 展开更多
关键词 汉越神经机器翻译 数据增强 伪平行数据 单语数据 语言模型
在线阅读 下载PDF
案件要素句子关联图卷积的案件舆情摘要方法 被引量:3
20
作者 韩鹏宇 余正涛 +2 位作者 高盛祥 黄于欣 郭军军 《软件学报》 EI CSCD 北大核心 2021年第12期3829-3838,共10页
案件舆情摘要是从涉及特定案件的新闻文本簇中,抽取能够概括其主题信息的几个句子作为摘要.案件舆情摘要可以看作特定领域的多文档摘要,与一般的摘要任务相比,可以通过一些贯穿于整个文本簇的案件要素来表征其主题信息.在文本簇中,由于... 案件舆情摘要是从涉及特定案件的新闻文本簇中,抽取能够概括其主题信息的几个句子作为摘要.案件舆情摘要可以看作特定领域的多文档摘要,与一般的摘要任务相比,可以通过一些贯穿于整个文本簇的案件要素来表征其主题信息.在文本簇中,由于句子与句子之间存在关联关系,案件要素与句子亦存在着不同程度的关联关系,这些关联关系对摘要句的抽取有着重要的作用.提出了基于案件要素句子关联图卷积的案件文本摘要方法,采用图的结构来对多文本簇进行建模,句子作为主节点,词和案件要素作为辅助节点来增强句子之间的关联关系,利用多种特征计算不同节点间的关联关系.然后,使用图卷积神经网络学习句子关联图,并对句子进行分类得到候选摘要句.最后,通过去重和排序得到案件舆情摘要.在收集到的案件舆情摘要数据集上进行实验,结果表明:提出的方法相比基准模型取得了更好的效果,引入要素及句子关联图对案件多文档摘要有很好的效果. 展开更多
关键词 案件舆情摘要 图卷积 案件要素 句子关联图
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部