期刊文献+
共找到225篇文章
< 1 2 12 >
每页显示 20 50 100
基于Multi-Head Attention机制优化的Bi-LSTM模型河道汇流模拟
1
作者 程帅 张娟 +2 位作者 李晓琳 杨默远 沈建明 《水文》 北大核心 2025年第2期80-87,共8页
为有效提取河道径流时间序列信息特征,提高河道汇流过程模拟预测的非线性拟合能力,构建一种融合双向长短期记忆网络(Bi-LSTM)、多头注意力机制(Multi-Head Attention)、前馈神经网络(FFNN)的河道汇流预测模型(MABLFN)。为验证MABLFN模... 为有效提取河道径流时间序列信息特征,提高河道汇流过程模拟预测的非线性拟合能力,构建一种融合双向长短期记忆网络(Bi-LSTM)、多头注意力机制(Multi-Head Attention)、前馈神经网络(FFNN)的河道汇流预测模型(MABLFN)。为验证MABLFN模型有效性,以永定河山峡段典型站点实测数据开展实例验证,并将预测结果与单一的LSTM、Bi-LSTM模型和具有物理机制的MIKE11模型预测结果进行对比分析,评估模型不同预报时长径流过程预测性能。结果表明:MABLFN模型能够较好地预测河道径流,MABLFN模型相比于LSTM模型、Bi-LSTM模型和MIKE11模型的RMSE降低了1%~52%,NSE提高了8%~9%;在计算效率方面MABLFN模型相比于LSTM模型、Bi-LSTM模型计算耗时由0.26 s增加至1.2 s,相比于MIKE11模型(360 s)计算耗时明显降低。 展开更多
关键词 河道汇流演算 双向长短期记忆网络 多头注意力机制 深度学习
在线阅读 下载PDF
基于多特征融合的外来入侵植物细粒度命名实体识别
2
作者 尚俊平 程春畅 +3 位作者 卢洋 席磊 程金鹏 刘合兵 《农业工程学报》 北大核心 2025年第12期230-239,共10页
外来入侵植物命名实体识别是进一步挖掘入侵植物信息的关键步骤。为解决外来入侵植物领域命名实体识别存在训练数据稀缺、字符级向量表征单一、专业实体识别精度不足等问题,构建了一种基于多特征融合的外来入侵植物细粒度命名实体识别模... 外来入侵植物命名实体识别是进一步挖掘入侵植物信息的关键步骤。为解决外来入侵植物领域命名实体识别存在训练数据稀缺、字符级向量表征单一、专业实体识别精度不足等问题,构建了一种基于多特征融合的外来入侵植物细粒度命名实体识别模型(invasive alien plant fine-grained named entity recognition model based on multi-feature fusion,IAPMFF)。首先,采用RoBERTa(Robustly optimized BERT approach,RoBERTa)预训练模型为基础架构,通过构建领域专用词典并通过词汇特征向量融合,增强模型对低频词及专业术语的表征能力;其次,设计双通道特征提取层,利用双向长短时记忆网络(Bi-directional long-short term memory,BiLSTM)提取长序列语义特征,结合卷积残差结构(convolution residual structure,CRS)捕获更多细粒度特征;然后,设计分层特征融合机制,通过多头自注意力机制加权融合两种特征向量,构建多维度语义表征;最后,采用条件随机场(conditional random field,CRF)进行序列解码优化。基于专家知识,构建包含24类细粒度实体标签的外来入侵植物命名实体识别数据集。试验表明,IAP-MFF模型在外来入侵植物命名实体识别数据集上取得91.51%精确率、92.51%召回率和92.01%的F1值,较基线模型分别提升4.40、3.39、3.91个百分点,显著改善了小样本细粒度实体的识别效果。在Weibo、Resume公共数据集上F1值分别达到72.75%和97.15%,表明了模型的泛化性和优越性能。IAP-MFF模型通过融合包含领域知识在内的多种特征,有效提升实体识别精度与泛化能力,为外来入侵植物知识图谱构建奠定技术基础。 展开更多
关键词 命名实体识别 多特征融合 卷积残差结构 多头自注意力机制 外来入侵植物
在线阅读 下载PDF
多特征融合的目标物体导航方法
3
作者 毕盛 林华伟 董敏 《电子科技大学学报》 北大核心 2025年第3期401-410,共10页
目标物体导航是在未知的环境中根据视觉观察到达预期的目标物体。其中,如何从视觉观察中找到目标物体的方向是至关重要的。针对这一问题,提出一种基于多特征融合的目标物体导航方法。该方法通过特征融合模块融合包含导航环境整体信息、... 目标物体导航是在未知的环境中根据视觉观察到达预期的目标物体。其中,如何从视觉观察中找到目标物体的方向是至关重要的。针对这一问题,提出一种基于多特征融合的目标物体导航方法。该方法通过特征融合模块融合包含导航环境整体信息、局部信息的视觉特征和指代目标物体语义的文本特征,得到表征导航方向的方向特征和导航环境的环境特征,将视觉表示与导航方向相关联,从而指导导航动作的生成,约束代理朝目标物体方向导航,提高模型的导航成功率和效率。AI2-Thor数据集上的实验表明,和基准模型对比,导航成功率SR提升11.7%、导航成功路径长度加权比率SPL提升0.093;和目前先进的方法对比,SR提升2.1%、SPL提升0.008。实验结果证明了该方法的准确性和高效性。 展开更多
关键词 目标物体导航 多特征融合 多头注意力机制 深度强化学习
在线阅读 下载PDF
面向复杂场景的变电设备锈蚀检测方法
4
作者 赵振兵 席悦 +3 位作者 冯烁 赵文清 翟永杰 李冰 《智能系统学报》 北大核心 2025年第3期679-688,共10页
针对复杂场景下变电设备锈蚀检测中存在锈蚀形态差异大、尺度大小不一、特征显著性低等问题,提出了一种面向复杂场景的变电设备锈蚀检测方法。引入了频率通道注意力机制,通过更多的频率分量补充深层网络中的细节特征,优化模型对锈蚀特... 针对复杂场景下变电设备锈蚀检测中存在锈蚀形态差异大、尺度大小不一、特征显著性低等问题,提出了一种面向复杂场景的变电设备锈蚀检测方法。引入了频率通道注意力机制,通过更多的频率分量补充深层网络中的细节特征,优化模型对锈蚀特征的提取;在特征融合网络中使用多尺度特征增强模块重新构建C2f模块,使网络可以更好地捕获不同大小的锈蚀区域;引入附加检测头,缓解模型在特征融合过程中因卷积层下采样造成的锈蚀关键信息丢失的情况,从而提高变电设备锈蚀检测的精度。实验结果表明,改进以后的网络模型相较于原始的YOLOv8m模型,平均检测精度(mAP50)提升了5.1%,检测效果也优于其他主流目标检测模型,为变电设备锈蚀检测提供了新的参考方法。 展开更多
关键词 变电设备 不规则缺陷 锈蚀检测 YOLOv8 注意力机制 多尺度特征 检测头 复杂场景 电力视觉
在线阅读 下载PDF
自监督短期兴趣特征增强的短视频推荐方法研究
5
作者 刘芳 王晓晖 +3 位作者 田枫 赵玲 黄美晨 孙嘉伟 《重庆理工大学学报(自然科学)》 北大核心 2025年第6期91-99,共9页
现有短视频推荐方法存在用户短期兴趣表示和短期兴趣代理提取不完全,导致长短期兴趣解纠缠不充分的问题。提出了一种自监督短期兴趣特征增强的短视频推荐模型(short video recommendation model based on self-supervised short-term in... 现有短视频推荐方法存在用户短期兴趣表示和短期兴趣代理提取不完全,导致长短期兴趣解纠缠不充分的问题。提出了一种自监督短期兴趣特征增强的短视频推荐模型(short video recommendation model based on self-supervised short-term interest feature enhancement,SSER)。该模型采用自监督的对比学习方法对用户长短期兴趣进行解纠缠,针对短期兴趣表示提取不完全的问题,提出采用扩展循环神经网络(dilated RNN)从非线性的用户交互序列中有效捕捉用户短期兴趣表示;针对短期兴趣代理提取不完全的问题,提出一种多头自注意力机制的短期兴趣代理增强方式,该方式首先使用自注意力机制对短期交互序列嵌入数据进行噪声消除,随后融合从用户序列中提取的短期兴趣普遍特征和突出特征形成融合向量,采用多头自注意力机制从融合向量中提取短期兴趣代理,从而有效增强短期兴趣代理的提取。在KuaiRec短视频数据集上进行了多项实验,结果表明该模型在多个评价指标上优于其他主流方法。 展开更多
关键词 自监督对比学习 短期兴趣特征增强 短视频推荐 扩展循环神经网络 多头自注意力机制
在线阅读 下载PDF
改进黏菌算法优化TCN−LSTM−MHSA的巷道锚杆(索)应力预测模型
6
作者 齐俊艳 车玉浩 +1 位作者 王磊 袁瑞甫 《工矿自动化》 北大核心 2025年第5期129-139,共11页
锚杆(索)应力的变化过程呈现明显的短期突变与长期时序依赖特征,而传统单一预测模型对长期趋势建模能力有限且对局部突变敏感性不足,往往难以全面捕捉上述复杂特征。针对该问题,提出一种基于改进黏菌算法(ISMA)优化时间卷积网络(TCN)−... 锚杆(索)应力的变化过程呈现明显的短期突变与长期时序依赖特征,而传统单一预测模型对长期趋势建模能力有限且对局部突变敏感性不足,往往难以全面捕捉上述复杂特征。针对该问题,提出一种基于改进黏菌算法(ISMA)优化时间卷积网络(TCN)−长短期记忆网络(LSTM)−多头自注意力机制(MHSA)的锚杆(索)应力预测模型。在煤矿巷道锚杆(索)应力预测问题中,模型训练过程通常涉及超参数调整、学习率选择等复杂优化任务,为提升模型的训练效率与预测精度,提出ISMA,引入邻域搜索与动态步长因子增强局部搜索能力,融合人工蜂群搜索机制提升全局搜索效率,有效增强模型跳出局部最优解的能力。TCN−LSTM−MHSA模型采用TCN提取局部时序特征,利用LSTM学习数据的长期依赖关系,通过MHSA强化对全局时序依赖的建模,从而提高模型对锚杆(索)应力的预测能力。在TCN−LSTM−MHSA模型的训练中利用ISMA对学习率进行迭代寻优,以提高模型的预测精度和速度。实验结果表明:①与黏菌算法(SMA)、遗传算法(GA)、粒子群算法(PSO)、麻雀搜索算法(SSA)相比,ISMA优化策略在多个基准函数测试中表现出更优的收敛速度与寻优能力。②在应力预测实验中,通过消融实验验证了TCN,LSTM,MHSA模块的必要性。③ISMA优化TCN−LSTM−MHSA模型在MAE,RMSE及R 2等指标上均优于BP,GRU等主流预测模型,具有更高的预测精度和稳定性。 展开更多
关键词 锚杆(索)支护 锚杆(索)应力预测 黏菌算法 时间卷积网络 长短期记忆网络 多头自注意力机制
在线阅读 下载PDF
基于GASF多通道图像时序融合的高速列车横向减振器故障诊断
7
作者 李刚 秦永峰 齐金平 《振动与冲击》 北大核心 2025年第15期144-152,191,共10页
由于高速列车在运行的过程中悬挂系统产生的振动信号是典型的复杂度高,耦合性和不确定性强的非线性信号,为弥补一维信号在故障诊断时的局限性,利用格拉姆角场(Gramian angular field,GAF)处理时间序列信号的敏感性以及对非线性信号的适... 由于高速列车在运行的过程中悬挂系统产生的振动信号是典型的复杂度高,耦合性和不确定性强的非线性信号,为弥补一维信号在故障诊断时的局限性,利用格拉姆角场(Gramian angular field,GAF)处理时间序列信号的敏感性以及对非线性信号的适应性,提出了一种基于一维(1D)时序信号和二维(2D)格拉姆角和场(Gramian angular summation field,GASF)特征融合的卷积神经网络结合门控循环单元网络融合多头自注意力机制(1D-2D-CNN-GRU-MSA)的故障诊断方法。首先,将一维的时序信号编码为二维的GASF图,再分别将一维的时序信号与二维的GASF图同时送入到两条并行的网络支路中,其中:一路为图像输入经卷积神经网络(convolutional neural networks,CNN)提取GASF图像的特征;另一路将一维的故障波形直接输入经门控循环网络单元(gated recurrent unit,GRU)提取时序特征,通过多头自注意力机制(multi-head self-attention,MSA)将二维图像特征和一维时序特征进行特征重点强化并降维融合,最后通过Softmax层对高速列车横向减振器故障进行分类。仿真试验证明,不同工况下1D-2D-CNN-GRU-MSA模型比两种主流模型进行高速列车横向减振器故障识别的准确率高。 展开更多
关键词 高速列车 格拉姆角和场(GASF) 卷积神经网络(CNN) 多头自注意力机制(MSA) 门控循环单元(GRU)
在线阅读 下载PDF
基于STGCN-Transformer的短期电力净负荷预测
8
作者 孟伟 俞斌 +3 位作者 白隆 徐婕 顾晋豪 郭锋 《中国测试》 北大核心 2025年第6期160-169,共10页
智能电网的发展认识到短期电力净负荷预测对综合能源系统(integrated energy system,IES)的重要性。净负荷预测代表用电负荷与安装的可再生能源之间的差异,是能量管理和优化调度的基础。为解决IES波动性大,传统统计模型预测精较差的问题... 智能电网的发展认识到短期电力净负荷预测对综合能源系统(integrated energy system,IES)的重要性。净负荷预测代表用电负荷与安装的可再生能源之间的差异,是能量管理和优化调度的基础。为解决IES波动性大,传统统计模型预测精较差的问题,该文提出一种基于时空图卷积网络(spatial temporal graph convolutional networks,STGCN)和Transformer相结合的综合能源系统短期负荷预测模型。首先,利用STGCN作为输入嵌入层对多元输入序列进行编码,填补Transformer中没有充分考虑相关信息的空白。然后,利用Transformer中的自注意机制捕获序列数据的时间依赖性。最后,利用前馈神经网络输出预测负荷值。以浙江省某地区电力数据集为例,与其他4种预测模型相比较平均绝对百分比误差均在5%以内,结果表明该文模型具有较高的预测精度和稳定性。 展开更多
关键词 时空图卷积网络 TRANSFORMER 多头注意力机制 短期净负荷预测
在线阅读 下载PDF
双特征增强的图卷积网络用于方面级情感分析
9
作者 夏敏捷 师钰博 樊银亭 《计算机工程与设计》 北大核心 2025年第8期2426-2433,共8页
针对目前方面级情感分析存在句法依赖解析结果不准确、句法和语义信息没有充分利用的问题,提出一种双特征增强的图卷积网络。利用句法解析器中的依赖概率矩阵作为图卷积网络的邻接矩阵,减小解析结果的不准确性,对初始句法信息进行上下... 针对目前方面级情感分析存在句法依赖解析结果不准确、句法和语义信息没有充分利用的问题,提出一种双特征增强的图卷积网络。利用句法解析器中的依赖概率矩阵作为图卷积网络的邻接矩阵,减小解析结果的不准确性,对初始句法信息进行上下文动态加权增强提取句法信息的能力,对于语义信息,采用多头注意力机制构建动态语义图卷积网络,充分利用语义空间信息。实验结果表明,与基线模型相比模型取得了较明显的性能提升。 展开更多
关键词 方面级情感分析 图卷积神经网络 多头注意力机制 概率矩阵 句法 语义 依赖树
在线阅读 下载PDF
基于改进时域卷积网络与多头自注意力机制的间歇过程质量预测模型
10
作者 赵小强 柳勇勇 +1 位作者 惠永永 刘凯 《计算机应用》 北大核心 2025年第7期2245-2252,共8页
为提高时域卷积网络(TCN)在批量大小变化时的训练稳定性,并解决间歇过程质量预测在捕捉长期依赖性和全局关联性上存在不足而导致的预测准确度不高的问题,提出一种基于批量组规范化(BGN)和Mish激活函数改进残差结构的TCN(BMTCN)与多头自... 为提高时域卷积网络(TCN)在批量大小变化时的训练稳定性,并解决间歇过程质量预测在捕捉长期依赖性和全局关联性上存在不足而导致的预测准确度不高的问题,提出一种基于批量组规范化(BGN)和Mish激活函数改进残差结构的TCN(BMTCN)与多头自注意力机制(MHSA)的间歇过程质量预测模型(BMTCN-MHSA)。首先,将间歇过程的三维数据展开为二维矩阵形式,并对数据进行归一化处理,再引入奇异谱分析法(SSA)分解重构数据;其次,在时域卷积的残差部分融入BGN以降低网络模型在批量大小变化时的敏感度,引入Mish激活函数以提高模型的泛化能力,并利用多头自注意力机制对序列中不同位置的特征信息进行关联和权重分配,从而进一步提取序列中的关键特征信息和相互依赖关系,进而更好地捕捉间歇过程的动态特征;最后,使用青霉素仿真实验数据进行实验验证。实验结果表明,相较于TCN模型,BMTCN-MHSA模型的平均绝对误差(MAE)降低了56.86%,均方误差(MSE)降低了48.80%,而决定系数(R2)达到了99.48%,这表明BMTCN-MHSA模型提高了间歇过程质量预测的准确性。 展开更多
关键词 间歇过程 质量预测 奇异谱分析法 时域卷积网络 多头自注意力机制
在线阅读 下载PDF
融合Bi-LSTM与多头注意力的分层强化学习推理方法 被引量:3
11
作者 李卫军 刘世侠 +3 位作者 刘雪洋 丁建平 苏易礌 王子怡 《计算机应用研究》 北大核心 2025年第1期71-77,共7页
知识推理作为知识图谱补全中一项重要任务,受到了学术界的广泛关注。针对知识推理可解释性差、不能利用隐藏语义信息和奖励稀疏的问题提出了一种融合Bi-LSTM与多头注意力机制的分层强化学习方法。将知识图谱通过谱聚类分簇,使智能体分... 知识推理作为知识图谱补全中一项重要任务,受到了学术界的广泛关注。针对知识推理可解释性差、不能利用隐藏语义信息和奖励稀疏的问题提出了一种融合Bi-LSTM与多头注意力机制的分层强化学习方法。将知识图谱通过谱聚类分簇,使智能体分别在簇与实体间进行推理,利用Bi-LSTM与多头注意力机制融合模块对智能体的历史信息进行处理,可以更有效地发现和利用知识图谱隐藏的语义信息。Hight智能体通过分层策略网络选择目标实体所在的簇,指导Low智能体进行实体间的推理。利用强化学习智能体可以有效地解决可解释性差的问题,并通过相互奖励机制对两个智能体的动作选择以及搜索路径给予奖励,以解决智能体奖励稀疏的问题。在FB15K-237、WN18RR、NELL-995三个公开数据集上的实验结果表明,提出的方法能够捕捉序列数据中的长期依赖关系对长路径进行推理,并且在推理任务中的性能优于同类方法。 展开更多
关键词 知识推理 分层强化学习 Bi-LSTM 多头注意力机制
在线阅读 下载PDF
基于级联MCNN-MMLP双残差网络的短期负荷预测 被引量:1
12
作者 余凯峰 吐松江·卡日 +2 位作者 张紫薇 马小晶 王志刚 《电力系统保护与控制》 北大核心 2025年第2期151-162,共12页
为了解决负荷特性复杂导致负荷预测精度低的问题,提出了一种GWO-VMD和级联MCNN-MMLP双残差网络的短期负荷预测模型。首先,利用由灰狼算法(grey wolf optimize,GWO)优化的变分模态分解(variational mode decomposition,VMD)对原始负荷数... 为了解决负荷特性复杂导致负荷预测精度低的问题,提出了一种GWO-VMD和级联MCNN-MMLP双残差网络的短期负荷预测模型。首先,利用由灰狼算法(grey wolf optimize,GWO)优化的变分模态分解(variational mode decomposition,VMD)对原始负荷数据进行处理,降低原始负荷数据的复杂程度。其次,使用多尺度卷积神经网络(multiscale convolutional neural networks,MCNN)和多层感知机(multi-layer perception,MLP)结合的双残差神经网络对各个模态进行迁移学习训练和预测,并在MLP网络中引入多头注意力机制弥补网络信息瓶颈问题。最后,再次使用MCNN-MMLP双残差模型对初步预测的误差进行预测并校正初值,从而进一步提升预测精确度。通过对实际负荷数据进行分析,本模型的均方误差为5.024(MW)^(2)、均方根误差为2.241 MW、平均绝对百分比误差为0.160%,决定系数为0.996,各性能指标均优于其他传统及智能负荷预测方法。 展开更多
关键词 负荷预测 多尺度卷积神经网络 双残差神经网络 多头注意力机制 迁移学习
在线阅读 下载PDF
基于深度学习和注意力机制的漏钢预报研究 被引量:1
13
作者 吴恒 张本国 +2 位作者 余浩辰 张瑞忠 范利锋 《冶金能源》 北大核心 2025年第3期61-66,共6页
为提高漏钢预报系统准确度,分析了热电偶的单偶时间序列特征与组偶空间联动特征,采用CNN对数据进行特征提取,再将时间序列温度特征作为BIGRU输入,构建CNN-BIGRU网络,并在输出端前引入MA机制。针对CNN-BIGRU网络易陷入局部最优解问题,利... 为提高漏钢预报系统准确度,分析了热电偶的单偶时间序列特征与组偶空间联动特征,采用CNN对数据进行特征提取,再将时间序列温度特征作为BIGRU输入,构建CNN-BIGRU网络,并在输出端前引入MA机制。针对CNN-BIGRU网络易陷入局部最优解问题,利用BO算法寻找CNN-BIGRU网络最优超参数组合,建立了BO-CNN-BIGRU-MA网络模型,并将其应用到连铸漏钢预报系统。结合实际连铸生产数据,对该漏钢预报模型进行测试。结果表明,该连铸漏钢预报系统的准确率为99.5%,报出率达到100%。 展开更多
关键词 漏钢预报 卷积神经网络 双向门控循环单元网络 贝叶斯优化 多头自注意力机制
在线阅读 下载PDF
多层级用户兴趣与多意图融合的下一篮推荐算法 被引量:1
14
作者 魏楚元 袁保杰 王昌栋 《计算机科学与探索》 北大核心 2025年第3期749-763,共15页
下一篮推荐旨在根据用户历史交互的篮子序列,为用户推荐下一篮可能感兴趣的商品。针对现有下一篮推荐算法未能较好解离篮子内的多意图以及仅从单一层面考虑用户的兴趣或意图,导致推荐效果受限等问题,提出了一种多层级用户兴趣与多意图... 下一篮推荐旨在根据用户历史交互的篮子序列,为用户推荐下一篮可能感兴趣的商品。针对现有下一篮推荐算法未能较好解离篮子内的多意图以及仅从单一层面考虑用户的兴趣或意图,导致推荐效果受限等问题,提出了一种多层级用户兴趣与多意图融合的下一篮推荐模型(MLIMI),从多个层级分别考虑用户兴趣与多意图,构建全局级的用户-项目交互图。考虑到用户行为会随时间发生变化,设计一种长短期时间衰减权重平衡交互项的重要性,通过图卷积网络学习用户的动态兴趣;构建局部级篮子-项目图,通过图解离网络学习解离化的篮子内多意图,随后通过一个多头自注意力层对多意图进行编码,得到最终的意图表示。设计一个跨层级的对比学习范式,结合来自不同层级的项目表示,以增强不同层级项目之间的语义信息。在预测层中融合来自不同层级的用户兴趣和意图,进行下一篮预测。在两个公共基准数据集Ta Feng和Dunnhumby上与MITGNN、TAIW、MINN等主流模型进行了对比实验,结果表明MLIMI的性能优于当前许多基线模型。 展开更多
关键词 下一篮推荐 图解离网络 多意图学习 对比学习 多头注意力机制
在线阅读 下载PDF
基于证据和图推理的文档级关系抽取方法:以医学关系为例
15
作者 周雪阳 傅启明 +3 位作者 陈建平 陈延明 陆悠 王蕴哲 《计算机工程》 北大核心 2025年第1期106-117,共12页
针对生物医学文献句式冗长、实体密集从而导致关系抽取复杂度高、难度大的问题,提出一种证据路径增强的图推理框架(EPE-GR)。首先建立一种引入结构化偏差的图注意力机制(B-GAT)增强图推理中信息聚合的指向性,结合提及级和实体级图建模... 针对生物医学文献句式冗长、实体密集从而导致关系抽取复杂度高、难度大的问题,提出一种证据路径增强的图推理框架(EPE-GR)。首先建立一种引入结构化偏差的图注意力机制(B-GAT)增强图推理中信息聚合的指向性,结合提及级和实体级图建模学习全局交互特征和局部依赖信息;其次使用启发式搜索聚焦证据句子,同时构建一种基于掩膜多头注意力(MMHA)机制的路径推理结构,强化非邻居证据句子之间的相关性并缓解细粒度证据编码带来的复杂度剧增的问题;最后协同全局、局部和路径推理预测实体之间的语义关系。与已有方法相比,EPE-GR在药物-突变相互作用(DMI)数据集和化学物质诱导疾病(CDR)数据集上都获得了最佳的性能,前者在二分类和多分类任务的设定下相比次优方法准确率分别提高了5.65和5.13百分点,后者F1值提高了2.85百分点,证明所提方法是一个有效的生物医学文档级关系抽取方法且具有较好的泛化能力。此外,通过进一步的实验表明所提出的关系依赖建模和证据路径推理机制能够有效提升模型推理句间关系的能力。 展开更多
关键词 关系抽取 图推理 路径推理 证据增强 图注意力机制 多头注意力机制
在线阅读 下载PDF
融合多特征与半监督学习的命名实体识别研究
16
作者 郭云飞 温雪岩 +1 位作者 焦燕 赵玉茗 《现代电子技术》 北大核心 2025年第14期71-76,共6页
在医学和社交领域,命名实体识别(NER)对信息抽取和自然语言处理至关重要,但传统方法依赖大量手工标注数据,耗时且难以广泛适用。为此,提出一种Semi-FFMA模型,该模型设计前馈-注意力机制来有效融合Fasttext、HMM和BERT-WWM的语义特征,结... 在医学和社交领域,命名实体识别(NER)对信息抽取和自然语言处理至关重要,但传统方法依赖大量手工标注数据,耗时且难以广泛适用。为此,提出一种Semi-FFMA模型,该模型设计前馈-注意力机制来有效融合Fasttext、HMM和BERT-WWM的语义特征,结合BiLSTM和多头注意力机制,提高了NER准确性。同时,该模型引入半监督学习和伪标签技术,充分利用未标注数据来降低标注成本。通过在CCKS2017和Weibo数据集上的实验结果证明,Semi-FFMA模型成功解决了传统命名实体识别中手工标注繁琐且费时的问题,并且在CCKS2017上F1值达到了92.34%,在Weibo上达到了71.57%,展现出了卓越的性能。 展开更多
关键词 命名实体识别 多特征融合 半监督学习 多头注意力机制 BiLSTM-CRF 伪标签
在线阅读 下载PDF
基于多通道轻量化的自动调制识别网络
17
作者 万进华 尚俊娜 张华娣 《电信科学》 北大核心 2025年第2期41-56,共16页
自动调制识别技术在无线通信领域具有十分重要的作用。现有的自动调制识别模型在识别精度上表现出色,但大多数方法在参数量与模型性能之间难以实现理想的平衡。针对该问题,设计了一种多通道融合的轻量化调制识别(multi-channel lightwei... 自动调制识别技术在无线通信领域具有十分重要的作用。现有的自动调制识别模型在识别精度上表现出色,但大多数方法在参数量与模型性能之间难以实现理想的平衡。针对该问题,设计了一种多通道融合的轻量化调制识别(multi-channel lightweight modulation recognition,MCLMR)网络。MCLMR网络将幅度、相位、频率以及零中心归一化瞬时幅度的谱密度最大值作为输入。使用可分离卷积模块巧妙地组合4个输入,从而深入挖掘这4个输入的空间相关性。设计了基于时间衰落多头自注意力(multi-head self-attention,MHSA)机制结合门控循环单元(gated recurrent unit,GRU)的GRU-MHSA(gated recurrent unit-multi-head self-attention)模块进一步提取时间相关性。可分离卷积模块与GRU-MHSA模块的结合在空间维度与时间维度提取信号特征。在基准RML2016.10a数据集上的仿真结果表明,所提方法优于其他9种典型方法。在2~18 dB信噪比下平均识别精度达到92.39%,最高识别精度达到93.36%,这说明MCLMR不仅参数量少,计算复杂度低,在识别精度上也表现出色。 展开更多
关键词 调制识别 轻量化网络 多模块融合 多头自注意力机制
在线阅读 下载PDF
引入源端信息的IPC和CLC类目自动映射研究
18
作者 钟易佳 李茂西 +2 位作者 王倩 黄琪 何彦青 《中文信息学报》 北大核心 2025年第3期159-168,共10页
国际专利分类法(International Patent Classification,IPC)是专利文献分类和检索的国际标准;中国图书馆分类法(Chinese library classification,CLC)是我国图书期刊的大型综合性分类法。自动准确地建立IPC类目和CLC类目之间的映射对实... 国际专利分类法(International Patent Classification,IPC)是专利文献分类和检索的国际标准;中国图书馆分类法(Chinese library classification,CLC)是我国图书期刊的大型综合性分类法。自动准确地建立IPC类目和CLC类目之间的映射对实现专利文献和图书期刊文献的跨库检索和交叉浏览有着重要的意义。针对当前研究中仅使用IPC中文译本类目描述文本来建立其与CLC类目之间的映射,完全忽略IPC原版英语类目描述文本信息的不足,该文提出了一种基于神经网络的IPC和CLC类目自动映射方法,通过引入源端信息(英语端信息)实现自动映射。首先分别通过预训练语言模型BERT和XLM-R生成IPC类目描述文本和CLC类目描述文本的词表征;然后利用多头注意力机制融合IPC类目的BERT模型词表征和XLM-R模型词表征,以及CLC类目的BERT模型词表征和XLM-R模型词表征,最后使用两个前馈神经网络层建立IPC类目和CLC类目之间的映射。在公开数据集上的实验结果表明,该文提出的方法显著优于当前最优方法,且其性能更稳定、泛化性更强。 展开更多
关键词 国际专利分类法 中国图书馆分类法 BERT XLM-R 多头注意力机制
在线阅读 下载PDF
DeepSeek-R1是怎样炼成的? 被引量:35
19
作者 张慧敏 《深圳大学学报(理工版)》 北大核心 2025年第2期226-232,共7页
简述DeepSeek系列模型在大模型训练中的创新和优化.DeepSeek系列模型的突破主要体现在模型架构、算法创新、软硬件协同优化及整体训练效率的提升.DeepSeek-V3模型采用混合专家(mixture of experts,MoE)模型架构,通过细粒度设计和共享专... 简述DeepSeek系列模型在大模型训练中的创新和优化.DeepSeek系列模型的突破主要体现在模型架构、算法创新、软硬件协同优化及整体训练效率的提升.DeepSeek-V3模型采用混合专家(mixture of experts,MoE)模型架构,通过细粒度设计和共享专家策略,实现计算资源的高效利用;MoE模型架构中的稀疏激活机制和无损负载均衡策略显著提高了模型训练的效率和性能;多头潜在注意力(multi-head latent attention,MLA)机制通过减少内存使用和加速推理过程,降低了模型训练和推理成本;通过引入多token预测(multi-token prediction,MTP)和8位浮点数(floating point 8-bit,FP8)混合精度训练技术,提升了模型的上下文理解能力和训练效率;采用优化并行线程执行(parallel thread execution,PTX)代码显著提高了图形处理器(graphics processing unit,GPU)的计算效率;所提群体相对策略优化(group relative policy optimization,GRPO)对DeepSeek-R1-Zero模型进行纯强化学习训练,跳过了传统的监督微调和人类反馈阶段,显著提升了模型的推理能力.总体而言,DeepSeek系列模型通过多项创新,在人工智能领域取得了显著优势,树立了行业新标杆. 展开更多
关键词 人工智能 DeepSeek 大语言模型 混合专家模型 多头潜在注意力机制 多token预测 混合精度训练 群体相对策略优化
在线阅读 下载PDF
基于对比学习的自监督涉案微博评论观点对象分类
20
作者 马梅希 王剑 +1 位作者 余正涛 黄于欣 《计算机应用与软件》 北大核心 2025年第5期130-136,共7页
涉案微博评论观点对象分类旨在识别微博评论中的观点对象,并将其分配到审判机关、当事人和罪名等类别中。针对微博评论缺乏明显观点对象词,传统方法难以提取有效情感特征的问题,提出一种基于对比学习的自监督涉案微博评论观点对象分类... 涉案微博评论观点对象分类旨在识别微博评论中的观点对象,并将其分配到审判机关、当事人和罪名等类别中。针对微博评论缺乏明显观点对象词,传统方法难以提取有效情感特征的问题,提出一种基于对比学习的自监督涉案微博评论观点对象分类模型。通过多头注意全局信息增强模块来捕捉评论中的关键片段,然后引入对比学习的方法增强与评论观点对象相关的文本特征。在构建的微博涉案新闻观点对象分类数据集上的实验结果表明,所提方法相比现有基准模型宏平均F1值提升了2.2百分点。 展开更多
关键词 涉案微博评论 观点对象分类 自监督 对比学习 多头注意力机制
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部