期刊文献+
共找到1,274篇文章
< 1 2 64 >
每页显示 20 50 100
Tomato Growth Height Prediction Method by Phenotypic Feature Extraction Using Multi-modal Data
1
作者 GONG Yu WANG Ling +3 位作者 ZHAO Rongqiang YOU Haibo ZHOU Mo LIU Jie 《智慧农业(中英文)》 2025年第1期97-110,共14页
[Objective]Accurate prediction of tomato growth height is crucial for optimizing production environments in smart farming.However,current prediction methods predominantly rely on empirical,mechanistic,or learning-base... [Objective]Accurate prediction of tomato growth height is crucial for optimizing production environments in smart farming.However,current prediction methods predominantly rely on empirical,mechanistic,or learning-based models that utilize either images data or environmental data.These methods fail to fully leverage multi-modal data to capture the diverse aspects of plant growth comprehensively.[Methods]To address this limitation,a two-stage phenotypic feature extraction(PFE)model based on deep learning algorithm of recurrent neural network(RNN)and long short-term memory(LSTM)was developed.The model integrated environment and plant information to provide a holistic understanding of the growth process,emploied phenotypic and temporal feature extractors to comprehensively capture both types of features,enabled a deeper understanding of the interaction between tomato plants and their environment,ultimately leading to highly accurate predictions of growth height.[Results and Discussions]The experimental results showed the model's ef‐fectiveness:When predicting the next two days based on the past five days,the PFE-based RNN and LSTM models achieved mean absolute percentage error(MAPE)of 0.81%and 0.40%,respectively,which were significantly lower than the 8.00%MAPE of the large language model(LLM)and 6.72%MAPE of the Transformer-based model.In longer-term predictions,the 10-day prediction for 4 days ahead and the 30-day prediction for 12 days ahead,the PFE-RNN model continued to outperform the other two baseline models,with MAPE of 2.66%and 14.05%,respectively.[Conclusions]The proposed method,which leverages phenotypic-temporal collaboration,shows great potential for intelligent,data-driven management of tomato cultivation,making it a promising approach for enhancing the efficiency and precision of smart tomato planting management. 展开更多
关键词 tomato growth prediction deep learning phenotypic feature extraction multi-modal data recurrent neural net‐work long short-term memory large language model
在线阅读 下载PDF
Multi-dimension and multi-modal rolling mill vibration prediction model based on multi-level network fusion
2
作者 CHEN Shu-zong LIU Yun-xiao +3 位作者 WANG Yun-long QIAN Cheng HUA Chang-chun SUN Jie 《Journal of Central South University》 SCIE EI CAS CSCD 2024年第9期3329-3348,共20页
Mill vibration is a common problem in rolling production,which directly affects the thickness accuracy of the strip and may even lead to strip fracture accidents in serious cases.The existing vibration prediction mode... Mill vibration is a common problem in rolling production,which directly affects the thickness accuracy of the strip and may even lead to strip fracture accidents in serious cases.The existing vibration prediction models do not consider the features contained in the data,resulting in limited improvement of model accuracy.To address these challenges,this paper proposes a multi-dimensional multi-modal cold rolling vibration time series prediction model(MDMMVPM)based on the deep fusion of multi-level networks.In the model,the long-term and short-term modal features of multi-dimensional data are considered,and the appropriate prediction algorithms are selected for different data features.Based on the established prediction model,the effects of tension and rolling force on mill vibration are analyzed.Taking the 5th stand of a cold mill in a steel mill as the research object,the innovative model is applied to predict the mill vibration for the first time.The experimental results show that the correlation coefficient(R^(2))of the model proposed in this paper is 92.5%,and the root-mean-square error(RMSE)is 0.0011,which significantly improves the modeling accuracy compared with the existing models.The proposed model is also suitable for the hot rolling process,which provides a new method for the prediction of strip rolling vibration. 展开更多
关键词 rolling mill vibration multi-dimension data multi-modal data convolutional neural network time series prediction
在线阅读 下载PDF
Research on Multi-modal In-Vehicle Intelligent Personal Assistant Design
3
作者 WANG Jia-rou TANG Cheng-xin SHUAI Liang-ying 《印刷与数字媒体技术研究》 CAS 北大核心 2024年第4期136-146,共11页
Intelligent personal assistants play a pivotal role in in-vehicle systems,significantly enhancing life efficiency,driving safety,and decision-making support.In this study,the multi-modal design elements of intelligent... Intelligent personal assistants play a pivotal role in in-vehicle systems,significantly enhancing life efficiency,driving safety,and decision-making support.In this study,the multi-modal design elements of intelligent personal assistants within the context of visual,auditory,and somatosensory interactions with drivers were discussed.Their impact on the driver’s psychological state through various modes such as visual imagery,voice interaction,and gesture interaction were explored.The study also introduced innovative designs for in-vehicle intelligent personal assistants,incorporating design principles such as driver-centricity,prioritizing passenger safety,and utilizing timely feedback as a criterion.Additionally,the study employed design methods like driver behavior research and driving situation analysis to enhance the emotional connection between drivers and their vehicles,ultimately improving driver satisfaction and trust. 展开更多
关键词 Intelligent personal assistants multi-modal design User psychology In-vehicle interaction Voice interaction Emotional design
在线阅读 下载PDF
Elitism-based immune genetic algorithm and its application to optimization of complex multi-modal functions 被引量:4
4
作者 谭冠政 周代明 +1 位作者 江斌 DIOUBATE Mamady I 《Journal of Central South University of Technology》 EI 2008年第6期845-852,共8页
A novel immune genetic algorithm with the elitist selection and elitist crossover was proposed, which is called the immune genetic algorithm with the elitism (IGAE). In IGAE, the new methods for computing antibody s... A novel immune genetic algorithm with the elitist selection and elitist crossover was proposed, which is called the immune genetic algorithm with the elitism (IGAE). In IGAE, the new methods for computing antibody similarity, expected reproduction probability, and clonal selection probability were given. IGAE has three features. The first is that the similarities of two antibodies in structure and quality are all defined in the form of percentage, which helps to describe the similarity of two antibodies more accurately and to reduce the computational burden effectively. The second is that with the elitist selection and elitist crossover strategy IGAE is able to find the globally optimal solution of a given problem. The third is that the formula of expected reproduction probability of antibody can be adjusted through a parameter r, which helps to balance the population diversity and the convergence speed of IGAE so that IGAE can find the globally optimal solution of a given problem more rapidly. Two different complex multi-modal functions were selected to test the validity of IGAE. The experimental results show that IGAE can find the globally maximum/minimum values of the two functions rapidly. The experimental results also confirm that IGAE is of better performance in convergence speed, solution variation behavior, and computational efficiency compared with the canonical genetic algorithm with the elitism and the immune genetic algorithm with the information entropy and elitism. 展开更多
关键词 immune genetic algorithm multi-modal function optimization evolutionary computation elitist selection elitist crossover
在线阅读 下载PDF
Test method of laser paint removal based on multi-modal feature fusion 被引量:1
5
作者 HUANG Hai-peng HAO Ben-tian +2 位作者 YE De-jun GAO Hao LI Liang 《Journal of Central South University》 SCIE EI CAS CSCD 2022年第10期3385-3398,共14页
Laser cleaning is a highly nonlinear physical process for solving poor single-modal(e.g., acoustic or vision)detection performance and low inter-information utilization. In this study, a multi-modal feature fusion net... Laser cleaning is a highly nonlinear physical process for solving poor single-modal(e.g., acoustic or vision)detection performance and low inter-information utilization. In this study, a multi-modal feature fusion network model was constructed based on a laser paint removal experiment. The alignment of heterogeneous data under different modals was solved by combining the piecewise aggregate approximation and gramian angular field. Moreover, the attention mechanism was introduced to optimize the dual-path network and dense connection network, enabling the sampling characteristics to be extracted and integrated. Consequently, the multi-modal discriminant detection of laser paint removal was realized. According to the experimental results, the verification accuracy of the constructed model on the experimental dataset was 99.17%, which is 5.77% higher than the optimal single-modal detection results of the laser paint removal. The feature extraction network was optimized by the attention mechanism, and the model accuracy was increased by 3.3%. Results verify the improved classification performance of the constructed multi-modal feature fusion model in detecting laser paint removal, the effective integration of acoustic data and visual image data, and the accurate detection of laser paint removal. 展开更多
关键词 laser cleaning multi-modal fusion image processing deep learning
在线阅读 下载PDF
Multi-modality liver image registration based on multilevel B-splines free-form deformation and L-BFGS optimal algorithm 被引量:1
6
作者 宋红 李佳佳 +1 位作者 王树良 马婧婷 《Journal of Central South University》 SCIE EI CAS 2014年第1期287-292,共6页
A new coarse-to-fine strategy was proposed for nonrigid registration of computed tomography(CT) and magnetic resonance(MR) images of a liver.This hierarchical framework consisted of an affine transformation and a B-sp... A new coarse-to-fine strategy was proposed for nonrigid registration of computed tomography(CT) and magnetic resonance(MR) images of a liver.This hierarchical framework consisted of an affine transformation and a B-splines free-form deformation(FFD).The affine transformation performed a rough registration targeting the mismatch between the CT and MR images.The B-splines FFD transformation performed a finer registration by correcting local motion deformation.In the registration algorithm,the normalized mutual information(NMI) was used as similarity measure,and the limited memory Broyden-Fletcher- Goldfarb-Shannon(L-BFGS) optimization method was applied for optimization process.The algorithm was applied to the fully automated registration of liver CT and MR images in three subjects.The results demonstrate that the proposed method not only significantly improves the registration accuracy but also reduces the running time,which is effective and efficient for nonrigid registration. 展开更多
关键词 multi-modal image registration affine transformation B-splines free-form deformation (FFD) L-BFGS
在线阅读 下载PDF
A survey of multi-modal learning theory
7
作者 HUANG Yu HUANG Longbo 《中山大学学报(自然科学版)(中英文)》 CAS CSCD 北大核心 2023年第5期38-49,共12页
Deep multi-modal learning,a rapidly growing field with a wide range of practical applications,aims to effectively utilize and integrate information from multiple sources,known as modalities.Despite its impressive empi... Deep multi-modal learning,a rapidly growing field with a wide range of practical applications,aims to effectively utilize and integrate information from multiple sources,known as modalities.Despite its impressive empirical performance,the theoretical foundations of deep multi-modal learning have yet to be fully explored.In this paper,we will undertake a comprehensive survey of recent developments in multi-modal learning theories,focusing on the fundamental properties that govern this field.Our goal is to provide a thorough collection of current theoretical tools for analyzing multi-modal learning,to clarify their implications for practitioners,and to suggest future directions for the establishment of a solid theoretical foundation for deep multi-modal learning. 展开更多
关键词 multi-modal learning machine learning theory OPTIMIZATION GENERALIZATION
在线阅读 下载PDF
基于多模态射频信号融合的粮食水分检测 被引量:2
8
作者 杨卫东 郭思君 +2 位作者 段珊珊 胡鹏明 单少伟 《中国农机化学报》 北大核心 2025年第2期132-138,共7页
水分检测是粮食存储和贸易中不可或缺的一环,利用各种射频传感技术可以实现无损、快速地粮食水分检测。然而,现有方案都是基于单一种类射频信号开发的,针对不同射频信号需要训练对应检测模型,人力成本增加。基于此,提出一种融合多模态... 水分检测是粮食存储和贸易中不可或缺的一环,利用各种射频传感技术可以实现无损、快速地粮食水分检测。然而,现有方案都是基于单一种类射频信号开发的,针对不同射频信号需要训练对应检测模型,人力成本增加。基于此,提出一种融合多模态射频信号的粮食水分检测方法RF—Grain。首先,针对多径环境和硬件缺陷引起的噪声问题,提出一种WiFi信道状态信息(CSI)数据预处理方法;其次,提出一种域对抗神经网络模型,用以消除不同类型射频信号提取的粮食水分特征分布差异;最后,设计使用3种不同射频传感技术进行粮食水分检测的试验,以卷积神经网络作为对比,对所提出方法的性能进行评估,并与现有方法进行对比分析。试验表明,所提出方法能够有效检测5种不同含水率的粮食样品,总体准确率为分别为98.87%、96.22%和96.56%,优于传统的卷积神经网络,具有准确率高、泛化性好等优点,为粮食水分无损检测研究提供有力的技术支撑。 展开更多
关键词 粮食 水分含量检测 射频传感 多模态 域对抗神经网络
在线阅读 下载PDF
基于深度学习的人脸呈现攻击检测方法研究进展 被引量:1
9
作者 孙锐 王菲 +2 位作者 冯惠东 张旭东 高隽 《计算机科学》 北大核心 2025年第2期323-335,共13页
随着人脸识别技术广泛应用于公共安全、金融支付等领域,呈现攻击(Presentation Attacks,PAs)对人脸识别系统的安全性构成了威胁。呈现攻击检测技术(Presentation Attacks Detection,PAD)旨在判断输入人脸的真伪,对维护识别系统的安全性... 随着人脸识别技术广泛应用于公共安全、金融支付等领域,呈现攻击(Presentation Attacks,PAs)对人脸识别系统的安全性构成了威胁。呈现攻击检测技术(Presentation Attacks Detection,PAD)旨在判断输入人脸的真伪,对维护识别系统的安全性和鲁棒性具有重要的研究意义。由于大规模数据集的不断涌现,基于深度学习的呈现攻击检测方法逐渐成为该领域的主流。文章对近期基于深度学习的人脸呈现攻击检测方法进行了综述。首先,概述了呈现攻击检测的定义、实施方式和常见的攻击类型;其次,分别从单模态和多模态入手,对近五年来深度学习类方法的发展趋势、技术原理和优缺点进行详细分析和总结;然后,介绍了PAD研究中使用的典型数据集及其特点,并给出算法的评估标准、协议和性能结果;最后,总结了PAD研究中面临的主要问题并展望了未来的发展趋势。 展开更多
关键词 呈现攻击检测 单模态 多模态 人脸呈现数据集 深度学习
在线阅读 下载PDF
农业领域多模态融合技术方法与应用研究进展 被引量:10
10
作者 李道亮 赵晔 杜壮壮 《农业机械学报》 北大核心 2025年第1期1-15,共15页
多模态融合技术通过结合多源数据,可以克服单一模态的局限性。近年来,传感器以及遥感技术的发展为作物监测提供了更加丰富的数据源,光谱数据、图像数据、雷达数据以及热红外数据被广泛应用于作物监测中。通过利用计算机视觉技术以及数... 多模态融合技术通过结合多源数据,可以克服单一模态的局限性。近年来,传感器以及遥感技术的发展为作物监测提供了更加丰富的数据源,光谱数据、图像数据、雷达数据以及热红外数据被广泛应用于作物监测中。通过利用计算机视觉技术以及数据分析方法,可以从中获取作物的表型参数、理化特征等信息,从而有助于评估作物的生长状况、指导农业生产管理。现有研究多数是基于单一模态数据展开,而单一模态的数据仅有一种类型的输入,缺乏对整体信息的理解,且容易受到单模态噪声的影响;部分研究虽然采用了多模态融合技术,但仍未能充分考虑模态间的复杂交互关系。为了深入分析多模态融合技术在农业领域应用的潜力,本文首先阐述了农业领域中多模态融合的先进技术与方法,重点梳理了多模态融合技术在作物识别、性状分析、产量预测、胁迫分析及病虫害诊断领域中的应用研究成果,分析了多模态融合技术在农业领域中存在的数据利用程度低、有效特征提取难、融合方式单一等问题,并对未来发展提出展望,以期通过多模态融合的方法推动农业精准管理、提高生产效率。 展开更多
关键词 多模态融合 传感器 遥感技术 作物监测 计算机视觉 农业精准管理
在线阅读 下载PDF
面向社交网络平台的多模态网络欺凌检测模型研究 被引量:1
11
作者 李猛坤 李柯锦 +3 位作者 王琪 袁晨 吕慧颖 应作斌 《信息安全研究》 北大核心 2025年第2期154-163,共10页
随着社交网络平台的迅速发展,网络欺凌问题日益突出,文本与图片相结合的多样化网络表达形式提高了网络欺凌的检测和治理难度.构建了一个包含文本和图片的中文多模态网络欺凌数据集,将BERT(bidirectional encoder representations from t... 随着社交网络平台的迅速发展,网络欺凌问题日益突出,文本与图片相结合的多样化网络表达形式提高了网络欺凌的检测和治理难度.构建了一个包含文本和图片的中文多模态网络欺凌数据集,将BERT(bidirectional encoder representations from transformers)模型与ResNet50模型相结合,分别提取文本和图片的单模态特征,并进行决策层融合,对融合后的特征进行检测,实现了对网络欺凌与非网络欺凌2个类别的文本和图片的准确识别.实验结果表明,提出的多模态网络欺凌检测模型能够有效识别出包含文本与图片的具有网络欺凌性质的社交网络帖子或者评论,提高了多模态形式网络欺凌检测的实用性、准确性和效率,为社交网络平台的网络欺凌检测和治理提供了一种新的思路和方法,有助于构建更加健康、文明的网络环境. 展开更多
关键词 网络欺凌 多模态 特征融合 检测模型 社交网络平台
在线阅读 下载PDF
AIGC多模态叙事视角下的非遗数字创意产品人机共创设计研究 被引量:5
12
作者 李旭 刘彦杰 黄桂红 《包装工程》 北大核心 2025年第14期313-327,共15页
目的本文从AIGC多模态叙事视角出发,构建非遗文化的数字叙事创意转化及产品多模态人机共创的设计方法,为AIGC赋能非遗文化传承与创造性转化提供新思路和路径。方法基于AIGC多模态叙事的发展逻辑分析其对非遗数字化创造性转化的作用,探... 目的本文从AIGC多模态叙事视角出发,构建非遗文化的数字叙事创意转化及产品多模态人机共创的设计方法,为AIGC赋能非遗文化传承与创造性转化提供新思路和路径。方法基于AIGC多模态叙事的发展逻辑分析其对非遗数字化创造性转化的作用,探讨非物质文化遗产项目中的文本、纹样图像、文化互动等多模态文化要素与非遗数字创意产品多模态设计的耦合关系,针对“Z世代”用户数字文化消费多元化需求特征,提出以多模态数字叙事构建为主轴,设计师端“目标设定-元素提取-内容整合-场景应用”与AIGC端“叙事分析-智能解码-模态重构-跨界呈现”人机共创的方法,据此设计贵州“傩戏”非遗的数字创意产品。结果归纳出AIGC多模态叙事为视角的人机共创设计方法以文字叙事、视觉叙事、互动叙事三种模式进行非遗产品《山神的守护》创作,增强了傩戏数字化表达和传播效果。结论AIGC多模态叙事人机共创的设计方法,可更好地实现非遗文化的“创意转化、跨界互联”多维度互动体验,为非遗数字化创造性转化和产品应用提供新的设计路径和实践指导。 展开更多
关键词 AIGC 多模态叙事 人机共创 非遗 数字创意产品 设计
在线阅读 下载PDF
基于多模态对比学习的输电线路螺栓缺陷分类 被引量:1
13
作者 张珂 郑朝烨 +2 位作者 石超君 赵振兵 肖扬杰 《高电压技术》 北大核心 2025年第2期630-641,共12页
输电线路巡检中采集的螺栓图像有分辨率低、视觉信息不足的特点。针对传统图像分类模型难以从螺栓图像中学习到语义丰富的视觉表征问题,提出了一种基于多模态对比学习的输电线路螺栓缺陷分类方法。首先,为了将文本中螺栓相关的语义信息... 输电线路巡检中采集的螺栓图像有分辨率低、视觉信息不足的特点。针对传统图像分类模型难以从螺栓图像中学习到语义丰富的视觉表征问题,提出了一种基于多模态对比学习的输电线路螺栓缺陷分类方法。首先,为了将文本中螺栓相关的语义信息和先验知识以跨模态的方式注入视觉表征,提出了一种结合多模态对比预训练和监督式微调的二阶段训练算法;其次,为了缓解多模态对比预训练中的过拟合问题,提出了标签平滑的信息噪声对比估计损失(info noise contrastive estimation loss with label smoothing,infoNCE-LS),以提高预训练视觉表征的泛化性能;最后,针对上下游任务的不匹配问题,设计了3种基于文本提示的分类头,以改善预训练视觉表征在监督式微调阶段的迁移学习效果。实验结果表明:该文基于Res Net50和ViT构建的两种模型在螺栓缺陷分类数据集上的准确率分别为92.3%和97.4%,相比基线分别提高了2.4%和5.8%。研究实现了从文本到图像的语义信息跨模态补充,为螺栓缺陷识别的研究提供了新的思路。 展开更多
关键词 输电线路 螺栓缺陷分类 多模态预训练 对比学习 迁移学习
在线阅读 下载PDF
基于多模态的缺陷绝缘子图像的多标签分类 被引量:3
14
作者 周景 王满意 田兆星 《高电压技术》 北大核心 2025年第2期642-651,共10页
对巡检图像中绝缘子缺陷准确分类是输电线路自动巡检领域中的关键技术之一。针对传统深度学习的分类方法对文本信息利用不够充分以及绝缘子图像分类标签较为单一的问题,该文首次提出了一种基于多模态的缺陷绝缘子图像的多标签分类方法... 对巡检图像中绝缘子缺陷准确分类是输电线路自动巡检领域中的关键技术之一。针对传统深度学习的分类方法对文本信息利用不够充分以及绝缘子图像分类标签较为单一的问题,该文首次提出了一种基于多模态的缺陷绝缘子图像的多标签分类方法。首先,采用一种多模态联合数据增强方法,实现了绝缘子图像和标签文本间跨模态的数据增强。然后,使用Vision Transformer网络提取图像的特征信息和BERT网络提取标签文本的特征信息,充分利用图像和标签文本的特征信息,从不同模态获取全面的信息,提高了网络的分类能力。最后,通过对比学习的方式将图像和文本的特征信息关联,增强网络分类的可靠性的同时,又为分类结果提供了良好的可解释性。实验结果表明,该方法的分类总体准确率达到93.87%,在同一数据集中对比其他模型,分类性能具有明显优势,为多模态技术在电网领域的应用提供了较好的基础。 展开更多
关键词 绝缘子图像 多标签分类 多模态 对比学习 数据增强
在线阅读 下载PDF
BEV感知学习在自动驾驶中的应用综述 被引量:3
15
作者 黄德启 黄海峰 +1 位作者 黄德意 刘振航 《计算机工程与应用》 北大核心 2025年第6期1-21,共21页
自动驾驶感知模块中作为采集输入的传感器种类不断发展,要使多模态数据统一地表征出来变得愈加困难。BEV感知学习在自动驾驶感知任务模块中可以使多模态数据统一融合到一个特征空间,相比于其他感知学习模型拥有更好的发展潜力。从研究... 自动驾驶感知模块中作为采集输入的传感器种类不断发展,要使多模态数据统一地表征出来变得愈加困难。BEV感知学习在自动驾驶感知任务模块中可以使多模态数据统一融合到一个特征空间,相比于其他感知学习模型拥有更好的发展潜力。从研究意义、空间部署、准备工作、算法发展及评价指标五个方面总结了BEV感知模型具有良好发展潜力的原因。BEV感知模型从框架角度概括为四个系列:Lift-Splat-Lss系列、IPM逆透视转换、MLP视图转换及Transformer视图转换;从输入数据概括为两类:第一类是纯图像特征的输入包括单目摄像头输入和多摄像头输入,第二类在融合数据输入中不仅是简单的点云数据和图像特征的数据融合,还包括了以点云数据为引导或监督的知识蒸馏融合和以引导切片方式去划分高度段的融合。概述了多目标追踪、地图分割、车道线检测及3D目标检测四种自动驾驶任务在BEV感知模型当中的应用,并总结了目前BEV感知学习四个系列框架的缺点。 展开更多
关键词 BEV感知学习 视图转换 多模态数据融合 多目标追踪 地图分割 车道线检测及3D目标检测
在线阅读 下载PDF
基于音视频信息融合与Self-Attention-DSC-CNN6网络的鲈鱼摄食强度分类方法 被引量:1
16
作者 李道亮 李万超 杜壮壮 《农业机械学报》 北大核心 2025年第1期16-24,共9页
摄食强度识别分类是实现水产养殖精准投喂的重要环节。现有的投喂方式存在过度依赖人工经验判断、投喂量不精确、饲料浪费严重等问题。基于多模态融合的鱼类摄食程度分类能够综合不同类型的数据(如:视频、声音和水质参数),为鱼群的投喂... 摄食强度识别分类是实现水产养殖精准投喂的重要环节。现有的投喂方式存在过度依赖人工经验判断、投喂量不精确、饲料浪费严重等问题。基于多模态融合的鱼类摄食程度分类能够综合不同类型的数据(如:视频、声音和水质参数),为鱼群的投喂提供更加全面精准的决策依据。因此,提出了一种融合视频和音频数据的多模态融合框架,旨在提升鲈鱼摄食强度分类性能。将预处理后的Mel频谱图(Mel Spectrogram)和视频帧图像分别输入到Self-Attention-DSC-CNN6(Self-attention-depthwise separable convolution-CNN6)优化模型进行高层次的特征提取,并将提取的特征进一步拼接融合,最后将拼接后的特征经分类器分类。针对Self-Attention-DSC-CNN6优化模型,基于CNN6算法进行了改进,将传统卷积层替换为深度可分离卷积(Depthwise separable convolution,DSC)来达到减少计算复杂度的效果,并引入Self-Attention注意力机制以增强特征提取能力。实验结果显示,本文所提出的多模态融合框架鲈鱼摄食强度分类准确率达到90.24%,模型可以有效利用不同数据源信息,提升了对复杂环境中鱼群行为的理解,增强了模型决策能力,确保了投喂策略的及时性与准确性,从而有效减少了饲料浪费。 展开更多
关键词 鲈鱼 摄食强度分类 多模态融合 Self-Attention-DSC-CNN6
在线阅读 下载PDF
人类为什么会拖延?基于多模态多组学视角的解读 被引量:1
17
作者 肖瑶 王雪珂 冯廷勇 《心理科学进展》 北大核心 2025年第3期520-536,共17页
拖延是一种跨文化普遍存在着的问题行为,它不仅对人们的学习、工作、生活和情绪造成严重的负面影响,甚至还会损害人们的身心健康。尽管已有文献对于拖延产生的原因和影响因素进行了探讨,但对其成因的全面理解仍有待深入。本文从多模态... 拖延是一种跨文化普遍存在着的问题行为,它不仅对人们的学习、工作、生活和情绪造成严重的负面影响,甚至还会损害人们的身心健康。尽管已有文献对于拖延产生的原因和影响因素进行了探讨,但对其成因的全面理解仍有待深入。本文从多模态多组学的视角出发,系统梳理和分析了拖延的认知机制、神经基础、遗传基础和可能的代谢、微生物组学基础,并基于此构建了一个整合认知−神经−遗传−微生物−代谢的多模态多组学理论框架,旨在系统阐释拖延产生背后的复杂机制,为理解拖延的发生与形成提供更全面的视角。未来研究应丰富拖延的分子遗传学、代谢与微生物组学的研究,进一步加强多模态多组学的联合分析,并从发展视角深化拖延的发生与形成机制,以实现对拖延的早期识别、早期预防和精准干预。 展开更多
关键词 拖延 多模态多组学 认知−神经−遗传−微生物−代谢 理论框架
在线阅读 下载PDF
FGITA:一种基于细粒度对齐的多模态命名实体识别框架
18
作者 吕学强 王涛 +3 位作者 游新冬 赵海兴 才藏太 陈玉忠 《小型微型计算机系统》 北大核心 2025年第4期769-775,共7页
命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实... 命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实体识别任务广受重视.然而,现有的多模态命名实体识别方法中,存在跨模态知识间的细粒度对齐不足问题,文本表征会融合语义不相关的图像信息,进而引入噪声.为了解决这些问题,提出了一种基于细粒度图文对齐的多模态命名实体识别方法(FGITA:A Multi-Modal NER Frame based on Fine-Grained Image-Text Alignment).首先,该方法通过目标检测、语义相似性判断等,确定更为细粒度的文本实体和图像子对象之间的语义相关性;其次,通过双线性注意力机制,计算出图像子对象与实体的相关性权重,并依据权重将子对象信息融入到实体表征中;最后,提出了一种跨模态对比学习方法,依据图像和实体之间的匹配程度,优化实体和图像在嵌入空间中的距离,借此帮助实体表征学习相关的图像信息.在两个公开数据集上的实验表明,FGITA优于5个主流多模态命名实体识别方法,验证了方法的有效性,同时验证了细粒度跨模态对齐在多模态命名实体识别任务中的重要性和优越性. 展开更多
关键词 多模态 命名实体识别 信息抽取 知识图谱 对比学习
在线阅读 下载PDF
基于知识图谱的药物推荐方法研究综述
19
作者 彭琳 汪宇 +2 位作者 叶青 程春雷 贺佳 《计算机应用研究》 北大核心 2025年第11期3225-3235,共11页
药物推荐通过分析个体健康状况、病史、遗传信息以及生活方式等因素,为患者提供个性化的药物治疗方案,但该技术在实际应用中仍面临数据稀疏性、冷启动和可解释性等问题。知识图谱因其丰富的结构化语义知识,作为推荐系统的辅助信息,可有... 药物推荐通过分析个体健康状况、病史、遗传信息以及生活方式等因素,为患者提供个性化的药物治疗方案,但该技术在实际应用中仍面临数据稀疏性、冷启动和可解释性等问题。知识图谱因其丰富的结构化语义知识,作为推荐系统的辅助信息,可有效解决这些问题并提升系统性能。为此,综述了基于知识图谱的药物推荐方法的发展现状及其在各种问题中的应用。首先系统梳理了相关背景知识,指出了药物推荐中存在的共性问题和领域问题;从问题和技术两个角度详细讨论了基于知识图谱的药物推荐方法的优势和局限性,包括传统的知识图谱推荐方法、融合多模态知识图谱的推荐方法和融合大语言模型的知识图谱推荐方法。最后对该领域的未来发展前景提出了展望。 展开更多
关键词 知识图谱 推荐系统 药物推荐 多模态知识图谱 大语言模型
在线阅读 下载PDF
融合机器学习技术的阈下抑郁神经生理机制及干预
20
作者 刘永进 杨雪 +6 位作者 杜欣欣 嵇文麒 臧寅垠 官锐园 宋森 钱铭怡 牟文婷 《心理科学进展》 北大核心 2025年第6期887-904,共18页
抑郁症是阻碍国民心理健康的重要因素。阈下抑郁是抑郁发病前期重要阶段,探究其神经生理机制及动态发展规律有助于预测抑郁发病和进行预防性干预。为突破既往将抑郁视为静态单一诊断结果的局限,本文基于复杂动力系统理论,通过多时程多... 抑郁症是阻碍国民心理健康的重要因素。阈下抑郁是抑郁发病前期重要阶段,探究其神经生理机制及动态发展规律有助于预测抑郁发病和进行预防性干预。为突破既往将抑郁视为静态单一诊断结果的局限,本文基于复杂动力系统理论,通过多时程多模态机器学习方法,探讨阈下抑郁症状与神经生理特征之间的密切关联及关键预测因子。其次,通过纵向追踪及神经动力学网络模型探查吸引子状态及其对随后抑郁发病和特征转化的预测。最后,探索认知行为疗法对阈下抑郁的预防性干预效果以及吸引子状态的预测作用。研究结果用以解析阈下抑郁的神经生物学独特性,并为抑郁症早期识别和精准预防的方法研发提供新的思路。 展开更多
关键词 阈下抑郁 吸引子状态 认知行为疗法 预防性干预 多模态机器学习
在线阅读 下载PDF
上一页 1 2 64 下一页 到第
使用帮助 返回顶部