摘要
面向高质量和精准烹饪的需求,提出一种基于多模态大语言模型的数字厨师与智能烹饪方法。离线阶段利用视觉、声音、温度等多源传感器记录专业厨师的连续操作,将图像与多轮问答文本融合,建立烹饪专家知识库,并采用低秩适配方法对预训练多模态大语言模型进行微调,以构建能够理解烹饪意图的多模态大语言模型。在线阶段将实时感知的数据转换为图文输入微调后的大语言模型,经模型分析后生成烹饪指令,引导用户完成相应的烹饪动作。以煎牛排任务为例,搭建了智能烹饪软硬件系统并进行实验验证。实验结果表明,经过微调后的智能烹饪系统能有效控制牛排的熟度与品质,相较于微调前的模型,显著提升了烹饪指令的合理性和针对性。
A digital chef and an intelligent cooking method were proposed to achieve high-quality,precise cooking results.In the offline phase,visual,auditory and thermal sensors record professional chefs’continuous cooking operations.The collected frame-by-frame images and multi-round Q&A texts form a culinary expert knowledge base.A low-rank adapta‐tion method was applied to fine-tune a pretrained multimodal large language model,enabling it to understand cooking in‐tentions.In the online phase,real-time sensory data were converted into image-text inputs for the fine-tuned model,which then generated cooking instructions to guide users through the cooking steps.A hardware-software cooking system was implemented and tested with a pan-frying steak task.Experimental results show that the fine-tuned system effectively con‐trols the steak’s doneness and quality,and significantly improves the accuracy and rationality of cooking instructions com‐pared to the model before fine-tuning.
作者
李鑫源
李柏
孙跃硕
张坦探
田永林
殷烛炎
王飞跃
LI Xinyuan;LI Bai;SUN Yueshuo;ZHANG Tantan;TIAN Yonglin;YIN Zhuyan;WANG Fei-Yue(College of Mechanical and Vehicle Engineering,Hunan University,Changsha 410082,China;State Key Laboratory of Advanced Design and Manufacturing Technology for Vehicle,Hunan University,Changsha 410082,China;State Key Laboratory for Multi-modal Artificial Intelligence Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China;State Key Laboratory for Management and Control of Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China;School of Artificial Intelligence,University of Chinese Academy of Sciences,Beijing 100049,China;Department of Engineering Science,Faculty of Innovation Engineering,Macao University of Science and Technology,Macao 999078,China)
出处
《智能科学与技术学报》
CSCD
2024年第4期429-444,共16页
Chinese Journal of Intelligent Science and Technology
基金
国家自然科学基金项目(No.62103139)
湖南省芙蓉计划湖湘青年英才项目(No.2023RC3115)。
关键词
多模态大语言模型
数字厨师
智能烹饪
烹饪机器人
专家系统
人工智能
multimodal large language model
digital chef
intelligent cooking
cooking robot
expert system
artificial in‐telligence
作者简介
李鑫源(1999-),男,湖南大学机械与运载工程学院硕士生,主要研究方向为大语言模型、具身智能、柔性机械臂建模与控制;通信作者:李柏(1989-),男,博士,湖南大学机械与运载工程学院副教授,主要研究方向为自主无人系统运动规划、基于智能车竞赛的新工科教育、计算最优控制理论、柔性机械臂运动控制以及智能烹饪系统,libai@zju.edu.cn;孙跃硕(2002-),男,湖南大学机械与运载工程学院硕士生,主要研究方向为自主无人系统决策规划、数值优化以及具身智能;张坦探(1990-),男,博士,湖南大学机械与运载工程学院副教授,主要研究方向为智能控制、自动驾驶以及人工智能;田永林(1994-),男,博士,中国科学院自动化研究所多模态人工智能系统全国重点实验室助理研究员,主要研究方向为平行系统、自动驾驶以及场景工程;殷烛炎(1995-),女,湖南大学机械与运载工程学院科研助理,主要研究方向为运筹优化、智能控制以及多模态大语言模型;通信作者:王飞跃(1961-),男,博士,中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任,澳门科技大学特聘教授,主要研究方向为平行系统的方法与应用、社会计算、平行智能、知识自动化。feiyue.wang@ia.ac.cn。