为解析同一品种不同产地香菇的精深加工适宜性,以我国两大香菇主产区湖北随州和浙江庆元的主栽香菇品种‘申香1513’为研究对象,分别采用热水浸提法(hot water extraction)、超声波辅助热水提取法(ultrasonicassisted hot water extract...为解析同一品种不同产地香菇的精深加工适宜性,以我国两大香菇主产区湖北随州和浙江庆元的主栽香菇品种‘申香1513’为研究对象,分别采用热水浸提法(hot water extraction)、超声波辅助热水提取法(ultrasonicassisted hot water extraction)和微波辅助热水提取法(microwave-assisted hot water extraction)三种工艺制备不同水提物(湖北随州:HH、HU和HM;浙江庆元:ZH、ZU和ZM),并利用高效液相色谱法、紫外光谱法和傅里叶红外光谱法等方法,重点比较了其理化性质和结构特征差异。结果显示,6种水提物的多糖含量在37.44%~53.17%,蛋白含量在14.70%~27.03%,HH和ZH的多糖及蛋白含量均高于其余两种提取方法,浙江水提物的蛋白含量均大于湖北水提物,HU和ZM具有相对更高的灰分含量;红外光谱显示6种水提物中存在O-H、CH等多糖特征峰以及N-H等蛋白特征峰;氨基酸分析显示6种水提物的氨基酸种类齐全,且谷氨酸含量最高,其中,ZM的总氨基酸含量最高,HH的总氨基酸含量最低,HU的各氨基酸含量高于HH、HM,ZM的氨基酸含量高于ZH、ZU;分子量分析显示湖北香菇水提物分子量呈现三峰分布,浙江香菇水提物分子量为双峰分布;单糖组成分析表明6种香菇水提物均由甘露糖、盐酸氨基葡萄糖、半乳糖和葡萄糖组成,其中,葡萄糖含量最高,均在90%以上,超声和微波处理均能提高其单糖含量。综上,同一品种不同产地香菇在不同提取工艺下所得水提物理化性质和结构差异显著,若想提取水提物中的有效活性物质,则热水提取法为两地香菇的最佳提取方法,若要得到较高氨基酸含量的水提物,则湖北香菇采用超声辅助热水提取法,浙江香菇采用微波辅助热水提取法,该研究可为不同香菇的精深加工适宜性解析提供模型支撑,亦可为以同一品种、不同产地的香菇水提物作为食品基料,开展新型未来健康食品的精准开发,提供理论依据。展开更多
大语言模型(LLM)以其强大的泛化能力,在汽车维护与保养领域具备极高的应用潜能。本研究针对该领域高质量、结构化微调数据相对稀缺的现状,构建了面向LLM微调的汽车维护与保养知识数据集AMCK(Automotive Maintenance and Care Knowledge ...大语言模型(LLM)以其强大的泛化能力,在汽车维护与保养领域具备极高的应用潜能。本研究针对该领域高质量、结构化微调数据相对稀缺的现状,构建了面向LLM微调的汽车维护与保养知识数据集AMCK(Automotive Maintenance and Care Knowledge Dataset for Large Language Model Fine-Tuning)。数据集来源于三类:一是从国内汽车相关网站(如汽车之家、懂车帝等)采集真实用户发布的汽车维护咨询、汽车保养场景的问答数据,经过筛选噪音并过滤语义,获得有效样本语料;二是整合汽车工程领域公开的专业语料库AutoMaster,包含汽车品牌类型、保养手册、维护工艺标准等知识;三是使用数据增强方法对数据集进行扩充,添加更多元化数据。最终筛选出43962条高质量样本,以JSON格式存储,包含指令、输入、输出3个属性。AMCK数据集可以作为LLM进行汽车维护保养的微调数据,其丰富的领域知识样本,可以驱动LLM在汽车维保任务中实现更精准的语义理解和更可靠的决策推理,提升汽车智能服务水平。展开更多
大模型在医疗、法律、金融等多个领域都有广阔的应用前景,同时这些领域也对大模型的专业性、准确性、可解释性、安全性提出了更高的要求。目前公开数据集大都以结论性回答为主,缺少在复杂咨询场景中对专家决策形成过程的可解释推理表达...大模型在医疗、法律、金融等多个领域都有广阔的应用前景,同时这些领域也对大模型的专业性、准确性、可解释性、安全性提出了更高的要求。目前公开数据集大都以结论性回答为主,缺少在复杂咨询场景中对专家决策形成过程的可解释推理表达,不能高效支持大模型进行长上下文、多轮次交互推理。为此,本研究构建了MPCCD-MLF数据集(Multi-round Professional Consulting Conver sation Dataset in Medical,Legal and Financial Domains,简称MPCCD-MLF),包含医疗、法律、金融三个专业领域的多轮对话语料。数据来源于好大夫在线、中国法律服务网(12348)、雪球网等专业平台,时间范围为2023年1月至2024年12月。数据集经过网络爬取、指令工程、结构重组过程,采用专门设计的多维度约束指令模板,以专家原始回答中的事实判断和结论性信息为锚点,辅助生成结构化、可解释的推理表达,并在多轮对话中进行呈现。经清洗、脱敏之后得到31,745条三轮问答数据,约181 MB,用JSON格式保存。每条对话都采用用户提问、专家回答、用户追问、专家再回答的多轮交互方式。质量控制采用自动模型评分和专家人工核验的双盲评定方式,综合质量4.75分(满分5分)。本数据集可为垂直领域大语言模型在复杂逻辑推理、长对话交互的场景提供高质量和高可解释性的语料。展开更多
文本检测是自然语言处理领域的重要研究方向,旨在判别文本的来源和内容真伪,帮助人们在繁杂的网络信息中获取可信度更高的内容。针对文本检测数据集稀缺问题,本研究构建了一个覆盖多领域的文本检测数据集MDD-TD(Multi-Domain Text Detec...文本检测是自然语言处理领域的重要研究方向,旨在判别文本的来源和内容真伪,帮助人们在繁杂的网络信息中获取可信度更高的内容。针对文本检测数据集稀缺问题,本研究构建了一个覆盖多领域的文本检测数据集MDD-TD(Multi-Domain Text Detection Dataset),数据集包括翻译优化的开源数据、通过爬虫爬取的网络数据以及基于提示增强策略生成的合成数据。翻译数据基于Simple AI/HC3数据集中的问答语料进行翻译和优化;网络开源语料通过爬取微博及豆瓣数据获得;合成语料借鉴规则驱动合成思路,基于已有翻译数据和网络开源数据,利用多种提示增强策略生成。为确保数据质量,本研究通过PPL方法剔除困惑度异常文本,利用语义相似度去重并结合人工审核对低质量数据进行二次过滤。最终筛选出31,721条高质量数据,以json格式存储。每条数据有3个标签,其中text对应待检测文本,source对应数据来源,label对应数据真伪。使用本数据集在两个公开检测器上进行了评估实验,来源检测任务中评论领域的accuracy为97.13%,真伪检测任务中新闻领域的accuracy为98.87%,表明本数据集可以作为大模型文本检测任务的训练和评估资源。展开更多
抗生素是微生物(包括细菌、真菌、放线菌)产生或人工合成的一类化合物,能够抑制细菌等微生物的生命活动。由于抗生素被动物摄入后在体内吸收不良及具有耐降解性等,水环境中低剂量抗生素残留的现象时有发生。养殖鱼长期暴露于含有低剂量...抗生素是微生物(包括细菌、真菌、放线菌)产生或人工合成的一类化合物,能够抑制细菌等微生物的生命活动。由于抗生素被动物摄入后在体内吸收不良及具有耐降解性等,水环境中低剂量抗生素残留的现象时有发生。养殖鱼长期暴露于含有低剂量以及合规养殖剂量抗生素的环境中,会造成系统性发育不良,并且通过食物链传导引发人类健康风险(Limbu S M等,2018)。展开更多
文摘为解析同一品种不同产地香菇的精深加工适宜性,以我国两大香菇主产区湖北随州和浙江庆元的主栽香菇品种‘申香1513’为研究对象,分别采用热水浸提法(hot water extraction)、超声波辅助热水提取法(ultrasonicassisted hot water extraction)和微波辅助热水提取法(microwave-assisted hot water extraction)三种工艺制备不同水提物(湖北随州:HH、HU和HM;浙江庆元:ZH、ZU和ZM),并利用高效液相色谱法、紫外光谱法和傅里叶红外光谱法等方法,重点比较了其理化性质和结构特征差异。结果显示,6种水提物的多糖含量在37.44%~53.17%,蛋白含量在14.70%~27.03%,HH和ZH的多糖及蛋白含量均高于其余两种提取方法,浙江水提物的蛋白含量均大于湖北水提物,HU和ZM具有相对更高的灰分含量;红外光谱显示6种水提物中存在O-H、CH等多糖特征峰以及N-H等蛋白特征峰;氨基酸分析显示6种水提物的氨基酸种类齐全,且谷氨酸含量最高,其中,ZM的总氨基酸含量最高,HH的总氨基酸含量最低,HU的各氨基酸含量高于HH、HM,ZM的氨基酸含量高于ZH、ZU;分子量分析显示湖北香菇水提物分子量呈现三峰分布,浙江香菇水提物分子量为双峰分布;单糖组成分析表明6种香菇水提物均由甘露糖、盐酸氨基葡萄糖、半乳糖和葡萄糖组成,其中,葡萄糖含量最高,均在90%以上,超声和微波处理均能提高其单糖含量。综上,同一品种不同产地香菇在不同提取工艺下所得水提物理化性质和结构差异显著,若想提取水提物中的有效活性物质,则热水提取法为两地香菇的最佳提取方法,若要得到较高氨基酸含量的水提物,则湖北香菇采用超声辅助热水提取法,浙江香菇采用微波辅助热水提取法,该研究可为不同香菇的精深加工适宜性解析提供模型支撑,亦可为以同一品种、不同产地的香菇水提物作为食品基料,开展新型未来健康食品的精准开发,提供理论依据。
文摘大语言模型(LLM)以其强大的泛化能力,在汽车维护与保养领域具备极高的应用潜能。本研究针对该领域高质量、结构化微调数据相对稀缺的现状,构建了面向LLM微调的汽车维护与保养知识数据集AMCK(Automotive Maintenance and Care Knowledge Dataset for Large Language Model Fine-Tuning)。数据集来源于三类:一是从国内汽车相关网站(如汽车之家、懂车帝等)采集真实用户发布的汽车维护咨询、汽车保养场景的问答数据,经过筛选噪音并过滤语义,获得有效样本语料;二是整合汽车工程领域公开的专业语料库AutoMaster,包含汽车品牌类型、保养手册、维护工艺标准等知识;三是使用数据增强方法对数据集进行扩充,添加更多元化数据。最终筛选出43962条高质量样本,以JSON格式存储,包含指令、输入、输出3个属性。AMCK数据集可以作为LLM进行汽车维护保养的微调数据,其丰富的领域知识样本,可以驱动LLM在汽车维保任务中实现更精准的语义理解和更可靠的决策推理,提升汽车智能服务水平。
文摘大模型在医疗、法律、金融等多个领域都有广阔的应用前景,同时这些领域也对大模型的专业性、准确性、可解释性、安全性提出了更高的要求。目前公开数据集大都以结论性回答为主,缺少在复杂咨询场景中对专家决策形成过程的可解释推理表达,不能高效支持大模型进行长上下文、多轮次交互推理。为此,本研究构建了MPCCD-MLF数据集(Multi-round Professional Consulting Conver sation Dataset in Medical,Legal and Financial Domains,简称MPCCD-MLF),包含医疗、法律、金融三个专业领域的多轮对话语料。数据来源于好大夫在线、中国法律服务网(12348)、雪球网等专业平台,时间范围为2023年1月至2024年12月。数据集经过网络爬取、指令工程、结构重组过程,采用专门设计的多维度约束指令模板,以专家原始回答中的事实判断和结论性信息为锚点,辅助生成结构化、可解释的推理表达,并在多轮对话中进行呈现。经清洗、脱敏之后得到31,745条三轮问答数据,约181 MB,用JSON格式保存。每条对话都采用用户提问、专家回答、用户追问、专家再回答的多轮交互方式。质量控制采用自动模型评分和专家人工核验的双盲评定方式,综合质量4.75分(满分5分)。本数据集可为垂直领域大语言模型在复杂逻辑推理、长对话交互的场景提供高质量和高可解释性的语料。
文摘文本检测是自然语言处理领域的重要研究方向,旨在判别文本的来源和内容真伪,帮助人们在繁杂的网络信息中获取可信度更高的内容。针对文本检测数据集稀缺问题,本研究构建了一个覆盖多领域的文本检测数据集MDD-TD(Multi-Domain Text Detection Dataset),数据集包括翻译优化的开源数据、通过爬虫爬取的网络数据以及基于提示增强策略生成的合成数据。翻译数据基于Simple AI/HC3数据集中的问答语料进行翻译和优化;网络开源语料通过爬取微博及豆瓣数据获得;合成语料借鉴规则驱动合成思路,基于已有翻译数据和网络开源数据,利用多种提示增强策略生成。为确保数据质量,本研究通过PPL方法剔除困惑度异常文本,利用语义相似度去重并结合人工审核对低质量数据进行二次过滤。最终筛选出31,721条高质量数据,以json格式存储。每条数据有3个标签,其中text对应待检测文本,source对应数据来源,label对应数据真伪。使用本数据集在两个公开检测器上进行了评估实验,来源检测任务中评论领域的accuracy为97.13%,真伪检测任务中新闻领域的accuracy为98.87%,表明本数据集可以作为大模型文本检测任务的训练和评估资源。
文摘抗生素是微生物(包括细菌、真菌、放线菌)产生或人工合成的一类化合物,能够抑制细菌等微生物的生命活动。由于抗生素被动物摄入后在体内吸收不良及具有耐降解性等,水环境中低剂量抗生素残留的现象时有发生。养殖鱼长期暴露于含有低剂量以及合规养殖剂量抗生素的环境中,会造成系统性发育不良,并且通过食物链传导引发人类健康风险(Limbu S M等,2018)。