为满足不同种类食品对大豆分离蛋白(soybean protein isolate,SPI)不同功能性的需求,本研究利用红外光谱快速采集70组不同pH值处理后SPI的数据,探讨pH值变化对SPI结构含量的影响。使用均值中心化、多元散射校正、标准正态变量变换和归...为满足不同种类食品对大豆分离蛋白(soybean protein isolate,SPI)不同功能性的需求,本研究利用红外光谱快速采集70组不同pH值处理后SPI的数据,探讨pH值变化对SPI结构含量的影响。使用均值中心化、多元散射校正、标准正态变量变换和归一化算法对红外光谱数据进行预处理,基于二维相关红外光谱提取特征波段,再利用偏最小二乘(partial least square,PLS)法和算术优化算法-随机森林(arithmetic optimization algorithm-random forests,AOA-RF)建立不同pH值条件下SPI结构及含量的预测模型。结果表明,经均值中心化和多元散射校正结合处理后,α-螺旋、β-折叠、β-转角和无规卷曲模型的相对标准偏差分别为1.29%、1.60%、1.37%、7.28%,两者结合对光谱数据的预处理效果最佳。预测α-螺旋和β-折叠含量最优模型为AOA-RF(特征波段),校正集决定系数为0.9350和0.9266,预测集决定系数为0.8568和0.8701;预测β-转角和无规卷曲含量最优模型为PLS(特征波段),校正集决定系数为0.9154和0.8817,预测集决定系数为0.8913和0.7843。本研究结果可为工业生产过程中产品质量快速检测和工艺条件控制提供理论支撑。展开更多
蛋白质二级结构预测是公认的生物信息学领域的国际性难题。以基于内在认知机理的知识发现理论(knowledge discovery theory based on inner cognitive mechanism,KDTICM)理论的扩展性研究与数据库中的知识发现(knowledge discovery in d...蛋白质二级结构预测是公认的生物信息学领域的国际性难题。以基于内在认知机理的知识发现理论(knowledge discovery theory based on inner cognitive mechanism,KDTICM)理论的扩展性研究与数据库中的知识发现(knowledge discovery in database*,KDD*)模型为基础,提出一种基于结构序列的多分类算法——SAC(structuralassociation classification),可以有效地解决蛋白质二级结构预测问题。该算法借助设定支持度阈值的精化知识库的方法,其预测准确率能够超过85%。以该算法为核心,构建了一个蛋白质二级预测模型——复合金字塔模型。实验证明,在RS126、CB513I、LP数据集上的预测准确率均超过80%,超过目前已知的国际主流水平。展开更多
文摘为满足不同种类食品对大豆分离蛋白(soybean protein isolate,SPI)不同功能性的需求,本研究利用红外光谱快速采集70组不同pH值处理后SPI的数据,探讨pH值变化对SPI结构含量的影响。使用均值中心化、多元散射校正、标准正态变量变换和归一化算法对红外光谱数据进行预处理,基于二维相关红外光谱提取特征波段,再利用偏最小二乘(partial least square,PLS)法和算术优化算法-随机森林(arithmetic optimization algorithm-random forests,AOA-RF)建立不同pH值条件下SPI结构及含量的预测模型。结果表明,经均值中心化和多元散射校正结合处理后,α-螺旋、β-折叠、β-转角和无规卷曲模型的相对标准偏差分别为1.29%、1.60%、1.37%、7.28%,两者结合对光谱数据的预处理效果最佳。预测α-螺旋和β-折叠含量最优模型为AOA-RF(特征波段),校正集决定系数为0.9350和0.9266,预测集决定系数为0.8568和0.8701;预测β-转角和无规卷曲含量最优模型为PLS(特征波段),校正集决定系数为0.9154和0.8817,预测集决定系数为0.8913和0.7843。本研究结果可为工业生产过程中产品质量快速检测和工艺条件控制提供理论支撑。
文摘蛋白质二级结构预测是公认的生物信息学领域的国际性难题。以基于内在认知机理的知识发现理论(knowledge discovery theory based on inner cognitive mechanism,KDTICM)理论的扩展性研究与数据库中的知识发现(knowledge discovery in database*,KDD*)模型为基础,提出一种基于结构序列的多分类算法——SAC(structuralassociation classification),可以有效地解决蛋白质二级结构预测问题。该算法借助设定支持度阈值的精化知识库的方法,其预测准确率能够超过85%。以该算法为核心,构建了一个蛋白质二级预测模型——复合金字塔模型。实验证明,在RS126、CB513I、LP数据集上的预测准确率均超过80%,超过目前已知的国际主流水平。