随着人们对食品营养与健康关系认识的不断加深,营养干预已经从普遍补充逐渐转向个体化、精准化的发展趋势。在这一背景下,食源性功能肽作为天然食品蛋白经过酶解、发酵或消化后产生的短链肽,因其多样的生理活性受到广泛关注。研究表明,生物活性肽来源十分广泛,不仅包括传统的植物蛋白(如豆类、谷物)与动物蛋白(如乳制品、肉类、蛋类、海洋生物),还涵盖微生物发酵过程中由乳酸菌或其他发酵菌株释放的活性肽,以及通过化学合成、重组表达或计算设计获得的人工/重组肽。除提供营养价值外,还具有调节机体功能的效应,如抗氧化、抗疲劳、降血压、抗菌等。大量研究表明,食源性功能肽对心血管疾病、代谢综合征、免疫失衡等慢性病具有积极的干预作用。例如,Ganguly等指出,具有抗氧化、抗炎和血管紧张素转化酶(ACE)抑制活性的生物肽可有效改善高血压和相关心血管疾病。Santiago-López等综述了食物蛋白衍生肽的免疫调节功能,证实肽段通过免疫通路影响机体健康。因此,功能肽不仅是功能性食品与保健食品研发中的重要活性成分,也被认为是实现个性化营养调控的潜在关键因子。
然而,功能肽的发现与开发面临诸多挑战。传统的研究策略主要依赖于体外酶解、肽段分离纯化以及体内外活性测试等手段,整体流程繁琐、耗时且成本高昂。常常要结合高效液相色谱、质谱等技术进行肽段分离鉴定,并通过多轮细胞或动物实验验证活性,这进一步增加了时间和资源投入。Madsen等在2022年的研究中指出,当时仅约有300条肽段被实验验证具有生物活性,而文献报道的肽数量远超此数,研究提到传统验证路径周期长、成本高,大量质谱检测到的候选肽难以及时获得生物活性确证。由于实验手段受到时间和资源的双重限制,导致许多潜在活性肽无法及时被发现,从而严重制约了功能肽的规模化开发与产业化。因此,亟需引入更高效、智能化的技术方法,以提高功能肽识别与筛选的效率。
近年来,人工智能(AI)的发展为功能肽研究提供了新的思路。数据驱动的机器学习方法能快速高效地预测肽段的功能效应,常用算法包括支持向量机(SVM)、随机森林(RF)以及近年来的深度学习(DL)等,这一些方法可以利用高通量测序和组学数据构建预测模型,来提升功能肽预测的准确性。DL方法不仅用于预测,还可用于生成新肽。Zhang Haiping等构建了基于长短期记忆网络(LSTM)的肽生成模型并结合深度筛选模型,针对特定靶点生成并筛选候选肽段,通过迭代训练和预测,有效发现了具有预期治疗作用的新型功能肽。基于机器学习和DL的工具能加速肽的发现过程,对识别潜在的功能肽具备极其重大价值,也为个性化营养设计提供了强有力的支持。此外,AI还可结合人体营养代谢模型,辅助设计针对个体生理状态定制的营养组合,从而推进精准营养方案的实际应用。尽管目前AI在功能肽领域的个性化营养补充研究仍相对有限,但其他相关领域的研究提供了有价值的参考。Han Xin等总结了AI在益生菌领域的应用,包括了菌株筛选、预测和代谢分析等,同时基于消费者喜好设计个性化的益生菌摄入方案。Pokushalov等总结了AI在膳食补充剂领域的应用,研究提到AI驱动的工具能够最终靠复杂的生物标志物相互作用和个人需求,简化生物标志物的解释,优化补充剂的选择,并提供符合每个患者独特代谢特征和补充剂相互作用的个性化建议。此类研究可以给AI实现个性化补充食源性功能肽提供参考。
江南大学未来食品科学中心的丁浩晗、崔晓晖*,江南大学人工智能与计算机学院的梁智然等系统综述食源性功能肽的主要类型及其营养功能,重点介绍AI在不一样功能肽研发中的研究进展,归纳AI在个性化营养干预中的潜在应用前景。在总结现有研究成果的基础上,深入分析当前研究面临的核心问题,并提出未来发展的关键方向。旨在为推动“AI+功能肽+个性化营养”多学科交叉融合提供理论参考与技术支持。
抗菌肽是一类广泛存在于动植物和微生物中的小分子多肽,作为先天免疫系统的重要组成部分,对宿主防御病原体感染发挥着关键作用。抗菌肽具有广谱抗菌活性,可有效抑制革兰氏阳性菌、阴性菌及部分真菌,并表现出热稳定性强、水溶性好、诱导耐药性低等理化特性,因而被视为传统抗生素的潜在替代物。同时,其对人体肠道微生态具有调节作用,能够抑制有害菌、促进益生菌定植,维持肠道菌群平衡。此外,抗菌肽还可增强免疫功能,激活巨噬细胞与T细胞等免疫细胞,提升机体抗病能力。
在应用方面,其作为天然防腐剂,可以通过特异性破坏致腐微生物的细胞膜,显著抑制常见食品腐败菌的生长,从而延长食品保质期,减少传统化学防腐剂的使用,降低食品安全风险。在益生菌开发方面,研究表明部分抗菌肽对有害菌具有选择性抑制作用,而对益生菌生长影响较小。这一特性有助于筛选和开发新型益生菌制剂,通过合理规划利用抗菌肽,可以优化益生菌的生存环境,增强其在肠道内的定植能力和益生功能,展示了抗菌肽在调控肠道健康与食品营养中的多维价值。
抗氧化肽具有清除自由基、抑制脂质氧化和延缓衰老等多种生物活性功能,在食品与营养领域受到广泛关注。它们作为天然抗氧化剂,最初以非活性形式存在于母体蛋白质中,需通过体内消化或食品加工中的酶解释放,才能展现生物活性。其核心机制包括清除自由基、螯合过渡金属离子、调节氧化还原平衡,进而抑制氧化链反应和脂质氧化,防止细胞损伤。抗氧化肽还能通过抑制丝裂原活化蛋白激酶和磷脂酰肌醇3激酶/蛋白激酶B等信号通路,降低促炎因子(如白细胞介素(IL)-1β、肿瘤坏死因子-α(TNF-α))表达,缓解慢性炎症。此外,它们在减少活性氧(ROS)诱导的DNA损伤、线粒体功能障碍及衰老相关表型方面亦发挥关键作用。
与合成抗氧化剂相比,抗氧化肽具有更高的安全性和生物利用度,大范围的应用于功能食品、保健品及营养产品中,可显著延长食品货架期、增强营养稳定性,抗氧化肽可以预防和缓解非传染性慢性疾病(如心脑血管疾病、癌症、类风湿性关节炎和糖尿病),其中胶原蛋白肽作为典型代表,不仅参与蛋白质合成和新陈代谢,还能被人体高效吸收并展现多重生物活性,包括抗氧化、抗衰老、免疫调节、组织修复、抗肿瘤、抗凝血及抗菌等特性,对皮肤健康具有显著促进作用。
高血压作为常见的慢性病,影响着大部分成年人。在血压调节机制中,ACE是关键靶点,参与肾素-血管紧张素-醛固酮系统的激活,能将血管紧张素I转化为强效升压分子血管紧张素II,同时降解扩血管因子缓激肽,增强血管收缩反应,是高血压发生的核心环节。传统的抑制ACE的化学合成药物可能会导致头晕、味觉障碍、头痛、血管性水肿和咳嗽等不良反应。
近年来,食源性ACE抑制肽因其天然来源、安全性高、作用机制温和持久而非常关注。这类肽通常来源于乳制品、海洋生物、豆类、坚果等蛋白质,在酶解或消化过程中释放,拥有非常良好的生物利用度和组织亲和力,不良反应远低于合成药物,多项临床和动物实验研究验证了其有效性。例如,在一项涉及89例高血压患者的双盲研究中,每天摄入含有缬氨酸-脯氨酸-脯氨酸三肽和异亮氨酸-脯氨酸-脯氨酸三肽的发酵乳在连续摄入12周后收缩压明显降低。Fitzgerald等报道,从含木瓜蛋白酶水解的Palmaria palmata中分离出的肽IRLIIVLMPILMA,能使自发性高血压大鼠中的收缩压降低33 mmHg。此外,部分ACE抑制肽还具备抗氧化、抗炎、免疫调节、保护内皮等功能,逐渐增强其心血管保护能力。
除上述常见的功能肽以外,慢慢的变多其他功能肽因其多样的生物活性而被大范围的应用于营养干预与疾病预防。抗血糖肽通过多种机制调节血糖水平,例如马铃薯中提取的特定肽段能够刺激胰岛β细胞分泌胰岛素,增强胰岛素敏感性,从而加速细胞对葡萄糖的摄取与代谢,降低血糖浓度。啤酒渣中提取的生物活性肽则通过抑制α-淀粉酶和α-葡萄糖苷酶的活性,延缓碳水化合物的分解与吸收速度,从而抑制餐后血糖的急剧上升,达到稳定血糖的目的。
免疫调节肽能够对免疫系统来进行双向调节,在免疫功能低下的状态下,它们可促进T细胞、B细胞等免疫细胞的增殖与激活,增强巨噬细胞的吞噬活性,提升机体的防御能力;而在机体免疫过度激活、发生炎症反应时,这类肽又能抑制促炎因子(如IL-6、TNF-α)的释放,减轻组织损伤,恢复免疫稳态。
此外,抗癌肽作为一类具有潜在抗肿瘤活性的生物活性物质,其作用机制多样,部分抗癌肽能够诱导癌细胞凋亡,通过与癌细胞膜上的特定受体结合,激活细胞内的凋亡信号通路,促使癌细胞发生程序性死亡。还有一些抗癌肽能够抑制肿瘤血管生成,切断肿瘤细胞的营养供应,从而抑制肿瘤的生长与转移。
这些功能肽凭借其来源天然、安全性高、多靶点作用及良好的生物相容性等优点,在调节糖代谢、免疫平衡及肿瘤防治等方面展现出广阔的研究与应用前景,正在成为现代营养干预与精准功能食品开发的研究热点。
AI是指赋予计算机或别的设备以人类智能的能力,使其能完成诸如感知、推理、学习和决策等任务。随着计算能力的提升与数据资源的积累,AI技术已大范围的应用于图像识别、自然语言处理、医疗诊断和食品安全等多个领域。AI的核心在于模拟人类认知过程,其中机器学习作为AI的重要实现方式,致力于让计算机通过数据“自主学习”并完成任务。
机器学习最重要的包含监督学习、无监督学习和半监督学习等多种范式。监督学习通过学习已标注的数据,建立输入与输出之间的映射关系,常用于分类、回归等任务;无监督学习则适用于没标签的数据,通过分析数据间的结构或分布进行聚类、降维等操作;半监督学习则结合了两者的优势,利用少量标注数据和大量未标注数据提升模型性能。
DL是机器学习的一个重要分支,可视为多层次的神经网络架构。它通过构建深层神经网络,模拟人脑对信息的分层处理机制,从而具备强大的特征提取和模式识别能力。DL不但可以作为监督学习的强大工具,还在无监督学习和强化学习等领域展现出巨大潜力。经典的DL模型包括卷积神经网络(CNN)、循环神经网络(RNN)和图神经网络(GNN)等,不同的模型在功能肽的研发中起到不同的作用,CNN通常用于处理具有空间结构的数据,如图像和二维结构信息。在功能肽的研发中,CNN可以从氨基酸序列的二维结构中自动提取局部特征,尤其在处理肽链的局部结构特征时表现突出。其优点是自动化特征提取,减少人工干预,能够高效识别局部变化。然而,CNN在处理分子相互作用的全局特征方面的能力有限,相比之下,RNN则更适合用于序列数据的建模,尤其在处理氨基酸序列时,RNN能够捕捉肽链中氨基酸的时序依赖信息,对序列数据中的上下文关系进行建模,但传统的RNN在处理较长序列时有可能会出现梯度消失的问题,因此常常要借助LSTM缓解这一问题。GNN则更适合处理图结构数据,能够对肽链中不同氨基酸之间的相互关系建模,捕捉到肽链中氨基酸之间的长程依赖关系,适用于分子结构等复杂数据的分析。但GNN计算开销较大,尤其在大规模数据集上训练时可能面临较高的计算成本。
在功能肽的研发中,应该要依据数据类型和研究目标选择正真适合的模型,DL模型的选择与优化直接影响到AI驱动的功能肽研发流程的效率和准确性。图1展示了整个研发流程,涵盖数据收集、特征提取、模型训练、活性预测及实验验证等关键环节。
在该过程中,数据是机器学习模型构建的基础。建立针对特定功能肽的高质量数据库,有助于提升模型在特定任务中的预测性能。为增强模型的准确性和泛化能力,需对原始数据进行系统的特征提取,常用特征包括氨基酸序列、结构信息、理化性质等。将这一些信息转换为可被算法识别的数值形式(如向量或矩阵),以便后续建模。
模型训练阶段可结合多种机器学习办法来进行建模与性能评估。训练完成的模型可用于对未知肽序列进行活性预测,从而筛选出潜在高活性的候选肽。最后,借助分子对接、体外实验或细胞实验等手段对预测结果做验证,确保AI辅助筛选的可靠性与实用性。
AI在抗菌肽研发领域的研究较多,在各种抗菌肽的序列、结构和活性等信息被挖掘出来后,研究人员依据这一些信息构建了多个抗菌肽数据库,大致上可以分为综合数据库和专题数据库两类。APD(Antimicrobial Peptide Database)是最常见的抗菌肽综合数据库,由美国内布拉斯加大学医学中心埃普利研究所维护,截止2025年已收录了超过3 300条抗菌肽序列数据,支持结构预测和序列比对。DBAASP(Database of Antimicrobial Activity and Structure of Peptides)的最新版本v3包含超15 700个条目,其中包含大量合成肽、核糖体合成肽和非核糖体合成肽等,与其他数据库相比增加了特定菌种的活性以及分子动力学模拟信息。此外为深入研究特定来源抗菌肽的结构与功能,研究人员还构建了一系列专题数据库,MilkAMP收录来自任何哺乳动物来源的牛奶蛋白的抗菌肽,PlantAFP聚焦植物抗真菌肽,MarineAMPs则收录海洋生物中的天然抗菌肽。
在预测抗菌肽的活性、功能类别及作用机制的模型与工具方面,早期多采用传统机器学习方法,随着DL方法的兴起,如LSTM、CNN、GNN等被广泛应用。
在DBAASP公共数据库的基础上,Yu Wenhao等构建了一个用于识别母乳来源抗菌肽的DL预测模型DeepMAMP。该模型结合了LightGBM、LSTM和注意力机制,达到了81.4%的预测准确率。通过这一方法,DeepMAMP共预测出311条潜在人乳抗菌肽,其中5条经实验证实具备抗菌活性。Yu Wenhao等通过结合3种算法,解决了大多模型无法准确识别母乳来源抗菌肽的问题,其中LSTM网络因其能够捕捉序列数据中的长距离依赖关系,适合处理氨基酸序列这类具有时间序列性质的数据。而LightGBM作为一种梯度提升决策树框架,在处理高维度、大数据集时具有非常明显的优势,注意力机制则有助于模型在进行特征融合时,自动聚焦于更重要的信息,从而进一步提升预测准确性。通过这一种多层次的算法集成,明显提升了母乳来源抗菌肽的预测准确性,为新型抗菌肽的发现提供了参考。此外,Xiao Xuan等为了识别抗菌肽及其功能类型,结合CNN-双向LSTM-SVM与细胞自动机图像构建了iAMP-CA2L两级预测系统,第一级用于判断是否为抗菌肽,第二级则进一步预测其具体功能类别,并使用jackknife交叉验证法,在一个包含10类功能性抗菌肽的基准数据集上对系统来进行评估,根据结果得出iAMP-CA2L在预测性能上显著优于已有预测工具,且该系统已经免费向公众开放。Bhangu等构建了一种结合预测与生成能力的算法,利用eXtreme Gradient Boosting模型在识别抗菌肽任务中准确率约87%,将高级基序组装成新的肽序列,再通过筛选高评分氨基酸基序组装成候选肽,初步实验验证准确率约为60%,经分析并优化肽的电荷和疏水性等理化特征后,实验准确率提升至约80%,生成的肽还表现出良好的抗真菌活性及低毒性。
尽管已有的AI模型在抗菌肽活性预测和功能分类方面取得了较高的准确性,但是在跨种属的预测能力和未知来源肽的适应方面仍面临挑战,上文提到的DeepMAMP对母乳来源的抗菌肽识别准确度较高,但如何将其推广至其他来源的抗菌肽仍要进一步的实验验证和模型优化。同时,AI模型多依赖于大量已知数据,怎么样处理数据稀缺或未知数据的情况,将是未来AI在抗菌肽领域发展的一大方向。
目前常用的抗氧化肽数据大多数来源于BIOPEP-UWM、PeptideDB等公共数据库,同时部分抗菌肽也有抗氧化活性,因此APD等抗菌肽数据也收录抗氧化肽数据。在抗氧化肽的预测领域,Qin Dongya等基于BiLSTM神经网络,并采用氨基酸描述符进行特征编码,开发了AnOxPP抗氧化肽预测平台,其中由最优描述符SDPZ27训练的模型在两个独立测试集上取得了优异表现(准确率分别为0.967和0.819),明显优于现有工具。
然而,活性预测的最终目的并非止步于数值评价,而在于指导实际筛选与功能验证。因此,慢慢的变多的研究将AI预测结果与体外抗氧化实验、细胞功能验证相结合,确认筛选出的候选肽是不是具备清除1,1-二苯基-2-三硝基苯肼(DPPH)自由基、2,2’-联氮双(3-乙基苯并噻唑啉-6-磺酸)(ABTS)阳离子自由基能力,金属离子螯合能力及对细胞ROS水平的压制效果。Lin Like等提出了一种将高精度DL模型卷积自编码器(CAE)与虚拟消化(VD)相结合的高效计算策略CAEVD,以高效制备核桃衍生的抗氧化肽。研究利用CAE预测碱性蛋白酶、胃蛋白酶和胰蛋白酶3种酶虚拟消化核桃蛋白生成肽的抗氧化活性,预测结果为碱性蛋白酶酶解核桃蛋白生成的肽抗氧化活性最高,远高于胃蛋白酶和胰蛋白酶法所生成的肽,且体外抗氧化的测定结果与CAE预测结果一致,证实了碱性蛋白酶是最适合酶法制备核桃衍生抗氧化肽的酶。Wang Daodian等从云南干腌牛肉中鉴定出541个肽,利用BIOPEP-UWM等数据库检索生物活性,Innovagen、Expasy等工具预测水溶性、稳定性等,AnOxPP-1.0工具预测抗氧化潜力,ADMET系统评估肠道吸收,据此筛选出候选新型抗氧化肽,并通过相关抗氧化活性测定实验和分子对接证明其抗氧化特性。
目前,AI在抗氧化肽的预测中已经取得较高的准确率,部分研究通过将预测结果与体外实验结合,逐步优化了肽的筛选过程,推动了候选肽的发现和验证。随着DL技术的持续不断的发展,AI在预测的准确性和效率上仍有很大的提升空间,如部分抗菌肽也有抗氧化活性,Wang Daodian等的研究针对水溶性、稳定性、吸收性等分别采取了了不同的工具,未来AI模型则能更加进一步整合多功能活性预测与理化性质等。在选择机器学习算法时,还需很重视模型的可解释性,尤其是对于研究抗氧化肽与靶标之间相互作用机制的工作。高可解释性的模型能够为深入理解肽的作用提供更有价值的信息。
目前ACE抑制肽的数据来源往往是一些功能肽的综合数据库,如AHTPDB(Antihypertensive Peptide Database)收录约6 000条ACE抑制肽数据,包括序列、来源及半抑制浓度(IC50)值等信息。BIOPEP-UWM也包含了ACE抑制肽的数据,提供酶切模拟与功能注释等工具。FeptideDB收录了从食物蛋白中提取的功能性肽,包括了来源蛋白、实验方法、IC50等详情信息。BioPepDB强调活性肽的结构标准化和机器学习特征提取,适合建模使用。
在ACE肽的识别方面,Ahmed等提出GRU4ACE——一种融合多视图特征的DL框架,用于高效识别ACE抑制肽。该方法整合序列、图形、语义和上下文信息,结合自然语言处理嵌入与预训练蛋白语言模型进行特征编码,并通过弹性网络优化后输入门控循环单元模型。GRU4ACE在独立测试中表现优异,准确率、灵敏度和Matthews相关系数分别达0.948、0.934和0.895,显著优于现有方法。
Zhang Yiyun等开发了一种名为ProtBERT的蛋白质特异性DL模型,用于筛选抗高血压肽。该模型基于Transformer架构,并通过自监督学习在大量蛋白质序列上预训练,从而能够生成富含语义信息的肽段向量表示,有效解决了传统模型在肽段表示上缺乏语义深度的问题,明显提高了筛选的准确性。ProtBERT在性能上优于BERT_base、LSTM和卷积循环神经网络模型,其曲线。研究团队还将该模型应用于从食物来源的大豆分离蛋白中筛选ACE抑制肽,并通过分子对接和体外实验验证,发现了3种具有显著降压活性的ACE抑制肽。Liao Wang等构建了一个基于LSTM算法的DL模型,该模型可以预测肽抑制ACE活性的IC50值。除了测试数据集外,该模型还使用随机合成的肽进行了验证,验证集的Pearson相关系数达到0.85,表明了应用LSTM预测ACE抑制肽的可行性。
上述研究对ACE抑制肽的预测筛选等在独立测试中表现优异,但它们的模型在不同数据集上的适应性仍需进一步验证。虽然AI模型能够预测肽的IC50值,但对于多种肽的协同作用、经常使用的安全性等问题,AI目前尚未能提供充分的指导。未来,如何提升这些模型的泛化能力,特别是在多样化的临床应用中将是一个重要的研究方向。
尽管已有大量研究致力于AI助力研发特定类型的功能肽,如抗菌肽、抗氧化肽以及ACE抑制肽,但对那些具有更复杂或多重生物活性的肽类,如抗炎肽、降血糖肽、免疫调节肽和抗癌肽的研究仍处于发展阶段。在Web of Science上,使用“AI”“降血糖”“抗肥胖”或“抗疲劳”等关键词进行文献检索时,相关研究结果较少。这类功能肽通常涉及复杂的生物学机制和多个靶点,导致其结构-活性关系更为难以解析,进而时AI模型很难精准预测其多重生物活性。同时,AI模型的训练依赖于高质量的数据集,Zhao Changhui等的研究指出,高质量、大规模且多样化的数据集对于提高预测准确度、增强模型鲁棒性、提升泛化能力及降低过拟合风险至关重要。Lv Renzhi等综述了食物源肽在发挥抗炎作用方面的构效关系及量效关系,研究提到抗炎肽的研究虽然正在逐渐增多,但仍处于初级阶段,这样的一种情况导致缺少足够的标准化实验数据集支撑AI模型的训练。因此,将AI应用于这些小众功能肽的研究仍处于早期阶段,具有进一步探索的巨大潜力。
降血糖肽,尤其是二肽基肽酶IV(DPP-IV)抑制肽,因其在糖尿病管理中的潜在应用而受到广泛关注。近年来,机器学习技术被大范围的应用于该领域,以深入理解肽序列与DPP-IV抑制活性之间的关系。例如,Cai Kaida等提出了一种基于机器学习的策略用于预测抗糖尿病肽的活性,并从1型糖尿病和2型糖尿病的角度进行分类分析。该方法融合了特征选择与多种分类算法(包括逻辑回归、SVM和自适应增强算法),其中AdaBoost模型在抗糖尿病肽(ADPs)的分类与活性预测中表现最佳,准确率达96.3%。此外,Basith等构建了ADP-Fuse框架,一种融合多视图信息的双层机器学习模型,用于识别ADPs及其作用类型。该研究综合评估了22种序列衍生特征与8种机器学习算法的组合,确定了最优特征描述符与分类器组合。根据结果得出,ADP-Fuse在预测抗糖尿病肽及其类型方面显著优于传统模型与简单特征融合方法。
抗癌肽通过直接杀伤癌细胞或调节宿主免疫系统以发挥抗肿瘤作用。随着计算技术的发展,机器学习在抗癌肽活性预测中的应用日益广泛。Chen Jiarui等提出了一种名为xDeep-AcPEP的基于CNN和多任务学习(MTL)的DL方法,用于抗癌肽活性预测。针对来自CancerPPD数据库的6种肿瘤细胞(包括乳腺、结肠、宫颈、肺、皮肤和前列腺)的生物活性数据(半数有效浓度、半数致死浓度、IC50和半数致死剂量)进行预测,结果显示MTL框架优于单任务模型,且通过Grad-CAM方法增强了模型的可解释性,推断出序列中每个残基对预测活性的贡献。Zhong Guolun等则提出ACPScanner,一种集成图注意力网络与LightGBM的两阶段预测架构。在独立测试中,ACPScanner第1阶段准确率达92.0%,第2阶段能够进一步识别9种不同的抗癌活性类型,表现出较强的识别能力和生物学解释力。此外,Salam等开发了基于二维CNN的深度模型,从多个公共数据库和实验研究中收集了带有注释的抗癌肽序列数据集,通过one-hot编码与物理化学特征组合有效捕捉肽序列中的空间信息,提升了ACPs的预测精度。
在食AI驱动的个性化营养干预正慢慢的变成为营养干预与健康管理的重要发展趋势。在高血压、糖尿病、老年人群体等领域,AI技术可以通过整合个体的健康数据、基因型、饮食上的习惯、生活方式等多维度信息,提供个性化的营养干预方案,实现真正意义上的“营养精准化”。
例如,构建健康状态和饮食上的习惯数据集,训练机器学习模型,进而设计AI程序,当用户输入自身饮食信息等,程序将为用户量身定做营养补充建议,推荐用户所需的多肽产品。在高血压治疗领域,Du Zhenjiao等开发的pLM4ACE模型能轻松实现ACE抑制肽的筛选,指导降压膳食肽的开发,随后结合机器学习算法,输入个体的健康数据(如血压监测数据、基因信息、生活方式等),筛选出更符合客户的真实需求的降压膳食肽,帮助高血压患者在膳食中实现药物降压的替代或补充作用。同样,在糖尿病(尤其是2型糖尿病)领域,通过机器学习算法,可以依据患者的血糖波动、饮食偏好、活动水平等多维度数据,推荐最适合其的膳食配方,从而帮助患者更好地控制血糖。
AI驱动的个性化营养干预不但可以为营养缺乏人群进行营养补充方案的设计,还可以最大限度地考虑到用户的饮食喜好,通过一系列分析客户的真实需求,AI能够在保证用户饮食上的习惯和口感偏好的基础上,提供营养均衡的饮食搭配。Ibrahim Khushairay等从脱脂奇亚籽粉中总结具有多种生物活性的功能肽,同时该衍生物能制作成烘焙食品、肉制品等多种产品,并针对不一样人群定制个性化产品制作方案。例如,对于素食主义者而言,因他们的饮食结构中不包含肉类等传统食材,营养摄入的渠道相对有限,AI则可优先考虑用户需求,为其推荐富含多种功能肽的烘焙食品。
在食源性功能肽的研发领域,虽然AI为功能肽的预测、筛选等提供了更便捷的方法,同时取得了一定的进展,但是仍面临着一系列的挑战,食源性功能肽的种类较多,现有数据库和模型无法完全涵盖所有类型,数据质量给模型的训练带来显著影响。尽管模型性能较好,但内部“黑盒”特性使得预测结果不易解释。同时从数据分布来看,小众领域的食源性多肽面临着样本失衡的困境,导致模型预测准确率较低,泛化能力较差。下面将针对以上三方面的问题进行讨论并给出一些可行的解决方案,以期为AI在食源性功能肽研发领域应用以及未来发展趋势提供理论依照和参考。
机器学习与DL模型的构建,高度依赖于数量充足且质量放心可靠的数据集。然而,在食源性多肽研究领域,数据质量上的问题呈现出多维度的复杂特性,严重制约了智能算法的训练成效以及模型的泛化能力。
首先,从数据来源层面分析,食源性多肽数据的高度异构性给模型学习带来了巨大挑战。不同的酶解条件,诸如胰酶、胃蛋白酶、风味蛋白酶等,会产生截然不同的肽段序列。而这些差异对肽的生物活性有着显著影响。以同一肽段为例,在不同酶的作用下,其IC50值有几率发生大幅度波动,这充分反映出其功能活性在不同条件下存在巨大差异。因此,在构建训练集时,若未能最大限度地考虑酶解条件对肽功能的影响,非常有可能误导模型学习方向,进而影响预测的准确性。这种数据异构性极大地增加了构建高质量、多样化训练集的难度,限制了多肽活性预测模型的性能发挥。其次,在数据标注方面,当前数据库都会存在信息缺失的问题。肽的空间构象信息,如α-螺旋、β-折叠比例,以及翻译后修饰信息,如磷酸化、糖基化位点等,对肽的功能活性具备极其重大的调控作用。然而,这些关键的结构信息在现有数据库中往往处于缺失状态。此外,在实际应用中,多肽混合物常以协同作用的形式发挥生物活性。但目前主流数据库大多集中于单一肽段的活性标注,几乎完全忽略了混合肽之间的相互作用与协同机制。这一局限性导致模型在训练过程中无法有效捕捉真实生理条件下的功能表现,以此来降低了模型的应用价值。
未来食源性功能肽在数据方面要统一数据标准化建设,通过统一采集与标注体系、整合分散数据库资源,构建结构化、系统化的高质量数据平台。有必要注意一下的是,近期的研究表明,迁移学习技术为解决数据异构性问题提供了新思路。迁移学习通过在大规模有关数据集预训练后迁移知识至目标任务,有效化解了数据异构性难题。在食源性多肽研究中,酶解条件、物种等差异使得直接训练模型易出现泛化能力差、过拟合问题。其具体做法是先利用公共数据集对模型预训练,让模型掌握酶解、结构与功能的共性规律;再基于特定的产品做小规模数据微调,使模型适配特定差异。Tan Xiaorong等通过引入酶解特征和迁移学习方法,成功实现了跨物种(人类、小鼠)和跨器官(血液、肠道)的肽半衰期准确预测。该研究表明,通过在大规模数据集上预训练模型,再针对特定物种或器官的小规模数据来进行微调,可以有效缓解因酶解条件差异导致的数据异构性问题。这一方法为建立统一的多物种、多酶解条件的食源性多肽预测模型提供了可行路径。同时引入结构生物信息与分子模拟技术,结合AlphaFold等蛋白质结构预测工具,实现多肽序列与空间构象的协同建模,提升预测准确性。同时发展多模态与MTL模型,融合序列、结构、来源蛋白、修饰信息等多源信息,实现对多靶点、多功能特性的全面预测。借助迁移学习与小样本学习策略,缓解数据稀缺场景下的模型训练难题,提升模型的通用性与扩展性,构建具备肽间协同效应识别能力的模型,借助GNN等先进算法,实现混合肽体系下的活性预测,更贴近实际应用需求。
在多肽研究领域,当前算法模型在解析其动态构效关系时仍有问题。尽管近年来AI算法的可解释性机制取得了一定进展,如SHAP方法能够量化各输入特征对预测结果的贡献,注意力机制也大范围的应用于识别关键氨基酸残基及其修饰对多肽功能的影响,Kallipolitis等还基于注意力机制和Grad-CAM技术开发出用于显微图像解释的双重通道与空间注意力方法,提升了模型可视化结果的稳定性与可信度。然而,在食源性多肽研究这一细分领域,问题依旧突出。由于其氨基酸序列极为复杂、空间结构高度多样,深度神经网络虽成为特征提取的常用手段,可应对复杂的数据,但模型复杂化带来的可解释性降低问题,模型难以揭示数据间潜在的关联规律,严重阻碍了对多肽功能机制的深入理解。另一方面,当前多数模型仅聚焦于单一模态数据,要么只考虑序列特征,要么仅关注结构特征,忽略了多肽功能受多种因素共同影响这一事实,难以全面、准确地解析其动态构效关系。所以,在提升模型预测性能的同时增强其可解释性,已然成为当前亟待突破的关键瓶颈。
近年来,多模态融合技术为解决这一难题提供了新的路径。Kang Yan等开发的MMDB模型首次将多肽的序列特征与结构特征通过双分支架构融合,用于多功能生物活性肽的预测,在准确率提升3.5%的同时,功能覆盖率提高了9.1%。在序列特征提取方面,多尺度扩张卷积能在不增加参数的条件下扩展卷积感受野,提取多尺度上下文信息,增强对不同长度序列的建模能力。双向LSTM结合序列前后信息,提升对长距离依赖关系的捕捉能力,有助于更好地理解肽的序列结构。在结构特征提取方面,利用CNN对肽的结构特征进行编码,并通过多层卷积层提取结构信息,引入结构信息并结合多肽的空间构象信息,增强预测准确性。同时,通过对模型输出进行可解释性分析,MMDB模型实现了可解释性提升,通过特征重要性评估,计算每个输入特征对最终预测结果的影响,揭示对肽功能起决定性作用的特征。这种融合策略不仅提升了模型的预测性能,也明显地增强了对功能肽决定因素的可解释能力。
基于以上情况,为推动多肽研究中AI模型的发展,可从多方面采取可行措施。首先有必要构建融合序列、结构、化学修饰和体内动态环境的多模态数据体系,为模型提供全面特征支持。其次要发展可解释性神经网络架构。针对现有模型可解释性不足的问题,可集成注意力机制、GNN和反向可视化路径,构建混合模型。注意力机制能帮助模型聚焦关键特征,GNN可处理多肽的结构信息,反向可视化路径能将模型决策过程可视化,从而增强模型的可解释性。例如在预测多肽与受体的相互作用时,通过注意力机制突出关键氨基酸残基,利用GNN分析空间结构影响,借助反向可视化路径展示预测依据,使研究人员能够直观理解模型决策过程。最后要加强实验验证与数据反馈。实验验证是检验模型准确性和可靠性的重要环节,应加强这一环节的数据反馈机制,实现“预测-验证-优化”的闭环迭代。通过实验验证模型预测结果,将实验数据反馈给模型来优化调整,不断的提高模型对实际复杂环境下多肽行为的建模能力。
在食源性多肽研究领域,数据分布不均衡的问题尤为突出。其中,抗抑郁肽、抗高尿酸血症肽等小众功能肽,因样本数量极度匮乏,深陷“数据孤岛”困境,呈现出典型的“长尾分布”特征,给多肽功能解析、活性预测及设计优化等研究工作带来了巨大挑战。尽管AI技术的引入明显提升了多肽筛选与设计的效率,加速了研究进程,但从理论模型构建到实际临床应用转化,仍需经历漫长而高成本的实验验证过程。以新型抗癌肽的研发为例,其流程涵盖体外细胞实验、动物体内验证及人体临床试验等多个阶段,整个周期不仅耗时数年之久,且资金投入巨大。对于资源有限的中小企业而言,为控制风险与成本,这一些企业往往倾向于对已有功能的活性肽进行重复验证与改良优化。这种看似稳妥的研发策略,虽在某些特定的程度上降低了短期风险,但从长远来看,却进一步加剧了数据分布的不均衡性。热门研究方向因持续投入而数据不间断地积累、日益丰富,而小众领域则因缺乏关注与资源支持而数据匮乏、发展滞后,形成了“数据富集区与贫瘠区并存”的马太效应,严重制约了食源性多肽领域的整体创新活力与可持续发展能力。
近年来,基于大规模预训练的蛋白质语言模型为应对数据稀缺难题提供了新的思路与方法。此类模型凭借其强大的零样本与少样本学习能力,在多肽预测任务中展现出显著优势。Meier等开发的ESM-1v模型无需针对特定任务进行微调,通过一次前向传播即可对突变效应进行零样本预测,在41个深度突变扫描数据集上,其平均Spearman相关性(ρ)达到0.509,优于包括DeepSequence在内的多种方法。然而,该方法并未提供预测的置信度,也存在一定的黑箱特性,因此在实际应用时在大多数情况下要结合其他可解释性工具增强模型的透明度。
为打破当前数据分布不均的马太效应,推动食源性多肽研究实现均衡、可持续发展,需从数据收集、验证手段及政策引导等多重维度协同发力。在数据收集阶段,应拓展数据获取渠道,构建多元化、开放性的数据共享平台。除关注热门功能肽外,同时重视小众功能肽及不同工艺条件下生成的多肽信息收集与整合,通过跨机构、跨领域合作,实现数据资源的优化配置与高效利用,逐步削弱数据偏倚对研究结果的干扰。在验证环节,科研机构与企业应加强产学研合作,共同探索高效、低成本的验证新途径。例如,充分的利用计算生物学、系统生物学等前沿技术,结合高精度计算模拟与机器学习算法,构建多肽活性预测的虚拟筛选体系,实现对大量候选多肽的快速初筛与优化,减少无效实验次数,降低研发成本与资源浪费。此外,政府与行业协会也应发挥引导作用,通过政策支持与专项资金扶持,鼓励科研力量与产业资源向冷门但潜力巨大的领域倾斜,推动食源性多肽研究向更加均衡、可持续的方向发展。
食源性功能肽的研发作为食品营养领域的重要方向,因其多样的生物活性在慢性病干预与个性化营养领域展现出广阔的应用前景。当前,AI技术的融入正加速功能肽从传统经验驱动向智能预测与精准设计转变。在高通量活性筛选、结构功能预测以及针对个体营养需求的干预方案构建中,AI均展现出强大的赋能潜力。
本文系统介绍了不一样的食源性功能肽的营养价值及AI在不同功能肽研发中的作用,为该领域学者提供了借鉴和帮助。尽管当前仍面临如数据质量、模型泛化能力及生物机制解释等挑战,但通过多组学数据整合、跨尺度建模及实验验证结合,有望不断突破现存技术瓶颈。未来,推动AI与营养科学、肽生物学、个体健康数据的深层次地融合,将是实现功能肽高效开发与个性化营养精准调控的关键路径,也将为构建智能化食品与健康干预体系提供坚实基础。
崔晓晖教授,博士毕业于美国路易斯维尔大学,曾担任美国能源部橡树岭国家实验室研究员以及美国路易斯维尔大学讲座教授。目前担任武汉大学国家网络安全学院二级教授、江南大学未来食品科学中心陈坚院士团队特聘教授以及嘉兴未来食品研究院特聘研究员。长期从事人工智能、大数据、区块链技术在食品领域的应用与交叉研究。在国内外高水平期刊发表论文二百余篇。主持了“十三五”国家重点研发计划“食品安全大数据关键技术探讨研究”项目,并担任“十四五”国家重点研发计划“食品全程全息风险感知及防控体系构建与应用示范”中的课题负责人。目前还担任“十四五”国家重点研发计划政府间国际科学技术创新合作项目“基于图像分析技术的奶粉品质在线)的项目负责人。共主持食品安全、大数据、人工智能等方面的24 项国家自然基金、军委装备重点基金等项目。
丁浩晗博士,于2021年12月荣获新西兰奥克兰大学博士学位,随后加盟江南大学未来食品科学中心陈坚院士团队崔晓晖教授课题组的食品计算与风味组学实验室。主要研究方向为图像处理、人工智能以及工业智能化在乳制品领域的应用。曾担任《Foods》和《食品科学》等期刊的专栏主编,并作为多个国内外知名学术期刊的审稿人。以第一作者在国内外高水平学术期刊上发表论文二十余篇,还申请了9 项发明专利和7 项软件著作权,并多次在国际会议上进行口头或海报展示。目前正担任“十四五”国家重点研发计划项目“食品全程全息风险感知及防控体系构建与应用示范”(2022YFF1101100)和“十四五”国家重点研发计划政府间国际科学技术创新合作项目“基于图像分析技术的奶粉品质在线)的子课题负责人。
实习编辑:杨瑞蕾;责任编辑:张睿梅。点击下方阅读原文即可查看全文。图片来源于文章原文及摄图网
为系统提升我国食品营养与安全的科学技术创新策源能力,加速科技成果向现实生产力转化,推动食品产业向绿色化、智能化、高端化转变发展方式与经济转型,由北京食品科学研究院、中国食品杂志社《食品科学》杂志(EI收录)、中国食品杂志社《Food Science and Human Wellness》杂志(SCI收录)、中国食品杂志社《Journal of Future Foods》杂志(ESCI收录)主办,合肥工业大学、安徽省食品行业协会、安徽大学、合肥大学、合肥师范学院、北京工商大学、中国科技大学附属第一医院临床营养科、安徽粮食工程职业学院、皖西学院、滁州学院、蚌埠学院共同主办的“ 第六届食品科学与人类健康国际研讨会 ”,将于 2026年8月15-16日(8月14日全天报到) 在 中国 安徽 合肥 召开。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
6支国家矿山应急救援队伍赴山西通洲集团留神峪煤矿瓦斯爆炸事故现场参与救援
景甜协议曝光?网传景甜借生子向男友索要3亿,男友准备好后,景甜又以很多理由拒绝配合取卵,并再次向男友索要五千万美金。
高速上一车辆突然刹车失灵,时速120km/h绝望狂奔无法减速,沿途三地交警路政急救紧急护航
U17国足2-3日本获亚军!仍创近22年亚洲杯最佳战绩 半场连扳2球
29.29万起!5.2米大五座一键变大床 还有后轮转向 岚图泰山X8要称霸五座SUV?
儿童补脑DHA哪款好?热门补脑产品实测:磷脂酰丝氨酸PS与神经酸健脑益智
学生DHA品牌哪个好温和:配方温和,采用六零技术好吸收,温和补脑支持学习
,谈球吧官方网站