DisoLipPred:利用深度循环网络和迁移学习准确预测蛋白质序列中与脂质结合的无序残基
许多蛋白质包括一个或多个内在无序区域(IDR),这些区域被定义为在生理条件下缺乏稳定三维结构的蛋白质序列片段。最近的研究表明,具有IDR的蛋白质执行许多细胞功能.特别是,IDR会与蛋白质、DNA、RNA、脂质和各种小分子相互作用。
结合脂质的区域涉及广泛的细胞功能和几种人类疾病。由于这些相互作用的实验数据越来越多,并且缺乏从蛋白质序列预测它们的工具,作者开发了DisoLipPred,这是与脂质结合的无序残基(DLBR)的第一个预测模型。
(1)从一个更通用的网络开始,该网络预测与不同类型的分子相互作用的IDR,这是由大量的基础训练数据驱动的。
(2)使用文献来确定与蛋白质-脂质相互作用相关的物理化学性质,并使用它们来扩展神经网络的输入。
(3)绕过有序/结构化残基:仅使用原始的无序残基来训练模型以识别DLBR。
输入的蛋白质序列首先由SPOTDisorder处理(无序区预测模型之一)。SPOTDisorder的预测被送入bypass 模块,该模块将预测的无序残基(随后由深度网络处理以预测DLBR)与预测的有序残基(绕过深度网络预测)分离。接下来,使用预测的无序残基的蛋白质序列来推导序列特征。红框内预测的特征被用来作为通用网络的输入。绿框内这些特征包含与DLBR预测相关的序列衍生结构和功能信息。它们被用作预测DLBR的神经网络的输入。该网络预测与脂质结合的倾向,并使用迁移学习进行设计。最后,rescaling 模块将来自深度网络的输出与来自bypass 模块的有序残基预测标准化并合并,生成最终预测。