A general model for “germplasm-omics” data sharing and mining: a case study of SoyFGB v2.0
该研究团队在《中国科学生命科学(SCIENCE CHINA Life Science)》发表的代表性大豆种质资源重测序和表型数据基础上,采用自主创立的FGB共享模式开展数据平台搭建工作。该模式于2015年发布在《科学通报》,首次应用于3000份水稻测序种质RFGB数据库的构建,并于2020年完成首度升级。针对大豆在基因组和种质资源等方面的特点及用户需求差异,研究团队通过功能基因组育种FGB(Functional Genomics Breeding)数据共享模式的再次升级与拓展,建立了SoyFGB v2.0数据平台。
SoyFGB v2.0数据平台的特点主要表现在以下3个方面。一是提供离散值的表型数据来帮助用户识别用于育种或遗传研究的“有用”种质资源,实现了2K-SG的33个数量性状与9个质量性状的非下载共享。二是用户可以利用SoyFGB或用户自有的未公开表型数据来实现表型和单倍型变异的相关性在不同基因组分辨率下的在线解析。三是一旦获得基因组作图定位与表型性状相关区域,使用 “搜索”和“浏览”模块,用户可以获取2K-SG 的基因组变异,用于实验验证。根据用户实际体验,与传统Excel表格辅助进行单倍型分析相比,采用SoyFGBv2.0进行特定基因的单倍型分析能够提高效率近60倍。
网址:https://sfgb.rmbreeding.cn/index
点评:好事,水稻的RFGB帮助了很多非生信人员挖掘目标基因的单倍型分析。大豆应该也可以。
Wheat genomic study for genetic improvement of traits in China
综述全文58页、3万余字,以国际小麦相关研究为背景,全面系统地总结了过去数十年中国科学家在小麦(族)基因组学、小麦起源与驯化、重要农艺性状(产量、品质、开花时间、养分利用等)、耐逆及抗病虫害等领域的研究成果及其应用进展。该文对培育小麦优质高产、高效耐逆新品种具有重要的参考价值,为小麦重要性状的分子网络解析以及后基因组时代的设计育种指明了方向。
点评:了解小麦基因组学研究进展
Development of image-based wheat spike counter through a Faster R-CNN algorithm and application for genetic studies
利用黄淮麦区自然群体166份材料建立识别模型,对扬麦16/中麦895 RIL群体进行基因定位研究。首先利用RGB相机于灌浆中期获取特定区域的2个群体冠层麦穗照片,同时在田间人工统计对应区域穗数。利用Lableme软件进行图像标注,通过深度学习算法Faster R-CNN进行训练,获得RIL群体不同家系单位面积穗数模型验证结果,结合高密度660K SNP遗传图谱信息,挖掘与单位面积穗数相关的QTL位点。
点评:AI应用表型组,进行QTL定位的案例。
Assembly of a pangenome for global cattle reveals missing sequences and novel structural variations, providing new insights into their diversity and evolutionary history
鉴定出牛参考基因组之外的83Mb新序列,率先从群体水平构建了牛泛基因组;同时开发基因组结构变异(SV)分析流程,构建了受SV影响的基因功能元件数据库。首次从SV的角度解析了世界牛品种的血统关系,从适应性等多角度全方位检测了不同分类群体的受选择位点和候选基因,填补了SV作为牛育种材料的不足,并解析SV潜在形成机理促进对牛基因组演化的深入理解。
流程及数据:https://github.com/yangzhou-bio-lib/
点评:GR的封面,分析深入,值得学习。
Selective and comparative genome architecture of Asian cultivated rice (Oryza sativa L.) attributed to domestication and modern breeding
该研究解析了自然和人工选择在驯化和现代育种过程中的基因组印记及其共同塑造粳稻和籼稻两个亚种群体和基因组分化的作用,揭示了水稻在驯化和现代育种过程中基因组水平的进化演化机制,研究结果支持亚洲栽培稻的多重独立驯化模型。
对504份栽培稻和456份野生稻的基因组和群体结构,分析表明籼粳两个亚种间的分化一部分来自驯化前其野生群体间分化的基础效应,一部分来自驯化和改良期间的自然选择和人工选择。首次构建了3D分化模型(其实就是三维PCA,文中附件以视频展示)以解析驯化及现代育种中自然选择及人工选择对群体分化的作用强度,结果表明自然选择对籼粳亚种间的分化作用远高于人工选择,其中42%来自于驯化之前普通野生稻原始驯化群体间,58%发生于驯化期间粳稻向其原始驯化群体以外的环境扩散时。
分析驯化和育种改良的全基因组选择印记表明,籼稻和粳稻在驯化和现代育种过程中对产量和适应性的选择方向是一致的;然而,由于基因间的补偿效应以及对籼粳亚种驯化和育种上的相对独立性,整个基因组多以KEGG通路节点和基因家族的趋同选择为主,受到趋同选择的基因比例较低。基于Ka/Ks分析驯化和育种过程中基因的变异及选择表明,两个过程均以聚合野生群体已有优异等位变异并排除有害新变异为主;而少数位点上有利新变异多与环境适应性有关,有利新变异受到选择保留下来以利于栽培稻向更大范围的地理区域扩散种植。
综合栽培稻和野生稻的群体多样性、群体结构、基因组选择印记以及泛基因组分析结果,结合已报道的研究证据,提出了一个新的假设:亚洲栽培稻最早的驯化事件发生在中国,在随后的很长一段时间内,亚洲栽培稻的不同类群在不同地点和时间经历了多次独立驯化过程。
点评:在水稻群体如此内卷的情况下,能分析、解读和发表成这样,已经很厉害了。
Citrus Pan-genome to Breeding Database (CPBD): A comprehensive genome database for citrus breeding
整合了柑橘属下多个物种的基因组、转录组、变异组和表观组的数据,开发相关在线工具,为柑橘的理论和育种研究提供了重要平台。
涵盖17个柑橘物种的23个基因组、13种园艺作物的4038套转录组、167种柑橘资源材料的变异组数据以及44个柑橘样本不同组织和发育时期的DNA甲基化组数据,为目前已发表的最新和最为完整的柑橘基因组、表观组和园艺作物转录组数据集。同时提供23个基因组的同源基因查询、共线性区块分析和基因功能/通路注释等信息。
CPBD提供了多样的查询方法,以表格和可视化方式展示查询结果,保证展示全面和准确的同时方便用户在不同尺度上查询数据。同时,该数据库还提供了实用的分析工具包括基因搜索、序列获取、BLAST、基因ID转换、KEGG/GO富集等常规分析工具,此外还提供了CRISPR设计和全基因组关联分析 (GWAS)两个实用的功能挖掘模块。基因编辑作为高效的育种手段,其精确选择敲除位点依赖于组装完整的基因组,“CRISPR设计”模块可以用生物信息手段寻找目标片段上的可能敲除位点,并计算在全基因组范围上的潜在脱靶位点,为基因编辑相关研究者提供参考。GWAS模块充分发挥平台具有丰富的基因组和变异信息这一优势,能够在线运行GWAS,将性状和基因组位点进行关联。
柑橘泛基因组辅助育种数据库CPBD:http://citrus.hzau.edu.cn/
点评:陈玲玲老师在生信数据库搭建上经验丰富。这个工作量很大,光是搜集和处理数据就很繁琐,模块也很丰富。要是能分享他们的做法就好了,分享代码也行啊。
Combined nature and human selections reshaped peach fruit metabolome
通过广泛靶向代谢组学在252份不同品种桃中鉴定到1858个代谢物,并与已有的486009个高质量SNPs进行mGWAS分析。共发现18052个显著的位点-性状关联位点、12691个表达代谢物相关位点和294676个eQTLs。结果表明,地方品种积累的氨基酸可能参与了桃子对低温和干旱的环境适应。在驯化和改良过程中,果实主要营养成分类黄酮含量均呈下降趋势,且苦味降低。而柠檬酸在育种者的选择和消费者对风味的偏好下,东西方品种表现出显著差异。这也与来自这两个地区水果的体外抗癌细胞活性的差异有关。
点评:mGWAS罗杰老师无人匹敌。基因组+代谢组+转录组关联,数据量大,也为解读故事增加了难度。
**Rearrangement and domestication as drivers of Rosaceae mitogenome plasticity **
植物线粒体基因组遗传信息主要由母本提供,利用线粒体变异信息进行群体结构分析可以更好的理解母系遗传机制和进化关系、探究选择驯化对线粒体基因组结构的影响。蔷薇科(Rosaceae)有90属约3000种,包括草本、灌木和乔木,其中苹果、梨、桃、草莓等是重要的果树树种。
该研究新组装了蔷薇科34个线粒体基因组,结合已发表的4个线粒体基因组,探索了蔷薇科线粒体基因组的变异机制。研究发现,蔷薇科线粒体基因组发生了广泛的基因丢失,相比于桃亚科6个属的线粒体基因组,蔷薇亚科的5个属的线粒体基因组丢失了3个蛋白质编码基因,在亚科内不同属间也存在大量的基因丢失事件。同时,发现38个蔷薇科线粒体基因组大小与重复序列含量呈正相关,其中大量重复序列存在重组活性,为线粒体基因组亚结构形成提供了证据。此外,在蔷薇科11个属间鉴定到了大量重排事件和较大重排速率差异,在不同属内(梨属、苹果属、李属和草莓属)也发现该现象。推测蔷薇科线粒体的基因丢失和重排是植物的适应性变异。
进一步分析139份梨种质资源的重测序数据,发现亚洲栽培梨群体中存在两个不同的母系。在亚洲梨线粒体基因组的选择驯化区间内鉴定到一个缺失序列(DEL-D),该片段最初出现在桃亚科线粒体基因组中,然后通过同源重组、序列转移和选择驯化被固定到梨栽培群体。
点评:植物科、属的线粒体、叶绿体基因组群体研究,或许是灌水的新思路。
A pan-Zea genome map for enhancing maize improvement
利用721份玉蜀黍属材料(507份现代玉米材料、31份玉米农家种材料以及183份玉米野生近缘种大刍草)的基因组数据(基本上是公共数据),构建了首个玉蜀黍属“超级泛基因组(super pan-genome)”图谱,解析了玉蜀黍属基因组特征并探究了其对玉米表型变异的贡献。该研究结果不仅有助于进一步理解玉米的驯化历史,也将促进玉米功能基因挖掘和遗传改良。
泛基因组是一个物种中所有个体的基因组信息总和,能有效解决单一参考基因组带来的分析偏差,近年来越来越受到重视。“超级泛基因组”则代表一个属内所有物种的基因组信息,是对泛基因组的进一步扩展。
通过对每个材料进行de novo组装并比对到参考基因组,构建得到了总计6.71 Gb的玉蜀黍属泛基因组,是单个玉米基因组的3倍,其中有约37%序列是玉米基因组所没有的。注释了58,944个基因,约44%的基因是非必须基因。
鉴定了群体中每个植株中基因存在和缺失的信息,揭示了玉蜀黍属中“易丢失”基因的模式,并发现大刍草向玉米的驯化过程中可能同时发生了“老”基因的“主动”丢失和“新”基因获得。
鉴定到274,649个结构变异,并结合团队此前发表的大量多组学数据分析发现,相比于常用的SNP和InDel,结构变异能解释更多的表型变异,更有可能是功能变异位点,而且有37%的结构变异是不能被之前的高密度SNP或者InDel标记所代替的。
发现一个SV特有的QTL与响应干旱胁迫相关,进一步的分析表明,该SV是一个1,947bp的转座子插入,其插入位置刚好落在目标基因上游的脱落酸调控元件内,推测其可能通过破坏该基因上游转录因子的结合,从而抑制该基因在叶片中的表达,进而影响植株的干旱胁迫响应。
流程及代码:https://github.com/songtaogui 或 https://zenodo.org/record/6864803#.YwrNP5pByUk
点评:从pan-genome到super pan-genome,又一灌水新模式。生信挖掘公共数据发文的典范,就是工作量大了点。严老师几乎保持了每年发GB,作为编委就是好。
DeepBSA: A deep-learning algorithm improves bulked segregant analysis for dissecting complex traits
现有BSA算法:基于高低池等位基因频率差异的ΔSNP-index方法,基于欧式距离的ED4方法,基于G值计算的G’方法,基于LOD值计算的SmoothLOD方法以及基于非参数检验的Ridit方法等。使用不友好,大多只适用于两个混池,且难以检测复杂性状和背景下的微效位点。
该研究首先设计了一套分级混池的混池测序方案,再利用玉米株高的混池测序数据,构建了一个残差连接的U-Net深度学习模型。训练学习后,模型在2-10个不同数目混池的AUC值在0.87-0.96之间。进一步通过生成仿真数据,来测试不同效应位点、不同群体大小、不同测序深度及不同混池数等条件下的定位效率,发现DeepBSA能高效鉴定到各复杂性状下的所有功能位点。同时,将此算法与五种广泛应用的算法进行比较,证明此算法定位的结果准确度更高,噪音更小。
通过对不同混池数的公共数据进行分析,DeepBSA不仅能鉴定到原方法鉴定的结果,还能找到新的潜在功能位点。同时,该方法对物种及性状有着广泛的适应性,其在水稻株高和开花期、玉米株高及武昌鱼肌间刺等性状中均得到良好的鉴定效果。因此,DeepBSA在动植物复杂性状的功能位点克隆方面具有重要应用前景。
GUI界面版:http://zeasystemsbio.hzau.edu.cn/tools.html
点评:Deep Learning起飞?有时间试用下
Genome-wide signatures of geographic expansion and breeding of soybean
来自不同地理区域的 2214 个大豆样品(1674 个新测序大豆和 540 个先前测序的大豆种质,新测序品种平均测序深度6.3X)分析,首次全面分析了大豆的进化历史,包括野生大豆的扩散、驯化地点、地方品种的范围扩大以及随后的改良过程。
推断了野生大豆的系统地理扩张路线,大豆可能起源于中国南方并传播到中国中部和北部,尽管大豆野生祖先起源于亚洲亚热带,但其在中国的温带地区被驯化。
开花时间的适应是一个连续的过程。验证了一个候选基因GmSPA3c 作为开花时间调节基因,也是开花基因座E7的候选者,在驯化、地方品种扩展和改良过程中经历了微弱但持续的选择。
点评:数据用在了上述的SoyFGB v2.0,基因流Fd值分析可参考之。Crisper验证加分。
A spatiotemporal transcriptomic network dynamically modulates stalk development in maize
对玉米两个重要时期的全节间进行转录组测序,结合表型数据和预测模型,采用WGCNA揭示了调控玉米节间发育的基因表达模式,构建了首个玉米时空特异全节间转录调控网络,发掘一批参与节间数和节间长度形成的候选基因,验证了关键候选基因ZmD1调控玉米节间发育的分子机制,拓展了人们对玉米茎秆发育的理解。
点评:试验设计可以,挖掘基因并验证是关键。
Identification and validation of major QTL for grain size and weight in bread wheat (Triticum aestivum L.)
利用基于极端混池的外显子捕获测序(BSE-Seq)快速鉴定粒重的关联区域,通过构建遗传图谱定位QTL,并利用生物信息学和单倍型分析,对QTgw/Gw.cib-4A的候选基因进行了预测,为后续该位点的克隆和功能研究奠定了基础。
点评:经济实惠,能发CJ。不过也只适合小麦这种超大基因组的物种了。
**When domestication bottleneck meets weed **
驯化瓶颈效应是人工选择信号分析与位点鉴定的理论基础,不同的驯化起源认知对于驯化瓶颈效应估计将造成直接影响。
该文提出非传统认知的作物驯化起源路径(野生植物→杂草→栽培作物)中的无意识选择,使驯化瓶颈效应相比于传统作物起源过程(野生植物→栽培植物)更加复杂。由杂草驯化而来的次生作物会经历杂草时期人类的无意识选择(unintentional human selection, UHS)和驯化期间的人工选择两个阶段,因此杂草驯化而来的次生作物具有更复杂的驯化瓶颈。许多其他因素还可能影响驯化瓶颈效应,例如去驯化、从头驯化等。该文章丰富了我们对作物起源进化的认识,有助于选择信号的准确估计和潜在高价值作物的从头驯化。
点评:樊老师近年来一直从杂草角度开展作物驯化起源研究,先后开展了作物拟态——稗草拟态水稻(Ye et al., 2019);作物去驯化——杂草稻和部分稗草来自栽培种(Qiu et al., 2017; Qiu et al., 2020; Wu et al., 2022);次生作物起源——栽培黑麦起源于杂草黑麦(Sun et al., 2022)等研究,为这些遗传机制提供了坚实的基因组学证据。本文观点是该团队对前期有关研究出成果的提炼和延伸。
A reference-grade genome assembly for Gossypium bickii and insights into its genome evolution and formation of pigment gland and gossypol
该文解析了具有“子叶色素腺体延缓形成”性状的野生棉种比克氏棉(Gossypium bickii,G1)的全基因组组装。通过对比克氏棉、澳洲棉、纳尔逊氏棉(Gossypium nelsonii,G3)和斯特提棉(Gossypium sturtianum,C1)四个棉种进行叶绿体基因组测序、基因组重测序以及亲缘关系分析,证实了比克氏棉“双系起源”的假说。还通过比较转录组学分析并结合VIGS验证,挖掘出一个与棉酚合成相关的细胞色素P450基因GbiCYP76B6,揭示了该棉种的进化规律及其色素腺体和棉酚的形成机制。
点评:背景很重要。
PerSVade: personalized structural variant detection in any species of interest
目前,SV的相关分析算法主要集中在人类基因组;它们是否适用于其他生物体,尚不清楚。
该研究开发了新的个性化SV分析软件perSVade,它可根据物种的基因组测序数据及其参考基因组生成模拟基因组的SV,并以此进行参数优化,从而最大化地从测序数据中调取SV。为了解释SV形成的不同机制,模拟可从三个方面进行:(1)整个基因组中的随机位置(“随机”模拟),(2)围绕先前已知的SV区域(“已知”模拟),(3)围绕同源序列的区域(“同源”模拟)。
perSVade可广泛用于从各种真核生物的测序数据中调用SV;并且与默认参数相比,参数优化可大幅度提高SV的召回率。但是,不同物种间不具有通用性的参数;要想在特定物种中最大化的调取SV,必须依赖于PerSVade的参数优化。perSVade参数优化对已知SV基因组数据中的SV调用也具有改善作用。
perSVade 为 WGS 数据集运行结构变异 (SV)、小变异(SNP 和 IN/DEL)并读取基于深度的拷贝数变异 (CNV) 调用和注释。唯一需要的输入是一组双端短读长和一个参考基因组。一切都只需几个简单的命令。
Github:https://github.com/Gabaldonlab/perSVade
点评:好东西!是骡子是马,拿去试用试用。
The nearly complete assembly of Cercis chinensis genome and Fabaceae phylogenomic studies provide insights into new gene evolution
中国紫荆属于最早从豆科分化而来的紫荆亚科,对豆科的系统基因组研究和新基因预测具有重要意义。对豆科分支的紫荆亚科的中国紫荆(Cercis chinensis)近乎完整的基因组组装,在豆科不同谱系中发现了中国紫荆基因组的基因重复事件。此外,豆科植物在进化过程中发现了数百个获得和丢失的基因家族,为新基因的推断提供了便利,这有利于提高豆科植物的生物多样性。。
与其他豆科植物基因组相比,中国紫荆没有谱系特异性多倍体事件。对22种豆科植物和11种被子植物的系统基因组分析表明,豆科植物多样化前后,许多基因家族具有谱系特异性。豆科植物不同谱系中存在许多新生起源基因,尤其是发生过多倍体化的豆科植物谱系。
点评:期刊文章的档次还是低了点。
QTL mapping of fruit aroma compounds in cucumber (Cucumber sativus L.) based on the recombinant inbred line (RIL) population
黄瓜果实中已鉴定出70多种香气化合物,包括醛类、醇类、酮类、萜烯类、酯类、呋喃类等,其中,青草味的C6醛和花香味的C9醛及它们相应的醇(分别称为C9和C6醛类香气)是构成黄瓜果实香气挥发物的主体成分。然而目前对黄瓜果实醛类香气物质含量的数量性状位点(QTL)及候选基因的研究进展较少。
该研究基于Q16×Q24的重组自交系群体和重测序数据构建了一个包含1301个SNP标记遗传图谱,该图谱总遗传距离为1111.41 cM,相邻SNP标记间的平均距离为0.85 cM。扫描到一个关于C9醇类特征香气物质(E, Z)-2, 6-nonadien-1-ol的主效QTL qol8-2.1,把CsLOX08推测为候选基因。基于CsLOX08基因在亲本中的插入变异,开发了一个功能性InDel分子标记。
点评:表型比较独特。
**LettuceGDB: the community database for lettuce genetics and omics **
合公共的多种组学数据和研究者育种团队获得的不同类型的数据,建立了一个综合生菜数据库,即 LettuceGDB (https://www.lettucegdb.com/)。作为组学数据中心,当前LettuceGDB 包含两个详细注释的参考基因组,超过1000 种生菜品种的重测序数据,通过人工和前沿表型组学技术对全球超过1000份种质资源进行了数百万条表型记录数据,重新分析了 256 个 RNA-Seq 数据集,完整鉴定了生菜的 miRNA,测定了代表性栽培品种和野生近缘种的代谢物,以及收集梳理了过去十年发表的生菜研究相关的论文。
在用户友好的界面上开发了对应于不同数据类型五种可分级访问的功能,包括基因组、基因型、种质、表型和 O-Omics,以实现方便的数据访问。除了汇总和展示大量数据外,这些功能还提供了对这些数据的便捷浏览和检索功能。此外,还提供Assembly Converter、Search Gene、Blast、JBrowse、Primer Design、Gene Annotation、Tissue Expression、Literature and Data 8个内置工具,可用于数据下载和浏览、功能基因探索和实验实践。数据库已经整合了各种工具,特别是基因组数据工具,以使用户能够方便地使用 LettuceGDB。
点评:相对于华大在生菜NG文章中构建的数据库 LettuceDB:https://db.cngb.org/lettuce/而言,该数据库LettuceGDB数据量大,功能更为齐全,所以才能发top。我想学多组学数据库搭建,但这类基本无讲座且不开源。
Fujian cytoplasmic male sterility and the fertility restorer gene OsRf19 provide a promising breeding system for hybrid rice
该研究克隆了水稻CMS-FA型细胞质雄性不育的不育基因FA182和恢复基因OsRf19,初步解析了OsRf19恢复育性的机理,并通过育种应用证明了水稻CMS-FA/OsRf19系统具有重要的育种应用价值。
MS-FA/OsRf19是由福建农林大学王乃元教授发现和建立的杂交稻育种体系,其雄性不育性来自于福建的野生稻,为孢子体不育,败育性彻底,单基因恢复且恢复力强。王乃元教授已用这个体系培育出多个优良杂交稻组合。以此为基础,本文发表的研究工作克隆了雄性不育基因和恢复基因,并进行了作用机理分析。
点评:发哥PNAS老常客了