Biopython基因组分析

Biopython基因组分析

基因组是完整的DNA集合,包括其所有基因。基因组分析是指研究单个基因及其在遗传中的作用。

1. 基因组图

基因组图将遗传信息表示为图表。Biopython使用Bio.Graphics.GenomeDiagram模块表示GenomeDiagram。GenomeDiagram模块需要安装ReportLab。

创建图的步骤

创建图的过程通常遵循以下简单模式-

创建图的步骤

创建图的过程通常遵循以下简单模式-

  • 为显示的每个单独的功能集创建一个FeatureSet,然后向其中添加Bio.SeqFeature对象。
  • 为显示的每个图形创建一个GraphSet,然后向其中添加图形数据。
  • 在图上创建轨道,然后将GraphSet和FeatureSet添加到所需的轨道。
  • 创建一个图,并将轨道添加到其中。
  • 告诉图表绘制图像。
  • 将图像写入文件。

下面我们以输入GenBank文件为例-

下载文件:https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.gbk 并从SeqRecord对象读取记录,然后最终绘制基因组图。

首先导入所有模块,如下所示 -

>>> from reportlab.lib import colors 
>>> from reportlab.lib.units import cm 
>>> from Bio.Graphics import GenomeDiagram

现在,导入SeqIO模块以读取数据 -

>>> from Bio import SeqIO 
record = SeqIO.read("example.gb", "genbank")

在这里,记录从genbank文件中读取序列。创建一个空图以添加轨迹和功能特性集 -

>>> diagram = GenomeDiagram.Diagram(
   "Yersinia pestis biovar Microtus plasmid pPCP1") 
>>> track = diagram.new_track(1, name="Annotated Features") 
>>> feature = track.new_set()

我们可以使用从绿色到灰色的替代颜色来应用颜色主题更改,如下所示:

>>> for feature in record.features: 
>>>    if feature.type != "gene": 
>>>       continue 
>>>    if len(feature) % 2 == 0: 
>>>       color = colors.blue 
>>>    else: 
>>>       color = colors.red 
>>> 
>>>    feature.add_feature(feature, color=color, label=True)

现在可以在屏幕上看到以下响应输出结果 -

<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d3dc90> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d3dfd0> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x1007627d0> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57290> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57050> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57390> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57590> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57410> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57490> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d574d0>

将以上输入记录绘制一个图表-

>>> diagram.draw(
   format = "linear", orientation = "landscape", pagesize = 'A4', 
   ... fragments = 4, start = 0, end = len(record)) 
>>> diagram.write("orchid.pdf", "PDF") 
>>> diagram.write("orchid.eps", "EPS") 
>>> diagram.write("orchid.svg", "SVG") 
>>> diagram.write("orchid.png", "PNG")

执行完上述命令后,可以看到以下图像保存在Biopython目录中。

** Result **
genome.png

还可以通过进行以下更改以圆形格式绘制图像-

>>> diagram.draw(
   format = "circular", circular = True, pagesize = (20*cm,20*cm), 
   ... start = 0, end = len(record), circle_core = 0.7) 
>>> diagram.write("circular.pdf", "PDF")

2. 染色体概述

DNA分子被包装成称为染色体的线状结构。每个染色体都是由围绕着支持其结构的称为组蛋白的蛋白质紧密缠绕多次的DNA组成。
当细胞不分裂时,染色体在细胞核中不可见,甚至在显微镜下也不可见。但是,构成染色体的DNA在细胞分裂过程中变得更加紧密,然后在显微镜下可见。
在人类中,每个细胞通常包含23对染色体,共46条染色体。其中二十二对染色体(称为常染色体)在雄性和雌性中看起来都是相同的。男女之间的第23对是性染色体。女性具有X染色体的两个副本,而男性具有X和Y染色体的一个副本。