2012年度 生物配列解析基礎 分子系統学基礎
Introduction to Biological Sequence Analysis 2012, Introduction to molecular phylogenetics
西田洋巳Hiromi Nishida
講義・実習日:2012年5月8日(火)
[1-1] 歴史History
1951-1955, Sanger F., Insulinの構造解明
1961, Margoliash E., Cytochrome Cの構造解明
1962, Zunckerkandl E. & Pauling L., Hemoglobinを用いた分子時計
1963, Margoliash E., Cytochrome Cを用いた分子時計
1968, Kimura M., 分子進化の中立説Neutral theory of molecular evolution
1971, Journal of Molecular Evolution発刊
1977, Woese C. & Fox G., 16S rRNAを用いた系統解析
1995, TIGR, Haemophilus influenzaeゲノム塩基配列決定
[1-2] 種Species
Group |
Known species |
Estimated total species |
% known |
Mammals |
4 000 |
4 000 |
100 |
Birds |
9 000 |
9 100 |
99 |
Fish |
19 000 |
21 000 |
90 |
Flowering plants and ferns |
220 000 |
270 000 |
81 |
Mosses and liverworts |
17 000 |
25 000 |
68 |
Algae |
40 000 |
60 000 |
67 |
Insects |
800 000 |
6 000 000 |
13 |
Bacteria |
3 000 |
30 000 |
10 |
Fungi |
69 000 |
1 500 000 |
5 |
Nematodes |
15 000 |
500 000 |
3 |
Hawksworth (1992) Bot. J. Linn. Soc., vol. 109, pp. 543-567
菌類Fungiでは通常2つの生活環Life cycleを持っている
Anamorph: Mitotic, Asexual, Clone, n (for example, Aspergillus)
Teleomorph: Meiotic, Sexual, Recombination, 2n (for example, Eurotium)
菌類は植物よりも動物に近い
Protein |
((A,F),P) |
((A,P),F) |
((F,P),A) |
hsp70 |
41.5 |
58.5 |
0.0 |
Actin |
85.4 |
3.7 |
10.9 |
mMDH |
4.6 |
28.6 |
66.8 |
F-ATPase alpha |
99.6 |
0.2 |
0.2 |
PCNA |
11.8 |
85.5 |
2.7 |
F-ATPase beta |
18.3 |
57.9 |
23.8 |
PP1 |
88.9 |
0.8 |
10.3 |
GRP78 |
52.7 |
47.1 |
0.2 |
PP2A |
85.8 |
12.4 |
1.8 |
CaM-KII |
28.5 |
69.8 |
1.7 |
GBE |
90.6 |
9.4 |
0.0 |
Cdc2 |
36.4 |
6.0 |
57.6 |
TPI |
31.3 |
68.4 |
0.3 |
CIT |
1.1 |
35.3 |
63.6 |
V-ATPase A |
61.1 |
36.7 |
2.2 |
CK-II |
61.8 |
26.3 |
11.9 |
V-ATPase B |
88.2 |
11.4 |
0.4 |
EF-1alpha |
99.3 |
0.2 |
0.5 |
Pol IIB |
9.8 |
5.7 |
84.5 |
EF2 |
10.5 |
69.9 |
19.6 |
Pol IIA |
92.3 |
5.1 |
2.6 |
Enolase |
0.1 |
99.9 |
0.0 |
||||
MAP kinase |
57.5 |
29.7 |
12.8 |
Overall |
94.0 |
6.0 |
0.0 |
Nikoh et al. (1994) Mol. Biol. Evol., vol. 11, pp. 762-768
[1-3]進化と生態Evolution and Ecology
進化Evolution: 点突然変異Point mutation, 組み換えRecombination, 集団遺伝Population genetics, …
生態Ecology: 環境因子Environmental factor, 生育速度Growth rate, 共生Symbiosis, 寄生Pathogenesis, …
これらの要因により多様化している
多様化Diversity: ゲノム情報Genome information, 生物種Biological species, 代謝ネットワークMetabolic network, …
構造の類似性と機能Structural similarity and function
Homology <-> Analogy
Orthology <-> Paralogy
Ohnology
Iwabe et al. (1989) PNAS, vol. 86, pp. 9355-9359
[1-4]突然変異Mutation
偽遺伝子における相対突然変異率Mutation rate of pseudogenes
置換前(右)後(下) |
A |
T |
C |
G |
A |
4.4 |
6.5 |
20.7 |
|
T |
4.7 |
21.0 |
7.2 |
|
C |
5.0 |
8.2 |
5.3 |
|
G |
9.4 |
3.3 |
4.2 |
Nei (1987) Molecular Evolutionary Genetics, Columbia Univ. Press
同義置換と非同義置換の評価
1塩基相違の場合: GTT(Val) <-> GTA(Val)
Nonsynonymous, 0; Synonymous, 1
2塩基相違の場合: TTT(Phe) <-> GTA(Val)
Pathway1, TTT(Phe) <-> GTT(Val) <-> GTA(Val)
Pathway2, TTT(Phe) <-> TTA(Leu) <-> GTA(Val)
Nonsynonymous, 1.5; Synonymous, 0.5
Nei & Gojobori (1986) Mol. Biol. Evol., vol. 3, pp. 418-426
[1-5]類似配列検索Sequence similarity search
Altschul et al. (1990) Basic local alignment search tool. J. Mol. Biol., vol. 215, pp. 403-410
BLAST, 局所的に高い類似性を有するものを検索
FASTA, 長い配列の類似性を保っているものを検索
PSI-BLAST, 局所的に高い類似性を有するものを繰り返し検索
SSEARCH, Smith-Watermanアルゴリズムを採用した検索
S&W SEARCH, Smith-Watermanアルゴリズムを採用した高速検索
整列配列Alignment
CLUSTAL W: Thompson et al. (1994) Nucleic Acids Res., vol. 22, pp. 4673-4680
MUSCLE: Edgar (2004) Nucleic Acids Res., vol. 32, pp. 1792-1797
[1-6]系統樹の作成Phylogenetic tree construction
距離行列法Distance matrix method, 配列の違いを進化距離で評価し、距離行列を作成し、その行列に基づき階層的クラスタリングを行う
最節約法Maximum parsimony method, 考えられるすべての系統樹パターンより、最も節約的に説明できる変異パターンのものを選ぶ
最尤法Maximum likelihood method, 考えられるすべての系統樹パターンより、特定の置換パターンモデルの下、最も尤度の高い系統樹を選ぶ
平均連結法Unweighted pair-group method using arithmetic averages
Sokal & Michener (1958) Univ. Kansas Sci. Bull., vol. 38, pp. 1409-1438
近隣結合法Neighbor-joining
Saitou & Nei (1987) Mol. Biol. Evol., vol. 4, pp. 406-425
|
A |
B |
C |
D |
B |
0.48 |
|
|
|
C |
0.11 |
0.42 |
|
|
D |
0.36 |
0.22 |
0.27 |
|
E |
0.56 |
0.31 |
0.57 |
0.29 |
(A,B) の場合,
AC + AD + AE + BC + BD + BE
= Aa + ab + bC +......
= 3(Aa + aB) + 2(bC + bD + bE) + 6ab
= 3AB + (CD + DE + EC) + 6ab
= 1.44 + 1.13 + 6ab = 1.98
∴ab = -0.59/6
全枝長は 0.48 – 0.59/6 + 1.13/2 = 0.9467
(A,C) の場合, 全枝長は 0.7717
(A,D) の場合, 全枝長は 1.055
(A,E) の場合, 全枝長は 1.123
(B,C) の場合, 全枝長は 1.08
(B,D) の場合, 全枝長は 1.062
(B,E) の場合, 全枝長は 0.928
(C,D) の場合, 全枝長は 1.003
(C,E) の場合, 全枝長は 1.155
(D,E) の場合, 全枝長は 0.96 よって, (A,C) で最小値をとる.
AとCの分岐点をxとすると,
Ax + xB + Ax + xC + Ax + xD + Ax + xE = 0.48 + 0.11 + 0.36 + 0.56 = 1.51
Cx + xA + Cx + xB + Cx + xD + Cx + xE = 0.11 + 0.42 + 0.27 + 0.57 = 1.37
∴3(Ax - Cx) = 0.14, Ax – Cx = 0.0467
Ax + Cx = 0.11 より, Ax = 0.07835, Cx = 0.03165
次に x, B, D, E の距離行列を作成する
Bx + xA + Bx + xC = 0.48 + 0.42 = 0.9
xA + xC = 0.11 より, 2Bx = 0.79 ∴Bx = 0.395
Dx + xA + Dx + xC = 0.36 + 0.27 = 0.63
xA + xC = 0.11 より, 2Dx = 0.52 ∴Dx = 0.26
Ex + xA + Ex + xC = 0.56 + 0.57 = 1.13
xA + xC = 0.11 より, 2Ex = 1.02 ∴Ex = 0.51
|
x |
B |
D |
B |
0.395 |
|
|
D |
0.26 |
0.22 |
|
E |
0.51 |
0.31 |
0.29 |
(x,B) の場合,
xD + xE + BD + BE
= xc + cd + dD ......
= 2(xc + cB) + 2(dD + dE) + 4cd
= 2xB + 2DE + 4cd
= 0.79 + 0.58 + 4cd = 1.29
∴cd = -0.02
全枝長は 0.395 – 0.02 + 0.29 = 0.665
(x,D) の場合, 全枝長は 0.63875
(x,E) の場合, 全枝長は 0.67875
(B,D) の場合, 全枝長は 0.67875
(B,E) の場合, 全枝長は 0.63875
(D,E) の場合, 全枝長は 0.665 よって, (x,D) または (B,E) で最小値をとる.
BとEの分岐点をyとすると,
By + yx + By + yD + By + yE = 0.395 + 0.22 + 0.31 = 0.925
Ey + yx + Ey + yB + Ey + yD = 0.51 + 0.31 + 0.29 = 1.11
∴2(By – Ey) = -0.185, By – Ey = -0.0925
By + yE = 0.31 より, By = 0.10875, Ey = 0.20125
次に x, y, D の距離行列を作成する
xy + yB + xy + yE = 0.395 + 0.51 = 0.905
yB + yE = 0.31 より, 2xy = 0.595 ∴xy = 0.2975
Dy + yB + Dy + yE = 0.22 + 0.29 = 0.51
yB + yE = 0.31 より, 2Dy = 0.2 ∴Dy = 0.1
|
x |
y |
y |
0.2975 |
|
D |
0.26 |
0.1 |
Dとyの分岐点をzとすると,
Dz + zx + Dz + zy = 0.26 + 0.1 = 0.36
yz + zx + yz + zD = 0.2975 + 0.1 = 0.3975
∴Dz - yz = -0.0375
Dz + zy = 0.1 より, Dz = 0.03125, zy = 0.06875
そのとき, xz = 0.2975 – 0.06875 = 0.22875
[1-7]ブートストラップ法Bootstrap method
Felsenstein (1985) Evolution, vol. 39, pp. 783-791
Efron et al. (1996) PNAS, vol. 93, pp. 13429-13434
[1-8]実習Practice
MEGA5を用いて整列配列を取り、系統樹を作成する
Tamura et al. (2011) Mol. Biol. Evol., vol. 28, pp. 2731-2739
解析対象: 8種のマイコプラズマのEnolaseをコードするDNA配列
1) MEGAを開きAlign -> Create a new alignment
Are you building a DNA or Protein sequence alignment? -> DNA
2) DNA配列をCopy & Paste
3) Data -> Select Genetic Code Table -> Mycoplasma
4) Translated Protein Sequences -> Translate only the selected segment? -> Yes
The current Genetic Code is: Mycoplasma. Is this correct? -> Yes
5) Alignment -> Align by MUSCLE -> Compute
6) DNA Sequences -> Data -> Export Alignment -> MEGA format -> File name: enolase -> Title, enolase -> Protein-coding nucleotide sequence data? -> Yes
ここでMultiple Alignは終了したので、MEGAを閉じる
7) enolase.megを開く
8) Distance
9) Phylogeny