2012年度 生物配列解析基礎 分子系統学基礎

Introduction to Biological Sequence Analysis 2012, Introduction to molecular phylogenetics

 

西田洋巳Hiromi Nishida

 

講義・実習日:201258日(火)

 

[1-1] 歴史History

1951-1955, Sanger F., Insulinの構造解明

1961, Margoliash E., Cytochrome Cの構造解明

1962, Zunckerkandl E. & Pauling L., Hemoglobinを用いた分子時計

1963, Margoliash E., Cytochrome Cを用いた分子時計

1968, Kimura M., 分子進化の中立説Neutral theory of molecular evolution

1971, Journal of Molecular Evolution発刊

1977, Woese C. & Fox G., 16S rRNAを用いた系統解析

1995, TIGR, Haemophilus influenzaeゲノム塩基配列決定

 

[1-2] Species

Group

Known species

Estimated total species

% known

Mammals

4 000

4 000

100

Birds

9 000

9 100

99

Fish

19 000

21 000

90

Flowering plants and ferns

220 000

270 000

81

Mosses and liverworts

17 000

25 000

68

Algae

40 000

60 000

67

Insects

800 000

6 000 000

13

Bacteria

3 000

30 000

10

Fungi

69 000

1 500 000

5

Nematodes

15 000

500 000

3

Hawksworth (1992) Bot. J. Linn. Soc., vol. 109, pp. 543-567

 

菌類Fungiでは通常2つの生活環Life cycleを持っている

Anamorph: Mitotic, Asexual, Clone, n (for example, Aspergillus)

Teleomorph: Meiotic, Sexual, Recombination, 2n (for example, Eurotium)

 

菌類は植物よりも動物に近い

Protein

((A,F),P)

((A,P),F)

((F,P),A)

hsp70

41.5

58.5

0.0

Actin

85.4

3.7

10.9

mMDH

4.6

28.6

66.8

F-ATPase alpha

99.6

0.2

0.2

PCNA

11.8

85.5

2.7

F-ATPase beta

18.3

57.9

23.8

PP1

88.9

0.8

10.3

GRP78

52.7

47.1

0.2

PP2A

85.8

12.4

1.8

CaM-KII

28.5

69.8

1.7

GBE

90.6

9.4

0.0

Cdc2

36.4

6.0

57.6

TPI

31.3

68.4

0.3

CIT

1.1

35.3

63.6

V-ATPase A

61.1

36.7

2.2

CK-II

61.8

26.3

11.9

V-ATPase B

88.2

11.4

0.4

EF-1alpha

99.3

0.2

0.5

Pol IIB

9.8

5.7

84.5

EF2

10.5

69.9

19.6

Pol IIA

92.3

5.1

2.6

Enolase

0.1

99.9

0.0

MAP kinase

57.5

29.7

12.8

Overall

94.0

6.0

0.0

Nikoh et al. (1994) Mol. Biol. Evol., vol. 11, pp. 762-768

 

[1-3]進化と生態Evolution and Ecology

進化Evolution: 点突然変異Point mutation, 組み換えRecombination, 集団遺伝Population genetics, …

生態Ecology: 環境因子Environmental factor, 生育速度Growth rate, 共生Symbiosis, 寄生Pathogenesis, …

 

これらの要因により多様化している

多様化Diversity: ゲノム情報Genome information, 生物種Biological species, 代謝ネットワークMetabolic network, …

 

構造の類似性と機能Structural similarity and function

Homology <-> Analogy

Orthology <-> Paralogy

Ohnology

 

fig2.jpg

Iwabe et al. (1989) PNAS, vol. 86, pp. 9355-9359

 

[1-4]突然変異Mutation

FIGDNA.jpg

 

偽遺伝子における相対突然変異率Mutation rate of pseudogenes

置換前(右)後(下)

A

T

C

G

A

4.4

6.5

20.7

T

4.7

21.0

7.2

C

5.0

8.2

5.3

G

9.4

3.3

4.2

Nei (1987) Molecular Evolutionary Genetics, Columbia Univ. Press

 

FIGAA.jpg

 

同義置換と非同義置換の評価

1塩基相違の場合: GTT(Val) <-> GTA(Val)

Nonsynonymous, 0; Synonymous, 1

2塩基相違の場合: TTT(Phe) <-> GTA(Val)

Pathway1, TTT(Phe) <-> GTT(Val) <-> GTA(Val)

Pathway2, TTT(Phe) <-> TTA(Leu) <-> GTA(Val)

Nonsynonymous, 1.5; Synonymous, 0.5

Nei & Gojobori (1986) Mol. Biol. Evol., vol. 3, pp. 418-426

 

[1-5]類似配列検索Sequence similarity search

Altschul et al. (1990) Basic local alignment search tool. J. Mol. Biol., vol. 215, pp. 403-410

BLAST, 局所的に高い類似性を有するものを検索

FASTA, 長い配列の類似性を保っているものを検索

PSI-BLAST, 局所的に高い類似性を有するものを繰り返し検索

SSEARCH, Smith-Watermanアルゴリズムを採用した検索

S&W SEARCH, Smith-Watermanアルゴリズムを採用した高速検索

 

整列配列Alignment

CLUSTAL W: Thompson et al. (1994) Nucleic Acids Res., vol. 22, pp. 4673-4680

MUSCLE: Edgar (2004) Nucleic Acids Res., vol. 32, pp. 1792-1797

 

 

[1-6]系統樹の作成Phylogenetic tree construction

距離行列法Distance matrix method, 配列の違いを進化距離で評価し、距離行列を作成し、その行列に基づき階層的クラスタリングを行う

最節約法Maximum parsimony method, 考えられるすべての系統樹パターンより、最も節約的に説明できる変異パターンのものを選ぶ

最尤法Maximum likelihood method, 考えられるすべての系統樹パターンより、特定の置換パターンモデルの下、最も尤度の高い系統樹を選ぶ

 

平均連結法Unweighted pair-group method using arithmetic averages

Sokal & Michener (1958) Univ. Kansas Sci. Bull., vol. 38, pp. 1409-1438

 

FIGUPGMA.jpg

 

近隣結合法Neighbor-joining

Saitou & Nei (1987) Mol. Biol. Evol., vol. 4, pp. 406-425

 

 

A

B

C

D

B

0.48

 

 

 

C

0.11

0.42

 

 

D

0.36

0.22

0.27

 

E

0.56

0.31

0.57

0.29

 

(A,B) の場合,

AC + AD + AE + BC + BD + BE

= Aa + ab + bC +......

= 3(Aa + aB) + 2(bC + bD + bE) + 6ab

= 3AB + (CD + DE + EC) + 6ab

= 1.44 + 1.13 + 6ab = 1.98

ab = -0.59/6

全枝長は 0.48 – 0.59/6 + 1.13/2 = 0.9467

(A,C) の場合, 全枝長は 0.7717

(A,D) の場合, 全枝長は 1.055

(A,E) の場合, 全枝長は 1.123

(B,C) の場合, 全枝長は 1.08

(B,D) の場合, 全枝長は 1.062

(B,E) の場合, 全枝長は 0.928

(C,D) の場合, 全枝長は 1.003

(C,E) の場合, 全枝長は 1.155

(D,E) の場合, 全枝長は 0.96 よって, (A,C) で最小値をとる.

 

FIG0001.jpg

ACの分岐点をxとすると,

Ax + xB + Ax + xC + Ax + xD + Ax + xE = 0.48 + 0.11 + 0.36 + 0.56 = 1.51

Cx + xA + Cx + xB + Cx + xD + Cx + xE = 0.11 + 0.42 + 0.27 + 0.57 = 1.37

3(Ax - Cx) = 0.14, Ax – Cx = 0.0467

Ax + Cx = 0.11 より, Ax = 0.07835, Cx = 0.03165

次に x, B, D, E の距離行列を作成する

Bx + xA + Bx + xC = 0.48 + 0.42 = 0.9

xA + xC = 0.11 より, 2Bx = 0.79 Bx = 0.395

Dx + xA + Dx + xC = 0.36 + 0.27 = 0.63

xA + xC = 0.11 より, 2Dx = 0.52 Dx = 0.26

Ex + xA + Ex + xC = 0.56 + 0.57 = 1.13

xA + xC = 0.11 より, 2Ex = 1.02 Ex = 0.51

 

 

x

B

D

B

0.395

 

 

D

0.26

0.22

 

E

0.51

0.31

0.29

 

FIG0002.jpg

 

(x,B) の場合,

xD + xE + BD + BE

= xc + cd + dD ......

= 2(xc + cB) + 2(dD + dE) + 4cd

= 2xB + 2DE + 4cd

= 0.79 + 0.58 + 4cd = 1.29

cd = -0.02

全枝長は 0.395 – 0.02 + 0.29 = 0.665

(x,D) の場合, 全枝長は 0.63875

(x,E) の場合, 全枝長は 0.67875

(B,D) の場合, 全枝長は 0.67875

(B,E) の場合, 全枝長は 0.63875

(D,E) の場合, 全枝長は 0.665  よって, (x,D) または (B,E) で最小値をとる.

 

FIG0003.jpg

 

BEの分岐点をyとすると,

By + yx + By + yD + By + yE = 0.395 + 0.22 + 0.31 = 0.925

Ey + yx + Ey + yB + Ey + yD = 0.51 + 0.31 + 0.29 = 1.11

2(By – Ey) = -0.185, By – Ey = -0.0925

By + yE = 0.31 より, By = 0.10875, Ey = 0.20125

次に x, y, D の距離行列を作成する

xy + yB + xy + yE = 0.395 + 0.51 = 0.905

yB + yE = 0.31 より, 2xy = 0.595 xy = 0.2975

Dy + yB + Dy + yE = 0.22 + 0.29 = 0.51

yB + yE = 0.31 より, 2Dy = 0.2 Dy = 0.1

 

FIG0004.jpg

 

 

x

y

y

0.2975

 

D

0.26

0.1

 

Dyの分岐点をzとすると,

Dz + zx + Dz + zy = 0.26 + 0.1 = 0.36

yz + zx + yz + zD = 0.2975 + 0.1 = 0.3975

Dz - yz = -0.0375

Dz + zy = 0.1 より, Dz = 0.03125, zy = 0.06875

そのとき, xz = 0.2975 – 0.06875 = 0.22875

 

FIG0005.jpg

[1-7]ブートストラップ法Bootstrap method

fig1.jpg

Felsenstein (1985) Evolution, vol. 39, pp. 783-791

Efron et al. (1996) PNAS, vol. 93, pp. 13429-13434

 

[1-8]実習Practice

MEGA5を用いて整列配列を取り、系統樹を作成する

Tamura et al. (2011) Mol. Biol. Evol., vol. 28, pp. 2731-2739

 

解析対象: 8種のマイコプラズマのEnolaseをコードするDNA配列

 

1) MEGAを開きAlign -> Create a new alignment

Are you building a DNA or Protein sequence alignment? -> DNA

 

2) DNA配列をCopy & Paste

 

3) Data -> Select Genetic Code Table -> Mycoplasma

 

4) Translated Protein Sequences -> Translate only the selected segment? -> Yes

The current Genetic Code is: Mycoplasma. Is this correct? -> Yes

 

5) Alignment -> Align by MUSCLE -> Compute

 

6) DNA Sequences -> Data -> Export Alignment -> MEGA format -> File name: enolase -> Title, enolase -> Protein-coding nucleotide sequence data? -> Yes

ここでMultiple Alignは終了したので、MEGAを閉じる

 

7) enolase.megを開く

 

8) Distance

 

9) Phylogeny