2012年度 機能ゲノム学 全ゲノム比較解析

Functional Genomics 2012, Comparative analyses based on whole genome information

 

西田洋巳Hiromi Nishida

 

講義201272日(月)

 

ゲノム比較に基づく系統解析方法は大きく分けて次の3

1. すべての類似配列(オルソログ遺伝子)に基づく比較

2. ゲノムを構成している遺伝子の有無のパターンに基づく比較

3. ゲノムにおける配列パターンの出現頻度に基づく比較

 

1. すべての類似配列(オルソログ遺伝子)に基づく比較

類似配列を有するDNA配列やアミノ酸配列は整列配列を取り、比較することが可能である[参照:生物配列基礎(58日)]

しかし、単に類似配列検索をかけただけであれば、オルソログ、パラログの区別は極めて困難な場合が多い

ゲノム情報の急増により、すべてに類似性の検索をかけることは時間と労力がかかるため、オルソログをまとめているデータベースを利用すると便利である

例えば、基礎生物学研究所のMicrobial Genome Database for Comparative Analysis (MBGD)を利用すれば、ユーザーが比較する生物種間におけるオルソログを抽出できる

特定の機能を持つ遺伝子の数は生物種によって異なるため、ゲノム情報の比較を行う際に注意しなければならない

もし、ゲノム間において、ただ一つの遺伝子が類似性を持ってコードされている場合、そのようなオルソログの整列配列を結合させることが可能である

次の例ではマイコプラズマ類14種および外群としての枯草菌を合わせた15種から143遺伝子産物(タンパク質)がオルソログであると判断し、各オルソログ整列配列を結合させ、43370アミノ酸サイト情報に基づく系統樹を作成した

Oshima and Nishida, 2007, “Phylogenetic relationships among mycoplasmas based on the whole genomic information” J Mol Evol, 65, 249-258

 

2. ゲノムを構成している遺伝子の有無のパターンに基づく比較

1.の方法であれば、比較する生物種の範囲が大きくなればなるほど(系統進化上離れた生物種を比較する場合)、すべての生物種に共通する類似配列の数は減少する

そのため、リボソームタンパク質など限られた機能の遺伝子に基づく系統樹となり、多くの遺伝子は共通の類似性を有しないため、解析に入らない

そこで、各遺伝子について、その類似配列がどれほどの生物種に分布しているか解析し、各生物種のゲノムにその遺伝子類似配列が存在しているか否かのデータに基づき系統樹を作成する方法が有効である

塩基配列に生じる変異が分子進化の中立説に従う遺伝子においても、遺伝子そのものの獲得や欠失は中立であろうか?

例えば、共生や寄生の関係にある微生物においては、宿主が提供するアミノ酸などの生合成関連遺伝子群を欠失している(例:Shigenobu et al., 2000, Nature, 407, 81-86

すなわち、遺伝子の獲得や欠失はその微生物が生育している環境要因の影響を強く受けている

次の例では、Symbiobacteriumの系統的位置を1.および2.の方法による解析し、比較した

Oshima et al., 2011, “Unique evolution of Symbiobacterium thermophilum suggested from gene content and orthologous protein sequence comparisons” Int J Evol Biol, 2011, 376831

また、次の例では細菌の初期進化をテーマとしているため、オルソログ遺伝子数が少なくなっていることを確認できる

Nishida et al., 2011, “Whole-genome comparison clarifies close phylogenetic relationships between the phyla Dictyoglomi and Thermotogae” Genomics, 98, 370-375

 

3. ゲノムにおける配列パターンの出現頻度に基づく比較

オリゴDNAの配列、例えば、2塩基であれば、AA, AC, AG, AT, CA,…164×4)パターンが考えられ、それらがゲノムDNAにおいてどれほど出現するかを数えることができる

特に隣り合う2塩基の出現頻度は古くから研究されている(Josse et al., 1961, J Biol Chem, 236, 864-875; Swartz et al., 1962, J Biol Chem, 237, 1961-1967; Russel and Subak-Sharpe, 1977, Nature, 266, 533-536; Russel et al., 1976, J Mol Biol, 108, 1-23; Karin and Burge, 1995, Trends Genet, 11, 283-290

オリゴDNAの配列のプロファイルはゲノムシグニチャーと呼ばれ、個々のゲノムDNAにおける特徴の一つである(Campbell et al., 1999, PNAS, 96, 9184-9189; Deschavanne et al., 1999, Mol Biol Evol, 16, 1391-1399

ゲノム塩基配列が決定された生物についてのゲノムシグニチャーのデータベースとしてはOligoWeb: searching oligonucleotide frequenciesが極めて充実している

各塩基配列の出現頻度パターンを自己組織化マップ解析し、それぞれのパターンが分離する(例:Abe et al., 2003, Genome Res, 13, 693-702

また、これらのパターンの相違度に基づき系統樹を作成することも可能である[参照:バイオスタティスティクス基礎論(59日)]

1.および2.に比べ、この方法は類似配列、オルソログの領域を抽出することなく、DNAの塩基配列だけで比較できる

よって、メタゲノムデータを分類する際に有効である

次の例では、89種の細菌ゲノムにおける4塩基の出現頻度パターン(44=256通り)比較に基づき系統樹を作成した

Nishida et al., 2012, “Genome signature difference between Deinococcus radiodurans and Thermus thermophilus” Int J Evol Biol, 2012, 205274

ゲノムシグニチャーが塩基組成GC含量の影響を強く受けていることがわかり、高GCおよび低GCではそれぞれ共通のゲノムシグニチャーを持っている(Albrecht-Buehler 2007, Genomics, 89, 596-601; Albrecht-Buehler 2007, Genomics, 90, 297-305; Zhang and Wang, 2011, Genomics, 97, 330-331