タンパク質の配列から機能を予測する

バイオインフォマティクス実習資料（平成22年度、清水謙多郎）

アミノ酸配列がどのような機能をもつか調べる方法には、以下のようなものがある。

ホモロジー検索
モチーフ、ドメイン検索
細胞内局在部位予測
膜貫通ヘリックス予測
各種シグナル予測

ClustalWの実習

次に、配列のマルチプルアラインメントについて実習を行う。ここでは、ClustalWの利用法を紹介する。ClustalWは、いろいろなサイトで利用できるが、実習では、ゲノムネットのサイトを利用する。

ClustalW（http://www.ebi.ac.uk/clustalw/）（EBIのサイト）
ClustalW（http://clustalw.ddbj.nig.ac.jp/top-j.html）（DDBJのサイト）
ClustalW（http://align.genome.jp/）（ゲノムネットのサイト）

検索用配列をtpis.txtからダウンロードして下さい。
また、チトクロームCの配列cyto.txtについても、同様の解析をしてみよう。

タンパク質の機能は他の分子との相互作用に基づいている。相互作用に関与する部位は、配列や立体構造上の特徴的なパターン、すなわちモチーフを形成する。配列全体のホモロジーが低くても（あまり似てなくても）、特定の機能を実現するモチーフは強く保存されていることが多い。配列上のモチーフは、関連するアミノ酸配列を集めて、マルチプルアラインメント（複数の配列を要素ごとに対応づけて並べること）を行うことにより見いだすことができる。こうしたモチーフを登録し、与えられた配列から検索できるようにしたデータベースがモチーフデータベース（モチーフライブラリともいう）である。モチーフデータベースは、配列パターンに対応する生物学的な意味が書かれた辞書とみなすことができる。モチーフデータベースの代表的なものにPROSITEがある。

PROSITE(http://www.expasy.org/prosite/)

PROSITEの実習

検索用配列をseq1.txtからダウンロードして下さい。

タンパク質のファミリーを特徴づけるギャップをはさまない一致部分をブロックという。ブロックは、同じファミリーに属する複数のアミノ酸配列のマルチプルアラインメントによって表される。ブロックを登録しているデータベースには、以下のようなものがある。

BLOCKS(http://blocks.fhcrc.org/)
PRINTS(http://umber.sbs.man.ac.uk/dbbrowser/PRINTS/)

BLOCKS、PRINTS、Pfam、InterProの実習

BLOCKSでのブロック抽出用配列（複数）をatf.txtからダウンロードして下さい。

Pfam、InterProの検索でもseq1.txtを使用しますが、時間に余裕があれば、seq2.txtでも試して下さい（一部は課題）。

タンパク質のファミリーとドメインを登録したデータベースに、Pfamがある。文献情報やPROSITEなどのアミノ酸配列データベースから機能を共有するアミノ酸配列でseedを作り、それをもとに隠れマルコフモデルを構築して、それにマッチしたものをグループ化している。

Pfam(http://pfam.sanger.ac.uk/）

InterProは、PROSITE、Pfam、BLOCKS、PRINTSなど、複数のデータベースの統合検索サービスである。

InterPro（http://www.ebi.ac.uk/interpro/）

UniProtKBの実習

NCBIのサイトのホモロジー検索については、すでに学んだので、ここでは、UniProtコンソーシアムのUniProtKBについて実習する。

UniProtKB（http://www.uniprot.org/）

検索用配列をseq2.txtからダウンロードして下さい。

その他の解析

そのほか、講義では、細胞内局在部位予測PSORT、膜タンパク質予測SOSUIの実習も行う。

PSORT（http://psort.hgc.jp/）
TargetP（http://www.cbs.dtu.dk/services/TargetP/）
SOSUI（http://bp.nuap.nagoya-u.ac.jp/sosui/）

膜タンパク質は、細胞間シグナル伝達、代謝産物輸送、エネルギー生産に重要な役割を果たす。膜タンパク質は、全ゲノムの20～30%を占めるものの、構造決定が難しく、PDB登録数は1%程度である。しかしながら、その二次構造は、比較的高い精度で予測することができる。

PSORTの実習

検索用配列をseq3.txtからダウンロードして下さい。
また、seq5.txtとseq6.txtについても、同様の解析をしてみよう。

課題

課題では、seq7.txtとseq8.txtの配列を使用します。

情報エントロピーの計算

マルチプルアラインメントされた複数の配列の各カラムの情報エントロピーを計算するPerlプログラムをentropy.plからダウンロードして下さい。

解析対象として、大腸菌K-12株の遺伝子（e-coli.xls）（斎藤倫太郎先生提供）から抽出した開始コドンのマルチプルアラインメント（codon.txt）、その上流の配列のマルチプルアラインメント（upstream.txt）、大腸菌のプロモータ領域のデータベースPromECより取得した転写開始位置周辺の配列のマルチプルアラインメント（promoter.txt）を用いる。

また、講義資料では、S.Cerevisiaeの転写因子Rox1p結合部位のアラインメント（rox1p.txt）を用いた解析も行っている。