ゲノム情報解析基礎（2010年5月10日）

データベース関連
WINGpro（データベースポータルサイト）
様々なデータベースをアルファベット順で一覧できます。簡単な特徴についても述べられていて大変便利。

データベースや解析ツール使い方ガイド
統合TV
ライフサイエンス統合データベースセンター(DBCLS)が発信する動画による使い方のコンテンツ

解析ツール関連
ゲノム解析ツールリンク集

様々なperlプログラムの雛型

blast結果の整形あれこれ
以下のファイルおよびコマンドの実行によって得られたblast結果ファイルを整形したい！
--------------------------------------------------------------
データベース：カイコゲノムプロジェクトで得られたカイコゲノム配列（染色体28本）をmulti-fasta形式でまとめたもの(integretedseq.txt.gzを解凍したもの)
問い合わせ配列：ランダムにとってきたカイコのEST配列（10配列；est_seq.txt）
コマンド1：formatdb -i integretedseq.txt -p F -o T
コマンド2：blastall -p blastn -d integretedseq.txt -i est_seq.txt -e 1e-10 > result_blast.txt
--------------------------------------------------------------

プログラム：genome01_1.pl
説明：問い合わせ配列ごとに、染色体何本にヒットしたかをカウントし、ヒットした染色体の列にそのスコアを出力
入力ファイル：任意のblast結果ファイル（result_blast.txt）
コマンド：perl genome01_1.pl result_blast.txt > result_genome01_1.txt

プログラム：genome01_2.pl
説明：問い合わせ配列ごとに、染色体何本にヒットしたかをカウントし、ヒットした染色体の列にそのE-valueを出力
入力ファイル：任意のblast結果ファイル（result_blast.txt）
コマンド：perl genome01_2.pl result_blast.txt > result_genome01_2.txt

プログラム：genome01_3.pl
説明：問い合わせ配列ごとに、染色体何本にヒットしたかをカウントし、ヒットした染色体の列には1を、そうでなければ0を出力
入力ファイル：任意のblast結果ファイル（result_blast.txt）
コマンド：perl genome01_3.pl result_blast.txt > result_genome01_3.txt

プログラム：genome01_4.pl
説明：問い合わせ配列ごとに、ヒットした染色体、スコア、E-valueを出力
入力ファイル：任意のblast結果ファイル（result_blast.txt）
コマンド：perl genome01_4.pl result_blast.txt > result_genome01_4.txt
ハッシュ利用例
遺伝子ごとにそのdescriptionや局在（subcellular_location）などのアノテーション情報を満載したタブ切りテキストファイル（annotation.txt）が手元にあるとする。（この例では11遺伝子の仮想情報データであるが、数万～数十万行からなるファイルの場合を想定してください）。この中から、genelist*.txtで示した遺伝子に対応するアノテーション情報を様々な形で抽出したい。

プログラム：genome02_1.pl
説明：(1番目の引数で与えた)annotation.txt中の第1列目をキーとして、(2番目の引数で与えた)genelist1.txt中のものが含まれる行全体を出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist1.txt）
コマンド：perl genome02_1.pl annotation.txt genelist1.txt > result_genome02_1.txt
挙動：genelist1.txt中のものはすべてannotation.txt中の第1列目に含まれているので何の問題もない。利用例：発現変動遺伝子リストのみのアノテーション情報入手など

プログラム：genome02_1.pl（上と同じ）
説明：(1番目の引数で与えた)annotation.txt中の第1列目をキーとして、(2番目の引数で与えた)genelist2.txt中のものが含まれる行全体を出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist2.txt）
コマンド：perl genome02_1.pl annotation.txt genelist2.txt > hoge.txt
挙動：genelist2.txt中の最終行のものはannotation.txt中の第1列目には含まれていないので出力されない

プログラム：genome02_2.pl
説明：(1番目の引数で与えた)annotation.txt中の第3列目をキーとして、(2番目の引数で与えた)genelist2.txt中のものが含まれる行全体を出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist2.txt）
コマンド：perl genome02_2.pl annotation.txt genelist2.txt > result_genome02_2.txt
挙動：genelist2.txt中の最終行のもの以外はannotation.txt中の第3列目には含まれていないので出力されない

プログラム：grep.pl（これはハッシュプログラムではありませんが。。。）
説明：(1番目の引数で与えた)annotation.txt中の文字列に対して、(2番目の引数で与えた)genelist1.txt中のものが含まれる行全体を出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist1.txt）
コマンド：perl grep.pl annotation.txt genelist1.txt > grep.txt
挙動：ただのキーワード検索だと想定外のものが多く含まれることがわかる

プログラム：genome02_3.pl
説明：(1番目の引数で与えた)annotation.txt中の第1列目をキーとして、(2番目の引数で与えた)genelist1.txt中のものに対応するannotation.txt中の第4列目(subcellular_location列)のみを出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist1.txt）
コマンド：perl genome02_3.pl annotation.txt genelist1.txt > result_genome02_3.txt
挙動：genelist1.txt中の遺伝子のsubcellular_locationのみを出力してくれる。利用例：アミノ酸残基の1文字⇔3文字表記の変換など。