ゲノム情報解析基礎（2011年04月28日）

ゲノム情報解析基礎（2011年04月28日）門田幸二

バイオインフォマティクス系学会

JSBi(日本バイオインフォマティクス学会)
「最新イベント情報」欄が有用。学会に入っているとメーリングリストでも流れてくる。年会費もかなり安め。
CBI(情報計算化学生物学会)
製薬系企業中心？！のため、創薬とか構造系の人にとっては居心地がいいだろう。

2011年11月8-10日に上記バイオインフォ系二学会の合同大会が開催されます。

バイオインフォマティクス系研究所

CBRC(生命情報工学研究センター)
お台場にある日本最大のバイオインフォ系研究センター。例年7月下旬ごろにBioinformatics week in Odaiba (BiWO)というのを開催している。今年度のお知らせはまだ。
諏訪牧子アグリバイオ特任教授の所属もここ。

バイオインフォマティクス系メーリングリスト

bioinformatics-jp
infobiologist
(infobiologistのほうはよく知りませんが)昔はよろず相談所のような役割を果たしていたが、最近はグループメンバーによる「何かのお知らせ（例えば「アグリバイオインフォマティクス受講生募集」、「研究会」とか）」が流れる程度。それでも、入っていて損はなかろう。

バイオインフォマティクス系?!よろず相談所

ライフサイエンスQA
本当の意味での「よろず相談所」。
基盤バイオインフォマティクス・フォーラム
アグリバイオが母体のフォーラム。実質的な窓口は門田。相談内容をもとにフォーラムメンバーの中から適任者を紹介。

次世代シーケンサー解析系

次世代シーケンスデータ解析情報共有フォーラム(NGS Surfer's Wiki)
かなり勉強になります。
次世代シークエンサ(NGS)現場の会
5/28-29に第一回研究会を開催するそうです。興味ある方はどうぞ。
DDBJ Read Annotation Pipeline
手持ちの高性能計算サーバがなくてもDDBJに解析をやってもらえます
農学生命情報科学特論I
アグリバイオの講義(7/26-27, 13:00-20:00)です。特に7/27のほうで、(Rで)塩基配列解析の実習を行う予定です。
オーム情報解析
アグリバイオの講義です。特に門田担当部分で講義するマイクロアレイ解析の枠組みは、NGSデータ解析の特にトランスクリプトーム解析のあたりでそのまま使えるものなのです。。。

日本語コンテンツの有用サイト
ライフサイエンス統合データベースプロジェクト

生命科学系データベース(DB)カタログ
そのまんまです。Nucleic Acids Research (NAR)というジャーナルでデータベース特集号というのが毎年初めに出ているようですが、そのカテゴリに沿った分類もあります。もちろん日本語による簡単な説明文章つき。
WINGpro (収録DBの全ての一覧表)
様々なデータベースをアルファベット順で一覧できます。簡単な特徴についても述べられていて大変便利。
”WINGproの使い方”の番組も見られます。
統合TV
有用なデータベースやウェブツールの活用法を動画で紹介してくれます。EMBOSSやBioMartなど「単語は聞いたことあり有用そうなんだけどそもそもどうやって利用するのかよくわからない...」的なものの利用法をを具体例を交えて紹介してくれるので必見です。
ゲノム解析ツールリンク集
カテゴリ別に分類されています。もちろん日本語による簡単な要約文章つき。

様々なperlプログラムの雛型

blast結果の整形あれこれ
以下のファイルおよびコマンドの実行によって得られたblast結果ファイルを整形したい！
--------------------------------------------------------------
データベース：カイコゲノムプロジェクトで得られたカイコゲノム配列（染色体28本）をmulti-fasta形式でまとめたもの(integretedseq.txt.gzを解凍したもの)
問い合わせ配列：ランダムにとってきたカイコのEST配列（10配列；est_seq.txt）
コマンド1：formatdb -i integretedseq.txt -p F -o T
コマンド2：blastall -p blastn -d integretedseq.txt -i est_seq.txt -e 1e-10 > result_blast.txt
--------------------------------------------------------------

プログラム：genome01_1.pl
説明：問い合わせ配列ごとに、染色体何本にヒットしたかをカウントし、ヒットした染色体の列にそのスコアを出力
入力ファイル：任意のblast結果ファイル（result_blast.txt）
コマンド：perl genome01_1.pl result_blast.txt > result_genome01_1.txt

プログラム：genome01_2.pl
説明：問い合わせ配列ごとに、染色体何本にヒットしたかをカウントし、ヒットした染色体の列にそのE-valueを出力
入力ファイル：任意のblast結果ファイル（result_blast.txt）
コマンド：perl genome01_2.pl result_blast.txt > result_genome01_2.txt

プログラム：genome01_3.pl
説明：問い合わせ配列ごとに、染色体何本にヒットしたかをカウントし、ヒットした染色体の列には1を、そうでなければ0を出力
入力ファイル：任意のblast結果ファイル（result_blast.txt）
コマンド：perl genome01_3.pl result_blast.txt > result_genome01_3.txt

プログラム：genome01_4.pl
説明：問い合わせ配列ごとに、ヒットした染色体、スコア、E-valueを出力
入力ファイル：任意のblast結果ファイル（result_blast.txt）
コマンド：perl genome01_4.pl result_blast.txt > result_genome01_4.txt
ハッシュ利用例
遺伝子ごとにそのdescriptionや局在（subcellular_location）などのアノテーション情報を満載したタブ切りテキストファイル（annotation.txt）が手元にあるとする。（この例では11遺伝子の仮想情報データであるが、数万～数十万行からなるファイルの場合を想定してください）。この中から、genelist*.txtで示した遺伝子に対応するアノテーション情報を様々な形で抽出したい。

プログラム：genome02_1.pl
説明：(1番目の引数で与えた)annotation.txt中の第1列目をキーとして、(2番目の引数で与えた)genelist1.txt中のものが含まれる行全体を出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist1.txt）
コマンド：perl genome02_1.pl annotation.txt genelist1.txt > result_genome02_1.txt
挙動：genelist1.txt中のものはすべてannotation.txt中の第1列目に含まれているので何の問題もない。利用例：発現変動遺伝子リストのみのアノテーション情報入手など

プログラム：genome02_1.pl（上と同じ）
説明：(1番目の引数で与えた)annotation.txt中の第1列目をキーとして、(2番目の引数で与えた)genelist2.txt中のものが含まれる行全体を出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist2.txt）
コマンド：perl genome02_1.pl annotation.txt genelist2.txt > hoge.txt
挙動：genelist2.txt中の最終行のものはannotation.txt中の第1列目には含まれていないので出力されない

プログラム：genome02_2.pl
説明：(1番目の引数で与えた)annotation.txt中の第3列目をキーとして、(2番目の引数で与えた)genelist2.txt中のものが含まれる行全体を出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist2.txt）
コマンド：perl genome02_2.pl annotation.txt genelist2.txt > result_genome02_2.txt
挙動：genelist2.txt中の最終行のもの以外はannotation.txt中の第3列目には含まれていないので出力されない

プログラム：grep.pl（これはハッシュプログラムではありませんが。。。）
説明：(1番目の引数で与えた)annotation.txt中の文字列に対して、(2番目の引数で与えた)genelist1.txt中のものが含まれる行全体を出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist1.txt）
コマンド：perl grep.pl annotation.txt genelist1.txt > grep.txt
挙動：ただのキーワード検索だと想定外のものが多く含まれることがわかる

プログラム：genome02_3.pl
説明：(1番目の引数で与えた)annotation.txt中の第1列目をキーとして、(2番目の引数で与えた)genelist1.txt中のものに対応するannotation.txt中の第4列目(subcellular_location列)のみを出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist1.txt）
コマンド：perl genome02_3.pl annotation.txt genelist1.txt > result_genome02_3.txt
挙動：genelist1.txt中の遺伝子のsubcellular_locationのみを出力してくれる。利用例：アミノ酸残基の1文字⇔3文字表記の変換など。