ゲノム情報解析基礎（2013年04月08日）

ゲノム情報解析基礎（2013年04月08日）門田幸二

バイオインフォマティクス系学会など

JSBi(日本バイオインフォマティクス学会)
「最新イベント情報」欄が有用。学会に入っているとメーリングリストでも流れてくる。
CBI(情報計算化学生物学会)
製薬系企業中心？！のため、創薬とか構造系の人がメインか。私はこちらの年会（CBI学会2013年大会）のプログラム委員です。

今年も昨年同様、2013年10/28-31日にCBI、JSBi、オミックス医療研究会が同じ場所でそれぞれの年会（生命医薬情報学連合大会）を開催します。
定量生物学の会
生命情報科学若手の会
オープンバイオ研究会
情報処理学会バイオ情報学研究会 (SIG BIO)
人工知能学会第二種研究会分子生物情報研究会（SIG-MBI）

バイオインフォマティクス系研究所

CBRC(生命情報工学研究センター)
お台場にある日本最大のバイオインフォ系研究センター。

バイオインフォマティクス系メーリングリスト

bioinformatics-jp
infobiologist
open-bio-info（「オープンバイオ研究会」系）
bijapan（「SIG BIO」系）

バイオインフォマティクス系?!よろず相談所

ライフサイエンスQA
本当の意味での「よろず相談所」。
基盤バイオインフォマティクス・フォーラム
アグリバイオが母体のフォーラム。実質的な窓口は門田。相談内容をもとにフォーラムメンバーの中から適任者を紹介。

次世代シーケンサー解析系

次世代シーケンスデータ解析情報共有フォーラム(NGS Surfer's Wiki)
次世代シークエンサ(NGS)現場の会
9/4-5に第3回研究会を開催するそうです。
DDBJ Read Annotation Pipeline
手持ちの高性能計算サーバがなくてもDDBJに解析をやってもらえます。DDBJ Read Annotation Pipelineについての紹介番組
農学生命情報科学特論I
アグリバイオの講義(6/19, 6/26, 7/3-4, 17:15-20:30)です。私の担当部分で、(Rで)塩基配列解析の実習を行う予定です。
オーム情報解析
アグリバイオの講義です。特に門田担当部分(6/5,12)でマイクロアレイを題材として講義するトランスクリプトームデータ解析の基本的な考え方は、NGSデータ（RNA-seqデータ）解析の基礎となっています。

日本語コンテンツの有用サイト
ライフサイエンス統合データベースプロジェクト
以下に代表的なものをリストアップしていますが、あちこちで「統合データベース講習会」を開催してくれています。東大浅野キャンパスでも頻繁に開催していますので、詳細についてはそちらを受講してください。

Integbioデータベースカタログ
様々なデータベースのデータベースを統合したカタログです...
統合TV
有用なデータベースやウェブツールの活用法を動画で紹介してくれます。EMBOSSやBioMartなど「単語は聞いたことあり有用そうなんだけどそもそもどうやって利用するのかよくわからない...」的なものの利用法をを具体例を交えて紹介してくれるので必見です。特にBioMartは2012年初頭？！にインターフェースが大幅に変更されましたが、それに対応した番組（「Biomart v0.8を使ってIDから遺伝子情報を取得する」など）を作ってくれていたりしてありがたいです
ゲノム解析ツールリンク集
カテゴリ別に分類されています。もちろん日本語による簡単な要約文章つき。

様々なperlプログラムの雛型（ハッシュ利用例）
遺伝子ごとにそのdescriptionや局在（subcellular_location）などのアノテーション情報を満載したタブ切りテキストファイル（annotation.txt）が手元にあるとする。（この例では11遺伝子の仮想情報データであるが、数万～数十万行からなるファイルの場合を想定してください）。この中から、genelist*.txtで示した遺伝子に対応するアノテーション情報を様々な形で抽出したい。

プログラム：genome02_1.pl
目的：(1番目の引数で与えた)annotation.txt中の第1列目をキーとして、(2番目の引数で与えた)genelist1.txt中のものが含まれる行全体を出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist1.txt）
perl実行コマンド：perl genome02_1.pl annotation.txt genelist1.txt > hoge1.txt
挙動：genelist1.txt中のものはすべてannotation.txt中の第1列目に含まれているので何の問題もない。利用例：発現変動遺伝子リストのみのアノテーション情報入手など
プログラム：genome02_1.pl（上と同じ）
目的：(1番目の引数で与えた)annotation.txt中の第1列目をキーとして、(2番目の引数で与えた)genelist2.txt中のものが含まれる行全体を出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist2.txt）
perl実行コマンド：perl genome02_1.pl annotation.txt genelist2.txt > hoge2.txt
挙動：genelist2.txt中の最終行のものはannotation.txt中の第1列目には含まれていないので出力されない
プログラム：genome02_2.pl
目的：(1番目の引数で与えた)annotation.txt中の第3列目をキーとして、(2番目の引数で与えた)genelist2.txt中のものが含まれる行全体を出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist2.txt）
perl実行コマンド：perl genome02_2.pl annotation.txt genelist2.txt > hoge3.txt
挙動：genelist2.txt中の最終行のもの以外はannotation.txt中の第3列目には含まれていないので出力されない
プログラム：grep.pl（これはハッシュプログラムではありませんが。。。）
目的：(1番目の引数で与えた)annotation.txt中の文字列に対して、(2番目の引数で与えた)genelist1.txt中のものが含まれる行全体を出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist1.txt）
perl実行コマンド：perl grep.pl annotation.txt genelist1.txt > hoge4.txt
挙動：ただのキーワード検索だと想定外のものが多く含まれることがわかる
プログラム：genome02_3.pl
目的：(1番目の引数で与えた)annotation.txt中の第1列目をキーとして、(2番目の引数で与えた)genelist1.txt中のものに対応するannotation.txt中の第4列目(subcellular_location列)のみを出力
入力ファイル1：アノテーションファイル（annotation.txt）
入力ファイル2：リストファイル（genelist1.txt）
perl実行コマンド：perl genome02_3.pl annotation.txt genelist1.txt > hoge5.txt
挙動：genelist1.txt中の遺伝子のsubcellular_locationのみを出力してくれる。利用例：アミノ酸残基の1文字⇔3文字表記の変換など。

perl --> R
参考webページ：(Rで)塩基配列解析
上記の「ハッシュ利用例」と同じことをRでやるための項目：「イントロダクション | 一般 | 任意のキーワードを含む行を抽出」