ゲノム情報解析基礎(2013年04月08日)門田幸二

バイオインフォマティクス系学会など
バイオインフォマティクス系研究所
バイオインフォマティクス系メーリングリスト
バイオインフォマティクス系?!よろず相談所
次世代シーケンサー解析系
日本語コンテンツの有用サイト
ライフサイエンス統合データベースプロジェクト
以下に代表的なものをリストアップしていますが、あちこちで「統合データベース講習会」を開催してくれています。東大浅野キャンパスでも頻繁に開催していますので、詳細についてはそちらを受講してください。
  1. Integbioデータベースカタログ
    様々なデータベースのデータベースを統合したカタログです...
  2. 統合TV
    有用なデータベースやウェブツールの活用法を動画で紹介してくれます。EMBOSSBioMartなど 「単語は聞いたことあり有用そうなんだけどそもそもどうやって利用するのかよくわからない...」的なものの利用法をを具体例を交えて紹介してくれるので必見です。 特にBioMartは2012年初頭?!にインターフェースが大幅に変更されましたが、それに対応した番組(「Biomart v0.8を使ってIDから遺伝子情報を取得する」など)を作ってくれていたりしてありがたいです
  3. ゲノム解析ツールリンク集
    カテゴリ別に分類されています。もちろん日本語による簡単な要約文章つき。
様々なperlプログラムの雛型(ハッシュ利用例)
遺伝子ごとにそのdescriptionや局在(subcellular_location)などのアノテーション情報を満載したタブ切りテキストファイル(annotation.txt)が手元にあるとする。 (この例では11遺伝子の仮想情報データであるが、数万〜数十万行からなるファイルの場合を想定してください)。この中から、genelist*.txtで示した遺伝子に対応するアノテーション情報を様々な形で抽出したい。
  1. プログラムgenome02_1.pl
    目的:(1番目の引数で与えた)annotation.txt中の第1列目をキーとして、(2番目の引数で与えた)genelist1.txt中のものが含まれる行全体を出力
    入力ファイル1:アノテーションファイル(annotation.txt
    入力ファイル2:リストファイル(genelist1.txt
    perl実行コマンド:perl genome02_1.pl annotation.txt genelist1.txt > hoge1.txt
    挙動:genelist1.txt中のものはすべてannotation.txt中の第1列目に含まれているので何の問題もない。利用例:発現変動遺伝子リストのみのアノテーション情報入手など

  2. プログラムgenome02_1.pl(上と同じ)
    目的:(1番目の引数で与えた)annotation.txt中の第1列目をキーとして、(2番目の引数で与えた)genelist2.txt中のものが含まれる行全体を出力
    入力ファイル1:アノテーションファイル(annotation.txt
    入力ファイル2:リストファイル(genelist2.txt
    perl実行コマンド:perl genome02_1.pl annotation.txt genelist2.txt > hoge2.txt
    挙動:genelist2.txt中の最終行のものはannotation.txt中の第1列目には含まれていないので出力されない

  3. プログラムgenome02_2.pl
    目的:(1番目の引数で与えた)annotation.txt中の第3列目をキーとして、(2番目の引数で与えた)genelist2.txt中のものが含まれる行全体を出力
    入力ファイル1:アノテーションファイル(annotation.txt
    入力ファイル2:リストファイル(genelist2.txt
    perl実行コマンド:perl genome02_2.pl annotation.txt genelist2.txt > hoge3.txt
    挙動:genelist2.txt中の最終行のもの以外はannotation.txt中の第3列目には含まれていないので出力されない

  4. プログラムgrep.pl(これはハッシュプログラムではありませんが。。。)
    目的:(1番目の引数で与えた)annotation.txt中の文字列に対して、(2番目の引数で与えた)genelist1.txt中のものが含まれる行全体を出力
    入力ファイル1:アノテーションファイル(annotation.txt
    入力ファイル2:リストファイル(genelist1.txt
    perl実行コマンド:perl grep.pl annotation.txt genelist1.txt > hoge4.txt
    挙動:ただのキーワード検索だと想定外のものが多く含まれることがわかる

  5. プログラムgenome02_3.pl
    目的:(1番目の引数で与えた)annotation.txt中の第1列目をキーとして、(2番目の引数で与えた)genelist1.txt中のものに対応するannotation.txt中の第4列目(subcellular_location列)のみを出力
    入力ファイル1:アノテーションファイル(annotation.txt
    入力ファイル2:リストファイル(genelist1.txt
    perl実行コマンド:perl genome02_3.pl annotation.txt genelist1.txt > hoge5.txt
    挙動:genelist1.txt中の遺伝子のsubcellular_locationのみを出力してくれる。利用例:アミノ酸残基の1文字⇔3文字表記の変換など。

perl --> R
参考webページ(Rで)塩基配列解析
上記の「ハッシュ利用例」と同じことをRでやるための項目:「イントロダクション | 一般 | 任意のキーワードを含む行を抽出