(Rで)塩基配列解析

このページは、RStudio (R含む)で生命科学系のデータ解析を行うためのテンプレート集です。このページに特化したチュートリアル（インストール | についてと基本的な利用法）を一通り実践した上でご利用ください。より一般的なチュートリアルは、教科書の付録ページ(←読込に時間がかからなくなりました)にあるR1.010とR1.020で提供しています(2023/04/01)。

はじめに

このページは、主にNGS機器などから得られた塩基配列データ解析をRで行うための一連の手続きをまとめているものです。

Maintainerは東京大学・大学院農学生命科学研究科・アグリバイオインフォマティクス教育研究ユニットの門田幸二と寺田朋子です。ボスである清水謙多郎教授をはじめ、 TCCパッケージ開発実働部隊でもあるbiopapyrus氏、およびバグレポートや各種インストール手順書作成などで尽力いただいた諸氏のおかげでかなり規模の大きなサイトになっています（デカくなりすぎたので、2018年7月に一部がサブページに移行しました）。しかしながら、このサイトは2010年頃から提供しているため、(私も不具合を発見したら随時修正をしてはいますが)それでもリンク切れや内容が古いものも多々あります。リンクも自由、講義資料などとして使うのも自由です。前もっての連絡なども必要ありません。しかし、本当に正しいやり方かどうかなど一切の保証はできませんし、必要に応じて随時変更していますので全て自己責任でご利用ください。間違いや修正点、また「このような解析をやりたいがどうすればいいか？」などのリクエストがあればメール（koji.kadota@gmail.com）してください。もちろん、アグリバイオインフォマティクス教育研究プログラム受講生からのリクエストは優先的に対応します。もし私のメアドに送ったヒトで、2勤務日以内に返事をもらってないヒトは、アグリバイオ事務局(info あっと iu.a.u-tokyo.ac.jp)宛にも送って催促してください。

このウェブサイトは、アグリバイオインフォマティクス教育研究プログラムはもちろんのこと、外部資金のサポートも一部受けています（過去・現在・未来）。特に18K11521は、このウェブページの更新に特化したものです。私のポジションがある限り、多くのユーザの効率的な研究推進の裏方として、地味～な活動を継続していければと思っております。今後ともご支援のほど、よろしくお願いいたします。

このページ内で用いる色についての説明：

コメント
特にやらなくてもいいコマンド
プログラム実行時に目的に応じて変更すべき箇所

過去のお知らせ

2024年
生命科学研究のためのデジタルツール入門第2版（監修：坊農秀雅・小野浩雅）が2024年6月末に出版されています。生命科学分野に参入してきた学生さんに、最新のデジタルツールを一通り学んでいただくという目的にぴったりな参考書だと思います。業界歴が長い教える側にとっては、学生さんが本書で一通りのスキルを学んでいただくことで、かなりの省力化になるのではと思います。(2024/07/11)
2023年
アグリバイオインフォマティクスの教科書「Web連携テキスト　バイオインフォマティクス」のページの読み込みに時間がかかる問題がありました。理由は1つの巨大なページとして構成していたためですが、章ごとのページに変更することで解決しました。(2023/05/24)
2023年度のアグリバイオインフォマティクス教育研究プログラムの外部生受講申し込み期間は5月9日～6月20日です。(2023/04/28)
「イントロ | 一般 | 配列取得 | プロモーター配列 | GenomicFeatures(Lawrence_2013)」の例題3や5を含むいくつかの場所で、シロイヌナズナのGFFやFASTAファイルのリンク切れを修正しました。(2023/04/21)
東京大学大学院情報学環・学際情報学府総合分析情報学コースの入試説明会（2024年度4月入学、夏季入試）が2023年4月23日（日）13:00～15:00オンラインで開催されます。(2023/04/06)
日本乳酸菌学会誌のNGS連載第20回の原稿を公開しました。(2023/04/01)
令和5年度(2023年度)もアグリバイオインフォマティクス教育研究プログラムを実施します（外部生はオンデマンド配信のみ）。多くの科目で、アグリバイオの教科書を利用した内容に順次切り替わっていきます。(2023/04/01)
2023年4月4日18:00-のアグリコクーン全体ガイダンスの冒頭部分で、アグリバイオインフォマティクスの簡単な紹介をさせていただきます。(2023/03/24)
2023年4月4日18:00-のアグリコクーン全体ガイダンスの冒頭部分で、アグリバイオインフォマティクスの簡単な紹介をさせていただきます。(2023/03/24)
日本乳酸菌学会誌の第19回の原稿を公開しました。(2023/01/13)
2022年
「インストール | R本体 | 過去版 | Mac用」を更新しました。(2022/12/03)
バイオDBとウェブツール　ラボで使える最新70選（小野浩雅編）が出版されています。私がよくお世話になっているTogo picture galleryなどいろいろありますが、ざっくりと最新状況を俯瞰できてトータルで有用という位置づけだと思っています。今後も3年ごとくらいに定期的に出版されるとありがたいです。(2022/11/06)
アグリバイオインフォマティクスの教科書「Web連携テキスト　バイオインフォマティクス」が培風館より刊行されました。タイトルのWeb連携に相当する部分はこちらです。(2022/10/26)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 応用 | Blekhmanデータ | TCC(Sun_2013)」の一部の例題で挙動がおかしいようです。少なくとも例題4でエラーが出ることを私も確認済みです。この原因はTCCパッケージが内部的に用いているedgeRの仕様変更に起因します。半年ほど前まではうまく動いていたようですが、多群間比較のpost-hoc testは組み合わせも多数あるので作業が煩雑です。それゆえ、多群間比較の場合は「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 応用 | TCC+baySeq(Osabe_2019)」の例題8以降を参考にして解析するようにしてください。(2022/09/03)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 応用 | TCC+baySeq(Osabe_2019)」の例題1でエラーが出ていたので修正しました。がこの項目での推奨は例題8以降ですのでご注意ください。(2022/09/03)
日本乳酸菌学会誌の第18回の原稿を公開しました。(2022/08/25)
「実験医学別冊論文図表を読む作法」が出版されています。タイトル通りですが、私個人としてはAccumulation curveの解説を入れていただいて大変助かっております。これまでなかなかとっつきにくかった図の理解が進む良書だと思います。(2022/07/27)
「正規化 | サンプル間 | 2群間 | 複製なし | iDEGES/DESeq(Sun_2013)」の項目を「推奨」としておりましたが、時代の流れでDESeqパッケージがもはや存在していないため、項目は残しつつ「推奨」という文字を削除しました。問い合わせいただいた方、どうもありがとうございました。(2022/07/27)
「基本的な利用法」を更新しました。特にMac版のRStudioの基本的な利用法を更新しました。(2022/06/18)
このページをGoogle ChromeやMicrosoft Edgeで開いても、すぐにフリーズして「応答なし」と表示されることが頻繁にあったという報告をいただきました。このような事象に遭遇した方はブラウザをFirefoxに変更すると解消されるようです。情報提供いただいた学生さんに感謝m(_ _)m(2022/06/01)
（サブページのほうのネタではありますが...）日本乳酸菌学会誌の第16回と第17回の原稿をこちらでも公開しました。(2022/05/29)
「インストール | R本体とRStudio | 最新版 | Mac用」を更新しました。(2022/05/16)
「解析 | 機能解析 | 遺伝子セット解析 | GSVA(Hänzelmann_2013)」の例題2の入力ファイルがリンク切れになっていたのを修正しました。(2022/05/13)
「カウント情報取得 | リアルデータ | SRP001540 | recount(Collado-Torres_2017)」の例題6と7を更新しました。(2022/05/13)
「インストール | Rパッケージ | 必要最小限プラスアルファ」情報を更新しました。(2022/05/13)
「解析 | 機能解析 | GMTファイル取得 | MSigDB(Subramanian_2005) 」を更新しました。v6.2だったのをv7.5.1に変更しました。これに関連して、v6.2のファイルを入力として読み込ませていたものも、この項目に限らず変更しました。ちゃんとチェックしきれていないので、どこかで不具合があるかもしれません。(2022/05/13)
「インストール | Rパッケージ | 必要最小限プラスアルファ」情報を更新しました。BSgenome.Hsapiens.NCBI.GRCh38パッケージをコメントアウトしていたのですが、機能ゲノム学の講義で使っていることが判明したので、コメントアウトを外しました。(2022/05/11)
「解析 | 一般 | パターンマッチング」の例題5の入力ファイル名が間違っていたのを訂正しました(data_seqlogo1.txt -> data_seqlogo1.fasta)。(中村弘太氏提供情報)(2022/05/09)
東京大学・大学院農学生命科学研究科・応用生命工学専攻の令和5(2023)年度大学院学生募集公開ガイダンスの第2回目は、5月28日（土）に開催します。(2022/05/08)
R ver. 4.0.5でTCCパッケージのインストールがコケる現象を確認しております。この理由は、TCC内部的に利用しているDESeq2がさらに内部的に利用しているlocfitがR ver. 4.1.0以上でないといけないことに起因するようです。2022年5月1日現在の最新版はR ver. 4.2.0ですのでそれをインストールしなおすとうまくいくと期待されますので試してみてください。(2022/05/01)
「解析 | 発現変動 | 2群間 | 対応なし | 複製なし | TCC(Sun_2013)」が内部的にedgeRパッケージを用いた場合でもうまく動かなくなっていますのでご注意ください。他の「複製なし」用のスクリプトも軒並みうまく動かなくなっています。(辛川涼眸氏提供情報)(2022/04/29)
「イントロ | 一般 | 配列取得 | トランスクリプトーム配列 | biomaRt(Durinck_2009)」中のgetBM関数実行結果がベクトルから行列形式になっていたので修正しました。しかしそれでもなお、getBM関数の実行結果であるhogeオブジェクトの行数よりも、getSequence関数で得られる配列数のほうが圧倒的に多いためタイムアウトしてしまう問題は残ったままですのでご注意ください。(中村弘太氏提供情報)(2022/04/26)
「イントロ | 一般 | 指定した範囲の配列を取得 | Biostring」の例題7の入力ファイルのリンクがなくなっていたので修正しました(中村弘太氏提供情報)(2022/04/26)
東京大学・大学院農学生命科学研究科・応用生命工学専攻の令和5(2023)年度大学院学生募集公開ガイダンスは、2022年5月7日（土）と5月28日（土）に開催します。(2022/04/17)
インストール周辺をざばっと更新しました。(2022/03/31)
遺伝子クラスタリングに基づく発現変動遺伝子検出法の論文(Osabe et al., BMC Bioinformatics, 2021)のプログラムをおいているMBCdegのGitHubサイトに中のコードに存在していたミスを修正しました(RNASeq.Data関数実行部分でNormalizerオプションに与える情報がlog2(size.factors)だったのをlog(size.factors)に変更)。(2022/01/22)
下記に関連して、「解析 | クラスタリング | RNA-seq | 遺伝子間(応用) | TCC正規化(Sun_2013)+MBCluster.Seq(Si_2014)」の記載ミスを修正しました。RNASeq.Data関数実行部分でNormalizerオプションに与える情報はlog2(size.factors)ではなくlog(size.factors)が正しいです。下記のMBCdeg2法に相当するのが、ここの項目で提供しているコードです。(牧野　磨音氏と私で確認；2022/01/15)
遺伝子クラスタリングに基づく発現変動遺伝子検出法の論文(Osabe et al., BMC Bioinformatics, 2021)のプログラムをおいているMBCdegのGitHubサイトに中のコードに一部ミスがあることが判明したので対応依頼中です。具体的には、TCC正規化係数を用いてMBCdegを実行する"MBCdeg2法"において、RNASeq.Data関数実行部分でNormalizerオプションに与える情報はlog2(size.factors)ではなくlog(size.factors)です。もちろん論文の結論には影響はありません(AUC値の分布は変わらないからです)。(牧野　磨音氏と私で確認；2022/01/15)
2021年
2015年11月に中身を作成していた「イントロ | 一般 | 読み込み | xlsx形式 | openxlsx」という項目をリストに提示していなかったことに2021年末に気づいたので(爆)、ページ上部のリストに追加しました。(2021/12/23)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 応用 | TCC(Sun_2013)」のおそらく例題4以降でエラーが出ることを確認しておりますのでご注意ください(エラーを実際に確認したのは例題4のみ)。対応はもうちょっと先になります(ad hocな対処策を知りたいかたはお気軽にメールしてください)。すみませんm(_ _)m(平山寛氏提供情報；2021/12/21)
遺伝子クラスタリングに基づく発現変動遺伝子検出法MBCdegの論文(Osabe et al., BMC Bioinformatics, 2021)が公開されました。コンセプト自体はDGEclust (Vavoulis et al., Genome Biol., 2015)で既に提唱されているため、 MBCdeg論文の貢献は、(1) DGEclustで提案されたコンセプトの有用性を独立して確認した、(2) DEGES正規化を組み合わせることでDGEclustの精度が上がる可能性、そして(3) MBCdegの適用可能範囲(データ中のDEGの割合が多く偏っているような場合にはTCCよりも精度が劣る)がDGEclustにも当てはまるのではといったあたりになります。 MBCdegは、MBCluster.Seq(Si et al., Bioinformatics, 2014)をベースとしています。 MBCdeg(おそらくDGEclustも)の特徴は、我々が以前開発したRNA-seq発現変動解析用RパッケージTCC(Sun et al., BMC Bioinformatics, 2013) よりも(試行ごとの結果のばらつきはあるものの全体としては)明らかに性能が高い点です。TCC開発者の我々が、TCCの土俵(TCCで作成したシミュレーションデータで、TCCが得意とするシナリオ) で比較してMBCdegのほうが高い性能を示すことを確認したという点がポイントです。このあたりについては、研究テーマの中のMBCdeg論文に関する解説のところでも触れています。(2021/10/22)
「作図 | M-A plot | 応用 | ggplot2編」の例題2の修正および例題3を追加しました(Manon Makino氏提供情報；2021/09/05)
「解析 | 一般 | オペロンDB | について」を追加しました。(2021/07/11)
「解析 | 一般 | オペロン | について」を「解析 | 一般 | オペロン予測 | について」に変更しました。(2021/07/12)
「解析 | 一般 | オペロン | について」を追加しました。(2021/07/11)
「解析 | 発現変動 | 2群間 | 対応なし | 複製なし | DESeq(Anders_2010)」の項目は DESeqパッケージが削除されているので使えなくなったことを記しました。(2021/06/01)
「解析 | 発現変動 | 2群間 | 対応なし | 複製なし | TCC(Sun_2013)」で内部的に使っていたDESeqパッケージが削除されたのに伴い、edgeRパッケージ中の関数に切り替えました。(2021/06/01)
「解析 | クラスタリング | RNA-seq | 遺伝子間(応用) | TCC正規化(Sun_2013)+MBCluster.Seq(Si_2014)」の記載ミスを修正しました。RNASeq.Data関数実行部分でNormalizerオプションに与える情報はlog(size.factors)ではなくlog2(size.factors)ですm(_ _)m(Manon Makino氏提供情報；2021/05/28)
「解析 | クラスタリング | RNA-seq | 遺伝子間(基礎) | MBCluster.Seq(Si_2014)」の例題8以降の記載ミスを修正しました。RNASeq.Data関数実行部分でNormalizerオプションに与える情報はsize.factorsではなくlog2(size.factors)ですm(_ _)m(Manon Makino氏提供情報；2021/05/28)
「イントロ | 一般 | 配列取得 | プロモーター配列 | について」を追加しました。(2021/05/25)
「解析 | 一般 | CpGアイランドの同定 | について」を追加しました。(2021/05/06)
「イントロ | 一般 | 配列取得 | プロモーター配列 | BSgenomeとTxDbから」の例題5の実行時にエラーが出ていることに気づいたのでそのことを記しました。(2021/04/19)
「インストール | Rパッケージ | 必要最小限プラスアルファ」で SeqGSEAパッケージでエラーが出るようなので、リストから削除しました。(2021/04/02)
独習　Pythonバイオ情報解析が2021年3月に出版されています。一般的なプログラミング言語として解説から、塩基配列データの取り扱い、データの可視化、そしてRNA-seq解析周辺など、非常に豊富な内容となっています。編集代表の黒川顕先生にはNGSハンズオン講習会の最終年度でお世話になり、執筆者の多くの先生にはアグリバイオインフォマティクス教育研究プログラム関連講義でもお世話になっております。(2021/03/27)
Dr.Bonoの生命科学データ解析第2版が2021年3月に出版されています（バイオインフォマティクス初学者向けの本）。前回の第1版から3年以上経過しており、WindowsでのLinux環境（WSL2）の話など最新情報にアップデートされているのが基本形です。しかし、大枠として変わってない部分もさらっとでも読むとよいと思います。第1版当時の自分には無縁で記憶に残っていない事柄でも、今の自分と関係があるかもしれないからです（私の場合はそれがオーソログクラスターでした）。(2021/03/18)
令和3年度のアグリバイオインフォマティクス教育研究プログラムに関する情報をトップページに掲載しています。(2021/03/18)
「前処理 | クオリティコントロール | について」をアップデートしました。(2021/01/02)
2020年
「解析 | 発現変動 | 2群間 | 対応なし | 複製あり | edgeR(Robinson_2010)」を更新しました。前回の最終更新が2014/07/24で、その当時と今では使われている関数も異なっているので、edgeR (ver. 3.30.3)中のUser's Guide中の1.4 Quick startに準拠しています。但し、このウェブページ全体条件を揃えるために「低発現遺伝子のフィルタリング」部分のみコメントアウトしておりますのでご注意ください。基本的に2020/10/29に注意喚起したものをやっと反映させた、という位置づけです。(2020/12/18)
「解析 | 機能解析 | 遺伝子セット解析 | GSVA(Hänzelmann_2013)」を更新しました。例題2のgetGmt関数内のオプションをgeneIdType=EntrezIdentifierからgeneIdType=SymbolIdentifierへと修正しました。実際問題としてはうまく動くようですが、こちらのほうが正解です（矢追毅氏提供情報）。(2020/11/10)
「解析 | 新規転写物同定(ゲノム配列を利用)」を更新しました。(2020/11/04)
「アセンブル | ゲノム用」を更新しました。(2020/11/04)
「アセンブル | トランスクリプトーム(転写物)用」を更新しました。(2020/11/03)
「解析 | 発現変動 | ...」の記載内容がだいぶ古くなっているのでご注意ください。例えば、edgeRパッケージを用いてDEG検出を行う関数(例：estimateTagwiseDisp)は2015年頃の手順ですが、今(edgeR ver. 3.30.3)はestimateDisp関数に切り替わっています。内部的にedgeRの関数を用いているTCC(ver. 1.28.0)も古いままです。もちろん古いだけなので間違いではないですが、最近Ichihashi et al., Plant Cell Physiol., 2018の植物RNA-seqカウントデータ(2群間比較)で5% FDR (i.e., q-value < 0.05)を満たす遺伝子数を比較した際に、最新の手順で2,200個程度検出された一方、昔の手順では1,800個弱という結構な違いを目の当たりにしました。バージョンの違いでここまでの違いを見たのは初めてでしたので私自身衝撃でした。今回の結果を得るに至ったRスクリプトを20201029_TCC.txtにまとめていますので、気になった方はご確認ください。尚、TCCは次期リリース(2021年4月頃)で内部的に用いる関数を修正予定です。尚、申し訳ありませんが、まだこのページ中のスクリプトは修正できておりませんm(_ _)m。(2020/10/29)
「カウント情報取得 | シミュレーションデータ | RNA-seq | について」を更新しました。(2020/10/24)
東京大学大学院情報学環・学際情報学府総合分析情報学コースの入試説明会（2021年度冬季入試）が2020年10月23日（金) 18:00-20:00オンラインで開催されます。(2020/10/16)
TCC-GUI（に限らずですが）で利用するパッケージのインストール時に書き込み権限がない的なエラーが出る場合は、管理者権限で実行してください。また、実行時に入力データを遺伝子名(gene name)でいれると大抵の場合、 Error in data.frame: duplicate row.namesのようなエラーメッセージが出ます。原因は同じ遺伝子名の行が複数個存在するためです。この解決策として、例えば全ての行でユニークな文字列からなるEnsembl gene IDの情報などをお持ちでしたら、そちらをご利用ください（加藤真吾氏提供情報）。(2020/09/22)
「解析 | 前処理 | フィルタリング | 低発現遺伝子 | 基礎」で例題3を追加しました。(2020/09/22)
「解析 | 前処理 | フィルタリング | 低発現遺伝子 | TCC(Sun_2013)」の記載事項が変だったので修正しました。(2020/09/22)
R2年度はもうキャパオーバーですので、ご新規様の講演や執筆依頼はお控えくださいますようお願い申し上げます。処理能力が低くすみません。(2020/09/19)
2020年11月14-15日（土日）に数理生物学セミナー2020@TMDUというオンラインセミナーが開催されます。興味ある方はどうぞ。(2020/09/19)
「インストール | Rパッケージ | 必要最小限プラスアルファ」で ffbaseパッケージのインストール法を(BiocManager::installからinstall_githubへ)変更しました。また、vcfRがCRANから削除されたので、リストから削除しました。(2020/08/25)
「カウント情報取得 | リアルデータ | SRP056146 | recount(Collado-Torres_2017)」中の記載ミス（計12サンプル --> 計174サンプル）を修正しました。(2020/08/07)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 応用 | TCC+baySeq(Osabe_2019)」を例として連絡を受けましたが、baySeqなどを実行する際に入力ファイルに実数が含まれるとうまく動きませんのでご注意ください。例えば、STAR-RSEMで作成したものでexpected_countをそのまま入力として与えたい場合は、入力ファイル読み込み後のオブジェクトに対してround関数を実行するなどすればよいです（茂木朋貴氏提供情報）(2020/07/29)
single-cell RNA-seq (scRNA-seq)の解析パイプラインのガイドラインに関する論文であるVieth et al., Nat Commun., 2019についての批評論文が公開されました (Kadota and Shimizu, Front Genet., 2020)。特にscRNA-seqをbulk RNA-seqと差別化する際の論法や、比較対象として用いたbulk RNA-seq用の正規化法の選定に関して、論文調査不足・事実誤認・ミスリード・不誠実さといった観点で痛烈に批判しています。(2020/07/28)
「解析 | クラスタリング | scRNA-seq | サンプル間 | ...」の項目でlibrary.size.normalize関数の実行に必要な library(phateR)コマンドの追加を失念しておりましたので追加しました(山口浩史氏提供情報)。(2020/06/04)
「正規化 | scRNA-seq | について」を更新しました。(2020/05/31)
「解析 | クラスタリング | RNA-seq | について」を更新しました。(2020/05/30)
日本乳酸菌学会誌のNGS関連連載の第15回分原稿PDFを公開しました。ウェブ資料も公開しました。詳しくはサブページの「書籍 | 日本乳酸菌学会誌 | 第15回RNA-seq解析（その3）」をご覧ください。(2020/05/21)
「解析 | クラスタリング | scRNA-seq | サンプル間 | ...」の例題3と5を更新しました。これまでは最適なクラスター数に関する議論まで意識してcclustパッケージのcclust関数を利用していましたが、結果が安定しないことと安定させるためのオプションを与える術がないので、「バイオスタティスティクス基礎論」との整合性も鑑みてstatsパッケージのkmeans関数に切り替えました。(2020/05/12)
「正規化 | サンプル間 | について」を更新しました。 Zhao et al., RNA, 2020の論文をリストに追加しただけですが、私がなぜTPM (含RPKM)をほとんど教えないかの理由について同じ考えをもっていらっしゃる方の論文です。まだpublishされていませんが（会員の方には配布済みかもしれませんが）、日本乳酸菌学会誌NGS連載第15回の原稿中にもほぼ同じことが書かれています。(2020/05/08)
「解析 | クラスタリング | scRNA-seq | サンプル間 | ...」あたりをいくつか更新しました。例題4と5と追加したのがメインですが、cclust関数(k-means clustering)のパラメータチューニングが甘いのでなんか変な結果になるときがあります。(2020/05/06)
「解析 | クラスタリング | scRNA-seq | サンプル間 | ...」あたりをいくつか追加しました。(2020/04/21)
「インストール | Rパッケージ | 必要最小限プラスアルファ」の最後のパッケージインストール確認のところで、インストールをやめたのに「library(tabplot)」で確認しようとしてエラーが出ていたのを修正しました。(2020/04/04)
諸般（主にコロナに対する東大の全体方針）の事情により、2020年のアグリバイオインフォマティクス教育研究プログラムは、東京大学の学生に限定することとなりました(2020年3月17日決定)。既に応募いただいた方、そしてこれから応募しようと思っていた方々には残念なお知らせとなってしまいましたが、ご理解いただけますと幸いですm(_ _)m (2020/03/17)
「作図 | 生存曲線 | 基礎」の項目をいくつか追加しました。(2020/02/23)
2019年
日本乳酸菌学会誌のNGS関連連載の第14回分原稿PDFを公開しました。ウェブ資料も公開しました。(2019/12/23)
「RNA-Seqデータ解析　WETラボのための鉄板レシピ（編：坊農秀雅）」が出版されています。(2019/12/23)
TCC-GUI (Su et al., BMC Res. Notes, 2019) の解説動画が統合TVで公開されました。DBCLSの小野さんはじめ関係者の皆様のご尽力に深謝m(_ _)m(2019/11/08)
インストール | についての推奨手順をとりあえずWindows版(R_install_win.pdf) のみですがアップデートし、RStudioを利用するやり方に変更しました。(2019/10/09)
「インストール | R本体 | 最新版 | Win用」の項目名を「インストール | R本体とRStudio | 最新版 | Win用」に変更しました。 Mac用についても同様です。(2019/10/08)
「解析 | 遺伝子制御ネットワーク推定 | について」を追加しました。(2019/10/04)
「生命科学者のためのDr.Bonoデータ解析実践道場（著：坊農秀雅）」が出版されています。今回の"Bono本"は、アグリバイオの大学院講義で丁寧に教えることが現実的に難しいLinux環境でのデータ解析の情報が丁寧に解説されています（アグリバイオの内容と相補的な関係）。「聞いたことはあるがよく知らない事柄」が簡潔かつ丁寧に書かれているので、私は主にそのあたりの頭の整理に利用させてもらっています。(2019/09/30)
「解析 | リガンド-レセプター解析(ligand-receptor analysis) | について」を追加しました。CellPhoneDBなどを含むカテゴリです。(2019/10/04)
「解析 | クラスタリング | scRNA-seq | 参照情報あり | について」を追加しました。 scmapやGarnettなどを含むカテゴリです。(2019/10/03)
「解析 | 発現変動 | について」だった項目名を「解析 | 発現変動 | RNA-seq | について」に変更しました。また、「解析 | 発現変動 | scRNA-seq | について」を追加しました。(2019/10/01)
「正規化 | scRNA-seq | について」を追加しました。(2019/09/27)
「解析 | ゲノム | 領域の一致の評価 | regioneR(Gel_2016)」をとりあえず項目だけ追加しました。(2019/09/27)
「解析 | 前処理 | scRNA-seq | についての内容を追加しました。(2019/09/26)
「解析 | 機械学習(分類) | 基礎 | MLSeq(Goksuluk_2019)」が一通り完成しました。(2019/09/23)
「解析 | 機械学習(分類) | 基礎 | MLSeq(Goksuluk_2019)」を書き進めています。(2019/09/20)
rbamtoolsパッケージが削除されていることが判明しましたので、「インストール | Rパッケージ | 必要最小限プラスアルファ」から消しました。(2019/09/12)
「インストール | Rパッケージ | 必要最小限プラスアルファ」中で、任意の行の部分を選択できない現象が起こっているようです。デフォルトで表示されている部分より下のほうで挙動がおかしくなっています。どなたか解決策がお分かりのかたは教えていただければ幸いですm(_ _)m(2019/09/10)
htmlファイルの形式を「XHTML 1.0 Strict」から「html5」に変更しました。また、 Nu Html Checkerというhtmlの文法チェック結果を大幅に改善しました。これに伴い、多少の不具合があるかもしれません。(2019/09/09)
「解析 | 機械学習(分類) | について」で基本的な考え方について、長ったらしくなりましたが記載しました。まだざっくり版ですので、ミスはいくつか含んでいると思われます。(2019/09/07)
「サンプルデータ」51として、MLSeqを用いた機械学習(分類/診断)を行う際の入力データを追加しました。(2019/09/06)
複数個所アップデートしてます。(2019/09/06)
「作図 | 生存曲線 | 基礎 | 2. pngファイルに保存」を追加しました。 3種類のデータを用いて、7つの例題を示しています。(2019/09/04)
「作図 | 生存曲線 | 基礎 | 1. まずはプロット」を更新しました。 3種類のデータを用いて、7つの例題を示しています。(2019/09/04)
「サンプルデータ」49-50として、生存曲線作成用のデータを追加しました。(2019/09/03)
「作図 | 生存曲線 | 基礎 | 1. まずはプロット」を追加しました。(2019/09/03)
「サンプルデータ」48として、生存曲線作成用のデータを追加しました。(2019/08/31)
トーゴーの日シンポジウム2019が10月5日に開催されます。申込締切は9月24日（火）24:00までです。(2019/08/27)
「解析 | 発現変動 | 3群間 | 対応なし | 複製なし | TCC(Sun_2013)」、および「解析 | 発現変動 | 2群間 | 対応なし | 複製なし | TCC(Sun_2013)」で内部的に利用していたオプションを "deseq2"から"deseq"に切り替えました。理由はDESeq2を使うとエラーが出るようになったからです(山本裕二郎氏提供情報)。(2019/07/11)
3群間比較時に発現変動パターンまでうまく同定するための推奨パイプラインに関する論文が公開されました。その手順は、「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 応用 | TCC+baySeq(Osabe_2019)」です。(2019/07/10)
「進化で読み解く　バイオインフォマティクス入門（著：長田直樹）」が出版されています。本書の何よりも素晴らしいところは、単著だという点だと思います（統一感って重要）。そしてチャラチャラしたところがなく、中身がしっかりしており、そして幅広い内容が丁寧に解説されているという点が非常によいと思います。(2019/07/05)
RNA-seqカウントデータ解析用RパッケージであるTCCのGUI版である、 TCC-GUIの論文 (Su et al., BMC Res Notes, 2019)がpublishされました。利用法の英語版はAdditional file 2から取得可能です。また、2群間比較用のリアルデータの解析例はAdditional file 3から取得可能です。日本語版は、2019年3月15日の講義資料（の後半部分）に記載しています。(2019/03/14)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 応用 | TCC+EBSeq(Osabe_2019)」をアップデートしました。(2019/07/01)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 応用 | TCC+baySeq(Osabe_2019)」をアップデートしました。(2019/07/01)
「正規化 | 基礎 | TPM(Li_2010)」の原著論文を変更しました。(2019/06/25)
「解析 | クラスタリング | scRNA-seq | について」をアップデートしました。(2019/06/27)
「解析 | 前処理 | scRNA-seq | について」をアップデートしました。(2019/06/26)
「正規化 | 基礎 | TPM(Li_2010)」を追加しました。(2019/06/25)
「正規化 | 基礎 | RPKM(Mortazavi_2008)」の例題4にTPM (Transcripts Per Kilobase Million)との違いが分かり易いコードを追加しました。(2019/06/25)
「マッピング | について」をアップデートしました。(2019/06/04)
「イントロ | NGS | アノテーション情報取得 | について」をアップデートしました。(2019/06/04)
「前処理 | クオリティコントロール | について」をアップデートしました。(2019/05/29)
「解析 | 発現量推定(トランスクリプトーム配列を利用)」をアップデートしました。(2019/05/24)
「マップ後 | カウント情報取得 | について」をアップデートしました。(2019/05/24)
「解析 | 発現変動 | について」をアップデートしました。(2019/05/24)
「正規化 | サンプル間 | について」をアップデートしました。(2019/05/23)
「解析 | 解析 | 融合遺伝子の同定」を追加しました。(2019/05/21)
「イントロ | NGS | 様々なプラットフォーム」をアップデートしました。(2019/05/21)
「アセンブル | トランスクリプトーム(転写物)用」をアップデートしました。(2019/05/21)
「解析 | 新規転写物同定(ゲノム配列を利用)」をアップデートしました。(2019/05/21)
「カウント情報取得 | シミュレーションデータ | scRNA-seq | 応用(異なる細胞群) | Splatter(Zappia_2017)」を追加しました。(2019/04/11)
「カウント情報取得 | シミュレーションデータ | scRNA-seq | 基礎(異なる細胞群) | Splatter(Zappia_2017)」を追加しました。(2019/04/11)
削除予定としていた「インストール | Rパッケージ | 必要最小限」を本当に削除しました。(2019/04/11)
削除予定としていた「インストール | Rパッケージ | ほぼ全て」を本当に削除しました。(2019/04/11)
「カウント情報取得 | シミュレーションデータ | scRNA-seq | 基礎(同一細胞群) | Splatter(Zappia_2017)」を追加しました。(2019/04/11)
「解析 | 一般 | アラインメント | について」だった項目名を「解析 | 一般 | アラインメント | ペアワイズ | について」と「解析 | 一般 | アラインメント | マルチプル | について」に分離しました。(2019/04/05)
「カウント情報取得 | シミュレーションデータ | について」だった項目名を「カウント情報取得 | シミュレーションデータ | RNA-seq | について」に変更しました。また、「カウント情報取得 | シミュレーションデータ | scRNA-seq | について」も追加しました。(2019/04/05)
「インストール | Rパッケージ | 必要最小限プラスアルファ」を更新しました。(2019/04/06)
「解析 | 前処理 | scRNA-seq | について」を追加しました。(2019/04/04)
「解析 | クラスタリング | について」だった項目名を、 (bulk) RNA-seq用の「解析 | クラスタリング | RNA-seq | について」と、 scRNA-seq用の「解析 | クラスタリング | scRNA-seq | について」に変更しました。それに伴い、中身や関連する項目名も変更しました。(2019/04/03)
「カウント情報取得 | シミュレーションデータ | について」を更新しました。(2019/04/03)
「カウント情報取得 | について」だった項目名を「カウント情報取得 | リアルデータ | について」に変更しました。それに伴い、紹介するプログラムもリアルデータのもののみにしました。(2019/04/03)
2019年度もアグリバイオインフォマティクス教育研究プログラムを実施します。例年東大以外の企業の方、研究員、大学院生が2割程度受講しております。受講ガイダンスは、2019年4月5日(Fri.)17:15より東大農学部2号館2階化学第一講義室で開催します。(2019/03/11)
細かいところの修正はここに明記していなくても随時行っています。(2019/03/11)
「インストール | Rパッケージ | 必要最小限プラスアルファ」を更新しました。(2019/03/08)
「生命科学データ解析を支える情報技術（監修：坊農秀雅）」が出版されています。最先端のネタを含むかなり広範な内容を含んでいますので、一通り目次を眺めてみるとよいと思います。 Bioconda, Homebrew, Docker, GitHub, EC2, AWSなど聞いたことがある有用そうなものの全体像がわかるというメリットがあると思います。(2019/02/06)
「イントロ | NGS | 配列取得 | FASTQ or SRA | SRAdb(Zhu_2013)」でエラーが出るようになっていたので修正しました。(2019/02/01)
2019年2月19日に「Rの講習会」を開催します。2019年2月1日15:00現在の申込状況：100名。(2019/02/01)
2018年
「生命科学データベース・ウェブツール（監修：坊農秀雅・小野浩雅）」が出版されています。目次を一見すると既視感がありますが、実際に中身を見てみると”確かに手に取って読む価値がある”と判断できると思います。(2018/11/29)
「よくわかるバイオインフォマティクス入門（藤博幸編）」が出版されています。アラインメントの基本から深層学習までバイオインフォの幅広い内容が含まれています。(2018/11/21)
TCCのオンラインGUI版（のベータ版）を公開しました。(2018/10/15)
「インストール | Rパッケージ | 必要最小限プラスアルファ」を更新しました。(2018/11/13)
「インストール | Rパッケージ | 個別(2018年11月以降)」を変更しました。(2018/11/12)
永らく「削除予定」としていた項目(「Rのインストールと起動」、「個別パッケージのインストール」、「NOISeq(Tarazona_2011)」、「NBPSeq(Di_2011)」)を本当に削除しました。(2018/11/12)
サブページに移行した項目を削除しました。(2018/11/12)
平成29年度のNGSハンズオン講習会でもお世話になった「先進ゲノム支援」による中級者向けの情報解析講習会が2018年11月19-21日に開催されます。10/16締切です。(2018/09/20)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 応用 | TCC正規化(Sun_2013)+EBSeq(Leng_2013)」中の一部のコードが間違っていたので修正しました。（長部高之氏提供情報）(2018/08/12)
項目名「解析 | フィルタリング | について」を「解析 | 前処理 | について」に変更しました。
書ききれませんが、いろいろと追加や変更を行っています。(2018/08/08)
項目名「イントロ | 型変換 | ...」を「解析 | 前処理 | 型変換 | ...」に変更しました。(2018/08/06)
項目名「解析 | フィルタリング | について」を「解析 | 前処理 | について」に変更しました。このあたりは、今後の情報増加に伴って、多少項目名を随時再編する予定です。(2018/08/06)
「前処理 | フィルタリング | について」を追加しました。(2018/08/06)
「解析 | クラスタリング | サンプル間 | TCC(Sun_2013)」の例題10の入力ファイルリンク切れを修正しました。(2018/08/06)
「カウント情報取得 | リアルデータ | SRP001540 | recount(Collado-Torres_2017)」を更新しました。(2018/08/06)
「イントロ | 型変換 | について」を追加しました。(2018/08/02)
「イントロ | 型変換 | ExpressionSet --> SummarizedExperiment」を追加しました。(2018/08/02)
「イントロ | 型変換 | ExpressionSet --> RangedSummarizedExperiment」を追加しました。(2018/08/02)
「イントロ | 型変換 | RangedSummarizedExperiment --> ExpressionSet」を追加しました。(2018/08/02)
「カウント情報取得 | リアルデータ | ...」のところで、これまでRangedSummrizedExperimentオブジェクトをhogeとして取り扱ってきましたが、rseに変更しました。(2018/08/02)
「イントロ | 一般 | ExpressionSet | 1から作成 | NOISeq(Tarazona_2015)」を追加しました。(2018/08/02)
「イントロ | 一般 | ExpressionSet | 1から作成 | Biobase」を追加しました。(2018/08/01)
「カウント情報取得 | リアルデータ | SRP001540 | recount(Collado-Torres_2017)」を更新しました。例題4と5はその後の解析がやりやすいようにしています。(2018/07/31)
「カウント情報取得 | シミュレーションデータ | Biological rep. | 2群間 | 基礎 | LPEseq(Gim_2016)」のエラーが解消されました。(2018/07/31)
「解析 | 発現変動 | 2群間 | 対応なし | 複製なし | NOISeq(Tarazona_2015)」を追加しました。(2018/07/29)
「インストール | Rパッケージ | 必要最小限プラスアルファ(数GB?!)」を更新しました。(2018/07/29)
「カウント情報取得 | シミュレーションデータ | Biological rep. | 2群間 | 基礎 | LPEseq(Gim_2016)」を追加しました。今のところまだエラーが出ます。(2018/07/28)
「解析 | 発現変動 | 2群間 | 対応なし | 複製なし | LPEseq(Gim_2016)」を追加しました。(2018/07/27)
「カウント情報取得 | シミュレーションデータ | ...」のあたりを追加しました。(2018/07/22)
「解析 | 発現変動 | 2群間 | 対応なし | 複製なし | について」を追加しました。(2018/07/18)
「解析 | 発現変動 | 2群間 | 対応なし | 複製なし | edgeR(Robinson_2010)」を更新しました。(2018/07/18)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 基礎 | baySeq(Hardcastle_2010)」を更新しました。(2018/07/10)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 基礎 | EBSeq(Leng_2013)」を更新しました。(2018/07/09)
R version 3.5.1とversion 3.4.3でEBSeqパッケージを利用すべくlibrary(EBSeq)をしたら、内部的に利用するblockmodelingというパッケージのCITATIONが原因でロードできないエラーに遭遇しました。対処法はblockmodelingパッケージのフォルダ中にあるCITATIONというファイルの削除(私はこれでEBSeqをロードできるようになった)です。 blockmodelingフォルダのインストールされている場所がわからないヒトは、Windows2018.03.12版のスライド5などを参考にしてください。(2018/07/08)
「解析 | ChIP-seq | について」を更新しました。(2018/07/06)
「解析 | 機能解析 | GMTファイル取得 | について」を更新しました。(2018/07/06)
「カウント情報取得 | リアルデータ | SRP001540 | GSVAdata(Hänzelmann_2013)」を更新しました。(2018/07/03)
「解析 | 一般 | Sequence logos | ggseqlogo(Wagih_2017)」を(とりあえず項目のみ)追加しました。(2018/06/29)
「解析 | 一般 | Sequence logos | seqLogo」に項目名を変更しました。(2018/06/29)
「解析 | 一般 | Sequence logos | について」を追加しました。(2018/06/29)
「イントロ | NGS | アノテーション情報取得 | について」を更新しました。(2018/06/29)
「解析 | 機能解析 | GMTファイル取得 | について」を追加しました。(2018/06/27)
「解析 | 機能解析 | GMTファイル取得 | EGSEAdata(Alhamdoosh_2017)」を追加しました。(2018/06/27)
「解析 | 機能解析 | GMTファイル取得 | GeneSetDB(Araki_2012)」を追加しました。(2018/06/27)
「解析 | クラスタリング | について」を更新しました。(2018/06/27)
「解析 | 発現変動 | 時系列 | について」を更新しました。(2018/06/27)
「解析 | 分類 | について」を追加しました。(2018/06/27)
「解析 | 機能解析 | パスウェイ(Pathway)解析 | GSVA(Hänzelmann_2013)」を追加しました。(2018/06/26)
「解析 | 機能解析 | 遺伝子オントロジー(GO)解析 | GSVA(Hänzelmann_2013)」を追加しました。(2018/06/26)
「解析 | 機能解析 | 遺伝子セット解析 | GSVA(Hänzelmann_2013)」を更新しました。(2018/06/26)
「解析 | 機能解析 | 遺伝子オントロジー(GO)解析 | SeqGSEA(Wang_2014)」の記載事項を少し変更しました。具体的には、MSigDBからのgmtファイル取得に関する別項目を新たに作成したので、この中に記載していた該当部分を大幅に削りました。(2018/06/25)
「解析 | 機能解析 | GMTファイル読込 | GSEABase(Morgan_2018)」を追加しました。(2018/06/25)
「解析 | 機能解析 | GMTファイル取得 | MSigDB(Subramanian_2005)」を追加しました。(2018/06/25)
「解析 | 機能解析 | について」を追加しました。GSEA周辺の歴史や考え方、そしてどのようにして必要な情報を取得し解析するかについて、全貌をざっくりと書いてあります。(2018/06/25)
「カウント情報取得 | リアルデータ | SRP001540 | GSVAdata(Hänzelmann_2013)」を追加しました。(2018/06/22)
「カウント情報取得 | リアルデータ | SRP001540 | recount(Collado-Torres_2017)」を追加しました。(2018/06/22)
「インストール | Rパッケージ | 必要最小限プラスアルファ(数GB?!)」を更新しました。(2018/06/22)
「解析 | 機能解析 | 遺伝子オントロジー(GO)解析 | について」を更新しました。(2018/06/22)
「解析 | 機能解析 | パスウェイ(Pathway)解析 | について」を更新しました。(2018/06/22)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 応用 | Blekhmanデータ | TCC(Sun_2013)」を追加しました。(2018/06/18)
「解析 | 発現変動 | 2群間 | 対応なし | 複製なし | TCC(Sun_2013)」の項目を追加しました。(2018/06/17)
以下の2つの項目は、Rパッケージrecountを用いてウェブサイトrecount2にアクセスしてカウント情報を含む RangedSummarizedExperimentクラスオブジェクトという形式の.Rdataをダウンロードして、各種カウントデータを抽出したりするやり方を示しています。メタデータが公共DBに依存しており一筋縄ではいきませんので、ERP000546とSRP001558のやり方を見比べて一通りの例題をこなして経験を積んでおくことを強く推奨します。私はまだrecount2の原著論文を読んではおりませんが、提供されている生物種はおそらくヒトのみです。それでもなお、統一的な手順で得られたカウントデータを提供してくれてますので、様々なデータセットを直接比較できるというadvantageは非常に大きいと思います。(2018/06/10)
「カウント情報取得 | リアルデータ | ERP000546 | recount(Collado-Torres_2017)」を追加しました。(2018/06/10)
「カウント情報取得 | リアルデータ | SRP001558 | recount(Collado-Torres_2017)」を追加しました。(2018/06/10)
「カウント情報取得 | について」を追加しました。(2018/06/10)
「マップ後 | カウント情報取得 | single-end | ゲノム | アノテーション有 | HTSeq(Anders_2015)」の中身を変更しました。(2018/06/06)
「マップ後 | カウント情報取得 | single-end | ゲノム | アノテーション有 | HTSeq(Anders_2015)」を追加しました。(2018/05/30)
「イントロ | ファイル形式の変換 | GFF3 --> GTF」を追加しました。(2018/05/30)
「H29年度NGSハンズオン講習会」の報告書が公開されました。(2018/05/17)
Silhouetteスコアの新たな使い道提唱論文(Zhao et al., Biol. Proc. Online, 2018) の使い方を「解析 | 一般 | Silhouette scores(シルエットスコア)」に示しました。(2018/03/01)
Silhouetteスコアの新たな使い道提唱論文(Zhao et al., Biol. Proc. Online, 2018)がpublishされました。(2018/03/01)
アグリバイオインフォマティクス教育研究プログラムでは、平成30年度もバイオインフォ関連講義を行います。例年東大以外の企業の方、研究員、大学院生が2-3割程度受講しております。受講ガイダンスは、平成30年4月4日17:15より東大農学部2号館2階化学第一講義室で開催します。(2018/03/08)
「作図 | M-A plot | 基礎 | 2. 発現変動遺伝子を色分けする」の例題5で示しているように、 TCCの推奨手順（内部的にDESeq2を利用）で複製なしデータの発現変動解析を行ったときに、明らかにおかしな結果になる場合があることが判明しましたのでお知らせします(南茂隆生氏提供情報)。私がこれまで動作確認用で用いてきた複製なしデータ（data_hypodata_1vs1.txt）ではうまくいっていたので、今まで全くこの問題に気づきませんでした。私どもを信頼してTCCを利用して頂いていた皆さま、大変申し訳ありませんでしたm(_ _)m もう少し詳細な内容については例題5のところにも記載しております。もしM-A plotで眺めて「明らかに変」な結果に遭遇した方が他にいらっしゃいましたら、ご連絡いただければ幸いです。尚、当面の対策としては、とりあえずは現状の推奨手順でやっていただいて、M-A plotが変じゃなければそのままでよいと思います。もし変な結果が得られれば、内部的にDESeq2ではなくDESeqを用いるTCCの利用で満足のいく結果が得られるものと期待されます。大変貴重な情報をお寄せいただいた南茂隆生氏、およびDESeq2開発者とのやりとりや現象の把握に尽力してくださった孫建強氏に感謝申し上げますm(_ _)m。尚、私の動作環境はWindows, R ver. 3.3.3, TCC ver. 1.14.0, DESeq2 ver. 1.14.1です。(2018/01/12)
「作図 | M-A plot...」のあたりが2012年頃の古い記述のままになっていたので更新しました。(2018/01/11)
「サンプルデータ」を更新しました。例題45と46です（孫建強氏提供情報）。ついでに例題44のrecount2の論文 (Collado-Torres et al., Nat Biotechnol., 2017)情報を更新しました。(2018/01/11)
2017年
Dr. Bonoの生命科学データ解析というバイオインフォマティクス初学者向けの本が出版されています。この教科書を読めばバイオインフォの基礎知識や基本的な考え方などを体系的に学べます。 NGSハンズオン講習会で専門用語などについていけなかったヒトは、この教科書で基礎知識を補っておくとよいと思います。(2017/10/06)
「参考資料 | 講習会、講義、講演資料」を更新しました。(2017/09/07)
R (ver. 3.4.1; 2017年5月以降ごろから使えるやつ)のTCCパッケージ利用時に、Macユーザの方がエラーが出るようです。対策は、「R ver. 3.3.3などちょっと古いバージョンのものを使う」です。原因はTCC内部で利用しているsamrパッケージにバグが含まれており（2017年7月31日現在）、これをインストールできないからです。お気を付けください(マックユーザ2名からの提供情報)。(2017/07/31)
「イントロ | 一般 | 配列取得 | プロモーター配列 | GenomicFeatures(Lawrence_2013)」の例題12で、コンティグ（配列）数が複数で「FASTAファイルには存在するがGFFファイル中には存在しない配列があった場合」に不都合が生じる問題を回避できるコードに書き換えました(野間口達洋氏提供情報)。(2017/06/23)
解析 | 菌叢解析 | についてをアップデートしました。(2017/06/04)
Galaxyのウェブサイトのリンク先をhttp://usegalaxy.org/からhttps://galaxyproject.org/に変更しました。(2017/03/17)
私の所属するアグリバイオインフォマティクス教育研究プログラムでは、平成29年度もバイオインフォ関連講義を行います。例年東大以外の企業の方、研究員、大学院生が2-3割程度受講しております。受講ガイダンスは4月5日17:15- 於東大農です。例年アグリバイオ所有ノートPCは台数が絶対的に足りないので、特に外部の受講希望者はできるだけ基本的に3時間以上バッテリーがもつノートPCを用意して臨んで下さい。(2017/02/20)
2016年
「解析 | 一般 | アラインメント | ...」周辺の項目名を整理しました。(2016/12/29)
2016年10月5-6日に東京大学弥生講堂一条ホールにてトーゴーの日シンポジウム2016 が開催されます。主催はNBDC!。NGSハンズオン講習会では裏方に徹して事前準備から後片付けまで大変お世話になりましたm(_ _)m。講習会受講者アンケートで書かれていた希望や要望の一部はポスター発表者への質問で解決するかもしれません。興味ある方は是非ご参加ください。(2016/09/30)
「解析 | 発現変動 | 3群間 | 対応なし | 複製なし | DESeq2(Love_2014)」を作成しました。(2016/06/01)
「解析 | クラスタリング | 遺伝子間(応用) | TCC正規化(Sun_2013)+MBCluster.Seq(Si_2014)」のリンク先が切れていたのを修正しました。コードも若干変更しました。(2016/05/30)
これまでずっと放置していた「FDR < 閾値」という変な表現を、やっと「FDR = 閾値 (q-value < 閾値)」に修正しはじめました。該当箇所は多数あります（爆）。(2016/05/23)
「解析 | 発現変動 | 2群間 | 対応なし | 複製なし | DESeq2(Love_2014)」を作成しました。 DESeq2のq-valueと、DESeq2のp-valueからp.adjust関数を用いて得られたq-value (adjusted p-value)に大きく違いが出るデータに初めて遭遇し、私も驚いています。(2016/05/22)
解析 | 発現変動 | 2群間 | 対応なし | 複製なし | TCC(Sun_2013)で、内部的に用いる方法をDESeqからDESeq2に変更しました。(2016/05/21)
R ver. 3.3.0、およびBioconductor ver. 3.3がリリースされています。NGSハンズオン講習会の講義資料はこのバージョンで作成、動作確認予定です。(2016/05/10)
ウェブページが大きくなりすぎて重いのは承知しておりますw。2016年8月のNGSハンズオン講習会後に、ページを2分割予定ですm(_ _)m(2016/04/27)
「イントロ | 一般 | 任意のキーワードを含む行を抽出(基礎)」で、例題4以降の多くのものについて、不具合修正やコメントを追加しました(アグリバイオ受講生提供情報)。(2016/04/20)
QuasRでBowtieのマッピングを行う場合に、（内部的にはbowtie1が動いているため）リード長が1本でも1,024 bpを超えたものがあればコケマス（1024 bpはセーフで1025 bpはアウト）のでご注意ください(高橋広夫氏提供情報)。(2016/04/06)
RNA-Seq実験ハンドブック(鈴木穣編)が刊行されます。(2016/03/22)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 応用 | TCC正規化(Sun_2013)+baySeq(Hardcastle_2010)」が一通り動くようになりました。TCC正規化を含めることでAUC値（感度・特異度）が上がっているところまでは確認済みです。(2016/03/13)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 応用 | TCC正規化(Sun_2013)+EBSeq(Leng_2013)」が一通り動くようになりました。TCC正規化を含めることでAUC値（感度・特異度）が上がっているところまでは確認済みです。(2016/03/13)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり | 基礎 | baySeq(Hardcastle_2010)」が一通り動くようになりました。(2016/03/07)
マッピングやカウント情報取得の周辺項目をアップデートしています。(2016/02/12)
使えなくなった関数名makeTranscriptDbFromGFFをmakeTxDbFromGFFに全て変更しました。これに関連するTranscriptDbという記述をTxDbに変更しました。(2016/02/09)
Erratum。2014.06.25のアグリバイオ大学院講義資料中で「アセンブル結果で平均コンティグ長やN50を大きくするには、kの値を小さめにすればいい」と全く逆のことを書いていることに、今頃気づきました。正しくは大きめにすればいいです。 (見てるヒトはほとんどいないと思いますがw)念のため修正版に差し替えてあります。大変失礼しましたm(_ _)m(2016/02/01)
2015年
解析 | 一般 | アラインメント | についてを追加しました。(2015/12/16)
xlsx形式ファイルを読み込むやり方を「イントロ | 一般 | 読み込み | xlsx形式 | openxlsx」に示しました。(2015/11/15)
2015年4-10月初旬頃Bioconductor提供パッケージ群をインストールしていた方は、おそらくR本体のバージョンがR ver. 3.2.0(2015-04-16リリース)またはver. 3.2.1(2015-06-18リリース)だろうと思います。この方々が、私の推奨手順通りに2015年11月にR ver. 3.2.2(2015-08-14リリース)でパッケージのアップデートをする際に遭遇するかもしれないエラーとその対処法をインストール | についてに示しました。(2015/11/12)
多群間比較用の推奨ガイドライン提唱論文(Tang et al., BMC Bioinformatics, 2015)がpublishされました。論文概要については門田のページでも紹介しています。講習会でよく述べている「サンプル間クラスタリング結果からDEG検出結果のおおよその見積もりが可能である」という主張の根拠となる原著論文がこれになります。推奨ガイドライン周辺の関連項目もアップデートしました。(2015/11/05)
sample1.fastaのような配列が1つしかない場合に、 rowSums(x)の計算時にエラーが出ることがわかったので、該当箇所をapply(as.matrix(x), 1, sum)のような感じに変更しました。(2015/09/12)
解析 | 発現変動 | 時系列 | maSigPro(Nueda_2014)が一通りできるようになりました。まだ完全には結果を解釈しきれていませんが、「fit$SELEC」で見えているものがDEGの発現パターンであり、「out$summary」がDEGのIDリストです。(2015/08/16)
イントロ | 一般 | 配列取得 | プロモーター配列 | GenomicFeatures(Lawrence_2013)の例題5で、取得したい領域がsense, antisense両方ともゲノム配列の範囲内に収まるものだけを抽出して出力するよりよいコードに書き換えました(甲斐政親氏提供情報)。(2015/08/14)
イントロ | 一般 | 配列取得 | プロモーター配列 | GenomicFeatures(Lawrence_2013)の例題4で、取得したい領域がsense, antisense両方ともゲノム配列の範囲内に収まるものだけを抽出して出力するよりよいコードに書き換えました(甲斐政親氏提供情報)。他の部分についても順次反映させていきます。(2015/08/04)
前処理 | クオリティチェック | Overrepresented sequences | ShortRead(Morgan_2009)の「ファイルに保存」の部分で「tmp <- cbind(names(out), out)」と書くのは冗長であるとの指摘を受けたのでその周辺を修正しました（野間口達洋氏提供情報）。(2015/07/29)
前処理 | フィルタリング | paired-end | 配列長とN数 | QuasR(Gaidatzis_2015)を作成し、リード数が同じpaired-endデータを入力として許容する最短配列長やN数でフィルタリングするやり方を示しました（Thanks to Dr. Stadler）。(2015/06/26)
前処理 | トリミング | アダプター配列除去(応用) | QuasR(Gaidatzis_2015)で QuasRの枠組みでpaired-endデータを処理する手順を示しました（Thanks to Dr. Stadler）。(2015/06/26)
「前処理 | トリミング」と「前処理 | フィルタリング」の順番を入れ替えました。(2015/06/26)
前処理 | フィルタリング | paired-end | 共通リード抽出 | ShortRead(Morgan_2009)でリード数の異なるpaired-endデータへの対応が完了しました。(2015/06/26)
前処理 | トリミング | アダプター配列除去(基礎) | QuasR(Gaidatzis_2015)などで param_nrecが適切に反映されるように修正しました（中村浩正氏提供情報）。(2015/06/24)
イントロ | NGS | 読み込み | FASTQ形式 | 基礎の例題8でNAへの対処法を追加しました（茂木朋貴氏、野間口達洋氏、他多くの受講生提供情報）。(2015/06/23)
「前処理 | トリミング | アダプター配列除去」周辺の項目を更新しました。(2015/06/23)
イントロ | NGS | 読み込み | FASTQ形式 | 応用でgzip圧縮FASTQファイルからメモリを消費せず（一旦全部読み込むことをせずに）にサブセットを取り出す方法を示しました（野間口達洋氏提供情報）。(2015/06/18)
前処理 | クオリティチェック | QuasR(Gaidatzis_2015)の項目を追加しました。(2015/06/15)
「イントロ | NGS | 読み込み | BSgenome | 基本情報を取得」でマウスやヒトゲノムを解析する際に生じていた「整数オーバーフロー問題」を回避するコードに変更しました（野間口達洋氏提供情報）。(2015/05/27)
Rパッケージのインストールで、RobLoxBioC パッケージが2015年現在のR本体の最新リリースに対応していないとのことでリストから外しました。(2015/05/25)
Rパッケージのインストール周辺で、limma (Ritchie et al., Nucleic Acids Res., 2015)をBioconductorから取得しないといけないにもかかわらずCRANから取得しようとしてこけていたのに気づきました。修正済みですm(_ _)m(2015/05/25)
「アセンブル | ゲノム用」の情報を更新しました。(2015/05/15)
パッケージのインストールのところで、SAFEではなくsafeパッケージであるというご指摘をいただきましたので該当箇所を修正しました（野間口達洋氏提供情報）。(2015/04/24)
「アセンブル | トランスクリプトーム(転写物)用」の情報を更新しました。(2015/04/22)
私の所属するアグリバイオインフォマティクス教育研究プログラムでは、平成27年度もバイオインフォ関連講義を行います。例年東大以外の企業の方、研究員、学生が2-3割程度受講しております。受講ガイダンスは4月6日17:15- 於東大農です。(2015/03/31)
R本体およびパッケージのインストール手順のところを更新しました。詳細はインストール | についてをごらんください。(2015/04/02)
MBCluster.Seqパッケージを用いた遺伝子間クラスタリングのやり方を一通り示しました。(2015/03/14)
翻訳配列取得において、seqinrパッケージを用いてtranslate関数を実行するほうが翻訳できないコドンはアミノ酸X(不明なアミノ酸)に変換してくれたり、ambiguous=Tオプションを利用することで翻訳できるものは可能な限り翻訳してくれる(高橋広夫氏提供情報) ということで、周辺情報を追加しました。lapply関数を用いるやり方(高橋広夫氏提供情報)とsapply関数を用いるやり方(甲斐政親氏提供情報)を示しています。(2015/03/09)
QuasRパッケージを用いてマッピングをする際に、getwd()で見られるパス名の中に日本語が含まれているとエラーが出る(高橋広夫氏提供情報)とのお知らせをいただきました。ご注意ください。(2015/03/08)
seqinrパッケージの原著論文(Charif et al., Bioinformatics, 2005)を2007年のものから変更しました。(2015/03/08)
TxDb周辺情報で、GFFファイルの読み込み時にChrCが環状ゲノムと指定するやり方(高橋広夫氏提供情報)を追加しました。(2015/03/04)
「作図 | クラスタリング」周辺の情報を追加しました。(2015/02/15)
「作図 | ROC曲線」周辺で、発現変動ランキング結果のROC曲線やAUC値の感覚を理解するための例題を充実させています。(2015/02/08)
「解析 | 発現変動 | 3群間 | 対応なし | 複製あり」周辺の情報を追加しました。(2015/02/04)
「解析 | シミュレーションカウントデータ」周辺で、発現変動解析時に動作確認用として用いるシミュレーションカウントデータを自在に作成するための項目を充実させつつあります。(2015/01/25)
QuasRパッケージ(Gaidatzis et al., Bioinformatics, 2015) 中のextractTranscriptsFromGenome関数実行部分でエラーが出るようです(QuasR ver. 1.6.2あたり; Bioconductor 3.0)。対策として当該関数をとりあえずextractTranscriptSeqsに変更しました。(2015/01/21)
2014年
門田幸二著シリーズ Useful R 第7巻トランスクリプトーム解析、およびこのウェブページ中で頻用させていただいているQuasR パッケージの原著論文(Gaidatzis et al., Bioinformatics, 2015)が公開されたので関連個所をアップデートしました。(2014/12/03)
「解析 | ChIP-seq | について」の情報を少しアップデートして、実験医学2014年12月号にも掲載されているSraTailor (Oki et al., Genes Cells., 2014)の情報などを追加しました。(2014/11/25)
ウェブサーバ引っ越し作業のため、11/25前後でダウン予定（最長で11/21-26）です。(2014/11/06)
NGS解析に限らず、Rに限らず、多くの研究者が持っている一通りのデータ解析に関する解説付きのコマンド集を充実させていければと思っています。とりあえずこのサイトでは（○○氏提供情報）とさせていただきますので、情報をお寄せいただければ幸いです。長期的にはこのサイトでなくてもいいので日本全体のノウハウ集や教材を統合DB的に集約するような枠組みになればと思っています。(2014/09/27)
2014年10月04日にHPCIワークショップ「医療とビッグデータ解析」(9:00-9:20)に引き続いて中級者向けバイオインフォマティクス入門講習会@仙台国際センター(10:50-12:20)で話します。スライド中のhogeフォルダの圧縮ファイルはhoge.zip(20140929, 22:27版)です。 20140819版から、htmlのスタイルファイル情報を追加して見栄えをよくしただけです(2014/09/29)
入出力のファイル名について、FASTA形式ファイルの拡張子は.fasta、FASTQ形式ファイルの拡張子は.fastqに変更する作業がほぼ完了しております。(2014/07/17)
配列長とカウント数の関係のところで、 boxplotでの描画の際にparam個で分割(20分割など)するテクニックとして「floor(nrow(data)/param)+1」としていましたが、これだと割り切れる場合でも+1してしまうことが判明したため「ceiling(nrow(data)/param)」に修正しました(佐伯亘平氏提供情報)。(2014/07/03)
2014年07月22日にイルミナウェビナーで話します。興味ある方はどうぞ。(2014/06/30)
writeFastq関数のデフォルトがgzip圧縮(孫建強氏提供情報)であることが分かったので関連項目を修正しました。これに関連して、FASTA形式ファイルの拡張子は.fasta、FASTQ形式ファイルの拡張子は.fastqに順次変更していきます。(2014/06/15)
2014年06月12日にNAIST植物グローバル教育プロジェクト・平成26年度ワークショップ「ImageJ+Rハンズオン実習2014」が開催されます。特に門田の部分を受講したい方は2014年4月22日に作成したより詳細なインストール手順(Windows版)を参考にしてインストールしておいてください。 Mac版のインストール手順(by 孫建強氏)もあります。 Macのヒトの注意点は、「Mac OS X のバージョンに関わらず R-3.1.0-snowleopard.pkg をインストールしたほうがよい」です。また、実習用データ(hoge.zip; 約40MB)もダウンロードしておいてください。(2014/05/14)
機能解析の遺伝子オントロジー(GO)解析とパスウェイ(Pathway)解析周辺を更新し、SeqGSEAパッケージを用いた解析のみですが一通りできるようにしました。(2014/03/30)
私の所属するアグリバイオインフォマティクス教育研究プログラムでは、平成26年度も（東大生に限らず）バイオインフォ関連講義を行います。 4/9に私の第一回目の講義がありましたが、過去最高の123名の出席がありました。例年東大以外の企業の方、研究員、学生が二割程度は受講しております。このウェブページと直接関連する講義は「ゲノム情報解析基礎」と「農学生命情報科学特論I」ですが、背景理論の説明などは「機能ゲノム学」でも行います。興味ある科目のみの受講も可能ですので、お気軽にどうぞ。(2014/04/10)
一連の解析パイプライン(RNA-seqデータ取得 -> マッピング -> カウントデータやRPKMデータ取得 -> サンプル間クラスタリングや発現変動解析およびM-A plot描画まで)のクラスタリング部分をアップデートしました。項目名の一番下のほうです。(2014/02/26)
2014年3月17-19日に九州大学にて、ワークショップ(よく分かる次世代シークエンサー解析～最先端トランスクリプトーム解析～)が開催されます。私は3日目(3/19, 13:00-16:30)を担当します。興味ある方はどうぞ。締切は確か2/21です。(2014/02/17)
項目名の整理を行っています。3C (Hi-C)やBS-seq周辺についても少し言及してあります。(2014/02/08)
2013年
発現変動解析用RパッケージTCC (ver. 1.2.0; Sun et al., BMC Bioinformatics, 2013)がBioconductorよりリリースされました。最新版を利用したい方は、R (ver. 3.0.2)をインストールしたのち、Bioconductor (ver. 2.13)をインストールしてください。(2013/10/17)
どのブラウザからでもエラーなく見られる(W3C validation)ように((Rで)マイクロアレイデータ解析も含めて)リニューアルしました。(2013/07/30)
2013年7月29日まで公開していた以前の「(Rで)塩基配列解析」のウェブページや関連ファイルはRdeennki.zipからダウンロード可能です(110MB程度)。(2013/07/30)
平成26年3月7日に東京お台場にて、HPCIチュートリアルの一部としてRでゲノム・トランスクリプトーム解析を行います。情報はかなりアップデート予定ですが、既にキャンセル待ちなようですみませんm(_ _)m(2013/11/25)
2013年6月6日に開催されたNAIST植物グローバル教育プロジェクト・平成25年度ワークショップのときに利用した、R(ver. 3.0.1)とTCC(ver. 1.1.99)などのインストール方法はこちら(Windows用のみ；hoge.zipはおまけ)です。
平成25年6月27日、7月3, 4日にこのウェブページ関連の実習を含む講義（農学生命情報科学特論I）を行います。東大生以外の外部の方も受講可能です。詳しくは事務局までお問い合わせください。(2013/06/08)
廃止予定の関数名(read.DNAStringSet -> readDNAStringSetなど)や「前処理 | 正規化...」周辺の項目名の変更をしました。(2013/01/16)
2012年
htmlのタグに問題があるらしくfirefoxでエラーという指摘をTbT論文共著者の西山さんから受けましたのでその周辺を修正しました。(2012/11/15)
R2.15.2がリリースされていたのでこれに変更しました。(2012/11/15)
若干項目名を（あまりにも場違いだったものを）変更しました、直接リンクを張ってたかた、すみませんm(_ _)m。(2012/07/12)

インストール | について

以下は、「インストール | R本体とRStudio | 最新版」と「インストール | Rパッケージ | 必要最小限プラスアルファ」の推奨インストール手順をまとめたものです。私の環境は、Windows PCは(Windows 10; 64 bit)、Macintosh PCはMacBook Pro (MacOS Monterey Ver.12.3.1; 64 bit)です。

Windows版(R_install_win.pdf; 2022.05.16版)
Macintosh版(R_install_mac.pdf; 2022.05.17版)

インストール | R本体とRStudio | 最新版 | Win用

最新版（リリース版のこと）は、下記手順を実行します。インストールが無事完了したら、デスクトップに「R x64 4.X.Y」アイコンが作成されます(XやY中の数値はバージョンによって異なります)。 2022年05月01日現在の最新版は、R-4.2.0-win.exeです。

Rのインストーラを「実行」
基本的には「次へ」などを押しながらインストールを完了させる
「コントロールパネル」−「デスクトップのカスタマイズ」−「フォルダオプション」−「表示（タブ）」−「詳細設定」のところで、「登録されている拡張子は表示しない」のチェックを外してください。
RStudioのダウンロードサイトをクリックし、「RStudio-2022.02.1-461.exe」と酷似したファイル名のものをクリック。

インストール | R本体とRStudio | 最新版 | Mac用

最新版（リリース版のこと）は、下記手順を実行します。インストールが無事完了したら、 Finderを起動して、左のメニューの「アプリケーション」をクリックすると、Rのアイコンが作成されていることが確認できます。 2022年05月16日現在の最新版は、R-4.2.0.pkgです。

http://cran.r-project.org/bin/macosx/の「R-4.X.Y.pkg」をクリック。 (XやY中の数値はバージョンによって異なります)
ダウンロードしたファイルをダブルクリックして、基本的には「次へ」などを押しながらインストールを完了させる
「Finder」-「環境設定」-「詳細」タブのところで「すべてのファイル名拡張子を表示」にチェックを入れる。
RStudioのダウンロードサイトをクリックし、「RStudio-2022.02.1-461.dmg」と酷似したファイル名のものをクリック。
XQuartzをインストール(2022/05/16追加)

インストール | R本体 | 過去版 | Win用

昔のバージョンをインストールしたい局面もごく稀にあると思います。その場合は、ここをクリックして、任意のバージョンのものをインストールしてください。例えば、2014年10月リリースのver. 3.1.2をインストールしたい場合は、 3.1.2をクリックして、「Download R 3.1.2 for Windows」をクリックすれば、後は最新版と同じです。

インストール | R本体 | 過去版 | Mac用

昔のバージョンをインストールしたい局面もごく稀にあると思います。その場合は、http://cran.r-project.org/bin/macosx/old/またはhttps://cran.r-project.org/bin/macosx/base/をクリックして、任意のバージョンのものをインストールしてください。例えば、2014年10月リリースのver. 3.1.2をインストールしたい場合は、ページ下部の「R-3.1.2-marvericks.pkg」をクリックすれば、後は最新版と同じです。2022年12月03日現在、Windowsの場合はR本体のバージョンがver. 4シリーズもver. 3シリーズもここの同じリンク先から見られます。しかし、Macの場合はhttp://cran.r-project.org/bin/macosx/old/だとver. 3シリーズのみしか見られませんのでご注意ください。https://cran.r-project.org/bin/macosx/base/にはver. 4シリーズがリストアップされています(2022.12.03追加)。

インストール | Rパッケージ | について

アグリバイオで所有するノートPCは、基本的に「インストール | Rパッケージ | 必要最小限プラスアルファ」を利用してパッケージ群を一度にインストールしています。しかし、コロナ禍や講義で用いるパッケージの変遷などを経て、多少の不具合を許容しつつシンプルにインストールできる方針に変更しました(2022年3月30日)。「インストール | Rパッケージ | 個別(2018年11月以降)」のところは、インストールされていない(or されなかった)パッケージを個別にインストールする際に利用してください。

インストール | Rパッケージ | 必要最小限プラスアルファ

アグリバイオで所有するノートPCは、Rパッケージの2大リポジトリであるCRANと Bioconductor（およびGithub）から提供されている以下のパッケージ群をインストールしています。 30分程度でインストールが完了します(自宅の光の無線LAN環境)。

1. RStudioを起動

2. パッケージ群のインストール

以下を「R コンソール画面」上でコピー&ペースト。どこからダウンロードするか？と聞かれるので、その場合は自分から近いサイトを指定。「no」の行に対するエラーは気にしなくて大丈夫です（Mac対応です）。

#前処理(BiocManagerがなければインストール)
if (!requireNamespace("BiocManager", quietly=T))#BiocManagerパッケージがインストールされてなければ...
    install.packages("BiocManager")    #BiocManagerをインストールせよ
    
#本番1(CRANから提供されているパッケージ群)
BiocManager::install("ape", update=F)
BiocManager::install("bio3d", update=F)
BiocManager::install("blockmodeling", update=F)
BiocManager::install("bit", update=F)
BiocManager::install("cclust", update=F)
BiocManager::install("class", update=F)
BiocManager::install("cluster", update=F)
BiocManager::install("clValid", update=F)
BiocManager::install("corrplot", update=F)
BiocManager::install("data.table", update=F)
BiocManager::install("devtools", update=F)
BiocManager::install("dplyr", update=F)
BiocManager::install("DT", update=F)
BiocManager::install("e1071", update=F)
BiocManager::install("fansi", update=F)
BiocManager::install("ff", update=F)
BiocManager::install("fields", update=F)
BiocManager::install("FinePop", update=F)
BiocManager::install("FinePop2", update=F)
BiocManager::install("FIT", update=F)
BiocManager::install("fitdistrplus", update=F)
BiocManager::install("GeneCycle", update=F)
BiocManager::install("GGally", update=F)
BiocManager::install("glmnet", update=F)
BiocManager::install("gptk", update=F)
BiocManager::install("GSA", update=F)
BiocManager::install("heatmaply", update=F)
BiocManager::install("kernlab", update=F)
BiocManager::install("KernSmooth", update=F)
BiocManager::install("knitr", update=F)
BiocManager::install("mapdata", update=F)
BiocManager::install("maps", update=F)
BiocManager::install("MASS", update=F)
BiocManager::install("microseq", update=F)
BiocManager::install("mixOmics", update=F)
BiocManager::install("MVA", update=F)
BiocManager::install("openxlsx", update=F)
BiocManager::install("Peptides", update=F)
BiocManager::install("phateR", update=F)
BiocManager::install("plotly", update=F)
BiocManager::install("PoissonSeq", update=F)
BiocManager::install("pvclust", update=F)
BiocManager::install("qqman", update=F)
BiocManager::install("R6", update=F)
BiocManager::install("randomForest", update=F)
BiocManager::install("RColorBrewer", update=F)
BiocManager::install("rclipboard", update=F)
BiocManager::install("RCurl", update=F)
BiocManager::install("rentrez", update=F)
BiocManager::install("rgl", update=F)
BiocManager::install("rmarkdown", update=F)
BiocManager::install("rrBLUP", update=F)
BiocManager::install("Rtsne", update=F)
BiocManager::install("samr", update=F)
BiocManager::install("scatterplot3d", update=F)
BiocManager::install("seqinr", update=F)
BiocManager::install("shiny", update=F)
BiocManager::install("shinyBS", update=F)
BiocManager::install("shinycssloaders", update=F)
BiocManager::install("shinydashboard", update=F)
BiocManager::install("shinyWidgets", update=F)
BiocManager::install("som", update=F)
BiocManager::install("st", update=F)
BiocManager::install("survminer", update=F)
BiocManager::install("tidyverse", update=F)
BiocManager::install("umap", update=F)
BiocManager::install("varSelRF", update=F)
BiocManager::install("xfun", update=F)
BiocManager::install("zeallot", update=F)
BiocManager::install("zoo", update=F)

#本番2(Bioconductorから提供されているゲノム配列以外のパッケージ群)
BiocManager::install("affy", update=F)
BiocManager::install("agilp", update=F)
BiocManager::install("annotate", update=F)
BiocManager::install("ArrayExpress", update=F)
BiocManager::install("baySeq", update=F)
BiocManager::install("beadarray", update=F)
BiocManager::install("BeadDataPackR", update=F)
BiocManager::install("betr", update=F)
BiocManager::install("BHC", update=F)
BiocManager::install("biomaRt", update=F)
BiocManager::install("Biostrings", update=F)
BiocManager::install("BSgenome", update=F)
BiocManager::install("bsseq", update=F)
BiocManager::install("Category", update=F)
BiocManager::install("ChIPpeakAnno", update=F)
BiocManager::install("chipseq", update=F)
BiocManager::install("ChIPseqR", update=F)
BiocManager::install("ChIPsim", update=F)
BiocManager::install("clusterStab", update=F)
BiocManager::install("cosmo", update=F)
BiocManager::install("CSAR", update=F)
BiocManager::install("dada2", update=F)
BiocManager::install("DECIPHER", update=F)
BiocManager::install("DEGseq", update=F)
BiocManager::install("DESeq", update=F)
BiocManager::install("DESeq2", update=F)
BiocManager::install("DiffBind", update=F)
BiocManager::install("doMC", update=F)
BiocManager::install("EDASeq", update=F)
BiocManager::install("edgeR", update=F)
BiocManager::install("EGSEA", update=F)
BiocManager::install("EGSEAdata", update=F)
BiocManager::install("gage", update=F)
BiocManager::install("genefilter", update=F)
BiocManager::install("GenomicAlignments", update=F)
BiocManager::install("GenomicFeatures", update=F)
BiocManager::install("GEOquery", update=F)
BiocManager::install("ggplot2", update=F)
BiocManager::install("girafe", update=F)
BiocManager::install("GLAD", update=F)
BiocManager::install("golubEsets", update=F)
BiocManager::install("GSAR", update=F)
BiocManager::install("GSEABase", update=F)
BiocManager::install("GSVA", update=F)
BiocManager::install("GSVAdata", update=F)
BiocManager::install("Heatplus", update=F)
BiocManager::install("illuminaMousev2.db", update=F)
BiocManager::install("impute", update=F)
BiocManager::install("limma", update=F)
BiocManager::install("lumi", update=F)
BiocManager::install("marray", update=F)
BiocManager::install("maSigPro", update=F)
BiocManager::install("MBCluster.Seq", update=F)
BiocManager::install("MLSeq", update=F)
BiocManager::install("msa", update=F)
BiocManager::install("Mulcom", update=F)
BiocManager::install("multtest", update=F)
BiocManager::install("NOISeq", update=F)
BiocManager::install("htSeqTools", update=F)
BiocManager::install("NBPSeq", update=F)
BiocManager::install("OCplus", update=F)
BiocManager::install("org.Hs.eg.db", update=F)
BiocManager::install("parathyroidSE", update=F)
BiocManager::install("pathview", update=F)
BiocManager::install("pcaMethods", update=F)
BiocManager::install("pcot2", update=F)
BiocManager::install("pd.rat230.2", update=F)
BiocManager::install("PGSEA", update=F)
BiocManager::install("phyloseq", update=F)
BiocManager::install("PICS", update=F)
BiocManager::install("plier", update=F)
BiocManager::install("puma", update=F)
BiocManager::install("qrqc", update=F)
BiocManager::install("QuasR", update=F)
BiocManager::install("r3Cseq", update=F)
BiocManager::install("RankProd", update=F)
BiocManager::install("recount", update=F)
BiocManager::install("REDseq", update=F)
BiocManager::install("rMAT", update=F)
BiocManager::install("Rsamtools", update=F)
BiocManager::install("rtracklayer", update=F)
BiocManager::install("safe", update=F)
BiocManager::install("SAGx", update=F)
BiocManager::install("segmentSeq", update=F)
BiocManager::install("seqLogo", update=F)
BiocManager::install("ShortRead", update=F)
BiocManager::install("sigPathway", update=F)
BiocManager::install("SpeCond", update=F)
BiocManager::install("SPIA", update=F)
BiocManager::install("splatter", update=F)
BiocManager::install("SplicingGraphs", update=F)
BiocManager::install("SRAdb", update=F)
BiocManager::install("tweeDEseqCountData", update=F)
BiocManager::install("TCC", update=F)
BiocManager::install("topGO", update=F)
BiocManager::install("TxDb.Hsapiens.UCSC.hg38.knownGene", update=F)
BiocManager::install("vsn", update=F)

#本番2.5(上記以外の手段でインストールするパッケージ)
#devtools::install_github("andrewsali/plotlyBars", upgrade=F)
#devtools::install_github("aroneklund/beeswarm", upgrade=F)
#no
#devtools::install_github("edwindj/ffbase", subdir="pkg", upgrade=F)
#no
#reticulate::py_install("phate", pip=TRUE)
#no

#本番3(Bioconductorから提供されているゲノム配列パッケージ群)
BiocManager::install("BSgenome.Hsapiens.UCSC.hg38", update=F)#ヒトゲノム(hg38)
BiocManager::install("BSgenome.Hsapiens.NCBI.GRCh38", update=F)#ヒトゲノム(hg38)機能ゲノム学の講義で利用するため2022.05.11にコメントアウトを外した
############

3. インストール確認

以下を「R コンソール画面」上でコピー&ペースト。代表的なパッケージ群が正しくインストールされたかを確認しています。ここの実行結果(特に2回目)で何のエラーメッセージも出なければOK。もし出たら、「インストール | Rパッケージ | 個別(2018年11月以降)」を参考にして、エラーが出たパッケージのインストールを個別に行ってください。

#1回目
library(ape)
library(baySeq)
library(beeswarm)
library(bio3d)
library(biomaRt)
library(Biostrings)
library(bit)
library(BSgenome)
library(BSgenome.Hsapiens.UCSC.hg38)
library(BSgenome.Hsapiens.NCBI.GRCh38)
library(cclust)
library(cluster)
library(clusterStab)
library(corrplot)
library(dada2)
library(data.table)
library(DESeq2)
library(devtools)
library(dplyr)
library(DT)
library(e1071)
library(edgeR)
library(ff)
library(fields)
library(FinePop)
library(FinePop2)
library(FIT)
library(fitdistrplus)
library(GenomicAlignments)
library(GenomicFeatures)
library(GGally)
library(ggplot2)
library(glmnet)
library(GSAR)
library(GSVA)
library(GSVAdata)
library(heatmaply)
library(KernSmooth)
library(knitr)
library(limma)
library(mapdata)
library(maps)
library(MASS)
library(MBCluster.Seq)
library(microseq)
library(msa)
library(MVA)
library(openxlsx)
library(org.Hs.eg.db)
library(pcaMethods)
library(Peptides)
library(phateR)
library(phyloseq)
library(plotly)
library(qqman)
library(qrqc)
library(QuasR)
library(R6)
library(randomForest)
library(RColorBrewer)
library(RCurl)
library(recount)
library(rgl)
library(rmarkdown)
library(rrBLUP)
library(Rsamtools)
library(rentrez)
library(rtracklayer)
library(Rtsne)
library(scatterplot3d)
library(seqinr)
library(seqLogo)
library(shiny)
library(shinydashboard)
library(shinyWidgets)
library(ShortRead)
library(som)
library(splatter)
library(SRAdb)
library(TCC)
library(tidyverse)
library(TxDb.Hsapiens.UCSC.hg38.knownGene)
library(BSgenome.Hsapiens.NCBI.GRCh38)
library(umap)
library(zoo)

#2回目(ここの実行結果でエラーが出てなければOK)
library(ape)
library(baySeq)
library(beeswarm)
library(bio3d)
library(biomaRt)
library(Biostrings)
library(bit)
library(BSgenome)
library(BSgenome.Hsapiens.UCSC.hg38)
library(cclust)
library(cluster)
library(clusterStab)
library(corrplot)
library(dada2)
library(data.table)
library(DESeq2)
library(devtools)
library(dplyr)
library(DT)
library(e1071)
library(edgeR)
library(ff)
library(fields)
library(FinePop)
library(FinePop2)
library(FIT)
library(fitdistrplus)
library(GenomicAlignments)
library(GenomicFeatures)
library(GGally)
library(ggplot2)
library(glmnet)
library(GSAR)
library(GSVA)
library(GSVAdata)
library(heatmaply)
library(KernSmooth)
library(knitr)
library(limma)
library(mapdata)
library(maps)
library(MASS)
library(MBCluster.Seq)
library(microseq)
library(msa)
library(MVA)
library(openxlsx)
library(org.Hs.eg.db)
library(pcaMethods)
library(phyloseq)
library(Peptides)
library(phateR)
library(plotly)
library(qqman)
library(qrqc)
library(QuasR)
library(R6)
library(randomForest)
library(RColorBrewer)
library(RCurl)
library(recount)
library(rgl)
library(rmarkdown)
library(rrBLUP)
library(Rsamtools)
library(rentrez)
library(rtracklayer)
library(Rtsne)
library(scatterplot3d)
library(seqinr)
library(seqLogo)
library(shiny)
library(shinydashboard)
library(shinyWidgets)
library(ShortRead)
library(som)
library(splatter)
library(SRAdb)
library(TCC)
library(tidyverse)
library(TxDb.Hsapiens.UCSC.hg38.knownGene)
library(umap)
library(zoo)
############

インストール | Rパッケージ | 個別(2018年11月以降)

文字通り、Rのパッケージを個別にインストールするやり方を示します。このウェブページでは、Bioconductorから提供されているパッケージを数多く利用しています。 2018年10月31日リリースのBioconductor 3.8より、インストール方法が変更されましたのでご注意ください。具体的には、biocLiteから、BiocManager::installを利用するやり方に変更されました。「BiocManager::install」は「BiocManagerというパッケージ中にあるinstall関数」という意味です。 intallという関数は他のパッケージでも提供されている可能性があるため、「どのパッケージが提供するinstall関数か」を明示したい場合に玄人がよく利用します。

1. ゼブラフィッシュゲノムのパッケージ(BSgenome.Drerio.UCSC.danRer7)をインストールしたい場合:

400MB程度あります...。

param <- "BSgenome.Drerio.UCSC.danRer7"#パッケージ名を指定

#本番
BiocManager::install(param, update=F)  #paramで指定したパッケージのインストール

#後処理(ウェブサイト上で見えているバージョンとの比較)
BiocManager::valid(param)              #TRUEはOK、too newでもまあOK、out-of-dateなら注意
packageVersion(param)                  #バージョン情報を表示

2. TxDb.Rnorvegicus.UCSC.rn5.refGeneパッケージのインストールをしたい場合：

param <- "TxDb.Rnorvegicus.UCSC.rn5.refGene"#パッケージ名を指定

#本番
BiocManager::install(param, update=F)  #paramで指定したパッケージのインストール

#後処理(ウェブサイト上で見えているバージョンとの比較)
BiocManager::valid(param)              #TRUEはOK、too newでもまあOK、out-of-dateなら注意
packageVersion(param)                  #バージョン情報を表示

3. TxDb.Hsapiens.UCSC.hg38.knownGeneパッケージのインストールをしたい場合：

param <- "TxDb.Hsapiens.UCSC.hg38.knownGene"#パッケージ名を指定

#本番
BiocManager::install(param, update=F)  #paramで指定したパッケージのインストール

#後処理(ウェブサイト上で見えているバージョンとの比較)
BiocManager::valid(param)              #TRUEはOK、too newでもまあOK、out-of-dateなら注意
packageVersion(param)                  #バージョン情報を表示

4. 線虫ゲノムのパッケージ(BSgenome.Celegans.UCSC.ce6)をインストールしたい場合:

20MB程度です。

param <- "BSgenome.Celegans.UCSC.ce6"  #パッケージ名を指定

#本番
BiocManager::install(param, update=F)  #paramで指定したパッケージのインストール

#後処理(ウェブサイト上で見えているバージョンとの比較)
BiocManager::valid(param)              #TRUEはOK、too newでもまあOK、out-of-dateなら注意
packageVersion(param)                  #バージョン情報を表示

5. TxDb.Celegans.UCSC.ce6.ensGeneパッケージのインストールをしたい場合：

param <- "TxDb.Celegans.UCSC.ce6.ensGene"#パッケージ名を指定

#本番
BiocManager::install(param, update=F)  #paramで指定したパッケージのインストール

#後処理(ウェブサイト上で見えているバージョンとの比較)
BiocManager::valid(param)              #TRUEはOK、too newでもまあOK、out-of-dateなら注意
packageVersion(param)                  #バージョン情報を表示

6. 大腸菌ゲノムのパッケージ(BSgenome.Ecoli.NCBI.20080805)をインストールしたい場合:

20MB程度です。

param <- "BSgenome.Ecoli.NCBI.20080805"#パッケージ名を指定

#本番
BiocManager::install(param, update=F)  #paramで指定したパッケージのインストール

#後処理(ウェブサイト上で見えているバージョンとの比較)
BiocManager::valid(param)              #TRUEはOK、too newでもまあOK、out-of-dateなら注意
packageVersion(param)                  #バージョン情報を表示

7. イヌゲノムのパッケージ(BSgenome.Cfamiliaris.UCSC.canFam3)をインストールしたい場合:

550MB程度です。

param <- "BSgenome.Cfamiliaris.UCSC.canFam3"#パッケージ名を指定

#本番
BiocManager::install(param, update=F)  #paramで指定したパッケージのインストール

#後処理(ウェブサイト上で見えているバージョンとの比較)
BiocManager::valid(param)              #TRUEはOK、too newでもまあOK、out-of-dateなら注意
packageVersion(param)                  #バージョン情報を表示

8. ショウジョウバエゲノムのパッケージ(BSgenome.Dmelanogaster.UCSC.dm2)をインストールしたい場合:

30MB程度です。

param <- "BSgenome.Dmelanogaster.UCSC.dm2"#パッケージ名を指定

#本番
BiocManager::install(param, update=F)  #paramで指定したパッケージのインストール

#後処理(ウェブサイト上で見えているバージョンとの比較)
BiocManager::valid(param)              #TRUEはOK、too newでもまあOK、out-of-dateなら注意
packageVersion(param)                  #バージョン情報を表示

9. イネゲノムのパッケージ(BSgenome.Osativa.MSU.MSU7)をインストールしたい場合:

100MB程度です。

param <- "BSgenome.Osativa.MSU.MSU7"#パッケージ名を指定

#本番
BiocManager::install(param, update=F)  #paramで指定したパッケージのインストール

#後処理(ウェブサイト上で見えているバージョンとの比較)
BiocManager::valid(param)              #TRUEはOK、too newでもまあOK、out-of-dateなら注意
packageVersion(param)                  #バージョン情報を表示

BiocManager

インストール | Rパッケージ | 個別(2018年11月以前)

このウェブページでは、Bioconductorから提供されているパッケージを数多く利用していますが、 2018年10月31日リリースのBioconductor 3.8よりインストール方法が変更されました。ここでは、2018年11月までの主な「Rパッケージを個別にインストールするやり方」を示します。

1. ゼブラフィッシュゲノムのパッケージ(BSgenome.Drerio.UCSC.danRer7)をインストールしたい場合:

400MB程度あります...。

param <- "BSgenome.Drerio.UCSC.danRer7"#パッケージ名を指定

#本番
source("http://bioconductor.org/biocLite.R")#おまじない
biocLite(param, suppressUpdates=TRUE)  #おまじない

2. TxDb.Rnorvegicus.UCSC.rn5.refGeneパッケージのインストールをしたい場合：

param <- "TxDb.Rnorvegicus.UCSC.rn5.refGene"#パッケージ名を指定

#本番
source("http://bioconductor.org/biocLite.R")#おまじない
biocLite(param, suppressUpdates=TRUE)  #おまじない

基本的な利用法

以下は、インストール | についてを参考にして必要なパッケージのインストールが完了済みのヒトを対象として、このウェブページの基本的な利用法を簡単に解説したものです。

Windows(2022.05.17版)：PPTX版とPDF版
Wac(2022.06.18版)：PPTX版とPDF版

サンプルデータ

Illumina/36bp/single-end/human (SRA000299) data (Marioni et al., Genome Res., 2008)
「Kidney 7 samples vs Liver 7 samples」のRNA-seqの遺伝子発現行列データ(SupplementaryTable2.txt)です。サンプルは二つの濃度(1.5 pM and 3 pM)でシーケンスされており、「3 pMのものが5 samples vs. 5 samples」、「1.5 pMのものが2 samples vs. 2 samples」という構成です。 SupplementaryTable2.txtをエクセルで開くと、7列目以降に発現データがあることがわかります。詳細な情報は以下の通りです(原著論文中のFigure 1からもわかります)：

7列目：R1L1Kidney (3 pM)
8列目：R1L2Liver (3 pM)
9列目：R1L3Kidney (3 pM)
10列目：R1L4Liver (3 pM)
11列目：R1L6Liver (3 pM)
12列目：R1L7Kidney (3 pM)
13列目：R1L8Liver (3 pM)
14列目：R2L1Liver (1.5 pM)
15列目：R2L2Kidney (3 pM)
16列目：R2L3Liver (3 pM)
17列目：R2L4Kidney (1.5 pM)
18列目：R2L6Kidney (3 pM)
19列目：R2L7Liver (1.5 pM)
20列目：R2L8Kidney (1.5 pM)

Illumina/36bp/single-end/human (SRA000299) data (Marioni et al., Genome Res., 2008)
Supplementary table 2のデータを取り扱いやすく加工したデータです。オリジナルのものは最初の6列が発現データ以外のものだったり、7列目以降も二種類のサンプルが交互に出てくるなど若干R上で表現しずらかったため、以下のようにわかりやすくしたものです。つまり、サンプルを3pMのものだけにして、「1列目:Genename, 2-6列目:Kidney群, 7-11列目:Liver群」と変更したSupplementaryTable2_changed.txtです：

2列目：R1L1Kidney (3 pM)
3列目：R1L3Kidney (3 pM)
4列目：R1L7Kidney (3 pM)
5列目：R2L2Kidney (3 pM)
6列目：R2L6Kidney (3 pM)
7列目：R1L2Liver (3 pM)
8列目：R1L4Liver (3 pM)
9列目：R1L6Liver (3 pM)
10列目：R1L8Liver (3 pM)
11列目：R2L3Liver (3 pM)

Illumina/36bp/single-end/human (SRA000299) data (Marioni et al., Genome Res., 2008)
上記SupplementaryTable2_changed.txtをさらに加工したデータ。 NGSデータは(マイクロアレイの黎明期と同じく)金がかかりますので(technical and/or biological) replicatesを簡単には増やせませんので、「1サンプル vs. 1サンプル」比較の局面がまだまだあろうかと思います。そこで、上記ファイルの2-6列目と7-11列目をそれぞれまとめた（総和をとった）ものSupplementaryTable2_changed2.txtです。

カウントデータ(SupplementaryTable2_changed.txt)と長さ情報ファイル(ens_gene_46_length.txt)を読み込んで、以下を実行して、「配列長情報を含み、カウント数の和が0より大きい行のみ抽出した結果」です。カウントデータファイル(data_marioni.txt)と配列長情報ファイル(length_marioni.txt)。

in_f1 <- "SupplementaryTable2_changed.txt"#入力ファイル名を指定してin_f1に格納(カウントデータファイル)
in_f2 <- "ens_gene_46_length.txt"      #入力ファイル名を指定してin_f2に格納(長さ情報ファイル)
out_f1 <- "data_marioni.txt"           #出力ファイル名を指定してout_f1に格納
out_f2 <- "length_marioni.txt"         #出力ファイル名を指定してout_f2に格納

#入力ファイルの読み込み
data <- read.table(in_f1, header=TRUE, row.names=1, sep="\t", quote="")#in_f1で指定したファイルの読み込み
len <- read.table(in_f2, header=TRUE, sep="\t", quote="")#in_f2で指定したファイルの読み込み
dim(data)                              #行数と列数を表示
dim(len)                               #行数と列数を表示

#本番(共通IDのもののみ抽出)
rownames(len) <- len[,1]               #行の名前としてIDを与えている
common <- intersect(rownames(len), rownames(data))#共通IDをcommonに格納
data <- data[common,]                  #共通IDのもののみ抽出
len <- len[common,]                    #共通IDのもののみ抽出
dim(data)                              #行数と列数を表示
dim(len)                               #行数と列数を表示
head(data)                             #確認してるだけです
head(len)                              #確認してるだけです

#本番(ゼロカウントデータのフィルタリング)
obj <- (rowSums(data) > 0)             #条件を満たすかどうかを判定した結果をobjに格納
data <- data[obj,]                     #objがTRUEとなる要素のみ抽出した結果をdataに格納
len <- len[obj,]                       #objがTRUEとなる要素のみ抽出した結果をlenに格納
dim(data)                              #行数と列数を表示
dim(len)                               #行数と列数を表示
head(data)                             #確認してるだけです
head(len)                              #確認してるだけです

#ファイルに保存
tmp <- cbind(rownames(data), data)     #保存したい情報をtmpに格納
write.table(tmp, out_f1, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存
write.table(len, out_f2, sep="\t", append=F, quote=F, row.names=F)#lenの中身を指定したファイル名で保存

ABI_SOLiD/25-35bp/single-end/mouse (SRA000306; EB vs. ES) data (Cloonan et al., Nat Methods, 2008)
Illumina/50bp/paired-end/mouse (SRA012213; liver) data (Robertson et al., Nat Methods, 2010)
Illumina/35bp/single-end/human (SRA010153; MAQC) data (Bullard et al., BMC Bioinformatics, 2010)
SRR037439から得られるFASTQファイルの最初の2000行分を抽出したMAQC2 brainデータ

非圧縮版：SRR037439.fastq

gzip圧縮版：SRR037439.fastq.gz
NBPSeqパッケージ(Di et al., SAGMB, 10:art24, 2011)中の ArabidopsisのBiological replicatesデータ(G1群3サンプル vs. G2群3サンプル; Cumbie et al., PLoS One, 2011)です。
26,221 genes×6 samplesの「複製あり」タグカウントデータ(data_arab.txt)

オリジナルは"AT4G32850"というIDのものが重複して存在していたため、19520行目のデータを除去してタブ区切りテキストファイルにしています。
ReCountデータベース(Frazee et al., BMC Bioinformatics, 2011)
マッピング済みの遺伝子発現行列形式のデータセットを多数提供しています。

Yeastの二群間比較用データ（2 mutant strains vs. 2 wild-types; technical replicates）

7065行 × 4列のyeast RNA-seqデータ(data_yeast_7065.txt)

yeastRNASeq (Lee et al., PLoS Genet., 2008)がインストールされていれば、R Console画面上で以下のコマンドのコピペでも取得可能です：

library(yeastRNASeq)                   #パッケージの読み込み
data(geneLevelData)                    #yeastRNASeqパッケージ中で提供されているデータをロード
dim(geneLevelData)                     #行数と列数を表示
head(geneLevelData)                    #最初の数行を表示

#ファイルに保存
tmp <- cbind(rownames(geneLevelData), geneLevelData)#geneLevelDataの「rownames情報(i.e., 遺伝子名)」と「カウントデータ」の行列を列方向で結合した結果をtmpに格納
write.table(tmp, "data_yeast_7065.txt", sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

上記Yeastの二群間比較用データを用いてGC-content normalizationなどを行う場合に必要な情報

yeast genes (SGD ver. r64)のGC含量(yeastGC_6717.txt)やlength情報(yeastLength_6717.txt)。
EDASeq (Risso et al., BMC Bioinformatics, 2011)がインストールされていれば、R Console画面上で以下のコマンドのコピペでも取得可能です：

library(EDASeq)                        #パッケージの読み込み
data(yeastGC)                          #yeastRNASeqパッケージ中で提供されているyeastのGC含量情報をロード
length(yeastGC)                        #要素数を表示
head(yeastGC)                          #最初の数個を表示

data(yeastLength)                      #yeastRNASeqパッケージ中で提供されているyeastの配列長情報をロード
length(yeastLength)                    #要素数を表示
head(yeastLength)                      #最初の数個を表示

#それぞれ別々のファイルに保存
tmp <- cbind(names(yeastGC), yeastGC)  #yeastGCの「names属性情報」と「GC含量」のベクトルを列方向で結合した結果をtmpに格納
write.table(tmp, "yeastGC_6717.txt", sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存
tmp <- cbind(names(yeastLength), yeastLength)#yeastLengthの「names属性情報」と「配列長」のベクトルを列方向で結合した結果をtmpに格納
write.table(tmp, "yeastLength_6717.txt", sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

「10.」と「11.」のファイルをもとに共通遺伝子(6685個)のみからなるのサブセットにしたファイル：

data_yeast_common_6685.txt

yeastGC_common_6685.txt

yeastLength_common_6685.txt)

以下のコピペでも得ることができます。

#必要なパッケージをロード
library(yeastRNASeq)                   #パッケージの読み込み
library(EDASeq)                        #パッケージの読み込み

#count dataやGC含量情報(SGD ver. r64)の読み込みとラベル情報の作成
data(geneLevelData)                    #yeastRNASeqパッケージ中で提供されているカウントデータ(geneLevelData)をロード
data(yeastGC)                          #EDASeqパッケージ中で提供されているyeastのGC含量情報(yeastGC)をロード
data(yeastLength)                      #EDASeqパッケージ中で提供されているyeastの配列長情報(yeastLength)をロード

#カウントデータ情報(geneLevelData)とGC含量情報(yeastGC)から共通して存在するサブセットを(同じ遺伝子名の並びで)取得
common <- intersect(rownames(geneLevelData), names(yeastGC))#yeastRNASeqパッケージ中で提供されているデータをロード
data <- as.data.frame(geneLevelData[common, ])#6685個の共通遺伝子分のカウントデータ行列をデータフレーム形式でdataに格納
GC <- data.frame(GC = yeastGC[common]) #6685個の共通遺伝子分のGC含量ベクトルをデータフレーム形式でGCに格納
length <- data.frame(Length = yeastLength[common])#6685個の共通遺伝子分の配列長ベクトルをデータフレーム形式でlengthに格納
head(rownames(data))                   #行列dataの行名(rownames)情報の最初の数個を表示
head(rownames(GC))                     #行列GCの行名(rownames)情報の最初の数個を表示
head(rownames(length))                 #行列lengthの行名(rownames)情報の最初の数個を表示

#ファイルに保存
tmp <- cbind(rownames(data), data)     #保存したい情報をtmpに格納
write.table(tmp, "data_yeast_common_6685.txt", sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存
tmp <- cbind(rownames(GC), GC)         #「rownames情報」と「GC含量情報」を列方向で結合した結果をtmpに格納
write.table(tmp, "yeastGC_common_6685.txt", sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存
tmp <- cbind(rownames(length), length) #「rownames情報」と「配列長情報」を列方向で結合した結果をtmpに格納
write.table(tmp, "yeastLength_common_6685.txt", sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

TCCパッケージ中のBiological replicatesを模倣したシミュレーションデータ(G1群3サンプル vs. G2群3サンプル)です。
10,000 genes×6 samplesの「複製あり」タグカウントデータ(data_hypodata_3vs3.txt)
「G1_rep1, G1_rep2, G1_rep3, G2_rep1, G2_rep2, G2_rep3」の計6サンプル分からなります。
全10,000遺伝子中の最初の2,000個(gene_1〜gene_2000まで)が発現変動遺伝子(DEG)です。
全2,000 DEGsの内訳：最初の90%分(gene_1〜gene_1800)がG1群で4倍高発現、残りの10%分(gene_1801〜gene_2000)がG2群で4倍高発現
以下のコピペでも（数値は違ってきますが）同じ条件のシミュレーションデータを作成可能です。：

library(TCC)                           #パッケージの読み込み
set.seed(1000)                         #おまじない(同じ乱数になるようにするため)
tcc <- simulateReadCounts(Ngene = 10000, PDEG = 0.2,#シミュレーションデータの作成
             DEG.assign = c(0.9, 0.1), #シミュレーションデータの作成
             DEG.foldchange = c(4, 4), #シミュレーションデータの作成
             replicates = c(3, 3))     #シミュレーションデータの作成
plotFCPseudocolor(tcc)                 #シミュレーション条件のpseudo-colorイメージを描画

#ファイルに保存
tmp <- cbind(rownames(tcc$count), tcc$count)#保存したい情報をtmpに格納
write.table(tmp, "data_hypodata_3vs3.txt", sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

上記のTCCパッケージ中のBiological replicatesを模倣した「G1_rep1, G1_rep2, G1_rep3, G2_rep1, G2_rep2, G2_rep3」の計6サンプルからなるシミュレーションデータから、1列目と4列目のデータを抽出した「複製なし」タグカウントデータ(data_hypodata_1vs1.txt)
よって、「G1_rep1, G2_rep1」の計2サンプル分のみからなります。
以下のコピペでも（数値は違ってきますが）同じ条件のシミュレーションデータを作成可能です。：

library(TCC)                           #パッケージの読み込み
set.seed(1000)                         #おまじない(同じ乱数になるようにするため)
tcc <- simulateReadCounts(Ngene = 10000, PDEG = 0.2,#シミュレーションデータの作成
             DEG.assign = c(0.9, 0.1), #シミュレーションデータの作成
             DEG.foldchange = c(4, 4), #シミュレーションデータの作成
             replicates = c(1, 1))     #シミュレーションデータの作成
plotFCPseudocolor(tcc)                 #シミュレーション条件のpseudo-colorイメージを描画

#ファイルに保存
tmp <- cbind(rownames(tcc$count), tcc$count)#保存したい情報をtmpに格納
write.table(tmp, "data_hypodata_1vs1.txt", sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

TCCパッケージ中のBiological replicatesを模倣したシミュレーションデータ(G1群3サンプル vs. G2群3サンプル vs. G3群3サンプル)です。 10,000 genes×9 samplesの「複製あり」タグカウントデータ(data_hypodata_3vs3vs3.txt) 「G1_rep1, G1_rep2, G1_rep3, G2_rep1, G2_rep2, G2_rep3, G3_rep1, G3_rep2, G3_rep3」の計9サンプル分からなります。全10,000遺伝子中の最初の3,000個(gene_1〜gene_3000まで)が発現変動遺伝子(DEG)です。全3,000 DEGsの内訳：(1)最初の70%分(gene_1〜gene_2100)がG1群で3倍高発現、(2)次の20%分(gene_2101〜gene_2700)がG2群で10倍高発現、(3)残りの10%分(gene_2701〜gene_3000)がG3群で6倍高発現以下のコピペでも取得可能です。

out_f <- "data_hypodata_3vs3vs3.txt"   #出力ファイル名を指定してout_fに格納
param_replicates <- c(3, 3, 3)         #G1, G2, G3群のサンプル数をそれぞれ指定
param_Ngene <- 10000                   #全遺伝子数を指定
param_PDEG <- 0.3                      #発現変動遺伝子の割合を指定    
param_FC <- c(3, 10, 6)                #G1, G2, G3群の発現変動の度合い(fold-change)をそれぞれ指定    
param_DEGassign <- c(0.7, 0.2, 0.1)    #DEGのうちG1, G2, G3群で高発現なものの割合をそれぞれ指定   

#必要なパッケージをロード
library(TCC)                           #パッケージの読み込み

#シミュレーションデータの作成
set.seed(1000)                         #おまじない(同じ乱数になるようにするため)
tcc <- simulateReadCounts(Ngene=param_Ngene,#シミュレーションデータの作成
            PDEG=param_PDEG,           #シミュレーションデータの作成
            DEG.assign=param_DEGassign,#シミュレーションデータの作成
            DEG.foldchange=param_FC,   #シミュレーションデータの作成
            replicates=param_replicates)#シミュレーションデータの作成
plotFCPseudocolor(tcc)                 #シミュレーション条件のpseudo-colorイメージを描画

#ファイルに保存(テキストファイル)
tmp <- cbind(rownames(tcc$count), tcc$count)#保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

TCCパッケージ中のBiological replicatesを模倣したシミュレーションデータ(G1群2サンプル vs. G2群4サンプル vs. G3群3サンプル)です。 10,000 genes×9 samplesの「複製あり」タグカウントデータ(data_hypodata_2vs4vs3.txt) 「G1_rep1, G1_rep2, G2_rep1, G2_rep2, G2_rep3, G2_rep4, G3_rep1, G3_rep2, G3_rep3」の計9サンプル分からなります。全10,000遺伝子中の最初の3,000個(gene_1〜gene_3000まで)が発現変動遺伝子(DEG)です。全3,000 DEGsの内訳：(1)最初の70%分(gene_1〜gene_2100)がG1群で3倍高発現、(2)次の20%分(gene_2101〜gene_2700)がG2群で10倍高発現、(3)残りの10%分(gene_2701〜gene_3000)がG3群で6倍高発現以下のコピペでも取得可能です。

library(TCC)                           #パッケージの読み込み
set.seed(1000)                         #おまじない(同じ乱数になるようにするため)
tcc <- simulateReadCounts(Ngene = 10000, PDEG = 0.3,#全遺伝子数とDEGの割合を指定
             DEG.assign = c(0.7, 0.2, 0.1),#DEGの内訳(G1が70%, G2が20%, G3が10%)を指定
             DEG.foldchange = c(3, 10, 6),#DEGの発現変動度合い(G1が3倍、G2が10倍、G3が6倍)を指定
             replicates = c(2, 4, 3))  #各群のサンプル数を指定
plotFCPseudocolor(tcc)                 #シミュレーション条件のpseudo-colorイメージを描画

#ファイルに保存
tmp <- cbind(rownames(tcc$count), tcc$count)#保存したい情報をtmpに格納
write.table(tmp, "data_hypodata_2vs4vs3.txt", sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

Illumina/35bp/single-end/human (SRA000299; kidney vs. liver) data (Marioni et al., Genome Res., 2008)

ランダムな塩基配列から生成したリファレンスゲノム配列データ(ref_genome.fa)。 48, 160, 100, 123, 100 bpの配列長をもつ、計5つの塩基配列を生成しています。 description行は"contig"という記述を基本としています。塩基の存在比はAが28%, Cが22%, Gが26%, Tが24%にしています。 set.seed関数を利用し、chr3の配列と同じものをchr5としてコピーして作成したのち、2番目と7番目の塩基置換を行っています。そのため、実際に指定するのは最初の4つ分の配列長のみです。

out_f <- "ref_genome.fa"               #出力ファイル名を指定してout_fに格納
param_len_ref <- c(48, 160, 100, 123)  #配列長を指定
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(28, 22, 26, 24) #(A,C,G,Tの並びで)各塩基の存在比率を指定
param_desc <- "chr"                    #FASTA形式ファイルのdescription行に記述する内容
param4 <- 3                            #コピーを作成したい配列番号を指定
param5 <- c(2, 7)                      #コピー先配列の塩基置換したい位置を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#塩基置換関数の作成
enkichikan <- function(fa, p) {        #関数名や引数の作成
  t <- substring(fa, p, p)             #置換したい位置の塩基を取りだす
  t_c <- chartr("CGAT", "GCTA", t)     #置換後の塩基を作成
  substring(fa, p, p) <- t_c           #置換
  return(fa)                           #置換後のデータを返す
}

#本番(配列生成)
set.seed(1000)                         #おまじない(同じ乱数になるようにするため)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
hoge <- NULL                           #hogeというプレースホルダの作成
for(i in 1:length(param_len_ref)){     #length(param_len_ref)で表現される配列数分だけループを回す
    hoge <- c(hoge, paste(sample(ACGTset, param_len_ref[i], replace=T), collapse=""))#ACGTsetの文字型ベクトルからparam_len_ref[i]回分だけ復元抽出して得られた塩基配列をhogeに格納
}

#本番(param4で指定した配列をchr5としてコピーし、param5で指定した位置の塩基をそれぞれ置換)
hoge <- c(hoge, hoge[param4])          #param4で指定した配列を追加している
hoge[length(param_len_ref)+1] <- enkichikan(hoge[length(param_len_ref)+1], param5[1])#塩基置換
hoge[length(param_len_ref)+1] <- enkichikan(hoge[length(param_len_ref)+1], param5[2])#塩基置換

#本番(DNAStringSet形式に変換)
fasta <- DNAStringSet(hoge)            #DNA塩基配列だと認識させるDNAStringSet関数を適用した結果をfastaに格納
names(fasta) <- paste(param_desc, 1:length(hoge), sep="")#description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

上記リファレンスゲノム配列データ(ref_genome.fa)に対してbasic alignerでマッピングする際の動作確認用RNA-seqデータ (sample_RNAseq1.fa)とそのgzip圧縮ファイル(sample_RNAseq1.fa.gz)。リファレンス配列を読み込んで、list_sub3.txtで与えた部分配列を抽出したものです。どこに置換を入れているかがわかっているので、basic alignerで許容するミスマッチ数を変えてマップされる or されないの確認ができます。 DNAStringSetオブジェクトを入力として塩基置換を行うDNAString_chartr関数を用いて、最後のリードのみ4番目の塩基にミスマッチを入れています。

in_f1 <- "ref_genome.fa"               #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub3.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "sample_RNAseq1.fa"           #出力ファイル名を指定してout_fに格納
param <- 4                             #塩基置換したい位置を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#塩基置換関数の作成
DNAString_chartr <- function(fa, p) {  #関数名や引数の作成
  str_list <- as.character(fa)         #文字列に変更
  t <- substring(str_list, p, p)       #置換したい位置の塩基を取りだす
  t_c <- chartr("CGAT", "GCTA", t)     #置換後の塩基を作成
  substring(str_list, p, p) <- t_c     #置換
  fa_r <- DNAStringSet(str_list)       #DNAStringSetオブジェクトに戻す
  names(fa_r) <- names(fa)             #description部分の情報を追加
  return(fa_r)                         #置換後のデータを返す
}

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
posi <- read.table(in_f2)              #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:nrow(posi)){                #length(posi)回だけループを回す
    obj <- names(fasta) == posi[i,1]   #条件を満たすかどうかを判定した結果をobjに格納
    hoge <- append(hoge, subseq(fasta[obj], start=posi[i,2], end=posi[i,3]))#subseq関数を用いてobjがTRUEとなるもののみに対して、posi[i,2]とposi[i,3]で与えた範囲に対応する部分配列を抽出した結果をhogeに格納
}
fasta <- hoge                          #hogeの中身をfastaに格納
fasta                                  #確認してるだけです

#後処理(最後のリードのparam番目の塩基に置換を入れている)
fasta[nrow(posi)] <- DNAString_chartr(fasta[nrow(posi)], param)#指定した位置の塩基置換を実行した結果をfastaに格納
fasta                                  #確認してるだけです

#後処理(description部分の作成)
description <- paste(posi[,1], posi[,2], posi[,3], sep="_")#行列posiの各列を"_"で結合したものをdescriptionに格納
names(fasta) <- description            #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

上記リファレンスゲノム配列データ(ref_genome.fa)に対してbasic alignerでマッピングする際の動作確認用RNA-seqデータ(sample_RNAseq2.fa)とそのgzip圧縮ファイル(sample_RNAseq2.fa.gz)。

リファレンス配列を読み込んで、list_sub4.txtで与えた部分配列を抽出したものです。基本的にジャンクションリードがbasic alignerでマップされず、splice-aware alignerでマップされることを示すために作成したものです。

in_f1 <- "ref_genome.fa"               #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub4.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "sample_RNAseq2.fa"           #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
posi <- read.table(in_f2)              #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
hoge <- NULL                           #塩基配列用プレースホルダhogeを作成
hoge_d <- NULL                         #description用プレースホルダhoge_dを作成
for(i in 1:nrow(posi)){                #nrow(posi)回だけループを回す
  uge <- NULL                          #ugeを初期化
  for(j in 1:(length(posi[i,])/3)){    #ncol(posi)/3回だけループを回す
    obj <- names(fasta)==posi[i,3*(j-1)+1]#条件を満たすかどうかを判定した結果をobjに格納
    uge <- paste(uge, subseq(fasta[obj],  #subseq関数を用いてobjがTRUEとなるもののみに対して、
                  start=posi[i,3*(j-1)+2],#「3*(j-1)+2」列目で指定したstart位置から、
                   end=posi[i,3*(j-1)+3]),#「3*(j-1)+3」列目で指定したend位置で与えた範囲の部分配列を取得し
                   sep="")                #それをugeに連結
  }
  hoge <- append(hoge, uge)            #hogeにugeを連結
  
  uge_d <- as.character(posi[i,1])     #uge_dの初期値を与えている
  for(j in 2:(length(posi[i,]))){      #length(posi[i,])回数分だけループを回す
    uge_d <- paste(uge_d, as.character(posi[i,j]), sep="_")#description情報の作成
  }
  hoge_d <- append(hoge_d, uge_d)      #hoge_dにuge_dを連結
}

#後処理(DNAStringSet形式に変換)
fasta <- DNAStringSet(hoge)            #行列posiの各列を"_"で結合したものをdescriptionに格納
names(fasta) <- hoge_d                 #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

GTF (General Transfer Format)形式のヒトサンプルファイル(human_annotation_sub.gtf)です。

EnsemblのFTPサイトから得たヒトの遺伝子アノテーションファイル("Homo_sapiens.GRCh37.73.gtf.gz")をここからダウンロードして得て解凍("Homo_sapiens.GRCh37.73.gtf")したのち、 (解凍後のファイルサイズは500MB、2,268,089行×9列のファイルなので)以下のコピペで、ランダムに50,000行分を非復元抽出して得たファイルです。

in_f <- "Homo_sapiens.GRCh37.73.gtf"   #入力ファイル名を指定してin_fに格納(目的のタブ区切りテキストファイル)
out_f <- "human_annotation_sub.gtf"    #出力ファイル名を指定してout_fに格納
param <- 50000                         #(入力ファイルの行数以下の)得たい行数を指定

#入力ファイルの読み込み
data <- read.table(in_f, header=FALSE, sep="\t", quote="")#in_fで指定したファイルの読み込み
dim(data)                              #オブジェクトdataの行数と列数を表示

#本番
hoge <- sample(1:nrow(data), param, replace=F)#入力ファイルの行数からparamで指定した数だけ非復元抽出した結果をhogeに格納
out <- data[sort(hoge),]               #hogeで指定した行のみ抽出した結果をoutに格納
dim(out)                               #オブジェクトoutの行数と列数を表示

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#outの中身を指定したファイル名で保存

GTF (General Transfer Format)形式のヒトサンプルファイル(human_annotation_sub2.gtf)です。

GTFファイル(human_annotation_sub.gtf)の各行の左端に"chr"を挿入したファイルです。

in_f <- "human_annotation_sub.gtf"     #入力ファイル名(目的のタブ区切りテキストファイル)を指定してin_fに格納
out_f <- "human_annotation_sub2.gtf"   #出力ファイル名を指定してout_fに格納
param <- "chr"                         #挿入したい文字列を指定

#入力ファイルの読み込み
data <- read.table(in_f, header=FALSE, sep="\t", quote="")#in_fで指定したファイルの読み込み

#本番(文字列挿入)
data[,1] <- paste(param, data[,1], sep="")#dataオブジェクトの1列目の左側にparamで指定した文字列を挿入

#ファイルに保存
write.table(data, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#dataの中身を指定したファイル名で保存

GTF (General Transfer Format)形式のヒトサンプルファイル(human_annotation_sub3.gtf)です。

ヒトゲノム配列("BSgenome.Hsapiens.UCSC.hg19")中の染色体名と一致する遺伝子アノテーション情報のみhuman_annotation_sub2.gtfから抽出したファイルです。

in_f1 <- "human_annotation_sub2.gtf"   #入力ファイル名を指定してin_f1に格納(GFF/GTFファイル)
in_f2 <- "BSgenome.Hsapiens.UCSC.hg19" #入力ファイル名を指定してin_f2に格納(リファレンス配列)
out_f <- "human_annotation_sub3.gtf"   #出力ファイル名を指定してout_fに格納

#入力ファイルの読み込み(GFF/GTFファイル)
data <- read.table(in_f1, header=FALSE, sep="\t", quote="")#in_f1で指定したファイルの読み込み
dim(data)                              #オブジェクトdataの行数と列数を表示

#前処理(リファレンス配列の染色体名を抽出)
param <- in_f2                         #paramという名前で取り扱いたいだけです
library(param, character.only=T)       #paramで指定したパッケージの読み込み
tmp <- ls(paste("package", param, sep=":"))#paramで指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
hoge <- eval(parse(text=tmp))          #文字列tmpをRオブジェクトとしてhogeに格納
keywords <- seqnames(hoge)             #染色体名情報を抽出した結果をkeywordsに格納
keywords                               #確認してるだけです

#本番
obj <- is.element(as.character(data[,1]), keywords)#in_f1で読み込んだファイル中の1列目の文字列ベクトル中の各要素がベクトルkeywords中に含まれるか含まれないか(TRUE or FALSE)の情報をobjに格納(集合演算をしている)
out <- data[obj,]                      #objがTRUEとなる行のみ抽出した結果をoutに格納
dim(out)                               #オブジェクトoutの行数と列数を表示

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=F)#outの中身をout_fで指定したファイル名で保存

Illumina/75bp/single-end/human (SRA061145) data (Wang et al., Nucleic Acids Res., 2013)
ヒト肺の3群間比較用データ：normal human bronchial epithelial (HBE) cells, human lung cancer A549, and H1299 cells

Illumina HiSeq 2000/100bp/paired-end/human (GSE42960) data (Chan et al., Hum. Mol. Genet., 2013)

ヒトPBMCというサンプルの2群間比較用データ：未処理群2サンプル (FRDA05-UT and FRDA19.UTB) vs. ニコチンアミド処理群2サンプル(FRDA05-NicoとFRDA19.NB)。原著論文中では、GSE42960のみが示されていますが、日米欧三極のDB( SRP017580 by SRA; SRP017580 by DRA; SRP017580 by ENA) からも概観できます。

ペアエンドデータのSRR633902_1.fastqを入力として、最初の1000リード分を抽出することで、 SRR633902_1_sub.fastqを作成しています。 writeFastq関数のデフォルトオプションはcompress=Tで、gzip圧縮ファイルを出力します。ここではcompress=Fとして非圧縮ファイルを出力しています。

in_f <- "SRR633902_1.fastq.gz"         #入力ファイル名を指定してin_fに格納
out_f <- "SRR633902_1_sub.fastq"       #出力ファイル名を指定してout_fに格納
param <- 1000                          #抽出したいリード数を指定

#必要なパッケージをロード
library(ShortRead)                     #パッケージの読み込み

#入力ファイルの読み込み
fastq <- readFastq(in_f)               #in_fで指定したファイルの読み込み
fastq                                  #fastq情報を表示

#本番(サブセットの抽出)
fastq <- fastq[1:param]                #サブセットを抽出
fastq                                  #fastq情報を表示

#ファイルに保存
writeFastq(fastq, out_f, compress=F)   #fastqの中身を指定したファイル名で保存

Illumina Genome Analyzer II/54bp/single-end/human (SRP017142; GSE42212) data (Neyret-Kahn et al., Genome Res., 2013)
ヒトfibroblastsの2群間比較用データ：3 proliferative samples vs. 3 Ras samples
Illumina HiSeq 2000 (GPL14844)/50bp/single-end/Rat (SRP037986; GSE53960) data (Yu et al., Nat Commun., 2014)
ラットの10組織×雌雄(2種類)×4種類の週齢(2, 6, 21, 104 weeks)×4 biological replicatesの計320サンプルからなるデータ。
Illumina GAIIx/76bp/paired-end/Drosophila or Illumina HiSeq 2000/100bp/paired-end/Drosophila (SRP009459; GSE33905) data (Graveley et al., Nature, 2011; Brown et al., Nature, 2014)
ショウジョウバエの様々な組織のデータ(modENCODE)。29 dissected tissue samplesのstrand-specific, paired-endのbiological replicates (duplicates)だそうです。
Illumina HiSeq 2000/36bp/single-end/Arabidopsis (GSE36469) data (Huang et al., Development, 2012)
シロイヌナズナの2群間比較用データ：4 DEX-treated vs. 4 mock-treated

原著論文中では、GSE36469のみが示されていますが、日米欧三極のDB( SRP011435 by SRA; SRP011435 by DRA; SRP011435 by ENA) からも概観できます。
PacBio/xxx bp/Human (ERP003225) data (Sharon et al., Nat Biotechnol., 2013)
ヒトの長鎖RNA-seqデータです。配列長はリードによって異なります。
PacBio/xxx bp/Chicken (SRP038897 by DRA; SRP038897 by ENA; SRP038897 by SRA) data (Sharon et al., PLoS One, 2014)
ニワトリの長鎖RNA-seqデータです。配列長はリードによって異なります。

k-mer解析用のランダム配列から生成したFASTA形式ファイル(sample32_ref.fastaとsample32_ngs.fasta)です。

50塩基の長さのリファレンス配列を生成したのち、20塩基長の部分配列を10リード分だけランダム抽出したものです。塩基の存在比はAが22%, Cが28%, Gが28%, Tが22%にしています。リファレンス配列(仮想ゲノム配列)がsample32_ref.fastaで、 10リードからなる仮想NGSデータがsample32_ngs.fastaです。リード長20塩基で10リードなのでトータル200塩基となり、50塩基からなる元のゲノム配列の4倍シーケンスしていることになります(4X coverageに相当)。イントロ | NGS | 配列取得 | シミュレーションデータ | ランダムな塩基配列の生成からと基本的に同じです。

out_f1 <- "sample32_ref.fasta"         #出力ファイル名を指定してout_f1に格納
out_f2 <- "sample32_ngs.fasta"         #出力ファイル名を指定してout_f2に格納
param_len_ref <- 50                    #リファレンス配列の長さを指定
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(22, 28, 28, 22) #(A,C,G,Tの並びで)各塩基の存在比率を指定
param_len_ngs <- 20                    #リード長を指定
param_num_ngs <- 10                    #リード数を指定
param_desc <- "kkk"                    #FASTA形式ファイルのdescription行に記述する内容

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#本番(リファレンス配列生成)
set.seed(1010)                         #おまじない(同じ乱数になるようにするため)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
reference <- paste(sample(ACGTset, param_len_ref, replace=T), collapse="")#ACGTsetからparam_len_ref回分だけ復元抽出して得られた塩基配列をreferenceに格納
reference <- DNAStringSet(reference)   #DNA塩基配列だと認識させるDNAStringSet関数を適用した結果をreferenceに格納
names(reference) <- param_desc         #description行に相当する記述を追加している
reference                              #確認してるだけです

#本番(シミュレーションデータ生成)
s_posi <- sample(1:(param_len_ref-param_len_ngs), param_num_ngs, replace=T)#部分塩基配列抽出時のstart position情報として用いる乱数ベクトルをs_posiに格納
s_posi                                 #確認してるだけです
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:length(s_posi)){            #length(s_posi)回だけループを回す
    hoge <- append(hoge, subseq(reference, start=s_posi[i], width=param_len_ngs))#subseq関数を用いてs_posi[i]からparam_len_ngsで与えた配列長に対応する部分配列をhogeに格納
}
fasta <- hoge                          #hogeの中身をfastaに格納

#後処理(description部分の作成)
description <- paste(param_desc, s_posi, (s_posi+param_len_ngs-1), sep="_")#param_descやs_posiなどを"_"で結合したものをdescriptionに格納
names(fasta) <- description            #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存(仮想リファレンス配列と仮想NGS配列)
writeXStringSet(reference, file=out_f1, format="fasta", width=50)#referenceの中身を指定したファイル名で保存
writeXStringSet(fasta, file=out_f2, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

k-mer解析用のランダム配列から生成したFASTA形式ファイル(sample33_ref.fastaとsample33_ngs.fasta)です。

1000塩基の長さのリファレンス配列を生成したのち、20塩基長の部分配列を200リード分だけランダム抽出したものです。塩基の存在比はAが22%, Cが28%, Gが28%, Tが22%にしています。リファレンス配列(仮想ゲノム配列)がsample33_ref.fastaで、 200リードからなる仮想NGSデータがsample33_ngs.fastaです。リード長20塩基で200リードなのでトータル4,000塩基となり、1,000塩基からなる元のゲノム配列の4倍シーケンスしていることになります(4X coverageに相当)。イントロ | NGS | 配列取得 | シミュレーションデータ | ランダムな塩基配列の生成からと基本的に同じです。 2014年から提供していたものと下記のコピペ実行結果が異なっていることがわかったので、2020年3月16日に中身を変更しました(おそらく昔はset.seedを付けていなかったのだと思われます)。

out_f1 <- "sample33_ref.fasta"         #出力ファイル名を指定してout_f1に格納
out_f2 <- "sample33_ngs.fasta"         #出力ファイル名を指定してout_f2に格納
param_len_ref <- 1000                  #リファレンス配列の長さを指定
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(22, 28, 28, 22) #(A,C,G,Tの並びで)各塩基の存在比率を指定
param_len_ngs <- 20                    #リード長を指定
param_num_ngs <- 200                   #リード数を指定
param_desc <- "kkk"                    #FASTA形式ファイルのdescription行に記述する内容

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#本番(リファレンス配列生成)
set.seed(1010)                         #おまじない(同じ乱数になるようにするため)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
reference <- paste(sample(ACGTset, param_len_ref, replace=T), collapse="")#ACGTsetからparam_len_ref回分だけ復元抽出して得られた塩基配列をreferenceに格納
reference <- DNAStringSet(reference)   #DNA塩基配列だと認識させるDNAStringSet関数を適用した結果をreferenceに格納
names(reference) <- param_desc         #description行に相当する記述を追加している
reference                              #確認してるだけです

#本番(シミュレーションデータ生成)
s_posi <- sample(1:(param_len_ref-param_len_ngs), param_num_ngs, replace=T)#部分塩基配列抽出時のstart position情報として用いる乱数ベクトルをs_posiに格納
s_posi                                 #確認してるだけです
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:length(s_posi)){            #length(s_posi)回だけループを回す
    hoge <- append(hoge, subseq(reference, start=s_posi[i], width=param_len_ngs))#subseq関数を用いてs_posi[i]からparam_len_ngsで与えた配列長に対応する部分配列をhogeに格納
}
fasta <- hoge                          #hogeの中身をfastaに格納

#後処理(description部分の作成)
description <- paste(param_desc, s_posi, (s_posi+param_len_ngs-1), sep="_")#param_descやs_posiなどを"_"で結合したものをdescriptionに格納
names(fasta) <- description            #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存(仮想リファレンス配列と仮想NGS配列)
writeXStringSet(reference, file=out_f1, format="fasta", width=50)#referenceの中身を指定したファイル名で保存
writeXStringSet(fasta, file=out_f2, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

k-mer解析用のランダム配列から生成したFASTA形式ファイル(sample34_ref.fastaとsample34_ngs.fasta)です。

1000塩基の長さのリファレンス配列を生成したのち、20塩基長の部分配列を500リード分だけランダム抽出したものです。塩基の存在比はAが22%, Cが28%, Gが28%, Tが22%にしています。リファレンス配列(仮想ゲノム配列)がsample34_ref.fastaで、 500リードからなる仮想NGSデータがsample34_ngs.fastaです。リード長20塩基で500リードなのでトータル10,000塩基となり、1,000塩基からなる元のゲノム配列の10倍シーケンスしていることになります(10X coverageに相当)。イントロ | NGS | 配列取得 | シミュレーションデータ | ランダムな塩基配列の生成からと基本的に同じです。 2014年から提供していたものと下記のコピペ実行結果が異なっていることがわかったので、2020年3月16日に中身を変更しました(おそらく昔はset.seedを付けていなかったのだと思われます)。

out_f1 <- "sample34_ref.fasta"         #出力ファイル名を指定してout_f1に格納
out_f2 <- "sample34_ngs.fasta"         #出力ファイル名を指定してout_f2に格納
param_len_ref <- 1000                  #リファレンス配列の長さを指定
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(22, 28, 28, 22) #(A,C,G,Tの並びで)各塩基の存在比率を指定
param_len_ngs <- 20                    #リード長を指定
param_num_ngs <- 500                   #リード数を指定
param_desc <- "kkk"                    #FASTA形式ファイルのdescription行に記述する内容

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#本番(リファレンス配列生成)
set.seed(1010)                         #おまじない(同じ乱数になるようにするため)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
reference <- paste(sample(ACGTset, param_len_ref, replace=T), collapse="")#ACGTsetからparam_len_ref回分だけ復元抽出して得られた塩基配列をreferenceに格納
reference <- DNAStringSet(reference)   #DNA塩基配列だと認識させるDNAStringSet関数を適用した結果をreferenceに格納
names(reference) <- param_desc         #description行に相当する記述を追加している
reference                              #確認してるだけです

#本番(シミュレーションデータ生成)
s_posi <- sample(1:(param_len_ref-param_len_ngs), param_num_ngs, replace=T)#部分塩基配列抽出時のstart position情報として用いる乱数ベクトルをs_posiに格納
s_posi                                 #確認してるだけです
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:length(s_posi)){            #length(s_posi)回だけループを回す
    hoge <- append(hoge, subseq(reference, start=s_posi[i], width=param_len_ngs))#subseq関数を用いてs_posi[i]からparam_len_ngsで与えた配列長に対応する部分配列をhogeに格納
}
fasta <- hoge                          #hogeの中身をfastaに格納

#後処理(description部分の作成)
description <- paste(param_desc, s_posi, (s_posi+param_len_ngs-1), sep="_")#param_descやs_posiなどを"_"で結合したものをdescriptionに格納
names(fasta) <- description            #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存(仮想リファレンス配列と仮想NGS配列)
writeXStringSet(reference, file=out_f1, format="fasta", width=50)#referenceの中身を指定したファイル名で保存
writeXStringSet(fasta, file=out_f2, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

k-mer解析用のランダム配列から生成したFASTA形式ファイル(sample35_ref.fastaとsample35_ngs.fasta)です。

10000塩基の長さのリファレンス配列を生成したのち、40塩基長の部分配列を2500リード分だけランダム抽出したものです。塩基の存在比はAが22%, Cが28%, Gが28%, Tが22%にしています。リファレンス配列(仮想ゲノム配列)がsample35_ref.fastaで、 2500リードからなる仮想NGSデータがsample35_ngs.fastaです。リード長40塩基で2500リードなのでトータル100,000塩基となり、10,000塩基からなる元のゲノム配列の10倍シーケンスしていることになります(10X coverageに相当)。イントロ | NGS | 配列取得 | シミュレーションデータ | ランダムな塩基配列の生成からと基本的に同じです。

out_f1 <- "sample35_ref.fasta"         #出力ファイル名を指定してout_f1に格納
out_f2 <- "sample35_ngs.fasta"         #出力ファイル名を指定してout_f2に格納
param_len_ref <- 10000                 #リファレンス配列の長さを指定
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(22, 28, 28, 22) #(A,C,G,Tの並びで)各塩基の存在比率を指定
param_len_ngs <- 40                    #リード長を指定
param_num_ngs <- 2500                  #リード数を指定
param_desc <- "kkk"                    #FASTA形式ファイルのdescription行に記述する内容

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#本番(リファレンス配列生成)
set.seed(1010)                         #おまじない(同じ乱数になるようにするため)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
reference <- paste(sample(ACGTset, param_len_ref, replace=T), collapse="")#ACGTsetからparam_len_ref回分だけ復元抽出して得られた塩基配列をreferenceに格納
reference <- DNAStringSet(reference)   #DNA塩基配列だと認識させるDNAStringSet関数を適用した結果をreferenceに格納
names(reference) <- param_desc         #description行に相当する記述を追加している
reference                              #確認してるだけです

#本番(シミュレーションデータ生成)
s_posi <- sample(1:(param_len_ref-param_len_ngs), param_num_ngs, replace=T)#部分塩基配列抽出時のstart position情報として用いる乱数ベクトルをs_posiに格納
s_posi                                 #確認してるだけです
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:length(s_posi)){            #length(s_posi)回だけループを回す
    hoge <- append(hoge, subseq(reference, start=s_posi[i], width=param_len_ngs))#subseq関数を用いてs_posi[i]からparam_len_ngsで与えた配列長に対応する部分配列をhogeに格納
}
fasta <- hoge                          #hogeの中身をfastaに格納

#後処理(description部分の作成)
description <- paste(param_desc, s_posi, (s_posi+param_len_ngs-1), sep="_")#param_descやs_posiなどを"_"で結合したものをdescriptionに格納
names(fasta) <- description            #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存(仮想リファレンス配列と仮想NGS配列)
writeXStringSet(reference, file=out_f1, format="fasta", width=50)#referenceの中身を指定したファイル名で保存
writeXStringSet(fasta, file=out_f2, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

k-mer解析用のランダム配列から生成したFASTA形式ファイル(sample36_ref.fastaとsample36_ngs.fasta)です。

10000塩基の長さのリファレンス配列を生成したのち、80塩基長の部分配列を5000リード分だけランダム抽出したものです。塩基の存在比はAが22%, Cが28%, Gが28%, Tが22%にしています。リファレンス配列(仮想ゲノム配列)がsample36_ref.fastaで、 5,000リードからなる仮想NGSデータがsample36_ngs.fastaです。リード長80塩基で5,000リードなのでトータル400,000塩基となり、10,000塩基からなる元のゲノム配列の40倍シーケンスしていることになります(40X coverageに相当)。イントロ | NGS | 配列取得 | シミュレーションデータ | ランダムな塩基配列の生成からと基本的に同じです。

out_f1 <- "sample36_ref.fasta"         #出力ファイル名を指定してout_f1に格納
out_f2 <- "sample36_ngs.fasta"         #出力ファイル名を指定してout_f2に格納
param_len_ref <- 10000                 #リファレンス配列の長さを指定
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(22, 28, 28, 22) #(A,C,G,Tの並びで)各塩基の存在比率を指定
param_len_ngs <- 80                    #リード長を指定
param_num_ngs <- 5000                  #リード数を指定
param_desc <- "kkk"                    #FASTA形式ファイルのdescription行に記述する内容

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#本番(リファレンス配列生成)
set.seed(1010)                         #おまじない(同じ乱数になるようにするため)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
reference <- paste(sample(ACGTset, param_len_ref, replace=T), collapse="")#ACGTsetからparam_len_ref回分だけ復元抽出して得られた塩基配列をreferenceに格納
reference <- DNAStringSet(reference)   #DNA塩基配列だと認識させるDNAStringSet関数を適用した結果をreferenceに格納
names(reference) <- param_desc         #description行に相当する記述を追加している
reference                              #確認してるだけです

#本番(シミュレーションデータ生成)
s_posi <- sample(1:(param_len_ref-param_len_ngs), param_num_ngs, replace=T)#部分塩基配列抽出時のstart position情報として用いる乱数ベクトルをs_posiに格納
s_posi                                 #確認してるだけです
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:length(s_posi)){            #length(s_posi)回だけループを回す
    hoge <- append(hoge, subseq(reference, start=s_posi[i], width=param_len_ngs))#subseq関数を用いてs_posi[i]からparam_len_ngsで与えた配列長に対応する部分配列をhogeに格納
}
fasta <- hoge                          #hogeの中身をfastaに格納

#後処理(description部分の作成)
description <- paste(param_desc, s_posi, (s_posi+param_len_ngs-1), sep="_")#param_descやs_posiなどを"_"で結合したものをdescriptionに格納
names(fasta) <- description            #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存(仮想リファレンス配列と仮想NGS配列)
writeXStringSet(reference, file=out_f1, format="fasta", width=50)#referenceの中身を指定したファイル名で保存
writeXStringSet(fasta, file=out_f2, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

k-mer解析用のランダム配列から生成したFASTA形式ファイル(sample37_ref.fastaとsample37_ngs.fasta)です。

10000塩基の長さのリファレンス配列を生成したのち、100塩基長の部分配列を10000リード分だけランダム抽出したものです。塩基の存在比はAが22%, Cが28%, Gが28%, Tが22%にしています。リファレンス配列(仮想ゲノム配列)がsample37_ref.fastaで、 10,000リードからなる仮想NGSデータがsample37_ngs.fastaです。リード長100塩基で10,000リードなのでトータル1,000,000塩基となり、10,000塩基からなる元のゲノム配列の100倍シーケンスしていることになります(100X coverageに相当)。イントロ | NGS | 配列取得 | シミュレーションデータ | ランダムな塩基配列の生成からと基本的に同じです。

out_f1 <- "sample37_ref.fasta"         #出力ファイル名を指定してout_f1に格納
out_f2 <- "sample37_ngs.fasta"         #出力ファイル名を指定してout_f2に格納
param_len_ref <- 10000                 #リファレンス配列の長さを指定
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(22, 28, 28, 22) #(A,C,G,Tの並びで)各塩基の存在比率を指定
param_len_ngs <- 100                   #リード長を指定
param_num_ngs <- 10000                 #リード数を指定
param_desc <- "kkk"                    #FASTA形式ファイルのdescription行に記述する内容

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#本番(リファレンス配列生成)
set.seed(1010)                         #おまじない(同じ乱数になるようにするため)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
reference <- paste(sample(ACGTset, param_len_ref, replace=T), collapse="")#ACGTsetからparam_len_ref回分だけ復元抽出して得られた塩基配列をreferenceに格納
reference <- DNAStringSet(reference)   #DNA塩基配列だと認識させるDNAStringSet関数を適用した結果をreferenceに格納
names(reference) <- param_desc         #description行に相当する記述を追加している
reference                              #確認してるだけです

#本番(シミュレーションデータ生成)
s_posi <- sample(1:(param_len_ref-param_len_ngs), param_num_ngs, replace=T)#部分塩基配列抽出時のstart position情報として用いる乱数ベクトルをs_posiに格納
s_posi                                 #確認してるだけです
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:length(s_posi)){            #length(s_posi)回だけループを回す
    hoge <- append(hoge, subseq(reference, start=s_posi[i], width=param_len_ngs))#subseq関数を用いてs_posi[i]からparam_len_ngsで与えた配列長に対応する部分配列をhogeに格納
}
fasta <- hoge                          #hogeの中身をfastaに格納

#後処理(description部分の作成)
description <- paste(param_desc, s_posi, (s_posi+param_len_ngs-1), sep="_")#param_descやs_posiなどを"_"で結合したものをdescriptionに格納
names(fasta) <- description            #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存(仮想リファレンス配列と仮想NGS配列)
writeXStringSet(reference, file=out_f1, format="fasta", width=50)#referenceの中身を指定したファイル名で保存
writeXStringSet(fasta, file=out_f2, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

PacBio/xxx bp/Human (SRP036136) data (Tilgner et al., PNAS, 2014)
ヒトの長鎖RNA-seqデータです。配列長はリードによって異なります。

TCCパッケージ中のBiological replicatesを模倣したシミュレーションデータ (G1群3サンプル vs. G2群3サンプル vs. G3群3サンプル vs. G4群3サンプル vs. G5群3サンプル)です。

10,000 genes×15 samplesの「複製あり」タグカウントデータ(data_hypodata_3vs3vs3vs3vs3.txt) 「G1_rep1, G1_rep2, G1_rep3, G2_rep1, G2_rep2, G2_rep3, G3_rep1, G3_rep2, G3_rep3, G4_rep1, G4_rep2, G4_rep3, G5_rep1, G5_rep2, G5_rep3」の計15サンプル分からなります。全10,000遺伝子(Ngene=10000)中の最初の2,000個(gene_1〜gene_2000まで; 20%なのでPDEG=0.2)が発現変動遺伝子(DEG)です。全2,000 DEGsの内訳：(1)最初の50%分(gene_1〜gene_1000)がG1群で5倍高発現、 (2)次の20%分(gene_1001〜gene_1400)がG2群で10倍高発現、 (3)次の15%分(gene_1401〜gene_1700)がG3群で8倍高発現、 (4)次の10%分(gene_1701〜gene_1900)がG4群で12倍高発現、 (5)残りの5%分(gene_1901〜gene_2000)がG5群で7倍高発現。以下のコピペでも取得可能です。

library(TCC)                           #パッケージの読み込み
set.seed(1000)                         #おまじない(同じ乱数になるようにするため)
tcc <- simulateReadCounts(Ngene=10000,PDEG=0.2,#全遺伝子数とDEGの割合を指定
         DEG.assign=c(0.5,0.2,0.15,0.1,0.05),#DEGの内訳(G1が50%,G2が20%,G3が15%,G4が10%,G5が5%)を指定
         DEG.foldchange=c(5,10,8,12,7),#DEGの発現変動度合い(G1が5倍,G2が10倍,G3が8倍,G4が12倍,G5が7倍)を指定
         replicates=c(3, 3, 3, 3, 3))  #各群のサンプル数を指定
plotFCPseudocolor(tcc)                 #シミュレーション条件のpseudo-colorイメージを描画

#ファイルに保存
tmp <- cbind(rownames(tcc$count), tcc$count)#保存したい情報をtmpに格納
write.table(tmp, "data_hypodata_3vs3vs3vs3vs3.txt", sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

TCCパッケージ中のBiological replicatesを模倣したシミュレーションデータ (G1群4サンプル vs. G2群4サンプル vs. G3群4サンプル)です。

10,000 genes×12 samplesの「複製あり」タグカウントデータ(data_hypodata_4vs4vs4.txt) 「G1_rep1, G1_rep2, G1_rep3, G1_rep4, G2_rep1, G2_rep2, G2_rep3, G2_rep4, G3_rep1, G3_rep2, G3_rep3, G3_rep4」の計12サンプル分からなります。全10,000遺伝子中の最初の3,000個(gene_1〜gene_3000まで)が発現変動遺伝子(DEG)です。全3,000 DEGsの内訳：(1)最初の33.3%分(gene_1〜gene_1000)がG1群で5倍高発現、(2)次の33.3%分(gene_1001〜gene_2000)がG2群で5倍高発現、(3)残りの33.3%分(gene_2001〜gene_3000)がG3群で5倍高発現以下のコピペでも取得可能です。

out_f <- "data_hypodata_4vs4vs4.txt"   #出力ファイル名を指定してout_fに格納
param_replicates <- c(4, 4, 4)         #G1, G2, G3群のサンプル数をそれぞれ指定
param_Ngene <- 10000                   #全遺伝子数を指定
param_PDEG <- 0.3                      #発現変動遺伝子の割合を指定    
param_FC <- c(5, 5, 5)                 #G1, G2, G3群の発現変動の度合い(fold-change)をそれぞれ指定    
param_DEGassign <- c(1/3, 1/3, 1/3)    #DEGのうちG1, G2, G3群で高発現なものの割合をそれぞれ指定   

#必要なパッケージをロード
library(TCC)                           #パッケージの読み込み

#シミュレーションデータの作成
set.seed(1000)                         #おまじない(同じ乱数になるようにするため)
tcc <- simulateReadCounts(Ngene=param_Ngene,#シミュレーションデータの作成
            PDEG=param_PDEG,           #シミュレーションデータの作成
            DEG.assign=param_DEGassign,#シミュレーションデータの作成
            DEG.foldchange=param_FC,   #シミュレーションデータの作成
            replicates=param_replicates)#シミュレーションデータの作成
plotFCPseudocolor(tcc)                 #シミュレーション条件のpseudo-colorイメージを描画

#ファイルに保存(テキストファイル)
tmp <- cbind(rownames(tcc$count), tcc$count)#保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

Blekhman et al., Genome Res., 2010のリアルカウントデータです。 Supplementary Table1で提供されているエクセルファイル(http://genome.cshlp.org/content/suppl/2009/12/16/gr.099226.109.DC1/suppTable1.xls; 約4.3MB) からカウントデータのみ抽出し、きれいに整形しなおしたものがここでの出力ファイルになります。 20,689 genes×36 samplesのカウントデータ(sample_blekhman_36.txt)です。実験デザインの詳細はFigure S1中に描かれていますが、ヒト(Homo Sapiens; HS), チンパンジー(Pan troglodytes; PT), アカゲザル(Rhesus macaque; RM)の3種類の生物種の肝臓サンプル(liver sample)の比較を行っています。生物種ごとにオス3個体メス3個体の計6個体使われており(six individuals; six biological replicates)、技術的なばらつき(technical variation)を見積もるべく各個体は2つに分割されてデータが取得されています(duplicates; two technical replicates)。それゆえ、ヒト12サンプル、チンパンジー12サンプル、アカゲザル12サンプルの計36サンプル分のデータということになります。以下で行っていることはカウントデータの列のみ「ヒトのメス(HSF1, HSF2, HSF3)」, 「ヒトのオス(HSM1, HSM2, HSM3)」,「チンパンジーのメス(PTF1, PTF2, PTF3)」, 「チンパンジーのオス(PTM1, PTM2, PTM3)」, 「アカゲザルのメス(RMF1, RMF2, RMF3)」, 「アカゲザルのオス(RMM1, RMM2, RMM3)」の順番で並び替えたものをファイルに保存しています。もう少し美しくやることも原理的には可能ですが、そこは本質的な部分ではありませんので、ここではアドホック（その場しのぎ、の意味）な手順で行っています。当然ながら、エクセルなどでファイルの中身を眺めて完全に列名を把握しているという前提です。尚、"R1L4.HSF1"と"R4L2.HSF1"が「HSF1というヒトのメス一個体のtechnical replicates」であることは列名や文脈から読み解けます。

#in_f <- "http://genome.cshlp.org/content/suppl/2009/12/16/gr.099226.109.DC1/suppTable1.xls"#入力ファイル名を指定してin_fに格納
in_f <- "suppTable1.xls"               #入力ファイル名を指定してin_fに格納
out_f <- "sample_blekhman_36.txt"      #出力ファイル名を指定してout_fに格納

#入力ファイルの読み込み
hoge <- read.table(in_f, header=TRUE, row.names=1, sep="\t", quote="")#in_fで指定したファイルの読み込み
dim(hoge)                              #行数と列数を表示

#サブセットの取得
data <- cbind(                         #必要な列名の情報を取得したい列の順番で結合した結果をdataに格納
  hoge$R1L4.HSF1, hoge$R4L2.HSF1, hoge$R2L7.HSF2, hoge$R3L2.HSF2, hoge$R8L1.HSF3, hoge$R8L2.HSF3,
  hoge$R1L1.HSM1, hoge$R5L2.HSM1, hoge$R2L3.HSM2, hoge$R4L8.HSM2, hoge$R3L6.HSM3, hoge$R4L1.HSM3,
  hoge$R1L2.PTF1, hoge$R4L4.PTF1, hoge$R2L4.PTF2, hoge$R6L6.PTF2, hoge$R3L7.PTF3, hoge$R5L3.PTF3,
  hoge$R1L6.PTM1, hoge$R3L3.PTM1, hoge$R2L8.PTM2, hoge$R4L6.PTM2, hoge$R6L2.PTM3, hoge$R6L4.PTM3,
  hoge$R1L7.RMF1, hoge$R5L1.RMF1, hoge$R2L2.RMF2, hoge$R5L8.RMF2, hoge$R3L4.RMF3, hoge$R4L7.RMF3,
  hoge$R1L3.RMM1, hoge$R3L8.RMM1, hoge$R2L6.RMM2, hoge$R5L4.RMM2, hoge$R3L1.RMM3, hoge$R4L3.RMM3)
colnames(data) <- c(                   #列名を付加
  "R1L4.HSF1", "R4L2.HSF1", "R2L7.HSF2", "R3L2.HSF2", "R8L1.HSF3", "R8L2.HSF3",
  "R1L1.HSM1", "R5L2.HSM1", "R2L3.HSM2", "R4L8.HSM2", "R3L6.HSM3", "R4L1.HSM3",
  "R1L2.PTF1", "R4L4.PTF1", "R2L4.PTF2", "R6L6.PTF2", "R3L7.PTF3", "R5L3.PTF3",
  "R1L6.PTM1", "R3L3.PTM1", "R2L8.PTM2", "R4L6.PTM2", "R6L2.PTM3", "R6L4.PTM3",
  "R1L7.RMF1", "R5L1.RMF1", "R2L2.RMF2", "R5L8.RMF2", "R3L4.RMF3", "R4L7.RMF3",
  "R1L3.RMM1", "R3L8.RMM1", "R2L6.RMM2", "R5L4.RMM2", "R3L1.RMM3", "R4L3.RMM3")
rownames(data)<- rownames(hoge)        #行名を付加
dim(data)                              #行数と列数を表示

#ファイルに保存(テキストファイル)
tmp <- cbind(rownames(data), data)     #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

Blekhman et al., Genome Res., 2010のリアルカウントデータです。

1つ前の例題41とは違って、technical replicatesの2列分のデータは足して1列分のデータとしています。 20,689 genes×18 samplesのカウントデータ(sample_blekhman_18.txt)です。

#in_f <- "http://genome.cshlp.org/content/suppl/2009/12/16/gr.099226.109.DC1/suppTable1.xls"#入力ファイル名を指定してin_fに格納
in_f <- "suppTable1.xls"               #入力ファイル名を指定してin_fに格納
out_f <- "sample_blekhman_18.txt"      #出力ファイル名を指定してout_fに格納

#入力ファイルの読み込み
hoge <- read.table(in_f, header=TRUE, row.names=1, sep="\t", quote="")#in_fで指定したファイルの読み込み
dim(hoge)                              #行数と列数を表示

#サブセットの取得
data <- cbind(                         #必要な列名の情報を取得したい列の順番で結合した結果をdataに格納
  hoge$R1L4.HSF1 + hoge$R4L2.HSF1, hoge$R2L7.HSF2 + hoge$R3L2.HSF2, hoge$R8L1.HSF3 + hoge$R8L2.HSF3,
  hoge$R1L1.HSM1 + hoge$R5L2.HSM1, hoge$R2L3.HSM2 + hoge$R4L8.HSM2, hoge$R3L6.HSM3 + hoge$R4L1.HSM3,
  hoge$R1L2.PTF1 + hoge$R4L4.PTF1, hoge$R2L4.PTF2 + hoge$R6L6.PTF2, hoge$R3L7.PTF3 + hoge$R5L3.PTF3,
  hoge$R1L6.PTM1 + hoge$R3L3.PTM1, hoge$R2L8.PTM2 + hoge$R4L6.PTM2, hoge$R6L2.PTM3 + hoge$R6L4.PTM3,
  hoge$R1L7.RMF1 + hoge$R5L1.RMF1, hoge$R2L2.RMF2 + hoge$R5L8.RMF2, hoge$R3L4.RMF3 + hoge$R4L7.RMF3,
  hoge$R1L3.RMM1 + hoge$R3L8.RMM1, hoge$R2L6.RMM2 + hoge$R5L4.RMM2, hoge$R3L1.RMM3 + hoge$R4L3.RMM3)
colnames(data) <- c(                   #列名を付加
  "HSF1", "HSF2", "HSF3", "HSM1", "HSM2", "HSM3",
  "PTF1", "PTF2", "PTF3", "PTM1", "PTM2", "PTM3",
  "RMF1", "RMF2", "RMF3", "RMM1", "RMM2", "RMM3")
rownames(data)<- rownames(hoge)        #行名を付加
dim(data)                              #行数と列数を表示

#ファイルに保存(テキストファイル)
tmp <- cbind(rownames(data), data)     #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

TCCパッケージ中のシミュレーションデータ(G1群1サンプル vs. G2群1サンプル vs. G3群1サンプル)です。 10,000 genes×3 samplesの「複製なし」タグカウントデータ(data_hypodata_1vs1vs1.txt) 「G1_rep1, G2_rep1, G3_rep1」の計3サンプル分からなります。全10,000遺伝子中の最初の3,000個(gene_1〜gene_3000まで)が発現変動遺伝子(DEG)です。全3,000 DEGsの内訳：(1)最初の70%分(gene_1〜gene_2100)がG1群で3倍高発現、(2)次の20%分(gene_2101〜gene_2700)がG2群で10倍高発現、 (3)残りの10%分(gene_2701〜gene_3000)がG3群で6倍高発現。以下のコピペでも取得可能です。

out_f <- "data_hypodata_1vs1vs1.txt"   #出力ファイル名を指定してout_fに格納
library(TCC)                           #パッケージの読み込み
set.seed(1000)                         #おまじない(同じ乱数になるようにするため)
tcc <- simulateReadCounts(Ngene = 10000, PDEG = 0.3,#全遺伝子数とDEGの割合を指定
             DEG.assign = c(0.7, 0.2, 0.1),#DEGの内訳(G1が70%, G2が20%, G3が10%)を指定
             DEG.foldchange = c(3, 10, 6),#DEGの発現変動度合い(G1が3倍、G2が10倍、G3が6倍)を指定
             replicates = c(1, 1, 1))  #各群のサンプル数を指定
plotFCPseudocolor(tcc)                 #シミュレーション条件のpseudo-colorイメージを描画

#ファイルに保存
tmp <- cbind(rownames(tcc$count), tcc$count)#保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

recount2：Collado-Torres et al., Nat Biotechnol., 2017
ReCount(Frazee et al., BMC Bioinformatics, 2011)の後継版です。 Bioconductor上でもrecountというRパッケージが提供されています。

pasillaパッケージ中の複製あり2群間比較用カウントデータです(孫建強氏提供情報)。

14,599 genes×7 samplesの「複製あり」タグカウントデータ(sample_pasilla_4vs3.txt)です。処理前4サンプル(4 untreated) vs. 処理後3サンプル(3 treated)の2群間比較用です。データの原著論文はBrooks et al., Genome Res., 2011です。手順としては、pasillaパッケージ中のタブ区切りテキストファイルpasilla_gene_counts.tsvを呼び出し、それをsample_pasilla_4vs3.txtというファイル名で保存しているだけです。以下のコピペでも取得可能です。

out_f <- "sample_pasilla_4vs3.txt"     #出力ファイル名を指定してout_fに格納
library(pasilla)                       #パッケージの読み込み

#本番
hoge <- system.file("extdata",         #pasillaパッケージ中の目的ファイルのフルパス情報を取得
           "pasilla_gene_counts.tsv",  #pasillaパッケージ中の目的ファイルのフルパス情報を取得
           package="pasilla", mustWork=TRUE)#pasillaパッケージ中の目的ファイルのフルパス情報を取得
data <- read.csv(hoge, sep="\t", row.names="gene_id")#gene_id列の情報を行名部分としてread.csv関数で読み込む

#ファイルに保存
tmp <- cbind(rownames(data), data)     #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

pasillaパッケージ中の複製なし2群間比較用カウントデータです(孫建強氏提供情報)。

14,599 genes×2 samplesの「複製なし」タグカウントデータ(sample_pasilla_1vs1.txt)です。 1つ上の例題の4 untreated vs. 3 treatedのオリジナルデータから、1列目と5列目の情報を抽出して、sample_pasilla_1vs1.txtというファイル名で保存しているだけです。以下のコピペでも取得可能です。

out_f <- "sample_pasilla_1vs1.txt"     #出力ファイル名を指定してout_fに格納
param_subset <- c(1, 5)                #取り扱いたいサブセット情報を指定
library(pasilla)                       #パッケージの読み込み

#本番
hoge <- system.file("extdata",         #pasillaパッケージ中の目的ファイルのフルパス情報を取得
           "pasilla_gene_counts.tsv",  #pasillaパッケージ中の目的ファイルのフルパス情報を取得
           package="pasilla", mustWork=TRUE)#pasillaパッケージ中の目的ファイルのフルパス情報を取得
data <- read.csv(hoge, sep="\t", row.names="gene_id")#gene_id列の情報を行名部分としてread.csv関数で読み込む
data <- data[,param_subset]            #param_subsetで指定した列の情報のみ抽出

#ファイルに保存
tmp <- cbind(rownames(data), data)     #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

FASTA形式ファイル(Lactobacillus_hokkaidonensis_jcm_18461.GCA_000829395.1.30.dna.chromosome.Chromosome.fa) に対してbasic alignerでマッピングする際の動作確認用RNA-seqデータ(sample_RNAseq4.fa)。リファレンス配列を読み込んで、list_sub9.txtで与えた部分配列を抽出したものです。 GFF3形式ののアノテーションファイル(Lactobacillus_hokkaidonensis_jcm_18461.GCA_000829395.1.30.chromosome.Chromosome.gff3) を用いてマッピング結果からカウント情報を取得する際に、どの領域にマップされたリードがOKなのかを検証するためのリードファイルです。

in_f1 <- "Lactobacillus_hokkaidonensis_jcm_18461.GCA_000829395.1.30.dna.chromosome.Chromosome.fa"#入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub9.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "sample_RNAseq4.fa"           #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
posi <- read.table(in_f2)              #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#前処理（description部分をスペースで区切り、分割された中から1番目の要素で置き換える）
hoge <- strsplit(names(fasta), " ", fixed=TRUE)#names(fasta)中の文字列を" "で区切った結果をリスト形式でhogeに格納
hoge2 <- unlist(lapply(hoge, "[[", 1)) #hogeのリスト中の1番目の要素を抽出してhoge2に格納
names(fasta) <- hoge2                  #names(fasta)の中身をhoge2で置換
fasta                                  #確認してるだけです

#本番
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:nrow(posi)){                #length(posi)回だけループを回す
    obj <- names(fasta) == posi[i,1]   #条件を満たすかどうかを判定した結果をobjに格納
    hoge <- append(hoge, subseq(fasta[obj], start=posi[i,2], end=posi[i,3]))#subseq関数を用いてobjがTRUEとなるもののみに対して、posi[i,2]とposi[i,3]で与えた範囲に対応する部分配列を抽出した結果をhogeに格納
}
fasta <- hoge                          #hogeの中身をfastaに格納
fasta                                  #確認してるだけです

#後処理(description部分の作成)
description <- paste(posi[,1], posi[,2], posi[,3], sep="_")#行列posiの各列を"_"で結合したものをdescriptionに格納
names(fasta) <- description            #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

MASSパッケージから提供されている gehanという名前の生存時間解析用データ(sample48.txt；タブ区切りテキストファイル)です。カプランマイヤー(Kaplan-Meier)法による生存曲線（カプランマイヤー曲線；生存率曲線）作成時の入力ファイルです。 Rと生存時間分析（１）や、 MASSのリファレンスマニュアル56ページ目のgehanの説明部分でも解説されていますが、これは（ヘッダー行を除く）42行×4列からなる数値行列データです。42行の行数は、42人の白血病患者(leukemia patients)数に相当します。 2人ずつのペアになっており、片方には6-mercaptopurine (6-MP)という薬を投与、もう片方にはプラセボ（control）を投与しています。
行列データの各列には以下に示す情報が格納されています：
1列目（列名：pair）は、患者のid情報が示されています。例えば1-2行目が1番目のペア、3-4行目が2番目のペアだと読み解きます。
2列目（列名：time）は、寛解時間(単位は週)です。MASSのリファレンスマニュアル56ページ目では、 remission time in weeksと書いてあります。大まかには「元気に過ごせた時間」とか「生存時間」のように解釈しちゃって構いません。
3列目（列名：cens）は、打ち切り(censoring)があったかなかったかという 0 or 1の情報からなります。打ち切りがあったら0、なかったら1です。このデータの場合は、3列目の0が12個、1が30個です。したがって、12人の患者さんのデータが打ち切りのあるデータ（「上完全データ」と呼ぶそうです）、 30人の患者さんのデータが打ち切りのないデータ（「完全データ」と呼ぶそうです。）ということになります。打ち切りデータというのは、患者さんとの連絡が取れなくなったなど、何らかの理由で患者さんの状況を把握する手段がなくなったデータのことを指します。観察期間終了まで生存されている患者さんの場合も、「打ち切りありで0」ということになります。ちなみに、亡くなったという情報が分かっているデータは打ち切りのないデータに相当します。
4列目（列名：treat）には、プラセボ(control)投与群か6-MP投与群かという「どのような処理を行ったかという処理(treatment)情報」が記載されています。
```
out_f <- "sample48.txt"                #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(MASS)                          #パッケージの読み込み

#本番(目的のデータセットをロード)
data(gehan)                            #gehanデータのロード
tmp <- gehan                           #名前をtmpに変更
head(tmp)                              #確認してるだけです
dim(tmp)                               #確認してるだけです

#ファイルに保存
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存
	
```
survivalパッケージから提供されている kidneyという名前の生存時間解析用データ(sample49.txt；タブ区切りテキストファイル)です。カプランマイヤー(Kaplan-Meier)法による生存曲線（カプランマイヤー曲線；生存率曲線）作成時の入力ファイルです。 survivalのリファレンスマニュアル48ページ目のkidneyの説明部分でも解説されています。これは（ヘッダー行を除く）76行×7列からなる数値行列データです。これは、ポータブル透析装置(portable dialysis equipment)を使用している腎臓病患者(kidney patients)向けの、カテーテル(catheter)挿入時点での感染までの再発時間に関するデータです(McGilchrist and Aisbett, Biometrics, 1991)。カテーテルは感染以外の理由で除去される場合があります。その場合、観察は打ち切られます。患者1人につき、2つの観察結果(2 observations)があります。このデータは76行ありますので、76/2 = 38人分の腎臓病患者のデータがあることになります。このデータは、生存モデルでのランダム効果(フレイル)を説明するためによく使用されているようです。
行列データの各列には以下に示す情報が格納されています：
1列目（列名：id）は、患者のid情報が示されています。例えば、(ヘッダー行を除く)最初の1-2行がid = 1の最初の患者さん、次の3-4行がid = 2の患者さん、という風に解釈します。
2列目（列名：time）は、時間です(単位不明)。
3列目（列名：status）は、event statusです。 0 or 1ですが、何が0で何が1かは記載されていません。 Rと生存時間分析（２）によると、「打ち切りは0、その他は1」となっています。
4列目（列名：age）は、年令情報(in years)です。
5列目（列名：sex）は、性別情報です。1が男性、2が女性です。
6列目（列名：disease）は、「disease type」に関する情報が含まれています。「0=GN, 1=AN, 2=PKD, 3=Other」だそうです。PKDはほぼ間違いなくpolycystic kidney diseaseの略で、多発性囊胞腎です。 ANは、おそらくacute nephritis (急性腎炎)のこと。GNは、glomerular nephritis (糸球体腎炎)の略なんだろうとは思いますが...。実際には、数値ではなく「GN or AN or PKD or Other」のいずれかが記載されています。
7列目（列名：frail）は、「frailty estimate from original paper」に関する情報が含まれています。原著論文(McGilchrist and Aisbett, Biometrics, 1991)から推定したフレイル(frailty；加齢により心身が老い衰えた状態)の度合いを数値で示したもののようです。数値が大きいほど衰えの度合いが高い?!。
```
out_f <- "sample49.txt"                #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(survival)                      #パッケージの読み込み

#本番(目的のデータセットをロード)
data(kidney)                           #kidneyデータのロード
tmp <- kidney                          #名前をtmpに変更
head(tmp)                              #確認してるだけです
dim(tmp)                               #確認してるだけです

#ファイルに保存
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存
	
```
survivalパッケージから提供されている colonという名前の生存時間解析用データ(sample50.txt；タブ区切りテキストファイル)です。カプランマイヤー(Kaplan-Meier)法による生存曲線（カプランマイヤー曲線；生存率曲線）作成時の入力ファイルです。 survivalのリファレンスマニュアル23ページ目のcolonの説明部分でも解説されていますが、これは（ヘッダー行を除く）1858行×16列からなる数値行列データです。これは、大腸がんに対する術後補助化学療法(adjuvant chemotherapy)の有効性を示したデータです (Laurie et al., J Clin Oncol., 1989)。化学療法としては、低毒性のレバミゾール(Levamisole; 線虫駆虫薬の1種)と、中程度の毒性のフルオロウラシル(fluorouracil; 5-FU)が使われています。患者は、何もせずに経過観察(Obsavation)のみのObs群、Levamisole単独投与群(Lev群)、そして2種類の抗がん剤の併用群(Lev+5-FU群)の3種類に分けられます。患者1人につき、2つの記録(two records)があります。再発(recurrence)が1で、死亡(death)が2です。このデータは1858行ありますので、1858/2 = 929人分の大腸がん患者(colon cancer patients)のデータがあることになります。それぞれのイベントの種類(event type; etype)ごとに、時間(time)の情報があります。例えば、idが1の患者さんは、再発(etype = 1)までの時間が968 days、死亡(etype = 2)までの時間が1521 daysだったと解釈します。データ全体を眺める(特にtime列とetype列を見比べる)とわかりますが、死亡までの時間のほうが再発までの時間よりも短いデータはアリエマセン。「再発までの時間 <= 死亡までの時間」ということになります。
行列データの各列には以下に示す情報が格納されています：
1列目（列名：id）は、患者のid情報が示されています。例えば、(ヘッダー行を除く)最初の1-2行がid = 1の最初の患者さん、次の3-4行がid = 2の患者さん、という風に解釈します。
2列目（列名：study）は、全て1であり特に意味はありません。
3列目（列名：rx）は、患者に対してどのような処置(Treatment)を行ったのかという情報が含まれています。経過観察のみのObs群、Levamisole単独投与群(Lev群)、そして2種類の抗がん剤の併用群(Lev+5-FU群)の3種類です。
4列目（列名：sex）は、性別情報です。0が女性、1が男性です。
5列目（列名：age）は、年令情報(in years)です。
6列目（列名：obstruct）は、「obstruction of colon by tumour」に関する情報が含まれています。おそらく癌によって腸閉塞が行ったかどうかという0 or 1の情報からなるのだろうと思います。この列をざっと眺めると、0のほうが多いこと、そしてそれほど腸閉塞の頻度は多くないだろうという素人判断から、0が腸閉塞なし、1が腸閉塞ありなのだろうと思います。
7列目（列名：perfor）は、「perforation of colon」に関する情報が含まれています。おそらく結腸(大腸のこと)に穴(穿孔)があいちゃったかどうかという0 or 1の情報からなるのだろうと思います。この列をざっと眺めると、0のほうが多いこと、そしてそれほど穿孔の頻度は多くないだろうという素人判断から、0が穿孔なし、1が穿孔ありなのだろうと思います。
8列目（列名：adhere）は、「adherence to nearby organs」に関する情報が含まれています。近くの臓器への癒着があったかどうかという0 or 1の情報からなるのだろうと思います。この列をざっと眺めると、0のほうが多いこと、そしてそれほど癒着の頻度は多くないだろうという素人判断から、0が癒着なし、1が癒着ありなのだろうと思います。
9列目（列名：nodes）は、「number of lymph nodes with detectable cancer」に関する情報が含まれています。リンパ節への転移に関する情報で、転移のあったリンパ節数(多いほどよくない)です。
10列目（列名：status）は、「censoring status」に関する情報が含まれています。打ち切り(censoring)があったかなかったかという 0 or 1の情報からなります。打ち切りがあったら0、なかったら1です。打ち切りデータというのは、患者さんとの連絡が取れなくなったなど、何らかの理由で患者さんの状況を把握する手段がなくなったデータのことを指します。観察期間終了まで生存されている患者さんの場合は、「打ち切りありで0」ということになります。ちなみに、亡くなったという情報が分かっているデータは打ち切りのないデータに相当します。
11列目（列名：differ）は、「differentiation of tumour」に関する情報が含まれています。分化度(differentiation)のことですね。「1=well, 2=moderate, 3=poor」です。高分化型が1、中分化型が2、低分化型が3です。数値が大きいほど悪性度が高いと解釈します。
12列目（列名：extent）は、「Extent of local spread」に関する情報が含まれています。「腫瘍の局所的拡大の範囲」と解釈すればよいのでしょうか。「1=submucosa, 2=muscle, 3=serosa, 4=contiguous structures)」です。大腸粘膜(mucosa)の次の層がsubmucosa、その次が筋層(muscle layer)、その次がserosa (serous membrane；漿膜)、最後にcontiguous structures (直接隣接する組織)となります。数値が大きいほど深層まで達していると解釈できるので、悪性度が高いと解釈します。
13列目（列名：surg）は、「time from surgery to registration」に関する情報が含まれています。来訪してから手術までの期間であり、「0=short, 1=long」です。
14列目（列名：node4）は、「more than 4 positive lymph nodes」に関する情報が含まれています。 nodes列が4よりも大きいものが1、4以下が0となっているようですね。
15列目（列名：time）は、「days until event or censoring」に関する情報が含まれています。イベント(再発 or 死亡)または打ち切り(censoring)までの日数です。数値の大きさは、生存時間の長さを表します。
16列目（列名：etype）は、「event type」に関する情報が含まれています。再発(recurrence)が1で、死亡(death)が2です。
```
out_f <- "sample50.txt"                #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(survival)                      #パッケージの読み込み

#本番(目的のデータセットをロード)
data(colon)                            #colonデータのロード
tmp <- colon                           #名前をtmpに変更
head(tmp)                              #確認してるだけです
dim(tmp)                               #確認してるだけです

#ファイルに保存
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存
	
```
MLSeqパッケージ(Goksuluk et al., 2019)から提供されている cervicalという名前の2群間比較用データ(sample51.txt；タブ区切りテキストファイル)です。 714行×58列からなる数値行列データ（ヘッダー行を除く）です。データの原著論文は、Witten et al., 2010です。子宮頸がん患者29例の正常組織と癌組織のペアサンプルであり、714のmicroRNA (714 miRNAs)の発現を調べたデータです。 (行名情報の列を除く)最初の29列分が正常サンプル(N1, N2, ..., N29)、残りの29列分が癌サンプル(T1, T2, ..., T29)のデータです。 MLSeqパッケージマニュアル中にも書かれていますが、以下のようなコマンドでも取得可能です。 MLSeqパッケージのインストールが完了していれば、以下のfilepath情報を頼りにしてcervical.txtというファイルを見つければよいだけですが、 filapath情報からたどり着けるのはある程度経験を積んでからというのが現実だと思いますので、わざわざ記載しているのです。
```
out_f <- "sample51.txt"                #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(MLSeq)                         #パッケージの読み込み

#前処理(ファイルパス情報を取得)
filepath <- system.file("extdata/cervical.txt", package="MLSeq")#ファイルパス情報を取得
filepath                               #確認してるだけです

#本番(数値行列情報を取得)
data <- read.table(filepath, row.names=1, header=TRUE)#filepathで指定したファイルの読み込み
dim(data)                              #確認してるだけです

#ファイルに保存
tmp <- cbind(rownames(data), data)     #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存
	
```

バイオインフォマティクス人材育成カリキュラム(次世代シークエンサ) | NGSハンズオン講習会2017

ここの情報は、サブページの「NGSハンズオン講習会2017」に移動しました。

バイオインフォマティクス人材育成カリキュラム(次世代シークエンサ) | NGSハンズオン講習会2016

ここの情報は、サブページの「NGSハンズオン講習会2016」に移動しました。

バイオインフォマティクス人材育成カリキュラム(次世代シークエンサ) | NGSハンズオン講習会2015

ここの情報は、サブページの「NGSハンズオン講習会2015」に移動しました。

バイオインフォマティクス人材育成カリキュラム(次世代シークエンサ) | NGS速習コース2014

ここの情報は、サブページの「NGS速習コース2014」に移動しました。

イントロ | 一般 | ランダムに行を抽出

例えばタブ区切りテキストファイルのannotation.txtが手元にあり、指定した数の行を(非復元抽出で)ランダムに抽出するやり方を示します。

Linux (UNIX)のgrepコマンドのようなものです。perlのハッシュのようなものです。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. タブ区切りテキストファイル(annotation.txt)からランダムに5行分を抽出したい場合：

ヘッダー行はヘッダー行として残す場合のやり方です。

in_f <- "annotation.txt"               #入力ファイル名(目的のタブ区切りテキストファイル)を指定してin_fに格納
out_f <- "hoge1.txt"                   #出力ファイル名を指定してout_fに格納
param <- 5                             #ランダム抽出したい行数を指定

#入力ファイルの読み込み
data <- read.table(in_f, header=TRUE, sep="\t", quote="")#in_fで指定したファイルの読み込み
dim(data)                              #オブジェクトdataの行数と列数を表示

#本番
hoge <- sample(1:nrow(data), param, replace=F)#入力ファイルの行数からparamで指定した数だけ非復元抽出した結果をhogeに格納

out <- data[sort(hoge),]               #hogeで指定した行のみ抽出した結果をoutに格納
dim(out)                               #オブジェクトoutの行数と列数を表示

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=F)#outの中身を指定したファイル名で保存

2. タブ区切りテキストファイル(annotation.txt)からランダムに5行分を抽出したい場合：

ヘッダー行がない場合のやり方です。

in_f <- "annotation.txt"               #入力ファイル名(目的のタブ区切りテキストファイル)を指定してin_fに格納
out_f <- "hoge2.txt"                   #出力ファイル名を指定してout_fに格納
param <- 5                             #ランダム抽出したい行数を指定

#入力ファイルの読み込み
data <- read.table(in_f, header=FALSE, sep="\t", quote="")#in_fで指定したファイルの読み込み
dim(data)                              #オブジェクトdataの行数と列数を表示

#本番
hoge <- sample(1:nrow(data), param, replace=F)#入力ファイルの行数からparamで指定した数だけ非復元抽出した結果をhogeに格納
out <- data[sort(hoge),]               #hogeで指定した行のみ抽出した結果をoutに格納
dim(out)                               #オブジェクトoutの行数と列数を表示

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#outの中身を指定したファイル名で保存

イントロ | 一般 | 任意の文字列を行の最初に挿入

タブ区切りのヒト遺伝子アノテーションファイル(human_annotation_sub.gtf)が手元にあり、これを入力としてQuasRパッケージを用いてマッピング結果ファイルをもとにカウントデータを得ようと思ってもエラーに遭遇することが多いです。この原因の一つとして、GFF/GTF形式のアノテーションファイル中の文字列がゲノム情報中の文字列と異なっていることが挙げられます。例えば、ゲノム配列中の染色体名は"chr1", "chr2", ...などという記述がほとんどですが、これに対応するGFF/GTFの一列目の文字列が"1", "2", ...となっています。

そこでここでは、文字列を一致させるべく、タブ区切りのヒト遺伝子アノテーションファイルの左端に"chr"を挿入するやり方を示します。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. GTFファイル(human_annotation_sub.gtf)の各行の左端に"chr"を挿入したい場合：

ヘッダー行がない場合のやり方です。

in_f <- "human_annotation_sub.gtf"     #入力ファイル名(目的のタブ区切りテキストファイル)を指定してin_fに格納
out_f <- "hoge1.txt"                   #出力ファイル名を指定してout_fに格納
param <- "chr"                         #挿入したい文字列を指定

#入力ファイルの読み込み
data <- read.table(in_f, header=FALSE, sep="\t", quote="")#in_fで指定したファイルの読み込み

#本番(文字列挿入)
data[,1] <- paste(param, data[,1], sep="")#dataオブジェクトの1列目の左側にparamで指定した文字列を挿入

#ファイルに保存
write.table(data, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#dataの中身を指定したファイル名で保存

QuasR：Gaidatzis et al., Bioinformatics, 2015

イントロ | 一般 | 任意のキーワードを含む行を抽出(基礎)

例えばタブ区切りテキストファイルが手元にあり、この中からリストファイル中の文字列を含む行を抽出するやり方を示します。 Linux (UNIX)のgrepコマンドのようなものであり、perlのハッシュのようなものです。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. 目的のタブ区切りテキストファイル(annotation.txt)中の第1列目をキーとして、リストファイル(genelist1.txt)中のものが含まれる行全体を出力したい場合：

in_f1 <- "annotation.txt"              #入力ファイル名を指定してin_f1に格納(アノテーションファイル)
in_f2 <- "genelist1.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge1.txt"                   #出力ファイル名を指定してout_fに格納
param <- 1                             #アノテーションファイル中の検索したい列番号を指定

#入力ファイルの読み込み
data <- read.table(in_f1, header=TRUE, sep="\t", quote="")#in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み
dim(data)                              #オブジェクトdataの行数と列数を表示

#本番
obj <- is.element(as.character(data[,param]), keywords)#条件を満たすかどうかを判定した結果をobjに格納
out <- data[obj,]                      #objがTRUEとなる行のみ抽出した結果をoutに格納
dim(out)                               #オブジェクトoutの行数と列数を表示

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=F)#outの中身を指定したファイル名で保存

2. 目的のタブ区切りテキストファイル(annotation.txt)中の第1列目をキーとして、リストファイル(genelist2.txt)中のものが含まれる行全体を出力したい場合：

in_f1 <- "annotation.txt"              #入力ファイル名を指定してin_f1に格納(アノテーションファイル)
in_f2 <- "genelist2.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge2.txt"                   #出力ファイル名を指定してout_fに格納
param <- 1                             #アノテーションファイル中の検索したい列番号を指定

#入力ファイルの読み込み
data <- read.table(in_f1, header=TRUE, sep="\t", quote="")#in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み

#本番
obj <- is.element(as.character(data[,param]), keywords)#条件を満たすかどうかを判定した結果をobjに格納
out <- data[obj,]                      #objがTRUEとなる行のみ抽出した結果をoutに格納

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=F)#outの中身を指定したファイル名で保存

3. 目的のタブ区切りテキストファイル(annotation.txt)中の第3列目をキーとして、リストファイル(genelist2.txt)中のものが含まれる行全体を出力したい場合：

in_f1 <- "annotation.txt"              #入力ファイル名を指定してin_f1に格納(アノテーションファイル)
in_f2 <- "genelist2.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge3.txt"                   #出力ファイル名を指定してout_fに格納
param <- 3                             #アノテーションファイル中の検索したい列番号を指定

#入力ファイルの読み込み
data <- read.table(in_f1, header=TRUE, sep="\t", quote="")#in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み

#本番
obj <- is.element(as.character(data[,param]), keywords)#条件を満たすかどうかを判定した結果をobjに格納
out <- data[obj,]                      #objがTRUEとなる行のみ抽出した結果をoutに格納

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=F)#outの中身を指定したファイル名で保存

4. 目的のタブ区切りテキストファイル(annotation.txt)に対して、リストファイル(genelist1.txt)中のものが含まれる行全体を出力したい場合：

annotation.txt中にはgene1以外にgene10やgene11もあるため、リストファイル中の文字列(gene1, gene7, gene9)から想定される3行分以外に、 gene10とgene11の行も出力されます。(2016年4月20日追加)

in_f1 <- "annotation.txt"              #入力ファイル名を指定してin_f1に格納(アノテーションファイル)
in_f2 <- "genelist1.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge4.txt"                   #出力ファイル名を指定してout_fに格納

#入力ファイルの読み込み
data <- readLines(in_f1)               #in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み

#本番(リストファイル中の要素数分だけループを回して、要素中の文字列と一致する行番号情報を得て、その行のみ出力)
keywords <- unique(keywords)           #リストファイル中の要素が重複している可能性があるので、重複なしの状態にしている
hoge <- NULL                           #最終的に欲しい行番号情報を格納するためのプレースホルダ
for(i in 1:length(keywords)){          #length(keywords)で表現される要素数分だけループを回す
    hoge <- c(hoge, c(grep(keywords[i], data)))#リストファイル中の要素ごとに検索をかけて要素中の文字列と一致する行番号情報をhogeにどんどん格納している
    if(i%%10 == 0) cat(i, "/", length(keywords), "finished\n")#進行状況を表示させてるだけ
}
hoge <- unique(hoge)                   #得られるhogeベクトルは重複している可能性があるので重複を除いている
out <- data[hoge]                      #hogeで指定したもののみ抽出した結果をoutに格納(dataオブジェクトは行列ではないことに注意！)

#ファイルに保存
writeLines(out, out_f)                 #outの中身を指定したファイル名で保存

#以下は（こんなこともできますという）おまけ
#リストファイル中にあるキーワードごとに、それが見つかった行番号情報を出力
out_f2 <- "hoge4_hoge.txt"             #出力ファイル名を指定してout_fに格納
hoge2 <- NULL                          #欲しい行番号情報をリスト形式で格納するためのプレースホルダ
for(i in 1:length(keywords)){          #length(keywords)で表現される要素数分だけループを回す
    hoge2 <- c(hoge2, list(grep(keywords[i], data)))#リストファイル中の要素ごとに検索をかけて要素中の文字列と一致する行番号情報を(キーワードごとに取り扱うため)リスト形式でhoge2にどんどん格納している
}
hoge3 <- sapply(hoge2, paste, collapse="\t")#hoge2はリスト形式になっているので、リストの各成分中の要素を"\t"で結合し、成分数が要素数になるようなベクトルhoge3を作成している(出力に用いるwriteLines関数がベクトル中の一要素を一行で出力する仕様になっている。それに合わせるための小細工です)
hoge4 <- paste(keywords, hoge3, sep="\t")#一番左側が検索に用いたリストファイル中のキーワードになるようなベクトルhoge4を作成
writeLines(hoge4, out_f2)              #hoge4の中身を指定したファイル名で保存

5. 目的のタブ区切りテキストファイル(annotation.txt)中の第1列目をキーとして、リストファイル(genelist1.txt)中のものに対応するannotation.txt中の第4列目(subcellular_location列)のみを出力する場合：

リストファイルgenelist1.txt中の文字列(gene1, gene7, gene9)が、annotation.txt中の1列目にある行の4列目の情報は、全てnuclearです。(2016年4月20日追加)

in_f1 <- "annotation.txt"              #入力ファイル名を指定してin_f1に格納(アノテーションファイル)
in_f2 <- "genelist1.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge5.txt"                   #出力ファイル名を指定してout_fに格納
param1 <- 1                            #アノテーションファイル中の検索したい列番号を指定
param2 <- 4                            #出力したい列番号を指定

#入力ファイルの読み込み
data <- read.table(in_f1, header=TRUE, sep="\t", quote="")#in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み

#本番
obj <- is.element(as.character(data[,param1]), keywords)#条件を満たすかどうかを判定した結果をobjに格納
out <- data[obj, param2]               #objがTRUEとなる行の(param2)列目の情報のみ抽出した結果をoutに格納

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#outの中身を指定したファイル名で保存

6. 例題4と同じことをsapply関数を用いてやる場合：

unique(hoge)のところをunique(unlist(hoge))に変更しました。出力結果は例題4と同じです。(2016年4月20日追加)

in_f1 <- "annotation.txt"              #入力ファイル名を指定してin_f1に格納(アノテーションファイル)
in_f2 <- "genelist1.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge6.txt"                   #出力ファイル名を指定してout_fに格納

#入力ファイルの読み込み
data <- readLines(in_f1)               #in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み

#本番(リストファイル中の要素一つ一つに対して、要素中の文字列と一致する行番号情報を得て、その行のみ出力)
keywords <- unique(keywords)           #リストファイル中の要素が重複している可能性があるので、重複なしの状態にしている
hoge <- sapply(keywords, grep, x=data) #リストファイル中の要素一つ一つに対して、要素中の文字列と一致する行番号情報を得ている
hoge <- unique(unlist(hoge))           #得られるhogeベクトルは重複している可能性があるので重複を除いている
out <- data[hoge]                      #hogeで指定したもののみ抽出した結果をoutに格納(dataオブジェクトは行列ではないことに注意！)

#ファイルに保存
writeLines(out, out_f)                 #outの中身を指定したファイル名で保存

7. 例題6と同じことを別のファイルを用いてやる場合：

ラットのアノテーション情報ファイル(GPL1355-14795.txt)と、2群間比較で発現変動が確認された遺伝子IDリストファイル(result_rankprod_BAT_id.txt)です。 unique(hoge)のところをunique(unlist(hoge))に変更しました。約15分。(2016年4月20日追加)

in_f1 <- "GPL1355-14795.txt"           #入力ファイル名を指定してin_f1に格納(アノテーションファイル)
in_f2 <- "result_rankprod_BAT_id.txt"  #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge7.txt"                   #出力ファイル名を指定してout_fに格納

#入力ファイルの読み込み
data <- readLines(in_f1)               #in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み

#本番(リストファイル中の要素一つ一つに対して、要素中の文字列と一致する行番号情報を得て、その行のみ出力)
keywords <- unique(keywords)           #リストファイル中の要素が重複している可能性があるので、重複なしの状態にしている
hoge <- sapply(keywords, grep, x=data) #リストファイル中の要素一つ一つに対して、要素中の文字列と一致する行番号情報を得ている
hoge <- unique(unlist(hoge))           #得られるhogeベクトルは重複している可能性があるので重複を除いている
out <- data[hoge]                      #hogeで指定したもののみ抽出した結果をoutに格納(dataオブジェクトは行列ではないことに注意！)

#ファイルに保存
writeLines(out, out_f)                 #outの中身を指定したファイル名で保存

8. 例題7と基本的には同じだが、「遺伝子IDリストファイル中の文字列」が「アノテーション情報ファイル中の一番左側」にしか存在しないという前提で高速に探索したい場合：

ラットのアノテーション情報ファイル(GPL1355-14795.txt)と、2群間比較で発現変動が確認された遺伝子IDリストファイル(result_rankprod_BAT_id.txt)です。 unique(hoge)のところをunique(unlist(hoge))に変更しました。約7分。(2016年4月20日追加)

in_f1 <- "GPL1355-14795.txt"           #入力ファイル名を指定してin_f1に格納(アノテーションファイル)
in_f2 <- "result_rankprod_BAT_id.txt"  #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge8.txt"                   #出力ファイル名を指定してout_fに格納

#入力ファイルの読み込み
data <- readLines(in_f1)               #in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み

#本番(リストファイル中の要素一つ一つに対して、要素中の文字列と一致する行番号情報を得て、その行のみ出力)
keywords <- unique(keywords)           #リストファイル中の要素が重複している可能性があるので、重複なしの状態にしている
hoge <- sapply(paste("^", keywords, sep=""), grep, x=data)#リストファイル中の要素一つ一つに対して、要素中の文字列と一致する行番号情報を得ている
hoge <- unique(unlist(hoge))           #得られるhogeベクトルは重複している可能性があるので重複を除いている
out <- data[hoge]                      #hogeで指定したもののみ抽出した結果をoutに格納(dataオブジェクトは行列ではないことに注意！)

#ファイルに保存
writeLines(out, out_f)                 #outの中身を指定したファイル名で保存

9. 8を基本として、8の出力ファイルは対象の行の情報全てを出力するものであったが、13列目のRefSeq Transcript IDに相当するもののみ抽出したい場合：

ラットのアノテーション情報ファイル(GPL1355-14795.txt), 二群間比較で発現変動が確認された遺伝子IDリストファイル(result_rankprod_BAT_id.txt)

in_f1 <- "GPL1355-14795.txt"           #入力ファイル名を指定してin_f1に格納(アノテーションファイル)
in_f2 <- "result_rankprod_BAT_id.txt"  #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge9.txt"                   #出力ファイル名を指定してout_fに格納
param <- 13                            #出力したい列番号を指定

#入力ファイルの読み込み
data <- readLines(in_f1)               #in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み

#本番(リストファイル中の要素一つ一つに対して、要素中の文字列と一致する行番号情報を得て、その行のみ出力)
keywords <- unique(keywords)           #リストファイル中の要素が重複している可能性があるので、重複なしの状態にしている
hoge <- sapply(paste("^", keywords, sep=""), grep, x=data)#リストファイル中の要素一つ一つに対して、要素中の文字列と一致する行番号情報を得ている
hoge <- unique(hoge)                   #得られるhogeベクトルは重複している可能性があるので重複を除いている
hoge2 <- data[hoge]                    #ベクトルdataからobjがTRUEとなる要素のみを抽出した結果をhoge2に格納(dataオブジェクトは行列ではないことに注意！)
hoge3 <- strsplit(hoge2, "\t")         #hoge2ベクトル中の各要素を「タブ(\t)」で区切って分割した結果をhoge3に格納
out <- unlist(lapply(hoge3, "[[", param))#hoge3のリスト中の(param)番目の要素のみ抽出した結果outに格納

#ファイルに保存
writeLines(out, out_f)                 #outの中身を指定したファイル名で保存

10. 9を基本として、8の出力ファイルは対象の行の情報全てを出力するものであったが、13列目のRefSeq Transcript IDに相当するもののみ抽出したい場合：

ラットのアノテーション情報ファイル(GPL1355-14795.txt), 二群間比較で発現変動が確認された遺伝子IDリストファイル(result_rankprod_BAT_id.txt)

アノテーション情報ファイルの形式は"#"から始まる行以外は同じ列数なので、行列形式などにすることが可能なことを利用している（9に比べて一般性は劣るがより劇的に早い計算が可能）

in_f1 <- "GPL1355-14795.txt"           #入力ファイル名を指定してin_f1に格納(アノテーションファイル)
in_f2 <- "result_rankprod_BAT_id.txt"  #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge10.txt"                  #出力ファイル名を指定してout_fに格納
param <- 13                            #出力したい列番号を指定

#入力ファイルの読み込み
data <- readLines(in_f1)               #in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み
keywords <- unique(keywords)           #リストファイル中の要素が重複している可能性があるので、重複なしの状態にしている

#アノテーション情報ファイル中で"#"から始まる行を除いて(param)列目の情報を抽出している
hoge <- grep("^#", data)               #正規表現で"#"から始まる行の位置情報を抽出してhogeに格納
data <- data[-hoge]                    #ベクトルdataからhoge中の数値に対応する要素の除いた結果をdataに格納
hoge1 <- strsplit(data, "\t")          #dataベクトル中の各要素を「タブ(\t)」で区切って分割した結果をhoge1に格納
hoge2 <- unlist(lapply(hoge1, "[[", param))#hoge1のリスト中の(param)番目の要素のみ抽出してhoge2に格納
names(hoge2) <- unlist(lapply(hoge1, "[[", 1))#hoge1のリスト中の1番目の要素が遺伝子IDと対応するので、これをhoge2のnames属性として割り当てる

#本番(keywords中の要素に対応するRefSeq IDを取得)
hoge3 <- hoge2[keywords]               #hoge2ベクトルの中から、names(hoge2)がkeywordsと一致するものを抽出してhoge3に格納
out <- unique(hoge3)                   #重複を除去している

#ファイルに保存
writeLines(out, out_f)                 #outの中身を指定したファイル名で保存

11. 10を基本として、遺伝子IDリストに対応するRefSeq Transcript IDを抽出ところまでは同じだが、RefSeq IDが同じで遺伝子IDリストにないもの(common)も存在するのでその分を考慮：

ラットのアノテーション情報ファイル(GPL1355-14795.txt), 二群間比較で発現変動が確認された遺伝子IDリストファイル(result_rankprod_BAT_id.txt)

in_f1 <- "GPL1355-14795.txt"           #入力ファイル名を指定してin_f1に格納(アノテーションファイル)
in_f2 <- "result_rankprod_BAT_id.txt"  #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f1 <- "result_rankprod_BAT_RefSeq_DEG.txt"#出力ファイル名1を指定
out_f2 <- "result_rankprod_BAT_RefSeq_nonDEG.txt"#出力ファイル名2を指定
param <- 13                            #出力したい列番号を指定

#入力ファイルの読み込み
data <- readLines(in_f1)               #in_f1で指定したファイルの読み込み
geneid_DEG <- readLines(in_f2)         #in_f2で指定したファイルの読み込み

#アノテーション情報ファイル中で"#"から始まる行を除いて(param)列目の情報を抽出している
hoge <- grep("^#", data)               #正規表現で"#"から始まる行の位置情報を抽出してhogeに格納
data <- data[-hoge]                    #ベクトルdataからhoge中の数値に対応する要素の除いた結果をdataに格納
hoge1 <- strsplit(data, "\t")          #dataベクトル中の各要素を「タブ(\t)」で区切って分割した結果をhoge1に格納
hoge2 <- unlist(lapply(hoge1, "[[", param))#hoge1のリスト中の(param)番目の要素のみ抽出してhoge2に格納
names(hoge2) <- unlist(lapply(hoge1, "[[", 1))#hoge1のリスト中の1番目の要素が遺伝子IDと対応するので、これをhoge2のnames属性として割り当てる

#本番
tmp_DEG <- unique(hoge2[geneid_DEG])   #hoge2ベクトルの中から、names(hoge2)がgeneid_DEGと一致するものを抽出し、重複を除いてtmp_DEGに格納
geneid_nonDEG <- setdiff(names(hoge2), geneid_DEG)#読み込んだ遺伝子IDリストファイル中のID以外のものをgeneid_nonDEGに格納
tmp_nonDEG <- unique(hoge2[geneid_nonDEG])#hoge2ベクトルの中から、names(hoge2)がgeneid_nonDEGと一致するものを抽出し、重複を除いてtmp_nonDEGに格納

common <- intersect(tmp_DEG, tmp_nonDEG)#tmp_DEGとtmp_nonDEGベクトル間の積集合をcommonに格納
out_DEG <- setdiff(tmp_DEG, common)    #tmp_DEGとcommon間の差集合をout_DEGに格納
out_nonDEG <- setdiff(tmp_nonDEG, common)#tmp_nonDEGとcommon間の差集合をout_nonDEGに格納

#ファイルに保存
writeLines(out_DEG, out_f1)            #out_DEGの中身を指定したファイル名で保存
writeLines(out_nonDEG, out_f2)         #out_nonDEGの中身を指定したファイル名で保存

12. 目的のタブ区切りテキストファイル(annotation.txt)中の第1列目をキーとして、param2で指定した文字列が含まれる行全体を出力したい場合：

in_f <- "annotation.txt"               #入力ファイル名を指定してin_fに格納(アノテーションファイル)
out_f <- "hoge12.txt"                  #出力ファイル名を指定してout_fに格納
param1 <- 1                            #アノテーションファイル中の検索したい列番号を指定
param2 <- c("gene1", "gene7", "gene9") #検索したい文字列を指定

#入力ファイルの読み込み
data <- read.table(in_f, header=TRUE, sep="\t", quote="")#in_fで指定したファイルの読み込み
dim(data)                              #オブジェクトdataの行数と列数を表示

#本番
obj <- is.element(as.character(data[,param1]), param2)#条件を満たすかどうかを判定した結果をobjに格納
out <- data[obj,]                      #objがTRUEとなる行のみ抽出した結果をoutに格納
dim(out)                               #オブジェクトoutの行数と列数を表示

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=F)#outの中身を指定したファイル名で保存

13. 目的のタブ区切りテキストファイル(annotation2.txt)中の第1列目をキーとして、param2で指定した文字列が含まれる行全体を出力したい場合：

入力ファイル中にヘッダー行がない場合の読み込み例です。

in_f <- "annotation2.txt"              #入力ファイル名を指定してin_fに格納(アノテーションファイル)
out_f <- "hoge13.txt"                  #出力ファイル名を指定してout_fに格納
param1 <- 1                            #アノテーションファイル中の検索したい列番号を指定
param2 <- c("gene1", "gene7", "gene9") #検索したい文字列を指定

#入力ファイルの読み込み
data <- read.table(in_f, header=F, sep="\t", quote="")#in_fで指定したファイルの読み込み
dim(data)                              #オブジェクトdataの行数と列数を表示

#本番
obj <- is.element(as.character(data[,param1]), param2)#条件を満たすかどうかを判定した結果をobjに格納
out <- data[obj,]                      #objがTRUEとなる行のみ抽出した結果をoutに格納
dim(out)                               #オブジェクトoutの行数と列数を表示

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#outの中身を指定したファイル名で保存

14. GFF3形式のタブ区切りテキストファイル(Lactobacillus_casei_12a.GCA_000309565.2.25.chromosome.Chromosome.gff3)に対して、"ID=gene"という文字列が含まれる行全体を出力したい場合：

乳酸菌ゲノム(Lactobacillus casei 12A)のアノテーションファイルです。 4.をベースに作成。unique(hoge)のところをunique(unlist(hoge))に変更しました。(2016年4月20日追加)

in_f <- "Lactobacillus_casei_12a.GCA_000309565.2.25.chromosome.Chromosome.gff3"#入力ファイル名を指定してin_fに格納
out_f <- "hoge14.txt"                  #出力ファイル名を指定してout_fに格納
param <- "ID=gene"                     #検索したい文字列を指定

#入力ファイルの読み込み
data <- readLines(in_f)                #in_fで指定したファイルの読み込み
length(data)                           #オブジェクトdataの要素数を表示

#本番(paramで指定した文字列と一致する行番号情報を得て、その行のみ出力)
hoge <- sapply(param, grep, x=data)    #paramで指定した文字列と一致する行番号情報を得ている
hoge <- unique(unlist(hoge))           #得られるhogeベクトルは重複している可能性があるので重複を除いている
out <- data[hoge]                      #hogeで指定したもののみ抽出した結果をoutに格納(dataオブジェクトは行列ではないことに注意！)
length(out)                            #オブジェクトoutの要素数を表示

#ファイルに保存
writeLines(out, out_f)                 #outの中身を指定したファイル名で保存

15. GFF3形式ファイル(annotation.gff)に対して、"CDS"という文字列が含まれる行全体を出力したい場合：

2019年5月13日の講義で利用したファイルです。

in_f <- "annotation.gff"               #入力ファイル名を指定してin_fに格納
out_f <- "hoge15.txt"                  #出力ファイル名を指定してout_fに格納
param <- "CDS"                         #検索したい文字列を指定

#入力ファイルの読み込み
data <- readLines(in_f)                #in_fで指定したファイルの読み込み
length(data)                           #オブジェクトdataの要素数を表示

#本番(paramで指定した文字列と一致する行番号情報を得て、その行のみ出力)
hoge <- sapply(param, grep, x=data)    #paramで指定した文字列と一致する行番号情報を得ている
hoge <- unique(unlist(hoge))           #得られるhogeベクトルは重複している可能性があるので重複を除いている
out <- data[hoge]                      #hogeで指定したもののみ抽出した結果をoutに格納(dataオブジェクトは行列ではないことに注意！)
length(out)                            #オブジェクトoutの要素数を表示

#ファイルに保存
writeLines(out, out_f)                 #outの中身を指定したファイル名で保存

イントロ | 一般 | ランダムな塩基配列を生成

タイトル通り、「任意の長さ」で「任意の塩基組成」からなるつランダムな塩基配列を生成するやり方を示します。 A,C,G,Tの数値を指定することで任意の塩基組成にできるようになっています。指定する数値の合計は別に100にならなくてもかまいません。例えば「全てを1にしておけば、四種類の塩基の出現確率の期待値が25%」になりますし、「A=0, C=705, G=89, T=206みたいな指定法だと、（数値の合計が1000なので）塩基Cの出現確率が70.5%」みたいなこともできます。

1. 50塩基の長さのランダムな塩基配列を生成する場合：

塩基の存在比はAが20%, Cが30%, Gが30%, Tが20%にしています。

param_len_ref <- 50                    #配列長を指定
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(20, 30, 30, 20) #(A,C,G,Tの並びで)各塩基の存在比率を指定

#本番(リファレンス配列生成)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
reference <- paste(sample(ACGTset, param_len_ref, replace=T), collapse="")#ACGTsetからparam_len_ref回分だけ復元抽出して得られた塩基配列をreferenceに格納
reference                              #確認してるだけです

2. 塩基配列を生成させて任意のdescription("kkk")を追加してFASTA形式ファイルで保存したい場合：

70塩基の長さのランダムな塩基配列を生成するやり方です。塩基の存在比はAが23%, Cが27%, Gが28%, Tが22%にしています。

out_f <- "hoge2.fasta"                 #出力ファイル名を指定してout_fに格納
param_len_ref <- 70                    #配列長を指定
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(23, 27, 28, 22) #(A,C,G,Tの並びで)各塩基の存在比率を指定
param_desc <- "kkk"                    #FASTA形式ファイルのdescription行に記述する内容

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#本番(配列生成)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
reference <- paste(sample(ACGTset, param_len_ref, replace=T), collapse="")#ACGTsetからparam_len_ref回分だけ復元抽出して得られた塩基配列をreferenceに格納
reference                              #確認してるだけです

#本番(FASTA形式に変換)
fasta <- DNAStringSet(reference)       #DNA塩基配列だと認識させるDNAStringSet関数を適用した結果をfastaに格納
names(fasta) <- param_desc             #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

3. 任意の配列長をもつものを複数個作ってmulti-FASTAファイルとして保存したい場合：

24, 103, 65の配列長をもつ、計3つの塩基配列を生成しています。 description行は"contig"という記述を基本としています。

out_f <- "hoge3.fasta"                 #出力ファイル名を指定してout_fに格納
param_len_ref <- c(24, 103, 65)        #配列長を指定
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(20, 30, 30, 20) #(A,C,G,Tの並びで)各塩基の存在比率を指定
param_desc <- "contig"                 #FASTA形式ファイルのdescription行に記述する内容

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#本番(配列生成)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
hoge <- NULL                           #hogeというプレースホルダの作成
for(i in 1:length(param_len_ref)){     #length(param_len_ref)で表現される配列数分だけループを回す
    hoge <- c(hoge, paste(sample(ACGTset, param_len_ref[i], replace=T), collapse=""))#ACGTsetの文字型ベクトルからparam_len_ref[i]回分だけ復元抽出して得られた塩基配列をhogeに格納
}

#本番(FASTA形式に変換)
fasta <- DNAStringSet(hoge)            #DNA塩基配列だと認識させるDNAStringSet関数を適用した結果をfastaに格納
names(fasta) <- paste(param_desc, 1:length(hoge), sep="_")#description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

4. 配列長情報を含むファイル(seq_length.txt; 中身は「24, 103, 65, 49」という4行からなる数値情報)を読み込む場合：

塩基の存在比はAが26%, Cが27%, Gが24%, Tが23%にしています。

in_f <- "seq_length.txt"               #入力ファイル名を指定してin_fに格納
out_f <- "hoge4.fasta"                 #出力ファイル名を指定してout_fに格納
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(26, 27, 24, 23) #(A,C,G,Tの並びで)各塩基の存在比率を指定
param_desc <- "contig"                 #FASTA形式ファイルのdescription行に記述する内容

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
param_len_ref <- readLines(in_f)       #in_fで指定したファイルの読み込み

#本番(配列生成)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
hoge <- NULL                           #hogeというプレースホルダの作成
for(i in 1:length(param_len_ref)){     #length(param_len_ref)で表現される配列数分だけループを回す
    hoge <- c(hoge, paste(sample(ACGTset, param_len_ref[i], replace=T), collapse=""))#ACGTsetの文字型ベクトルからparam_len_ref[i]回分だけ復元抽出して得られた塩基配列をhogeに格納
}

#本番(FASTA形式に変換)
fasta <- DNAStringSet(hoge)            #DNA塩基配列だと認識させるDNAStringSet関数を適用した結果をfastaに格納
names(fasta) <- paste(param_desc, 1:length(hoge), sep="_")#description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

5. 同一パラメータを与えたときには常に同じ塩基配列が生成されるようにしたい場合：

48, 160, 100, 123の配列長をもつ、計4つの塩基配列を生成しています。 description行は"contig"という記述を基本としています。塩基の存在比はAが28%, Cが22%, Gが26%, Tが24%にしています。 set.seed関数を追加しているだけです。

out_f <- "hoge5.fasta"                 #出力ファイル名を指定してout_fに格納
param_len_ref <- c(48, 160, 100, 123)  #配列長を指定
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(28, 22, 26, 24) #(A,C,G,Tの並びで)各塩基の存在比率を指定
param_desc <- "chr"                    #FASTA形式ファイルのdescription行に記述する内容

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#本番(配列生成)
set.seed(1000)                         #おまじない(同じ乱数になるようにするため)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
hoge <- NULL                           #hogeというプレースホルダの作成
for(i in 1:length(param_len_ref)){     #length(param_len_ref)で表現される配列数分だけループを回す
    hoge <- c(hoge, paste(sample(ACGTset, param_len_ref[i], replace=T), collapse=""))#ACGTsetの文字型ベクトルからparam_len_ref[i]回分だけ復元抽出して得られた塩基配列をhogeに格納
}

#本番(FASTA形式に変換)
fasta <- DNAStringSet(hoge)            #DNA塩基配列だと認識させるDNAStringSet関数を適用した結果をfastaに格納
names(fasta) <- paste(param_desc, 1:length(hoge), sep="_")#description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

6. 同一パラメータを与えたときには常に同じ塩基配列が生成されるようにしたい場合2：

48, 160, 100, 123の配列長をもつ、計4つの塩基配列を生成しています。 description行は"contig"という記述を基本としています。塩基の存在比はAが28%, Cが22%, Gが26%, Tが24%にしています。 set.seed関数を追加し、chr3の配列と同じものをchr5としてコピーして作成したのち、一部の塩基置換を行っています。

out_f <- "hoge6.fasta"                 #出力ファイル名を指定してout_fに格納
param_len_ref <- c(48, 160, 100, 123)  #配列長を指定
narabi <- c("A","C","G","T")           #以下の数値指定時にACGTの並びを間違えないようにするために表示(内部的にも使用してます)
param_composition <- c(28, 22, 26, 24) #(A,C,G,Tの並びで)各塩基の存在比率を指定
param_desc <- "chr"                    #FASTA形式ファイルのdescription行に記述する内容

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#塩基置換関数の作成
enkichikan <- function(fa, p) {        #関数名や引数の作成
  t <- substring(fa, p, p)             #置換したい位置の塩基を取りだす
  t_c <- chartr("CGAT", "GCTA", t)     #置換後の塩基を作成
  substring(fa, p, p) <- t_c           #置換
  return(fa)                           #置換後のデータを返す
}

#本番(配列生成)
set.seed(1000)                         #おまじない(同じ乱数になるようにするため)
ACGTset <- rep(narabi, param_composition)#narabi中の塩基がparam_compositionで指定した数だけ存在する文字列ベクトルACGTsetを作成
hoge <- NULL                           #hogeというプレースホルダの作成
for(i in 1:length(param_len_ref)){     #length(param_len_ref)で表現される配列数分だけループを回す
    hoge <- c(hoge, paste(sample(ACGTset, param_len_ref[i], replace=T), collapse=""))#ACGTsetの文字型ベクトルからparam_len_ref[i]回分だけ復元抽出して得られた塩基配列をhogeに格納
}

#本番(chr3の配列をchr5としてコピーし、2番目と7番目の塩基をそれぞれ置換)
hoge <- c(hoge, hoge[3])               #chr3に相当する配列を追加している
hoge[5] <- enkichikan(hoge[5], 2)      #hoge[5]の2番目の塩基を置換
hoge[5] <- enkichikan(hoge[5], 7)      #hoge[5]の7番目の塩基を置換

#本番(FASTA形式に変換)
fasta <- DNAStringSet(hoge)            #DNA塩基配列だと認識させるDNAStringSet関数を適用した結果をfastaに格納
names(fasta) <- paste(param3, 1:length(hoge), sep="_")#description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

Biostrings：原著論文なし

イントロ | 一般 | 任意の長さの可能な全ての塩基配列を作成

Biostringsパッケージを用いて"A", "C", "G", "T"からなる任意の長さのk塩基(k-mer)からなる全ての塩基配列を作成するやり方を示します。

「ファイル」−「ディレクトリの変更」で出力結果ファイルを保存したいディレクトリに移動し以下をコピペ。

1. k=3として、4^k = 4³ = 64通りの3塩基からなる可能な配列を作成したい場合：

out_f <- "hoge1.txt"                   #出力ファイル名を指定してout_fに格納
param_kmer <- 3                        #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#本番
out <- mkAllStrings(c("A", "C", "G", "T"), param_kmer)#k連続塩基の全ての可能な配列情報をoutに格納

#ファイルに保存
writeLines(out, out_f)                 #outの中身を指定したファイル名で保存

2. k=5として、4^k = 4⁵ = 1024通りの5塩基からなる可能な配列を作成したい場合：

out_f <- "hoge2.txt"                   #出力ファイル名を指定してout_fに格納
param_kmer <- 5                        #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#本番
out <- mkAllStrings(c("A", "C", "G", "T"), param_kmer)#k連続塩基の全ての可能な配列情報をoutに格納

#ファイルに保存
writeLines(out, out_f)                 #outの中身を指定したファイル名で保存

Biostrings：原著論文なし

イントロ | 一般 | 任意の位置の塩基を置換

任意の位置の塩基を置換するやり方を示します。ベタな書き方ですがとりあえず。。。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. FASTA形式ファイル(sample1.fasta)の場合：

in_f <- "sample1.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge1.fasta"                 #出力ファイル名を指定してout_fに格納
param1 <- 5                            #置換したい塩基の位置を指定
param2 <- "G"                          #置換後の塩基を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです
hoge <- as.character(fasta)            #文字列に置換

#本番
substring(hoge, param1, param1) <- param2#param1で指定した位置の塩基をparam2で指定した塩基に置換
hoge <- DNAStringSet(hoge)             #DNAStringSetオブジェクトに変換した結果をhogeに格納
names(hoge) <- names(fasta)            #description部分の情報に相当するnames(fasta)をnames(hoge)に格納している
fasta <- hoge                          #hogeの中身をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

2. FASTA形式ファイル(sample2.fasta)の場合：

in_f <- "sample2.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge2.fasta"                 #出力ファイル名を指定してout_fに格納
param1 <- 5                            #置換したい塩基の位置を指定
param2 <- "G"                          #置換後の塩基を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです
hoge <- as.character(fasta)            #文字列に置換

#本番
substring(hoge, param1, param1) <- param2#param1で指定した位置の塩基をparam2で指定した塩基に置換
hoge <- DNAStringSet(hoge)             #DNAStringSetオブジェクトに変換した結果をhogeに格納
names(hoge) <- names(fasta)            #description部分の情報に相当するnames(fasta)をnames(hoge)に格納している
fasta <- hoge                          #hogeの中身をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

3. FASTA形式ファイル(sample2.fasta)の場合：

param1で指定した位置の塩基を相補鎖（C -> G, G -> C, A -> T, T -> A）に置換するやり方です。そのような関数を作成して実行しています。

in_f <- "sample2.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge3.fasta"                 #出力ファイル名を指定してout_fに格納
param1 <- 5                            #置換したい塩基の位置を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#塩基置換関数の作成
DNAString_chartr <- function(fa, p) {  #関数名や引数の作成
  str_list <- as.character(fa)         #文字列に変更
  t <- substring(str_list, p, p)       #置換したい位置の塩基を取りだす
  t_c <- chartr("CGAT", "GCTA", t)     #置換後の塩基を作成
  substring(str_list, p, p) <- t_c     #置換
  fa_r <- DNAStringSet(str_list)       #DNAStringSetオブジェクトに戻す
  names(fa_r) <- names(fa)             #description部分の情報を追加
  return(fa_r)                         #置換後のデータを返す
}

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
fasta <- DNAString_chartr(fasta, param1)#param1で指定した位置の塩基置換を実行した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

Biostrings：原著論文なし

イントロ | 一般 | 指定した範囲の配列を取得 | について

Biostringsは挙動を確認しながら中身を理解したいヒトなどの初心者向け。慣れてきたら、BEDToolsのmulticovプログラム(根拠はMLSeqパッケージマニュアル)などを用いてサクサクやっていきます。 Galaxyでもできるはずです。

R用：

Biostrings

R以外：

イントロ | 一般 | 指定した範囲の配列を取得 | Biostrings

Biostringsパッケージ中のsubseq関数を用いて、 single-FASTA形式やmulti-FASTA形式ファイルから様々な部分配列を取得するやり方を示します。この項目は、「この染色体の、ここから、ここまで」という指定の仕方になります。例えば入力ファイルがヒトゲノムだった場合に、chr3の20000から500000の座標の配列取得を行いたい場合などに利用します。したがって、chr4とchr8の配列のみ抽出といったやり方には対応していませんのでご注意ください。また、ファイルダウンロード時に、*.fastaという拡張子が*.txtに勝手に変更されることがありますのでご注意ください。ここでは、

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. (single-)FASTA形式ファイル(sample1.fasta)の場合:

任意の範囲 (始点が3, 終点が9)の配列を抽出するやり方です。

in_f <- "sample1.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge1.fasta"                 #出力ファイル名を指定してout_fに格納
param <- c(3, 9)                       #抽出したい範囲の始点と終点を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
fasta <- subseq(fasta, param[1], param[2])#paramで指定した始点と終点の範囲の配列を抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

2. RefSeqのhuman mRNAのmulti-FASTA形式のファイル (h_rna.fasta)の場合:

任意のRefSeq ID (例：NM_203348.1)の任意の範囲 (例：始点が2, 終点が5)の配列の抽出を行うやり方です。

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge2.fasta"                 #出力ファイル名を指定してout_fに格納
param1 <- "NM_203348.1"                #取得したい配列のアクセッション番号を指定
param2 <- c(2, 5)                      #抽出したい範囲の始点と終点を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
obj <- as.logical(names(fasta) == param1)        #条件を満たすかどうかを判定した結果をobjに格納
fasta <- subseq(fasta[obj], param2[1], param2[2])#objがTRUEとなる配列のみに対して、param2で指定した始点と終点の範囲の配列を抽出した結果をfasta格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

3. RefSeqのhuman mRNAのmulti-FASTA形式のファイル (h_rna.fasta)の場合:

目的のaccession番号が複数ある場合に対応したものです。予め用意しておいた「1列目：accession, 2列目：start位置, 3列目：end位置」からなるリストファイル (list_sub1.txt) を読み込ませて、目的の配列のmulti-FASTAファイルをゲットするやり方です。

in_f1 <- "h_rna.fasta"                 #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub1.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge3.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
posi <- read.table(in_f2)              #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:nrow(posi)){                #length(posi)回だけループを回す
    obj <- names(fasta) == posi[i,1]   #条件を満たすかどうかを判定した結果をobjに格納
    hoge <- append(hoge, subseq(fasta[obj], start=posi[i,2], end=posi[i,3]))#subseq関数を用いてobjがTRUEとなるもののみに対して、posi[i,2]とposi[i,3]で与えた範囲に対応する部分配列を抽出した結果をhogeにどんどん格納している
}
fasta <- hoge                          #hogeの中身をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

4. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

目的のaccession番号が複数ある場合に対応したものです。予め用意しておいた「1列目：accession, 2列目：start位置, 3列目：end位置」からなるリストファイル (list_sub2.txt) を読み込ませて、目的の配列のmulti-FASTAファイルをゲットするやり方です。

in_f1 <- "hoge4.fa"                    #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub2.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge4.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
posi <- read.table(in_f2)              #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:nrow(posi)){                #length(posi)回だけループを回す
    obj <- names(fasta) == posi[i,1]   #条件を満たすかどうかを判定した結果をobjに格納
    hoge <- append(hoge, subseq(fasta[obj], start=posi[i,2], end=posi[i,3]))#subseq関数を用いてobjがTRUEとなるもののみに対して、posi[i,2]とposi[i,3]で与えた範囲に対応する部分配列を抽出した結果をhogeにどんどん格納している
}
fasta <- hoge                          #hogeの中身をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

5. multi-FASTA形式のファイル (ref_genome.fa)ファイルの場合:

目的のaccession番号が複数ある場合に対応したものです。予め用意しておいた「1列目：accession, 2列目：start位置, 3列目：end位置」からなるリストファイル (list_sub3.txt) を読み込ませて、目的の部分配列のmulti-FASTAファイルをゲットするやり方です。

in_f1 <- "ref_genome.fa"               #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub3.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge5.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
posi <- read.table(in_f2)              #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:nrow(posi)){                #length(posi)回だけループを回す
  obj <- names(fasta) == posi[i,1]     #条件を満たすかどうかを判定した結果をobjに格納
  tmp <- subseq(fasta[obj], start=posi[i,2], end=posi[i,3])#subseq関数を用いてobjがTRUEとなるもののみに対して、posi[i,2]とposi[i,3]で与えた範囲に対応する部分配列を抽出した結果をtmpに格納
  hoge <- append(hoge, tmp)            #tmpの情報をhogeに追加で格納
}
fasta <- hoge                          #hogeの中身をfastaに格納
fasta                                  #確認してるだけです

#後処理(description部分の作成)
description <- paste(posi[,1], posi[,2], posi[,3], sep="_")#行列posiの各列を"_"で結合したものをdescriptionに格納
names(fasta) <- description            #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

6. multi-FASTA形式のファイル (genome.fna)ファイルの場合:

例題5と基本的に同じで、入力ファイルが異なるだけです。予め用意しておいた「1列目：accession, 2列目：start位置, 3列目：end位置」からなるリストファイル (list_20190513.txt) を読み込ませて、2,311個のCDSからなるmulti-FASTAファイルをゲットするやり方です。

in_f1 <- "genome.fna"                  #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_20190513.txt"           #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge6.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
posi <- read.table(in_f2)              #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:nrow(posi)){                #length(posi)回だけループを回す
  obj <- names(fasta) == posi[i,1]     #条件を満たすかどうかを判定した結果をobjに格納
  tmp <- subseq(fasta[obj], start=posi[i,2], end=posi[i,3])#subseq関数を用いてobjがTRUEとなるもののみに対して、posi[i,2]とposi[i,3]で与えた範囲に対応する部分配列を抽出した結果をtmpに格納
  hoge <- append(hoge, tmp)            #tmpの情報をhogeに追加で格納
}
fasta <- hoge                          #hogeの中身をfastaに格納
fasta                                  #確認してるだけです

#後処理(description部分の作成)
description <- paste(posi[,1], posi[,2], posi[,3], sep="_")#行列posiの各列を"_"で結合したものをdescriptionに格納
names(fasta) <- description            #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

7. multi-FASTA形式のファイル (genome.fna)ファイルの場合:

例題6と基本的に同じですが、4列目にストランド情報を含むリストファイル (list_20190513_strand.txt) を読み込ませて、ストランドを適切に反映させた2,311個のCDSからなるmulti-FASTAファイルをゲットするやり方です。

in_f1 <- "genome.fna"                  #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_20190513_strand.txt"    #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge7.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
posi <- read.table(in_f2)              #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
hoge <- NULL                           #最終的に得る結果を格納するためのプレースホルダhogeを作成しているだけ
for(i in 1:nrow(posi)){                #length(posi)回だけループを回す
  obj <- names(fasta) == posi[i,1]     #条件を満たすかどうかを判定した結果をobjに格納
  tmp <- subseq(fasta[obj], start=posi[i,2], end=posi[i,3])#subseq関数を用いてobjがTRUEとなるもののみに対して、posi[i,2]とposi[i,3]で与えた範囲に対応する部分配列を抽出した結果をtmpに格納
  if(posi[i,4] == "-"){tmp <- reverseComplement(tmp)}#ストランドが"-"の場合は逆相補鎖にする
  hoge <- append(hoge, tmp)            #tmpの情報をhogeに追加で格納
}
fasta <- hoge                          #hogeの中身をfastaに格納
fasta                                  #確認してるだけです

#後処理(description部分の作成)
description <- paste(posi[,1], posi[,2], posi[,3], sep="_")#行列posiの各列を"_"で結合したものをdescriptionに格納
names(fasta) <- description            #description行に相当する記述を追加している
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

Biostrings：原著論文なし

イントロ | 一般 | 指定したID(染色体やdescription)の配列を取得

multi-FASTA形式ファイルからリストファイルで指定したID (description行の記載内容と全く同じ染色体名などの配列ID)の配列を取得するやり方を示します。例えば入力ファイルがヒトゲノムだった場合に、chr4とchr8の配列のみ抽出したい場合などに利用します。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. RefSeqのhuman mRNAのmulti-FASTA形式のファイル (h_rna.fasta)の場合:

任意のRefSeq ID NM_203348.1の配列抽出を行うやり方です。ファイルダウンロード時に、*.fastaという拡張子が*.txtに勝手に変更されることがありますのでご注意ください。

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge1.fasta"                 #出力ファイル名を指定してout_fに格納
param1 <- "NM_203348.1"                #取得したい配列のアクセッション番号を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
obj <- as.logical(names(fasta) == param1)#条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる配列のみを抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

2. RefSeqのhuman mRNAのmulti-FASTA形式のファイル (h_rna.fasta)の場合:

うまくいかない例です。NM_203348.1は確かに入力ファイル中に存在するが、バージョン情報を除いたNM_203348だとうまくいきません。理由は、両者の文字列は完全に同じというわけではないからです。

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge2.fasta"                 #出力ファイル名を指定してout_fに格納
param1 <- "NM_203348"                  #取得したい配列のアクセッション番号を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
obj <- as.logical(names(fasta) == param1)#条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる配列のみを抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

3. RefSeqのhuman mRNAのmulti-FASTA形式のファイル (h_rna.fasta)の場合:

うまくいかない例です。"NM_203348.1"は確かに入力ファイル中に存在するが、スペースが余分に含まれる"NM_203348.1 "だとうまくいきません。理由は、両者の文字列は完全に同じというわけではないからです。

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge3.fasta"                 #出力ファイル名を指定してout_fに格納
param1 <- "NM_203348.1 "               #取得したい配列のアクセッション番号を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
obj <- as.logical(names(fasta) == param1)#条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる配列のみを抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

4. RefSeqのhuman mRNAのmulti-FASTA形式のファイル (h_rna.fasta)の場合:

目的のIDが複数ある場合に対応したものです。予め用意しておいたリストファイル (list_sub5.txt) を読み込ませて、目的の配列のmulti-FASTAファイルをゲットするやり方です。

in_f1 <- "h_rna.fasta"                 #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub5.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge4.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
obj <- is.element(names(fasta), keywords)#条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる配列のみを抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

5. RefSeqのhuman mRNAのmulti-FASTA形式のファイル (h_rna.fasta)の場合:

目的のIDが複数ある場合に対応したものです。予め用意しておいたリストファイル (list_sub6.txt) を読み込ませて、目的の配列のmulti-FASTAファイルをゲットするやり方です。バージョン番号やスペースを含むIDは抽出できないという例です。リスト中の3つのうち、最後のIDの配列のみ抽出できていることがわかります。

in_f1 <- "h_rna.fasta"                 #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub6.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge5.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
obj <- is.element(names(fasta), keywords)#条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる配列のみを抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

6. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

目的のIDが複数ある場合に対応したものです。予め用意しておいたリストファイル (list_sub7.txt) を読み込ませて、目的の配列のmulti-FASTAファイルをゲットするやり方です。 "contig_2"の配列は取得できていますが、"contig_4"の配列は取得できていないことがわかります。理由は、"contig_4 "とスペースが入っているためです。

in_f1 <- "hoge4.fa"                    #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub7.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge6.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
obj <- is.element(names(fasta), keywords)#条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる配列のみを抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

7. multi-FASTA形式のファイル (ref_genome.fa)ファイルの場合:

目的のIDが複数ある場合に対応したものです。予め用意しておいたリストファイル (list_sub8.txt) を読み込ませて、目的の配列のmulti-FASTAファイルをゲットするやり方です。

指定したつもりの4つの染色体番号のうち、"chr1 "はスペースのため、そして"chr_5"は余分な文字の挿入のため抽出できていないことがわかります。

in_f1 <- "ref_genome.fa"               #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub8.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge7.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
obj <- is.element(names(fasta), keywords)#条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる配列のみを抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

8. multi-FASTA形式のファイル (ref_genome_redun.fa)ファイルの場合:

指定したつもりの4つの染色体番号のうち、"chr1 "はスペースのため、そして"chr_5"は余分な文字の挿入のため抽出できていないことがわかります。

multi-FASTAの入力ファイルは、chr4という全く同じ配列が重複して存在しますが、それがそのまま反映されていることが分かります。

in_f1 <- "ref_genome_redun.fa"         #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub8.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge8.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
obj <- is.element(names(fasta), keywords)#条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる配列のみを抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

9. multi-FASTA形式のファイル (ref_genome_redun.fa)ファイルの場合:

指定したつもりの4つの染色体番号のうち、"chr1 "はスペースのため、そして"chr_5"は余分な文字の挿入のため抽出できていないことがわかります。

multi-FASTAの入力ファイルは、chr4という全く同じ配列が重複して存在します。それがそのまま反映されるのが嫌で、重複を除きたい（non-redundantにしたい）場合があります。それに対応したやり方です。

in_f1 <- "ref_genome_redun.fa"         #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub8.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge9.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
obj <- is.element(names(fasta), keywords)#条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる配列のみを抽出した結果をfastaに格納
fasta                                  #確認してるだけです
fasta <- unique(fasta)                 #重複を除いてnon-redundantにした結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

9. multi-FASTA形式のファイル (ref_genome_redun.fa)ファイルの場合:

指定したつもりの4つの染色体番号のうち、"chr1 "はスペースのため、そして"chr_5"は余分な文字の挿入のため抽出できていないことがわかります。

FASTA形式ファイルの読み込み部分で、Biostringsパッケージ中のreadDNAStringSet関数ではなく、seqinrパッケージ中のread.fasta関数を用いるやり方です。

in_f1 <- "ref_genome_redun.fa"         #入力ファイル名を指定してin_f1に格納(multi-FASTAファイル)
in_f2 <- "list_sub8.txt"               #入力ファイル名を指定してin_f2に格納(リストファイル)
out_f <- "hoge10.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み
library(seqinr)                        #パッケージの読み込み

#入力ファイルの読み込みとDNAStringSet形式への変換
hoge <- read.fasta(in_f, seqtype="DNA", as.string=TRUE)#in_fで指定したファイルの読み込み
fasta <- DNAStringSet(as.character(hoge))#型変換
names(fasta) <- names(hoge)            #型変換
keywords <- readLines(in_f2)           #in_f2で指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
obj <- is.element(names(fasta), keywords)#条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる配列のみを抽出した結果をfastaに格納
fasta                                  #確認してるだけです
fasta <- unique(fasta)                 #重複を除いてnon-redundantにした結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

Biostrings：原著論文なし
seqinr：Charif et al., Bioinformatics, 2005

イントロ | 一般 | 翻訳配列(translate)を取得 | について

塩基配列を入力として、アミノ酸配列を取得するプログラムです。 Galaxyでもできるはずです。

R用：

R以外：

Galaxy：Goecks et al., Genome Biol., 2010

イントロ | 一般 | 翻訳配列(translate)を取得 | Biostrings

Biostringsパッケージを用いて塩基配列を読み込んでアミノ酸配列に翻訳するやり方を示します。翻訳のための遺伝コード(genetic code)は、Standard Genetic Codeだそうです。もちろん生物種?!によって多少違い(variants)があるようで、"Standard", "SGC0", "Vertebrate Mitochondrial", "SGC1"などいろいろ選べるようです。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. FASTA形式ファイル(sample1.fasta)の場合：

multi-FASTAではないsingle-FASTA形式ファイルです。

in_f <- "sample1.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge1.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
fasta <- translate(fasta)              #アミノ酸配列に翻訳した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

2. (multi-)FASTA形式ファイル(sample4.fasta)の場合：

配列中にACGT以外のものが存在するためエラーが出る例です。 4番目の配列(つまりgene_4)の17番目のポジションがNなので妥当です。

in_f <- "sample4.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge2.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
fasta <- translate(fasta)              #アミノ酸配列に翻訳した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

3. (multi-)FASTA形式ファイル(sample4.fasta)の場合：

エラーへの対策として、ACGTのみからなる配列を抽出したサブセットを抽出しています。翻訳はそれらのサブセットのみに対して行っているので「文字が塩基ではない」という類のエラーがなくなっていることがわかります。出力ファイル中の*は終始コドン(stop codon)を表すようですね。

in_f <- "sample4.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge3.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#前処理(ACGTのみからなる配列を抽出)
#hoge <- rowSums(alphabetFrequency(fasta)[,1:4])#A,C,G,T,..の数を配列ごとにカウントした結果をhogeに格納(2015年9月12日以前の記述)
hoge <- apply(as.matrix(alphabetFrequency(fasta)[,1:4]), 1, sum)#A,C,G,Tの総数を計算してhogeに格納(2015年9月12日以降の記述)
obj <- (width(fasta) == hoge)          #条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる要素のみ抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#本番
fasta <- translate(fasta)              #アミノ酸配列に翻訳した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

4. multi-FASTA形式ファイル(h_rna.fasta)の場合：

配列中にNを含むものが出現したところでエラーが出て止まる例です。「以下にエラー .Call2("DNAStringSet_translate", x, skip_code, dna_codes[codon_alphabet], : in 'x[[406]]': not a base at pos 498」といったエラーが見られると思います。これは406番目の配列の498番目のポジションの文字が塩基ではないと文句を言っています。

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge4.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
fasta <- translate(fasta)              #アミノ酸配列に翻訳した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

5. multi-FASTA形式ファイル(h_rna.fasta)の場合：

エラーへの対策として、ACGTのみからなる配列を抽出したサブセットを抽出しています。翻訳はそれらのサブセットのみに対して行っているのでエラーは出なくなっていることがわかります。

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge5.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#前処理(ACGTのみからなる配列を抽出)
#hoge <- rowSums(alphabetFrequency(fasta)[,1:4])#A,C,G,T,..の数を配列ごとにカウントした結果をhogeに格納(2015年9月12日以前の記述)
hoge <- apply(as.matrix(alphabetFrequency(fasta)[,1:4]), 1, sum)#A,C,G,Tの総数を計算してhogeに格納(2015年9月12日以降の記述)
obj <- (width(fasta) == hoge)          #条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる要素のみ抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#本番
fasta <- translate(fasta)              #アミノ酸配列に翻訳した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

6. multi-FASTA形式ファイル(h_rna.fasta)の場合：

5.と基本的に同じです。translate関数実行時に、genetic.codeオプションのデフォルトを明記しています。

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge6.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#前処理(ACGTのみからなる配列を抽出)
hoge <- rowSums(alphabetFrequency(fasta)[,1:4])#A,C,G,T,..の数を配列ごとにカウントした結果をhogeに格納
obj <- (width(fasta) == hoge)          #条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる要素のみ抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#本番
fasta <- translate(fasta, genetic.code=GENETIC_CODE)#アミノ酸配列に翻訳した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

7. multi-FASTA形式ファイル(h_rna.fasta)の場合：

translate関数実行時に、genetic.codeオプションをgetGeneticCode("SGC1")に変更しています。遺伝コードが変わっているので、6.と異なった結果となります。

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge7.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#前処理(ACGTのみからなる配列を抽出)
#hoge <- rowSums(alphabetFrequency(fasta)[,1:4])#A,C,G,T,..の数を配列ごとにカウントした結果をhogeに格納(2015年9月12日以前の記述)
hoge <- apply(as.matrix(alphabetFrequency(fasta)[,1:4]), 1, sum)#A,C,G,Tの総数を計算してhogeに格納(2015年9月12日以降の記述)
obj <- (width(fasta) == hoge)          #条件を満たすかどうかを判定した結果をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる要素のみ抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#本番
fasta <- translate(fasta, genetic.code=getGeneticCode("SGC1"))#アミノ酸配列に翻訳した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

Biostrings：原著論文なし

イントロ | 一般 | 翻訳配列(translate)を取得 | seqinr(Charif_2005)

seqinrパッケージを用いて塩基配列を読み込んでアミノ酸配列に翻訳するやり方を示します。本気で翻訳配列を取得する場合にはこちらの利用をお勧めします。翻訳できないコドンはアミノ酸X(不明なアミノ酸)に変換してくれたり、 translate関数のオプションとしてambiguous=Tとすると、翻訳できるものは可能な限り翻訳してくれます(高橋広夫氏提供情報)。 lapply関数を用いるやり方(高橋広夫氏提供情報)とsapply関数を用いるやり方(甲斐政親氏提供情報)を示します。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. FASTA形式ファイル(sample1.fasta)の場合：

multi-FASTAではないsingle-FASTA形式ファイルです。

in_f <- "sample1.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge1.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(seqinr)                        #パッケージの読み込み

#入力ファイルの読み込み
hoge <- read.fasta(in_f, seqtype="DNA")#in_fで指定したファイルの読み込み
hoge                                   #確認してるだけです

#本番
hoge <- lapply(hoge, function(x){      #アミノ酸配列に翻訳
              translate(x, ambiguous=T)#アミノ酸配列に翻訳
        })                             #アミノ酸配列に翻訳
hoge                                   #確認してるだけです

#ファイルに保存
write.fasta(hoge, names=names(hoge), file.out=out_f, nbchar=50)#hogeの中身を指定したファイル名で保存

2. (multi-)FASTA形式ファイル(sample4.fasta)の場合：

lapply関数を用いるやり方です。

in_f <- "sample4.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge2.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(seqinr)                        #パッケージの読み込み

#入力ファイルの読み込み
hoge <- read.fasta(in_f, seqtype="DNA")#in_fで指定したファイルの読み込み
hoge                                   #確認してるだけです

#本番
hoge <- lapply(hoge, function(x){      #アミノ酸配列に翻訳
              translate(x, ambiguous=T)#アミノ酸配列に翻訳
        })                             #アミノ酸配列に翻訳
hoge                                   #確認してるだけです

#ファイルに保存
write.fasta(hoge, names=names(hoge), file.out=out_f, nbchar=50)#hogeの中身を指定したファイル名で保存

3. (multi-)FASTA形式ファイル(sample4.fasta)の場合：

sapply関数を用いるやり方です。

in_f <- "sample4.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge3.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(seqinr)                        #パッケージの読み込み

#入力ファイルの読み込み
hoge <- read.fasta(in_f, seqtype="DNA")#in_fで指定したファイルの読み込み
hoge                                   #確認してるだけです

#本番
hoge <- sapply(hoge, function(x){      #アミノ酸配列に翻訳
              translate(x, ambiguous=T)#アミノ酸配列に翻訳
        })                             #アミノ酸配列に翻訳
hoge                                   #確認してるだけです

#ファイルに保存
write.fasta(hoge, names=names(hoge), file.out=out_f, nbchar=50)#hogeの中身を指定したファイル名で保存

4. (multi-)FASTA形式ファイル(sample4.fasta)の場合：

ファイルの入出力はBiostringsパッケージ、翻訳はseqinrパッケージを利用するやり方です。 Biostringとseqinrで同じtranslate関数が存在するため、「seqinr::translate」として明示的にseqinrパッケージ中のtranslate関数を利用すると宣言しています。

in_f <- "sample4.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge4.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(seqinr)                        #パッケージの読み込み
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
hoge2 <- sapply(fasta, function(x){    #アミノ酸配列に翻訳
            hoge <- as.character(x)    #アミノ酸配列に翻訳
            c2s(seqinr::translate(s2c(hoge), ambiguous=T))#アミノ酸配列に翻訳
        })                             #アミノ酸配列に翻訳
fasta <- AAStringSet(hoge2)            #AAStringSet形式に変更
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

Biostrings：原著論文なし
seqinr：Charif et al., Bioinformatics, 2005

イントロ | 一般 | 相補鎖(complement)を取得

Biostringsパッケージ中のcomplement関数を用いて、FASTA形式ファイルを読み込んで相補鎖を得るやり方を示します。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. FASTA形式ファイル(sample1.fasta)の場合：

in_f <- "sample1.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge1.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
fasta <- complement(fasta)             #fastaオブジェクトの相補鎖をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

2. multi-FASTA形式ファイル(h_rna.fasta)の場合：

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge2.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
fasta <- complement(fasta)             #fastaオブジェクトの相補鎖をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

Biostrings：原著論文なし

イントロ | 一般 | 逆相補鎖(reverse complement)を取得

Biostringsパッケージ中のreverseComplement関数を用いて、FASTA形式ファイルを読み込んで逆相補鎖を得るやり方を示します。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. FASTA形式ファイル(sample1.fasta)の場合：

in_f <- "sample1.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge1.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
fasta <- reverseComplement(fasta)      #fastaオブジェクトの逆相補鎖をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

2. multi-FASTA形式ファイル(h_rna.fasta)の場合：

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge2.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
fasta <- reverseComplement(fasta)      #fastaオブジェクトの逆相補鎖をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

Biostrings：原著論文なし

イントロ | 一般 | 逆鎖(reverse)を取得

Biostringsパッケージ中のreverse関数を用いて、FASTA形式ファイルを読み込んで逆鎖を得るやり方を示します。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. FASTA形式ファイル(sample1.fasta)の場合：

in_f <- "sample1.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge1.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
fasta <- reverse(fasta)                #fastaオブジェクトの逆鎖をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

2. multi-FASTA形式ファイル(h_rna.fasta)の場合：

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge2.fasta"                 #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
fasta <- reverse(fasta)                #fastaオブジェクトの逆鎖をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

Biostrings：原著論文なし

イントロ | 一般 | k-mer解析 | k=1(塩基ごとの出現頻度解析) | Biostrings

Biostringsパッケージを用いて、multi-FASTA形式ファイルを読み込んで、"A", "C", "G", "T", ..., "N", ...など塩基ごとの出現頻度を調べるやり方を示します。 k-mer解析のk=1の場合に相当します。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

配列ごとに出現頻度をカウントした結果を返すやり方です。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge1.txt"                   #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
out <- alphabetFrequency(fasta)        #A,C,G,T,..の数を各配列ごとにカウントした結果をoutに格納
out                                    #outの中身を表示

#ファイルに保存
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=T)#tmpの中身を指定したファイル名で保存

2. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

1と基本的に同じで、出力結果を"A", "C", "G", "T", "N"のみに限定するやり方です。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge2.txt"                   #出力ファイル名を指定してout_fに格納
param_base <- c("A", "C", "G", "T", "N")#出力させたい塩基を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
hoge <- alphabetFrequency(fasta)       #A,C,G,T,..の数を各配列ごとにカウントした結果をhogeに格納
obj <- is.element(colnames(hoge), param_base)#条件を満たすかどうかを判定した結果をobjに格納
obj                                    #objの中身を表示
out <- hoge[, obj]                     #objで指定した列のみ抽出した結果をoutに格納
out                                    #outの中身を表示

#ファイルに保存
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=T)#tmpの中身を指定したファイル名で保存

3. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

配列ごとではなく、全配列をまとめて出現頻度をカウントした結果を返すやり方です。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge3.txt"                   #出力ファイル名を指定してout_fに格納
param_base <- c("A", "C", "G", "T", "N")#出力させたい塩基を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
hoge <- alphabetFrequency(fasta)       #A,C,G,T,..の数を各配列ごとにカウントした結果をhogeに格納
obj <- is.element(colnames(hoge), param_base)#条件を満たすかどうかを判定した結果をobjに格納
#out <- colSums(hoge[, obj])           #列ごとの総和をoutに格納
out <- apply(as.matrix(hoge[, obj]), 2, sum)#列ごとの総和をoutに格納

#ファイルに保存
tmp <- rbind(names(out), out)          #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存

4. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

3と基本的に同じ結果ですが、転置させています。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge4.txt"                   #出力ファイル名を指定してout_fに格納
param_base <- c("A", "C", "G", "T", "N")#出力させたい塩基を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
hoge <- alphabetFrequency(fasta)       #A,C,G,T,..の数を各配列ごとにカウントした結果をhogeに格納
obj <- is.element(colnames(hoge), param_base)#条件を満たすかどうかを判定した結果をobjに格納
#out <- colSums(hoge[, obj])           #列ごとの総和をoutに格納
out <- apply(as.matrix(hoge[, obj]), 2, sum)#列ごとの総和をoutに格納

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=T, col.names=F)#outの中身を指定したファイル名で保存

5. FASTA形式ファイル(sample1.fasta)の場合：

multi-FASTAではないsingle-FASTA形式ファイルです。 colSums関数は行列データにしか適用できないが、apply(as.matrix...)とすることでmulti-FASTAでもsingle-FASTAでも統一的に取り扱えることがわかります。と書いてますが挙動が変(R ver. 3.2.3)なので、変更予定です（2016年4月27日追加）。

in_f <- "sample1.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge5.txt"                   #出力ファイル名を指定してout_fに格納
param_base <- c("A", "C", "G", "T", "N")#出力させたい塩基を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
hoge <- alphabetFrequency(fasta)       #A,C,G,T,..の数を各配列ごとにカウントした結果をhogeに格納
obj <- is.element(colnames(hoge), param_base)#条件を満たすかどうかを判定した結果をobjに格納
out <- colSums(hoge[, obj])            #列ごとの総和をoutに格納
#out <- apply(as.matrix(hoge[, obj]), 2, sum)#列ごとの総和をoutに格納

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=T, col.names=F)#tmpの中身を指定したファイル名で保存

6. FASTA形式ファイル(sample1.fasta)の場合：

in_f <- "sample1.fasta"                #入力ファイル名を指定してin_fに格納
out_f <- "hoge6.txt"                   #出力ファイル名を指定してout_fに格納
param_base <- c("A", "C", "G", "T", "N")#出力させたい塩基を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
hoge <- alphabetFrequency(fasta)       #A,C,G,T,..の数を各配列ごとにカウントした結果をhogeに格納
obj <- is.element(colnames(hoge), param_base)#条件を満たすかどうかを判定した結果をobjに格納
#out <- colSums(hoge[, obj])           #列ごとの総和をoutに格納
#out <- apply(as.matrix(hoge[, obj]), 2, sum)#列ごとの総和をoutに格納
out <- hoge[, obj]                     #objがTRUEとなる列のみ抽出した結果をoutに格納

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=T, col.names=F)#tmpの中身を指定したファイル名で保存

7. FASTA形式ファイル(out_gapClosed.fa)の場合：

DDBJ Pipeline (Nagasaki et al., DNA Res., 2013)上で de novoゲノムアセンブリプログラムPlatanus (Kajitani et al., Genome Res., 2014) を実行して得られたmulti-FASTA形式ファイル(out_gapClosed.fa; 約2.4MB)です。

in_f <- "out_gapClosed.fa"             #入力ファイル名を指定してin_fに格納
out_f <- "hoge7.txt"                   #出力ファイル名を指定してout_fに格納
param_base <- c("A", "C", "G", "T", "N")#出力させたい塩基を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
hoge <- alphabetFrequency(fasta)       #A,C,G,T,..の数を各配列ごとにカウントした結果をhogeに格納
obj <- is.element(colnames(hoge), param_base)#条件を満たすかどうかを判定した結果をobjに格納
#out <- colSums(hoge[, obj])           #列ごとの総和をoutに格納
out <- apply(as.matrix(hoge[, obj]), 2, sum)#列ごとの総和をoutに格納

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=T, col.names=F)#tmpの中身を指定したファイル名で保存

Biostrings：原著論文なし
DDBJ Read Annotation Pipeline (DDBJ Pipeline)：Nagasaki et al., DNA Res., 2013
Platanus：Kajitani et al., Genome Res., 2014

イントロ | 一般 | k-mer解析 | k=2(2連続塩基の出現頻度解析) | Biostrings

Biostringsパッケージを用いて、multi-FASTA形式ファイルを読み込んで、"AA", "AC", "AG", "AT", "CA", "CC", "CG", "CT", "GA", "GC", "GG", "GT", "TA", "TC", "TG", "TT" の計4² = 16通りの2連続塩基の出現頻度を調べるやり方を示します。k-mer解析のk=2の場合に相当します。ヒトゲノムで"CG"の割合が期待値よりも低い(Lander et al., 2001; Saxonov et al., 2006)ですが、それを簡単に検証できます。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

タイトル通りの出現頻度です。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge1.txt"                   #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
out <- dinucleotideFrequency(fasta)    #連続塩基の出現頻度情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

2. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

出現頻度ではなく、出現確率を得るやり方です。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge2.txt"                   #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
out <- dinucleotideFrequency(fasta, as.prob=T)#連続塩基の出現確率情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

3. multi-FASTA形式ファイル(h_rna.fasta)の場合：

406番目のID (NR_002762.1)の塩基配列の498番目の文字が"N"なはずなのですが、これはどのように計算されているのでしょうか。。。

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge3.txt"                   #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
out <- dinucleotideFrequency(fasta)    #連続塩基の出現頻度情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

4. ヒトゲノム配列パッケージ(BSgenome.Hsapiens.UCSC.hg19)の場合：

タイトル通りの出現頻度です。イントロ | 一般 | 配列取得 | ゲノム配列 | BSgenome中のゲノム配列取得手順を含んでいます。

out_f <- "hoge4.txt"                   #出力ファイル名を指定してout_fに格納
param_bsgenome <- "BSgenome.Hsapiens.UCSC.hg19" #パッケージ名を指定(BSgenome系のゲノムパッケージ)

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み
library(param_bsgenome, character.only=T)#指定したパッケージの読み込み

#前処理(指定したパッケージ中のオブジェクト名をgenomeに統一)
tmp <- ls(paste("package", param_bsgenome, sep=":"))#指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にオブジェクトが一つしかないという前提です）
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している
fasta                                  #確認してるだけです

#本番
out <- dinucleotideFrequency(fasta)    #連続塩基の出現頻度情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

5. ヒトゲノム配列パッケージ(BSgenome.Hsapiens.UCSC.hg19)の場合：

出現頻度ではなく、出現確率を得るやり方です。

out_f <- "hoge5.txt"                   #出力ファイル名を指定してout_fに格納
param_bsgenome <- "BSgenome.Hsapiens.UCSC.hg19" #パッケージ名を指定(BSgenome系のゲノムパッケージ)

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み
library(param_bsgenome, character.only=T)#指定したパッケージの読み込み

#前処理(指定したパッケージ中のオブジェクト名をgenomeに統一)
tmp <- ls(paste("package", param_bsgenome, sep=":"))#指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にオブジェクトが一つしかないという前提です）
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している
fasta                                  #確認してるだけです

#本番
out <- dinucleotideFrequency(fasta, as.prob=T)#連続塩基の出現確率情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

6. シロイヌナズナゲノム配列パッケージ(BSgenome.Athaliana.TAIR.TAIR9)の場合：

出現頻度ではなく、出現確率を得るやり方です。パッケージがインストールされていない場合は、インストール | Rパッケージ | 個別を参考にしてインストールしてから再度チャレンジ。

out_f <- "hoge6.txt"                   #出力ファイル名を指定してout_fに格納
param_bsgenome <- "BSgenome.Athaliana.TAIR.TAIR9"#パッケージ名を指定(BSgenome系のゲノムパッケージ)

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み
library(param_bsgenome, character.only=T)#指定したパッケージの読み込み

#前処理(指定したパッケージ中のオブジェクト名をgenomeに統一)
tmp <- ls(paste("package", param_bsgenome, sep=":"))#指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にオブジェクトが一つしかないという前提です）
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している
fasta                                  #確認してるだけです

#本番
out <- dinucleotideFrequency(fasta, as.prob=T)#連続塩基の出現確率情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

7. ヒトゲノム配列パッケージ(BSgenome.Hsapiens.NCBI.GRCh38)の場合：

2013年12月にリリースされたGenome Reference Consortium GRCh38です。出力は出現確率です。

out_f <- "hoge7.txt"                   #出力ファイル名を指定してout_fに格納
param_bsgenome <- "BSgenome.Hsapiens.NCBI.GRCh38"#パッケージ名を指定(BSgenome系のゲノムパッケージ)

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み
library(param_bsgenome, character.only=T)#指定したパッケージの読み込み

#前処理(指定したパッケージ中のオブジェクト名をgenomeに統一)
tmp <- ls(paste("package", param_bsgenome, sep=":"))#指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にオブジェクトが一つしかないという前提です）
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している
fasta                                  #確認してるだけです

#本番
out <- dinucleotideFrequency(fasta, as.prob=T)#連続塩基の出現確率情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

8. ヒトゲノム配列パッケージ(BSgenome.Hsapiens.NCBI.GRCh38)の場合：

全配列を合算して、連続塩基ごとの出現頻度(frequency)と出現確率(probability)を出力するやり方です。 dinucleotideFrequency関数中の「simplify.as="collapsed"」オプションでも一応実行できますが、桁が多くなりすぎて「整数オーバーフロー」問題が起きたのでやめてます。

out_f <- "hoge8.txt"                   #出力ファイル名を指定してout_fに格納
param_bsgenome <- "BSgenome.Hsapiens.NCBI.GRCh38"#パッケージ名を指定(BSgenome系のゲノムパッケージ)

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み
library(param_bsgenome, character.only=T)#指定したパッケージの読み込み

#前処理(指定したパッケージ中のオブジェクト名をgenomeに統一)
tmp <- ls(paste("package", param_bsgenome, sep=":"))#指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にオブジェクトが一つしかないという前提です）
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している
fasta                                  #確認してるだけです

#本番
hoge <- dinucleotideFrequency(fasta, as.prob=F)#連続塩基の出現頻度情報をhogeに格納
frequency <- colSums(hoge)             #列ごとの総和をfrequencyに格納
probability <- frequency / sum(frequency)#出現確率を計算した結果をprobabilityに格納
frequency                              #中身を表示
sort(frequency, decreasing=F)          #値の小さい順にソートした結果を表示

#ファイルに保存
tmp <- cbind(names(frequency), frequency, probability)#保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

9. ヒトゲノム配列パッケージ(BSgenome.Hsapiens.NCBI.GRCh38)の場合：

基本的に7.と同じです。7.の手順がややこしいと思う人向けの解説用です。簡単に言えば、パッケージ名を2回書かなくて済むテクニックを用いているだけです。もう少し詳細に書くと、BSgenomeパッケージはlibrary関数で読み込んだ後にパッケージ名と同じ名前のオブジェクトを利用できるようになります。例えばBSgenome.Hsapiens.NCBI.GRCh38パッケージの場合は、BSgenome.Hsapiens.NCBI.GRCh38 という名前のオブジェクトを利用できるようになります。ベタで書くと2回BSgenome.Hsapiens.NCBI.GRCh38を記述する必要性があるため、間違う確率が上昇します。 7.のように一見ややこしく書けば、結果的に一度のみの記述で済むのです。

out_f <- "hoge9.txt"                   #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み
library(BSgenome.Hsapiens.NCBI.GRCh38) #パッケージの読み込み

#前処理(paramで指定したパッケージ中のオブジェクト名をgenomeに統一)
tmp <- ls("package:BSgenome.Hsapiens.NCBI.GRCh38")#指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にオブジェクトが一つしかないという前提です）
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している
fasta                                  #確認してるだけです

#本番
out <- dinucleotideFrequency(fasta, as.prob=T)#連続塩基の出現確率情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

10. ヒトゲノム配列パッケージ(BSgenome.Hsapiens.NCBI.GRCh38)の場合：

7.と基本的に同じですが、box plotのPNGファイルも出力しています。

out_f1 <- "hoge10.txt"                 #出力ファイル名を指定してout_f1に格納
out_f2 <- "hoge10.png"                 #出力ファイル名を指定してout_f2に格納
param_bsgenome <- "BSgenome.Hsapiens.NCBI.GRCh38"#パッケージ名を指定(BSgenome系のゲノムパッケージ)
param_fig <- c(700, 400)               #ファイル出力時の横幅と縦幅を指定(単位はピクセル)

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み
library(param_bsgenome, character.only=T)#指定したパッケージの読み込み

#前処理(指定したパッケージ中のオブジェクト名をgenomeに統一)
tmp <- ls(paste("package", param_bsgenome, sep=":"))#指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にオブジェクトが一つしかないという前提です）
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している
fasta                                  #確認してるだけです

#本番
out <- dinucleotideFrequency(fasta, as.prob=T)#連続塩基の出現確率情報をoutに格納

#ファイルに保存(テキストファイル)
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f1, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

#ファイルに保存(pngファイル)
png(out_f2, pointsize=13, width=param_fig[1], height=param_fig[2])#出力ファイルの各種パラメータを指定
boxplot(out, ylab="Probability")       #描画
grid(col="gray", lty="dotted")         #指定したパラメータでグリッドを表示
dev.off()                              #おまじない

11. ヒトゲノム配列パッケージ(BSgenome.Hsapiens.NCBI.GRCh38)の場合：

10.と基本的に同じですが、連続塩基の種類ごとの期待値とボックスプロット(box plot)上での色情報を含むファイル (human_2mer.txt)を入力として利用し、色情報のみを取り出して利用しています。

in_f <- "human_2mer.txt"               #入力ファイル名を指定してin_fに格納
out_f1 <- "hoge11.txt"                 #出力ファイル名を指定してout_f1に格納
out_f2 <- "hoge11.png"                 #出力ファイル名を指定してout_f2に格納
param_bsgenome <- "BSgenome.Hsapiens.NCBI.GRCh38"#パッケージ名を指定(BSgenome系のゲノムパッケージ)
param_fig <- c(700, 400)               #ファイル出力時の横幅と縦幅を指定(単位はピクセル)

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み
library(param_bsgenome, character.only=T)#指定したパッケージの読み込み

#入力ファイルの読み込み
data <- read.table(in_f, header=TRUE, row.names=1, sep="\t", quote="")#in_fで指定したファイルの読み込み

#前処理(指定したパッケージ中のオブジェクト名をgenomeに統一)
tmp <- ls(paste("package", param_bsgenome, sep=":"))#指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にオブジェクトが一つしかないという前提です）
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している
fasta                                  #確認してるだけです

#本番
out <- dinucleotideFrequency(fasta, as.prob=T)#連続塩基の出現確率情報をoutに格納

#ファイルに保存(テキストファイル)
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f1, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

#ファイルに保存(pngファイル)
png(out_f2, pointsize=13, width=param_fig[1], height=param_fig[2])#出力ファイルの各種パラメータを指定
boxplot(out, ylab="Probability", col=as.character(data$color))#描画
grid(col="gray", lty="dotted")         #指定したパラメータでグリッドを表示
dev.off()                              #おまじない

12. ヒトゲノム配列パッケージ(BSgenome.Hsapiens.NCBI.GRCh38)の場合：

11.と基本的に同じですが、human_2mer.txtというファイルを入力として与えて、連続塩基の種類ごとの期待値とボックスプロット(box plot)上での色情報を利用しています。また、重要なのは期待値からの差分であり、「プロットも期待値(expected)と同程度の観測値(observed)であればゼロ、観測値のほうが大きければプラス、観測値のほうが小さければマイナス」といった具合で表現したほうがスマートです。それゆえ、box plotの縦軸をlog(observed/expected)として表現しています。 CG以外の連続塩基は縦軸上でが0近辺に位置していることが分かります。

in_f <- "human_2mer.txt"               #入力ファイル名を指定してin_fに格納
out_f1 <- "hoge12.txt"                 #出力ファイル名を指定してout_f1に格納
out_f2 <- "hoge12.png"                 #出力ファイル名を指定してout_f2に格納
param_bsgenome <- "BSgenome.Hsapiens.NCBI.GRCh38"#パッケージ名を指定(BSgenome系のゲノムパッケージ)
param_fig <- c(700, 400)               #ファイル出力時の横幅と縦幅を指定(単位はピクセル)

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み
library(param_bsgenome, character.only=T)#指定したパッケージの読み込み

#入力ファイルの読み込み
data <- read.table(in_f, header=TRUE, row.names=1, sep="\t", quote="")#in_fで指定したファイルの読み込み

#前処理(指定したパッケージ中のオブジェクト名をgenomeに統一)
tmp <- ls(paste("package", param_bsgenome, sep=":"))#指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にオブジェクトが一つしかないという前提です）
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している
fasta                                  #確認してるだけです

#本番
out <- dinucleotideFrequency(fasta, as.prob=T)#連続塩基の出現確率情報をoutに格納

#後処理(log(observed/expected)に変換)
logratio <- log2(out/data$expected)    #log(observed/expected)の計算結果をlogratioに格納

#ファイルに保存(テキストファイル)
tmp <- cbind(names(fasta), logratio)   #保存したい情報をtmpに格納
write.table(tmp, out_f1, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

#ファイルに保存(pngファイル)
png(out_f2, pointsize=13, width=param_fig[1], height=param_fig[2])#出力ファイルの各種パラメータを指定
boxplot(logratio, ylab="log2(observed/expected)",#描画
        col=as.character(data$color))  #描画
grid(col="gray", lty="dotted")         #指定したパラメータでグリッドを表示
dev.off()                              #おまじない

Biostrings：原著論文なし
BSgenome
Bird AP., Nucleic Acids Res., 1980
Lander et al., Nature, 2001
Saxonov et al., Proc Natl Acad Sci U S A., 2006

イントロ | 一般 | k-mer解析 | k=3(3連続塩基の出現頻度解析) | Biostrings

Biostringsパッケージを用いて、4³ = 64 通りの3連続塩基の出現頻度を調べるやり方を示します。k-mer解析のk=3の場合に相当します。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge1.txt"                   #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
out <- trinucleotideFrequency(fasta)   #3連続塩基の出現頻度情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

2. 130MB程度のRefSeqのhuman mRNAのmulti-FASTAファイル(h_rna.fasta)の場合:

406番目のID (NR_002762.1)の塩基配列の498番目の文字が"N"なはずなのですが、これはどのように計算されているのでしょうか。。。

in_f <- "h_rna.fasta"                  #入力ファイル名を指定してin_fに格納
out_f <- "hoge2.txt"                   #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み
fasta                                  #確認してるだけです

#本番
out <- trinucleotideFrequency(fasta)   #3連続塩基の出現頻度情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #保存したい情報をtmpに格納
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

Biostrings：原著論文なし

イントロ | 一般 | k-mer解析 | k=n(n連続塩基の出現頻度解析) | Biostrings

Biostringsパッケージを用いて、4ⁿ通りの任意のn連続塩基の出現頻度を調べるやり方を示します。k-mer解析のk=nの場合に相当します。例えば2連続塩基の場合はk=2, 3連続塩基の場合はk=3と指定します。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

4連続塩基（k=4）の出現頻度情報を得るやり方です。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge1.txt"                   #出力ファイル名を指定してout_fに格納
param_kmer <- 4                        #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
out <- oligonucleotideFrequency(fasta, width=param_kmer)#k連続塩基の出現頻度情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #最初の列にID情報、そのあとに出現頻度情報のoutを結合したtmpを作成
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

2. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

2連続塩基（k=2）の出現頻度情報を得るやり方です。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge2.txt"                   #出力ファイル名を指定してout_fに格納
param_kmer <- 2                        #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
out <- oligonucleotideFrequency(fasta, width=param_kmer)#k連続塩基の出現頻度情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #最初の列にID情報、そのあとに出現頻度情報のoutを結合したtmpを作成
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

3. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

2連続塩基（k=2）の全配列をまとめた出現頻度情報を得るやり方です。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge3.txt"                   #出力ファイル名を指定してout_fに格納
param_kmer <- 2                        #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
out <- oligonucleotideFrequency(fasta, width=param_kmer, simplify.as="collapsed")#k連続塩基の全配列をまとめた出現頻度情報をoutに格納

#ファイルに保存
tmp <- cbind(names(out), out)          #最初の列にID情報、そのあとに出現頻度情報のoutを結合したtmpを作成
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

4. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

2連続塩基（k=2）の全配列をまとめた出現確率情報を得るやり方です。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge4.txt"                   #出力ファイル名を指定してout_fに格納
param_kmer <- 2                        #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
out <- oligonucleotideFrequency(fasta, width=param_kmer, simplify.as="collapsed", as.prob=TRUE)#k連続塩基の全配列をまとめた出現確率情報をoutに格納

#ファイルに保存
tmp <- cbind(names(out), out)          #最初の列にID情報、そのあとに出現頻度情報のoutを結合したtmpを作成
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

5. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

10連続塩基（k=10）の出現頻度情報を得るやり方です。4^10 = 1,048,576（105万）通りのk-merの出現頻度を計算することになります。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge5.txt"                   #出力ファイル名を指定してout_fに格納
param_kmer <- 10                       #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
out <- oligonucleotideFrequency(fasta, width=param_kmer)#k連続塩基の出現頻度情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #最初の列にID情報、そのあとに出現頻度情報のoutを結合したtmpを作成
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

6. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

15連続塩基（k=15）の出現頻度情報を得るやり方です。4^15 = 1,073,741,824（約11億）通りのk-merの出現頻度を計算することになります。 8GBメモリマシンで実行すると、「エラー: サイズ 16.0 Gb のベクトルを割り当てることができません」となります。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
out_f <- "hoge6.txt"                   #出力ファイル名を指定してout_fに格納
param_kmer <- 15                       #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
out <- oligonucleotideFrequency(fasta, width=param_kmer)#k連続塩基の出現頻度情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #最初の列にID情報、そのあとに出現頻度情報のoutを結合したtmpを作成
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

7. サンプルデータの例題32を実行して得られたmulti-FASTAファイル(sample32_ngs.fasta)の場合:

2連続塩基（k=2）の出現頻度情報を得るやり方です。4^2 = 16通りのk-merの出現頻度を計算することになります。リード毎に出現頻度を算出しています。

in_f <- "sample32_ngs.fasta"           #入力ファイル名を指定してin_fに格納
out_f <- "hoge7.txt"                   #出力ファイル名を指定してout_fに格納
param_kmer <- 2                        #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
out <- oligonucleotideFrequency(fasta, width=param_kmer)#k連続塩基の出現頻度情報をoutに格納

#ファイルに保存
tmp <- cbind(names(fasta), out)        #最初の列にID情報、そのあとに出現頻度情報のoutを結合したtmpを作成
write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F)#tmpの中身を指定したファイル名で保存

8. サンプルデータの例題32を実行して得られたmulti-FASTAファイル(sample32_ngs.fasta)の場合:

2連続塩基（k=2）の出現頻度情報を得るやり方です。4^2 = 16通りのk-merの出現頻度を計算することになります。全リードを合算した出現頻度を出力するやり方です。

in_f <- "sample32_ngs.fasta"           #入力ファイル名を指定してin_fに格納
out_f <- "hoge8.txt"                   #出力ファイル名を指定してout_fに格納
param_kmer <- 2                        #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
hoge <- oligonucleotideFrequency(fasta, width=param_kmer)#k連続塩基の出現頻度情報をhogeに格納
out <- colSums(hoge)                   #列ごとの総和をoutに格納

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=T, col.names=F)#outの中身を指定したファイル名で保存

9. サンプルデータの例題32を実行して得られたmulti-FASTAファイル(sample32_ngs.fasta)の場合:

3連続塩基（k=3）の出現頻度情報を得るやり方です。4^3 = 64通りのk-merの出現頻度を計算することになります。全リードを合算した出現頻度を出力するやり方です。

in_f <- "sample32_ngs.fasta"           #入力ファイル名を指定してin_fに格納
out_f <- "hoge9.txt"                   #出力ファイル名を指定してout_fに格納
param_kmer <- 3                        #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
hoge <- oligonucleotideFrequency(fasta, width=param_kmer)#k連続塩基の出現頻度情報をhogeに格納
out <- colSums(hoge)                   #列ごとの総和をoutに格納

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=T, col.names=F)#outの中身を指定したファイル名で保存

10. サンプルデータの例題33を実行して得られたmulti-FASTAファイル(sample33_ngs.fasta)の場合:

in_f <- "sample33_ngs.fasta"           #入力ファイル名を指定してin_fに格納
out_f <- "hoge10.txt"                  #出力ファイル名を指定してout_fに格納
param_kmer <- 3                        #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
hoge <- oligonucleotideFrequency(fasta, width=param_kmer)#k連続塩基の出現頻度情報をhogeに格納
out <- colSums(hoge)                   #列ごとの総和をoutに格納

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=T, col.names=F)#outの中身を指定したファイル名で保存

11. サンプルデータの例題33を実行して得られたmulti-FASTAファイル(sample33_ngs.fasta)の場合:

10連続塩基（k=10）の出現頻度情報を得るやり方です。4^10 = 1,048,576通りのk-merの出現頻度を計算することになります。全リードを合算した出現頻度を出力するやり方です。

in_f <- "sample33_ngs.fasta"           #入力ファイル名を指定してin_fに格納
out_f <- "hoge11.txt"                  #出力ファイル名を指定してout_fに格納
param_kmer <- 10                       #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
hoge <- oligonucleotideFrequency(fasta, width=param_kmer)#k連続塩基の出現頻度情報をhogeに格納
out <- colSums(hoge)                   #列ごとの総和をoutに格納

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=T, col.names=F)#outの中身を指定したファイル名で保存
length(out)                            #4^param_kmerの値を表示
sum(out > 0)                           #1回以上出現したk-merの種類数を表示

12. サンプルデータの例題34を実行して得られたmulti-FASTAファイル(sample34_ngs.fasta)の場合:

in_f <- "sample34_ngs.fasta"           #入力ファイル名を指定してin_fに格納
out_f <- "hoge12.txt"                  #出力ファイル名を指定してout_fに格納
param_kmer <- 10                       #k-merのkの値を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番
hoge <- oligonucleotideFrequency(fasta, width=param_kmer)#k連続塩基の出現頻度情報をhogeに格納
out <- colSums(hoge)                   #列ごとの総和をoutに格納

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=T, col.names=F)#outの中身を指定したファイル名で保存
length(out)                            #4^param_kmerの値を表示
sum(out > 0)                           #1回以上出現したk-merの種類数を表示

Biostrings：原著論文なし

イントロ | 一般 | Tips | 任意の拡張子名でファイルを保存

出力ファイル名をわざわざ指定せずに、拡張子名のみ変えるやり方を示します。。(例：XXX.txtを読み込んでXXX.inuという拡張子で保存したい)

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

*.ugeというファイル名で保存するやり方です。

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
param <- "uge"                         #拡張子名を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番(拡張子を変えた出力ファイル名を作成)
out_f <- paste(unlist(strsplit(in_f, ".", fixed=TRUE))[1], param, sep=".")#出力ファイル名を作成してout_fに格納

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

Biostrings：原著論文なし

イントロ | 一般 | Tips | 拡張子は同じで任意の文字を追加して保存

ファイル保存時に、拡張子名は変えずに、拡張子の手前に任意の文字(例："_processed")を追加するやり方を示します。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)の場合:

*_processed.faというファイル名で保存するやり方です。

ファイル名中に"."（ドット）が一つしかないという前提です

in_f <- "hoge4.fa"                     #入力ファイル名を指定してin_fに格納
param <- "_processed"                  #追加したい文字列を指定

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f, format="fasta")#in_fで指定したファイルの読み込み

#本番()
hoge1 <- paste(".", unlist(strsplit(in_f, ".", fixed=TRUE))[2], sep="")#"."を含む拡張子部分をhoge1に格納
hoge2 <- paste(param, hoge1, sep="")   #置換後の文字列をhoge2に格納
out_f <- sub(hoge1, hoge2, in_f)       #出力ファイル名を作成してout_fに格納

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

Biostrings：原著論文なし

イントロ | 一般 | 配列取得 | ゲノム配列 | 公共DBから

UCSCのSequence and Annotation Downloads (Tyner et al., Nucleic Acids Res., 2017)

Helix Systems Scientific Databases (アップデートの日付順になっている。RefSeqやESTなど様々なデータベースを一度にみられる)
イネ：RAP-DB (Sakai et al., Plant Cell Physiol., 2013)

「ダウンロード」- 「Genome assembliesのところのDownload」。 IRGSP-1.0_genome.fasta.gz (116MB程度)の圧縮ファイル。

シロイヌナズナ：The Arabidopsis Information Resource (TAIR) (Reiser et al., Curr Protoc Bioinformatics., 2017)

「ダウンロード」-「Genes」- 「TAIR10_genome_release」- 「TAIR10_chromosome_files」の TAIR10_chr_all.fas.gz (120MB程度)

Ensembl Genomes (Zerbino et al., Nucleic Acids Res., 2018)

バクテリア (Bacteria)

植物 (Plants)

原生生物 (Protists)

...
ヒト：hg38 (2014/04現在の最新版はhg19ではなくhg38)

イントロ | 一般 | 配列取得 | ゲノム配列 | BSgenome

BSgenomeパッケージを用いて様々な生物種のゲノム配列を取得するやり方を示します。ミヤマハタザオ (A. lyrata)、セイヨウミツバチ (A. mellifera)、シロイヌナズナ（A.thaliana）、ウシ（B.taurus）、線虫（C.elegans）、犬（C.familiaris）、キイロショウジョウバエ（D.melanogaster）、ゼブラフィッシュ（D.rerio）、大腸菌（E.coli）、イトヨ（G.aculeatus）、セキショクヤケイ（G.gallus）、ヒト（H.sapiens）、アカゲザル（M.mulatta）、マウス（M.musculus）、チンパンジー（P.troglodytes）、ラット（R.norvegicus）、出芽酵母（S.cerevisiae）、トキソプラズマ（T.gondii）と実に様々な生物種が利用可能であることがわかります。 getSeq関数はBSgenomeオブジェクト中の「single sequences」というあたりにリストアップされているchr...というものを全て抽出しています。したがって、例えばマウスゲノムは「chr1」以外に「chr1_random」や「chrUn_random」なども等価に取扱っている点に注意してください。

「ファイル」−「ディレクトリの変更」でファイルを保存したいディレクトリに移動し以下をコピペ。

1. 利用可能な生物種とRにインストール済みの生物種をリストアップしたい場合:

#必要なパッケージをロード
library(BSgenome)                      #パッケージの読み込み

#本番（利用可能なパッケージをリストアップ；インストール済みとは限らない）
available.genomes()                    #このパッケージ中で利用可能なゲノムをリストアップ

#本番（インストール済みの生物種をリストアップ）
installed.genomes()                    #インストール済みの生物種をリストアップ

#後処理（パッケージ名でだいたいわかるがproviderやversionを分割して表示したい場合）
installed.genomes(splitNameParts=TRUE) #インストール済みの生物種をリストアップ

2. ゼブラフィッシュ("BSgenome.Drerio.UCSC.danRer7")のゲノム情報をRにインストールしたい場合:

400MB程度あります...

param <- "BSgenome.Drerio.UCSC.danRer7"#パッケージ名を指定

#本番
source("http://bioconductor.org/biocLite.R")#おまじない
biocLite(param)                        #おまじない

#後処理（インストール済みの生物種をリストアップ）
installed.genomes()                    #インストール済みの生物種をリストアップ

3. インストール済みのゼブラフィッシュのゲノム配列をmulti-FASTAファイルで保存したい場合:

1.4GB程度のファイルが生成されます...

out_f <- "hoge3.fasta"                 #出力ファイル名を指定してout_fに格納
param <- "BSgenome.Drerio.UCSC.danRer7"#パッケージ名を指定

#必要なパッケージをロード
library(param, character.only=T)       #paramで指定したパッケージの読み込み

#前処理(paramで指定したパッケージ中のオブジェクト名をgenomeに統一)
#tmp <- unlist(strsplit(param, ".", fixed=TRUE))[2]#paramで指定した文字列からオブジェクト名を取得した結果をtmpに格納
tmp <- ls(paste("package", param, sep=":"))#paramで指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にはオブジェクトが一つしか存在しないという前提です）
genome                                 #確認してるだけです

#本番
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

4. インストール済みのマウス("BSgenome.Mmusculus.UCSC.mm9")のゲノム配列をmulti-FASTAファイルで保存したい場合:

2.8GB程度のファイルが生成されます...

out_f <- "hoge4.fasta"                 #出力ファイル名を指定してout_fに格納
param <- "BSgenome.Mmusculus.UCSC.mm9" #パッケージ名を指定

#必要なパッケージをロード
library(param, character.only=T)       #paramで指定したパッケージの読み込み

#前処理(paramで指定したパッケージ中のオブジェクト名をgenomeに統一)
#tmp <- unlist(strsplit(param, ".", fixed=TRUE))[2]#paramで指定した文字列からオブジェクト名を取得した結果をtmpに格納
tmp <- ls(paste("package", param, sep=":"))#paramで指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にはオブジェクトが一つしか存在しないという前提です）
genome                                 #確認してるだけです

#本番
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

5. インストール済みのヒト("BSgenome.Hsapiens.UCSC.hg19")のゲノム配列をmulti-FASTAファイルで保存したい場合:

3.0GB程度のファイルが生成されます...。ヒトゲノムは、まだ完全に22本の常染色体とX, Y染色体の計24本になっているわけではないことがわかります。

out_f <- "hoge5.fasta"                 #出力ファイル名を指定してout_fに格納
param <- "BSgenome.Hsapiens.UCSC.hg19" #パッケージ名を指定

#必要なパッケージをロード
library(param, character.only=T)       #paramで指定したパッケージの読み込み

#前処理(paramで指定したパッケージ中のオブジェクト名をgenomeに統一)
#tmp <- unlist(strsplit(param, ".", fixed=TRUE))[2]#paramで指定した文字列からオブジェクト名を取得した結果をtmpに格納
tmp <- ls(paste("package", param, sep=":"))#paramで指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にはオブジェクトが一つしか存在しないという前提です）
genome                                 #確認してるだけです

#本番
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

6. インストール済みのヒト("BSgenome.Hsapiens.UCSC.hg19")のゲノム配列をmulti-FASTAファイルで保存したい場合:

ヒトゲノムは、まだ完全に22本の常染色体とX, Y染色体の計24本になっているわけではないので、最初の主要な24本分のみにするやり方です。

out_f <- "hoge6.fasta"                 #出力ファイル名を指定してout_fに格納
param1 <- "BSgenome.Hsapiens.UCSC.hg19"#パッケージ名を指定
param2 <- 24                           #取り出したい染色体数を指定(主要なものから順番に並んでいるので最初の24本に相当)

#必要なパッケージをロード
library(param1, character.only=T)      #paramで指定したパッケージの読み込み

#前処理(paramで指定したパッケージ中のオブジェクト名をgenomeに統一)
#tmp <- unlist(strsplit(param1, ".", fixed=TRUE))[2]#指定した文字列からオブジェクト名を取得した結果をtmpに格納
tmp <- ls(paste("package", param1, sep=":"))#指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にはオブジェクトが一つしか存在しないという前提です）
genome                                 #確認してるだけです

#本番
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している
fasta <- fasta[1:param2]               #染色体のフィルタリング

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

7. シロイヌナズナ("BSgenome.Athaliana.TAIR.TAIR9")のゲノム情報をRにインストールしたい場合:

Rのパッケージをインストール後、ゲノム配列をmulti-FASTAファイルで保存する一連の手順です。 The Arabidopsis Information Resource (TAIR)(Reiser et al., Curr Protoc Bioinformatics., 2017) から得られる最新バージョンはTAIR10ですが、アセンブリ結果自体はTAIR9と同じと明記されています（README_whole_chromosomes.txt）。

param <- "BSgenome.Athaliana.TAIR.TAIR9"#パッケージ名を指定

#本番
source("http://bioconductor.org/biocLite.R")#おまじない
biocLite(param, suppressUpdates=TRUE)  #おまじない

#後処理（インストール済みの生物種をリストアップ）
installed.genomes()                    #インストール済みの生物種をリストアップ

8. インストール済みのシロイヌナズナ("BSgenome.Athaliana.TAIR.TAIR9")のゲノム配列をmulti-FASTAファイルで保存したい場合:

The Arabidopsis Information Resource (TAIR)(Reiser et al., Curr Protoc Bioinformatics., 2017) から得られる最新バージョンはTAIR10ですが、アセンブリ結果自体はTAIR9と同じと明記されています（README_whole_chromosomes.txt）。 120MB程度のファイルが生成されます...

out_f <- "hoge8.fasta"                 #出力ファイル名を指定してout_fに格納
param <- "BSgenome.Athaliana.TAIR.TAIR9"#パッケージ名を指定

#必要なパッケージをロード
library(param, character.only=T)       #paramで指定したパッケージの読み込み

#前処理(paramで指定したパッケージ中のオブジェクト名をgenomeに統一)
#tmp <- unlist(strsplit(param, ".", fixed=TRUE))[2]#paramで指定した文字列からオブジェクト名を取得した結果をtmpに格納
tmp <- ls(paste("package", param, sep=":"))#paramで指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にはオブジェクトが一つしか存在しないという前提です）
genome                                 #確認してるだけです

#本番
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

9. インストール済みのヒト("BSgenome.Hsapiens.NCBI.GRCh38")のゲノム配列をmulti-FASTAファイルで保存したい場合:

2013年12月にリリースされたGenome Reference Consortium GRCh38です。 R ver. 3.1.0とBioconductor ver. 2.14以上の環境で実行可能です。

out_f <- "hoge9.fasta"                 #出力ファイル名を指定してout_fに格納
param <- "BSgenome.Hsapiens.NCBI.GRCh38"#パッケージ名を指定

#必要なパッケージをロード
library(param, character.only=T)       #paramで指定したパッケージの読み込み

#前処理(paramで指定したパッケージ中のオブジェクト名をgenomeに統一)
#tmp <- unlist(strsplit(param, ".", fixed=TRUE))[2]#paramで指定した文字列からオブジェクト名を取得した結果をtmpに格納
tmp <- ls(paste("package", param, sep=":"))#paramで指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にはオブジェクトが一つしか存在しないという前提です）
genome                                 #確認してるだけです

#本番
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

10. インストール済みのヒト("BSgenome.Hsapiens.NCBI.GRCh38")のゲノム配列のmulti-FASTAファイルで保存したい場合:

一部を抽出して保存するやり方です。このパッケージ中の染色体の並びが既知(chr1, 2, ..., chr22, chrX, chrY, and MT)であるという前提です。

out_f <- "hoge10.fasta"                #出力ファイル名を指定してout_fに格納
param <- "BSgenome.Hsapiens.NCBI.GRCh38"#パッケージ名を指定
param_range <- 1:25                    #抽出したい範囲を指定

#必要なパッケージをロード
library(param, character.only=T)       #paramで指定したパッケージの読み込み

#前処理(paramで指定したパッケージ中のオブジェクト名をgenomeに統一)
#tmp <- unlist(strsplit(param, ".", fixed=TRUE))[2]#paramで指定した文字列からオブジェクト名を取得した結果をtmpに格納
tmp <- ls(paste("package", param, sep=":"))#paramで指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にはオブジェクトが一つしか存在しないという前提です）
genome                                 #確認してるだけです

#本番
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している

#後処理(フィルタリング)
obj <- param_range                     #抽出したいリードの位置情報をobjに格納
fasta <- fasta[obj]                    #objがTRUEとなる要素のみ抽出した結果をfastaに格納
fasta                                  #確認してるだけです

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

11. インストール済みのヒト("BSgenome.Hsapiens.UCSC.hg38")のゲノム配列をmulti-FASTAファイルで保存したい場合:

3.0GB程度のファイルが生成されます...。ヒトゲノムは、まだ完全に22本の常染色体とX, Y染色体の計24本になっているわけではないことがわかります。

out_f <- "hoge11.fasta"                #出力ファイル名を指定してout_fに格納
param <- "BSgenome.Hsapiens.UCSC.hg38" #パッケージ名を指定

#必要なパッケージをロード
library(param, character.only=T)       #paramで指定したパッケージの読み込み

#前処理(paramで指定したパッケージ中のオブジェクト名をgenomeに統一)
#tmp <- unlist(strsplit(param, ".", fixed=TRUE))[2]#paramで指定した文字列からオブジェクト名を取得した結果をtmpに格納
tmp <- ls(paste("package", param, sep=":"))#paramで指定したパッケージで利用可能なオブジェクト名を取得した結果をtmpに格納
genome <- eval(parse(text=tmp))        #文字列tmpをRオブジェクトとしてgenomeに格納(パッケージ中にはオブジェクトが一つしか存在しないという前提です）
genome                                 #確認してるだけです

#本番
fasta <- getSeq(genome)                #ゲノム塩基配列情報を抽出した結果をfastaに格納
names(fasta) <- seqnames(genome)       #description情報を追加している

#ファイルに保存
writeXStringSet(fasta, file=out_f, format="fasta", width=50)#fastaの中身を指定したファイル名で保存

BSgenome

イントロ | 一般 | 配列取得 | プロモーター配列 | について

プロモーター(promoters)の大まかな定義は、遺伝子の転写制御を行う領域(regulatory regions)だと思います。が、おそらくヒトによって具体的な定義は異なります(Cassiano and Silva-Rocha, mSystems, 2020)。例えばChuangらは、転写開始点（Transcriptional Start Sites; TSS）の上流1,500塩基から下流500塩基と定義しています(Chuang et al., PLoS One, 2011)。多くの場合、ヒトやマウスなどの哺乳類ゲノムの場合はこの領域にCpGアイランド(CpG islands or CpG islets; CGIs)をもつことが知られています。プロモータには、CGIをもつものともたないものの2つのクラスがあるといった報告もあります(Saxonov et al., Proc Natl Acad Sci U S A., 2006)。

Rパッケージ：

xxx：xxx

R以外:

Review、ガイドライン、パイプライン系:

イントロ | 一般 | 配列取得 | プロモーター配列 | 公共DBから

UCSC (Tyner et al., Nucleic Acids Res., 2017)を利用する場合：
UCSCのSequence and Annotation Downloadsページからリストアップされている目的の生物種を選択。 Full data setページの下のほうで上流1000, 2000, 5000bpの配列を取得可能。
- ラット：Rat
- ヒト：Human
- マウス：Mouse
- ゼブラフィッシュ：Zebrafish
- ...
DBTSS (Yamashita et al., Nucleic Acids Res., 2012)を利用する場合：
左側の下のほうのDownloadをクリックし、 dbtss_recentlyを選択。2012/07/06現在、以下の5つの生物種の転写開始点（Transcriptional Start Sites; TSS）の上流1000bp-下流200bpの範囲の配列を取得可能。
- ヒト：hspromoter.tab.gz
- マウス：mmpromoter.tab.gz
- シアニディオシゾン (C. merolae)：cmpromoter.tab.gz
- ゼブラフィッシュ(D. rerio)：drpromoter.tab.gz
- 熱帯熱マラリア原虫(P. falciparum)：pfpromoter.tab.gz
EPD (Dreos et al., Nucleic Acids Res., 2013)を利用する場合：
ヒトやマウスは「Access EPD」- 「Download EPD db」ですぐに到達可能。
それ以外のイネとかは「Access EPD」- 「Download EPD db」で「Download EPD (refine selection)」の"refine selection"のところをいじれば...13046 rice sequencesがダウンロードできるはずだが...
個別の生物種ごとに作成されたDBを利用する場合：
- イネ：RAP-DB(Rice Annotation Project, Nucleic Acids Res., 2008)のダウンロードタブから上流・下流それぞれ1000, 2000, 3000bpの配列を取得可能（計6種類）。
- シロイヌナズナ：The Arabidopsis Information Resource (TAIR) (Reiser et al., Curr Protoc Bioinformatics., 2017)の「ダウンロード」−「Sequences」タブから blast_datasetsの TAIR10_blastsetsまでいくと、上流・下流それぞれ500, 1000, 3000bpの配列を取得可能（計6種類）。

マッピング | Bisulfite sequencing用

Bisulfite sequencingデータ専用のマッピングプログラムも結構あります。

Review、ガイドライン、パイプライン系:

ガイドライン：Kunde-Ramamoorthy et al., Nucleic Acids Res., 2014
QC系：Sun et al., BMC Bioinformatics, 2013

マッピング | (ESTレベルの長さの) contig

NGSというよりは一般的なものですが、いくつか挙げておきます。 Trans-ABySSの論文中では、exonerate(のest2genomeというモード)でcontigをマウスゲノムにマップしています(Robertson et al., Nat Methods, 2010)。また、SPALNはcDNA配列をゲノムにマップするものですが、私自身がEST配列をゲノムにマップする目的で使用した経験があります。

プログラム:

Trans-ABySS：Robertson et al., Nat Methods, 2010

マッピング | 基礎

マッピングの基本形を示します。出力はBED形式と似ています(理解しやすいので...)。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. hoge4.faをリファレンス配列（マップされる側）として、data_reads.fasta中の4リードのマッピングを行う場合:

イントロ | 一般 | ランダムな塩基配列を作成の4.を実行して得られたmulti-FASTAファイル(hoge4.fa)です。

in_f1 <- "hoge4.fa"                    #入力ファイル名を指定してin_f1に格納(マップされる側)
in_f2 <- "data_reads.fasta"            #入力ファイル名を指定してin_f2に格納(マップする側)
out_f <- "hoge.txt"                    #出力ファイル名を指定してout_fに格納

#必要なパッケージをロード
library(Biostrings)                    #パッケージの読み込み

#入力ファイルの読み込み
fasta <- readDNAStringSet(in_f1, format="fasta")#in_f1で指定したファイルの読み込み
reads <- readDNAStringSet(in_f2, format="fasta")#in_f2で指定したファイルの読み込み

#本番
out <- c("in_f2", "in_f1", "start", "end")#最終的に得る出力ファイルのヘッダー情報を指定してoutに格納(4列のデータを得る)
for(i in 1:length(reads)){             #リード数分だけループを回す
    hoge <- vmatchPattern(pattern=as.character(reads[i]), subject=fasta)#オブジェクトreads中の各塩基配列と100%マッチの領域を探索して結果をhogeに格納
    hoge1 <- cbind(start(unlist(hoge)), end(unlist(hoge)))#一致領域の(start, end)の位置情報をhoge1に格納
    hoge2 <- names(unlist(hoge))       #ヒットしたリファレンス配列中のIDをhoge2に格納
    hoge3 <- rep(as.character(reads[i]), length(hoge2))#hoge2の要素数分だけ、マップする側の配列(in_f2で指定するものに相当)のIDをhoge3に格納
    out <- rbind(out, cbind(hoge3, hoge2, hoge1))#cbind(hoge3, hoge2, hoge1)で表される欲しい情報をどんどんオブジェクトoutの下に追加している(ループが回るたびにどんどん行数が増えていっているイメージ)
}
head(out)                              #確認してるだけです

#ファイルに保存
write.table(out, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#outの中身を指定したファイル名で保存

Biostrings：原著論文なし

マッピング | single-end | ゲノム | basic aligner(基礎) | QuasR(Gaidatzis_2015)

QuasRパッケージを用いてsingle-end RNA-seqデータのリファレンスゲノム配列へのマッピングを行うやり方を示します。 basic alignerの一つであるBowtie (Langmead et al., Genome Biol., 2009)を実装した Rbowtieパッケージを内部的に使っています。入力として与えるRNA-seqデータファイルはFASTA形式でもFASTQ形式でも構いません。ただし、拡張子が".fa", ".fna", ".fasta", ".fq", ".fastq"のいずれかでないといけないようです。例えば".txt"だとエラーになります。また、圧縮ファイルでも構わないようです。".gz", ".bz2", ".xz"を認識できるようです。リファレンスゲノムは、BSgenomeパッケージで利用可能なものをそのまま指定することができるようです。つまり、available.genomes()でみられるパッケージ名を指定可能だということです。もし指定したパッケージがインストールされていなかった場合でも、自動でインストールしてくれるようです。マッピングプログラム(aligner)のデフォルトは、ジャンクションリードのマッピングができないが高速なBowtie (Langmead et al., Genome Biol., 2009)です。 Bowtieプログラム自体は、複数個所にマップされるリードの取り扱い(uniquely mapped reads or multi-mapped reads)を"-m"オプションで指定したり、許容するミスマッチ数を指定する"-v"などの様々なオプションを利用可能ですが、QuasR中では、"-m 1 -–best -–strata"オプションを基本として、内部的に自動選択するらしいです。実際に用いられたオプションは下記スクリプト中のoutオブジェクトの出力結果から知ることができます。この項目では、マッピングのオプションについては変更を加えずに、一つのRNA-seqファイルのマッピングを行う基本的なやり方を示しています。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1.サンプルデータ18,19のRNA-seqデータ(sample_RNAseq1.fa)のref_genome.faへのマッピングの場合：

mapping_single_genome1.txtのような2行目の1列目に「マッピングしたいRNA-seqファイル名」(sample_RNAseq1.fa)、そして2行目の2列目に「任意のサンプル名」(例：namae)を記載したタブ区切りテキストファイルを用意した上で行います。 1行目の文字列は変えてはいけません(つまり"FileName"と"SampleName"のままにしておくということです) マッピング後に得られるBAM形式ファイルは、"sample_RNAseq1_XXXXXXXXXX.bam"というファイル名で作業ディレクトリ上に自動で生成されます。ここで、XXXXXXXXXXはランダムな文字列からなります。理由は、同じRNA-seqファイルを異なるパラメータやリファレンス配列にマッピングしたときに、同じ名前だと上書きしてしまう恐れがあるためです。また、Quality Controlレポートも"sample_RNAseq1_XXXXXXXXXX_QC.pdf"というファイル名で作業ディレクトリ上に自動で生成されます。マッピングに用いたパラメータは"-m 1 --best --strata -v 2"であったことがわかります。

in_f1 <- "mapping_single_genome1.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "ref_genome.fa"               #入力ファイル名を指定してin_f2に格納(リファレンス配列)

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2)            #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

2.サンプルデータ18,19のRNA-seqのgzip圧縮ファイル(sample_RNAseq1.fa.gz)のref_genome.faへのマッピングの場合：

in_f1 <- "mapping_single_genome2.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "ref_genome.fa"               #入力ファイル名を指定してin_f2に格納(リファレンス配列)

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2)            #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

3.サンプルデータ18,19のRNA-seqのgzip圧縮ファイル(sample_RNAseq1.fa.gz)のref_genome.faへのマッピングの場合：

mapping_single_genome2.txtのような2行目の1列目に「マッピングしたいRNA-seqファイル名」(sample_RNAseq1.fa.gz)、そして2行目の2列目に「任意のサンプル名」(例：asshuku)を記載したタブ区切りテキストファイルを用意した上で行います。 1行目の文字列は変えてはいけません(つまり"FileName"と"SampleName"のままにしておくということです) マッピング結果をBED形式ファイルとして保存するやり方です。GenomicAlignmentsパッケージを用いて内部的にBAM形式ファイルを読み込み、 BED形式に変換してから保存しています。qQCReport関数実行時に警告メッセージ(compressed 'fasta' input is not yet supported)が出ることを確認していますが、単純にgzip圧縮FASTA形式ファイルはまだサポートされていないということだけで、マッピング自体はうまくいっているので問題ありません。

in_f1 <- "mapping_single_genome2.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "ref_genome.fa"               #入力ファイル名を指定してin_f2に格納(リファレンス配列)

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2)            #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

4.サンプルデータ7のFASTQ形式ファイル(SRR037439.fastq)のhoge4.faへのマッピングの場合：

mapping_single_genome3.txtのような2行目の1列目に「マッピングしたいRNA-seqファイル名」(SRR037439.fastq)、そして2行目の2列目に「任意のサンプル名」(例：human_brain)を記載したタブ区切りテキストファイルを用意した上で行います。 1行目の文字列は変えてはいけません(つまり"FileName"と"SampleName"のままにしておくということです) 一つもマップされるものがない例であり、FASTQを入力ファイルとして読み込めるという例でもあります。もちろん圧縮ファイル形式でもOKです。

in_f1 <- "mapping_single_genome3.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "hoge4.fa"                    #入力ファイル名を指定してin_f2に格納(リファレンス配列)

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2)            #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

5.サンプルデータ7のFASTQ形式ファイル(SRR037439.fastq)のトキソプラズマゲノムBSgenome.Tgondii.ToxoDB.7.0へのマッピングの場合：

mapping_single_genome3.txtのような2行目の1列目に「マッピングしたいRNA-seqファイル名」(SRR037439.fastq)、そして2行目の2列目に「任意のサンプル名」(例：human_brain)を記載したタブ区切りテキストファイルを用意した上で行います。 1行目の文字列は変えてはいけません(つまり"FileName"と"SampleName"のままにしておくということです) ヒトRNA-seqデータをBSgenomeパッケージで利用可能な生物種のリファレンスゲノム配列にマッピングするやり方の一例です。計算時間短縮のためゲノムサイズの小さいトキソプラズマゲノムBSgenome.Tgondii.ToxoDB.7.0を指定しています。 BSgenome.Hsapiens.UCSC.hg19を指定すると(おそらく数時間程度かかるかもしれませんが...)マップされる確率は当然上がります(同じ生物種なので)。

in_f1 <- "mapping_single_genome3.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "BSgenome.Tgondii.ToxoDB.7.0" #入力ファイル名を指定してin_f2に格納(リファレンス配列)

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2)            #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

マッピング | single-end | ゲノム | basic aligner(応用) | QuasR(Gaidatzis_2015)

QuasRパッケージを用いてsingle-end RNA-seqデータのリファレンスゲノム配列へのマッピングを行うやり方を示します。 basic alignerの1つであるBowtie (Langmead et al., Genome Biol., 2009)を実装した Rbowtieパッケージを内部的に使っています。 Bowtie自体は、複数個所にマップされるリードの取り扱い(uniquely mapped reads or multi-mapped reads)を"-m"オプションで指定したり、許容するミスマッチ数を指定する"-v"などの様々なオプションを利用可能ですが、「基礎」のところではやり方を示しませんでした。ここでは、マッピングのオプションをいくつか変更して挙動を確認したり、複数のRNA-seqファイルを一度にマッピングするやり方を示します。尚、出力ファイルは、"*.bam", "*_QC.pdf", "*.bed"の3つです。それ以外のファイルは基本無視で大丈夫です。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1.サンプルデータ18,19のRNA-seqデータ(sample_RNAseq1.fa)のref_genome.faへのマッピングの場合(mapping_single_genome1.txt)：

オプションを"-m 1 --best --strata -v 0"とした例です。 sample_RNAseq1.faでマップされないのは計3リードです。 2リード("chr3_11_45"と"chr3_15_49")はchr5にもマップされるので、"-m 1"オプションで落とされます。 1リード("chr5_1_35")は該当箇所と完全一致ではない(4番目の塩基にミスマッチをいれている)ので落とされます。

in_f1 <- "mapping_single_genome1.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "ref_genome.fa"               #入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-m 1 --best --strata -v 0"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2, alignmentParameter=param_mapping)#マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

2.サンプルデータ18,19のRNA-seqデータ(sample_RNAseq1.fa)のref_genome.faへのマッピングの場合(mapping_single_genome1.txt)：

オプションを"-m 1 --best --strata -v 1"とした例です。 sample_RNAseq1.faでマップされないのは計2リードです。 chr5にもマップされる2リード("chr3_11_45"と"chr3_15_49")が"-m 1"オプションで落とされます。

in_f1 <- "mapping_single_genome1.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "ref_genome.fa"               #入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-m 1 --best --strata -v 1"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2, alignmentParameter=param_mapping)#マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

3.サンプルデータ18,19のRNA-seqデータ(sample_RNAseq1.fa)のref_genome.faへのマッピングの場合(mapping_single_genome1.txt)：

オプションを"-m 1 -v 1"とした例です。 sample_RNAseq1.faでマップされないのは計3リードです。 2リード("chr3_11_45"と"chr3_15_49")はchr5にもマップされるので、"-m 1"オプションで落とされます。 1リード("chr3_3_37")は該当箇所と完全一致ですが、chr5_3_37とは1塩基ミスマッチでマップ可能です。 "--best --strata"は最小のミスマッチ数でヒットした結果のみ出力するオプションなので、これをつけておかないと"chr3_3_37"は2か所にマップされるリードということで"-m 1"オプションで落とされる、という例です。

in_f1 <- "mapping_single_genome1.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "ref_genome.fa"               #入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-m 1 -v 1"           #マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2, alignmentParameter=param_mapping)#マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

4.サンプルデータ18-20の複数のRNA-seqデータ(sample_RNAseq1.faとsample_RNAseq2.fa)をref_genome.faにマッピングする場合(mapping_single_genome4.txt)：

複数のRNA-seqデータファイルを一度にマッピングするときに用意するファイルの記述例です。下の行にどんどんマップしたいファイルを追加していくだけです。リード長が異なっていても大丈夫なようです。 sample_RNAseq1.faでマップされないのは計2リードです。 chr5にもマップされる2リード("chr3_11_45"と"chr3_15_49")が"-m 1"オプションで落とされます。 sample_RNAseq2.faでマップされないのは、2-4番目のジャンクションリードです。

in_f1 <- "mapping_single_genome4.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "ref_genome.fa"               #入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-m 1 --best --strata -v 1"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2, alignmentParameter=param_mapping)#マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

5. gzip圧縮FASTQ形式ファイル(SRR609266.fastq.gz)のカイコゲノム(integretedseq.fa)へのマッピングの場合(mapping_single_genome7.txt)：

small RNA-seqデータ(400Mb弱、11928428リード)です。イントロ | NGS | 配列取得 | FASTQ or SRA | SRAdb(Zhu_2013)の7を実行して得られたものが SRR609266.fastq.gz (Nie et al., BMC Genomics, 2013)です。カイコゲノム配列は、農業生物資源研究所(NIAS)が提供しているカイコゲノム配列のウェブページからIntegrated sequences (integretedseq.txt.gz) をダウンロードし、解凍します。解凍後のファイル名は"integretedseq.txt"となりますが、拡張子を".txt"から".fa"に変更して、"integretedseq.fa"としたものを使用しています。ちなみに、イントロ | 一般 | 配列取得 | ゲノム配列 | 公共DBからを参考にして、 Ensemblから取得したBombyx_mori.GCA_000151625.1.22.dna.toplevel.fa.gzを解凍したものだと、 qAlign関数実行中に「これはfastaファイルではない」とエラーが出て実行できませんでした。20分強かかります。

in_f1 <- "mapping_single_genome7.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "integretedseq.fa"            #入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-m 1 --best --strata -v 1"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2, alignmentParameter=param_mapping)#マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

6. 2つのgzip圧縮FASTQ形式ファイル(SRR609266.fastq.gzとhoge4.fastq.gz)のカイコゲノム(integretedseq.fa)へのマッピングの場合(mapping_single_genome8.txt)：

small RNA-seqデータ(400Mb弱; 11928428リード; Nie et al., BMC Genomics, 2013)です。イントロ | NGS | 配列取得 | FASTQ or SRA | SRAdb(Zhu_2013)の7を実行して得られたものがSRR609266.fastq.gzです。また、前処理 | トリミング | アダプター配列除去(基礎) | ShortRead(Morgan_2009)の4を実行して得られたものがhoge4.fastq.gzです。カイコゲノム配列は、農業生物資源研究所(NIAS)が提供しているカイコゲノム配列のウェブページからIntegrated sequences (integretedseq.txt.gz) をダウンロードし、解凍します。解凍後のファイル名は"integretedseq.txt"となりますが、拡張子を".txt"から".fa"に変更して、"integretedseq.fa"としたものを使用しています。30分強かかります。

in_f1 <- "mapping_single_genome8.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "integretedseq.fa"            #入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-m 1 --best --strata -v 2"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2, alignmentParameter=param_mapping)#マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

7.srp017142_samplename.txt中のFASTQファイル群をBSgenome.Hsapiens.UCSC.hg19にマッピングする場合：

マップしたいFASTQファイルリストおよびそのサンプル名を記述したsrp017142_samplename.txtを作業ディレクトリに保存したうえで、下記を実行します。 BSgenomeパッケージで利用可能なBSgenome.Hsapiens.UCSC.hg19へマッピングしています。名前から推測できるように"UCSC"の"hg19"にマップしているのと同じです。 basic alignerの一つであるBowtieを内部的に用いており、ここではマッピング時のオプションを"-m 1 --best --strata -v 2"にしています。10時間程度かかります。

in_f1 <- "srp017142_samplename.txt"    #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "BSgenome.Hsapiens.UCSC.hg19" #入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-m 1 --best --strata -v 2"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2, alignmentParameter=param_mapping)#マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

8.srp017142_samplename.txt中のFASTQファイル群をBSgenome.Hsapiens.UCSC.hg19にマッピングする場合：

7.と基本的に同じですが、parallelパッケージを用いて並列計算するやり方(高橋広夫氏提供情報) です。

in_f1 <- "srp017142_samplename.txt"    #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "BSgenome.Hsapiens.UCSC.hg19" #入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-m 1 --best --strata -v 2"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み
library(parallel)                      #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
cl <- makeCluster(detectCores()/2)     #実装されている最大スレッド数を検出し、その半分を利用(Hyper-Threadingでコア数の2倍のスレッド数が検出されるため)
out <- qAlign(in_f1, in_f2, alignmentParameter=param_mapping)#マッピングを行うqAlign関数を実行した結果をoutに格納
stopCluster(cl)                        #スレッドを停止
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

マッピング | single-end | ゲノム | splice-aware aligner | QuasR(Gaidatzis_2015)

QuasRパッケージを用いてsingle-end RNA-seqデータのリファレンスゲノム配列へのマッピングを行うやり方を示します。 splice-aware alignerの一つであるSpliceMap (Au et al., Nucleic Acids Res., 2010)を実装した Rbowtieパッケージを内部的に使っています。

(QuasRパッケージ中の)SpliceMap利用時は、リード長が50bp以上あることが条件のようです。したがって、35bpのsample_RNAseq1.faを入力ファイルに含めるとエラーが出ます。

尚、出力ファイルは、"*.bam", "*_QC.pdf", "*.bed"の3つです。それ以外のファイルは基本無視で大丈夫です。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1.サンプルデータ18と20のRNA-seqデータ(sample_RNAseq2.fa)をref_genome.faにマッピングする場合(mapping_single_genome5.txt)：

デフォルトのオプションで実行する例です。

リード長が50bp以上ありますが、なぜか「failed while generating 25mers」という類のエラーが出ます。

in_f1 <- "mapping_single_genome5.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "ref_genome.fa"               #入力ファイル名を指定してin_f2に格納(リファレンス配列)

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2,            #マッピングを行うqAlign関数を実行した結果をoutに格納
              splicedAlignment=T)      #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

2.サンプルデータ18と20のRNA-seqデータ(sample_RNAseq2.fa)をref_genome.faにマッピングする場合(mapping_single_genome5.txt)：

オプションを"-max_intron 200 -min_intron 5 -max_multi_hit 5 -selectSingleHit TRUE -seed_mismatch 1 -read_mismatch 2 -try_hard yes"とした例です。

リード長が50bp以上ありますが、なぜか「failed while generating 25mers」という類のエラーが出ます。

in_f1 <- "mapping_single_genome5.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "ref_genome.fa"               #入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-max_intron 200 -min_intron 5 -max_multi_hit 5 -selectSingleHit TRUE -seed_mismatch 1 -read_mismatch 2 -try_hard yes"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2,            #マッピングを行うqAlign関数を実行した結果をoutに格納
              alignmentParameter=param_mapping,#マッピングを行うqAlign関数を実行した結果をoutに格納
              splicedAlignment=T)      #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

3.QuasRパッケージ中のサンプルRNA-seqデータ(rna_1_1.fq)の最初の5リードからなるファイル(sample_RNAseq3.fa)をref_genome.faにマッピングする場合(mapping_single_genome6.txt)：

オプションを"-max_intron 200 -min_intron 5 -max_multi_hit 5 -selectSingleHit TRUE -seed_mismatch 1 -read_mismatch 2 -try_hard yes"とした例です。

リード長が50bp以上ありますが、なぜか「failed while generating 25mers」という類のエラーが出ます。

in_f1 <- "mapping_single_genome6.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "ref_genome.fa"               #入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-max_intron 200 -min_intron 5 -max_multi_hit 5 -selectSingleHit TRUE -seed_mismatch 1 -read_mismatch 2 -try_hard yes"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2,            #マッピングを行うqAlign関数を実行した結果をoutに格納
              alignmentParameter=param_mapping,#マッピングを行うqAlign関数を実行した結果をoutに格納
              splicedAlignment=T)      #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

4.QuasRパッケージ中のサンプルRNA-seqデータ(rna_1_1.fq)の最初の5リードからなるファイル(sample_RNAseq3.fa)をref_genome.faにマッピングする場合(mapping_single_genome6.txt)：

デフォルトのオプションで実行する例です。実際に用いられたオプションが"-max_intron 400000 -min_intron 20000 -max_multi_hit 10 -selectSingleHit TRUE -seed_mismatch 1 -read_mismatch 2 -try_hard yes"となっているのがわかります。

エラーが出なくなりますが当然？！マップされません。

in_f1 <- "mapping_single_genome6.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "ref_genome.fa"               #入力ファイル名を指定してin_f2に格納(リファレンス配列)

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2,            #マッピングを行うqAlign関数を実行した結果をoutに格納
              splicedAlignment=T)      #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

5.QuasRパッケージ中のサンプルRNA-seqデータ(rna_1_1.fq)の最初の5リードからなるファイル(sample_RNAseq3.fa)をref_genome.faにマッピングする場合(mapping_single_genome6.txt)：

オプションを"-max_intron 400000 -min_intron 20000 -max_multi_hit 10 -selectSingleHit TRUE -seed_mismatch 1 -read_mismatch 2 -try_hard yes"とした例です。

4.と同じ結果(エラーは出ないがマップされない)になります。

in_f1 <- "mapping_single_genome6.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqファイル)
in_f2 <- "ref_genome.fa"               #入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-max_intron 400000 -min_intron 20000 -max_multi_hit 10 -selectSingleHit TRUE -seed_mismatch 1 -read_mismatch 2 -try_hard yes"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2,            #マッピングを行うqAlign関数を実行した結果をoutに格納
              alignmentParameter=param_mapping,#マッピングを行うqAlign関数を実行した結果をoutに格納
              splicedAlignment=T)      #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

マッピング | paired-end | ゲノム | basic aligner(基礎) | QuasR(Gaidatzis_2015)

QuasRパッケージを用いてpaired-end RNA-seqデータのリファレンスゲノム配列へのマッピングを行うやり方を示します。 basic alignerの1つであるBowtie (Langmead et al., Genome Biol., 2009)を実装した Rbowtieパッケージを内部的に使っています。 mapping_paired_genome1.txtのような2行目の1列目と2列目に「マッピングしたいRNA-seqファイル名1と2」 (例：sample_RNAseq_1.faとsample_RNAseq_2.fa)、そして2行目の3列目に「任意のサンプル名」(例：namae)を記載したタブ区切りテキストファイルを用意した上で行います。 1行目の文字列は変えてはいけません(つまり"FileName1", "FileName2",および"SampleName"のままにしておくということです)

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. mapping_paired_genome1.txt中のFASTQ形式ファイルを乳酸菌ゲノムにマッピングする場合：

乳酸菌RNA-seqデータSRR616268の最初の100万リード分です。 SRR616268sub_1.fastq.gzは、74,906,576 bytes、全リード107 bpです。 SRR616268sub_2.fastq.gzは、67,158,462 bytes、全リード93 bpです。 Ensembl (Zerbino et al., Nucleic Acids Res., 2018)から提供されている Lactobacillus casei 12Aの multi-FASTA形式ゲノム配列ファイル(Lactobacillus_casei_12a.GCA_000309565.2.25.dna.chromosome.Chromosome.fa) がリファレンス配列です。マッピングオプションはデフォルトです。

in_f1 <- "mapping_paired_genome1.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqリストファイル)
in_f2 <- "Lactobacillus_casei_12a.GCA_000309565.2.25.dna.chromosome.Chromosome.fa"#入力ファイル名を指定してin_f2に格納(リファレンス配列)

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2)            #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

2. mapping_paired_genome2.txt中のFASTQ形式ファイルを乳酸菌ゲノムにマッピングする場合：

1.の入力ファイルから5'および3'側をrcode_20150707_preprocessing.txtに書いてある手順でトリムして得られた998,521リードからなるpaired-endのファイルです。 SRR616268sub_trim3_1.fastq.gz (59,092,219 bytes)と SRR616268sub_trim3_2.fastq.gz (54,667,920 bytes)です。 Ensembl (Zerbino et al., Nucleic Acids Res., 2018)から提供されている Lactobacillus casei 12Aの multi-FASTA形式ゲノム配列ファイル(Lactobacillus_casei_12a.GCA_000309565.2.25.dna.chromosome.Chromosome.fa) がリファレンス配列です。マッピングオプションはデフォルトです。

in_f1 <- "mapping_paired_genome2.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqリストファイル)
in_f2 <- "Lactobacillus_casei_12a.GCA_000309565.2.25.dna.chromosome.Chromosome.fa"#入力ファイル名を指定してin_f2に格納(リファレンス配列)

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2)            #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

マッピング | paired-end | ゲノム | basic aligner(応用) | QuasR(Gaidatzis_2015)

QuasRパッケージを用いてpaired-end RNA-seqデータのリファレンスゲノム配列へのマッピングを行うやり方を示します。 basic alignerの1つであるBowtie (Langmead et al., Genome Biol., 2009)を実装した Rbowtieパッケージを内部的に使っています。 Bowtie自体は、複数個所にマップされるリードの取り扱い(uniquely mapped reads or multi-mapped reads)を"-m"オプションで指定したり、許容するミスマッチ数を指定する"-v"などの様々なオプションを利用可能ですが、「基礎」のところではやり方を示しませんでした。ここでは、マッピングのオプションをいくつか変更して挙動を確認したり、複数のRNA-seqファイルを一度にマッピングするやり方を示します。尚、出力ファイルは、"*.bam", "*_QC.pdf", "*.bed"の3つです。それ以外のファイルは基本無視で大丈夫です。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. mapping_paired_genome2.txt中のFASTQ形式ファイルを乳酸菌ゲノムにマッピングする場合：

998,521リードからなるpaired-endのファイルです。 SRR616268sub_trim3_1.fastq.gz (59,092,219 bytes)と SRR616268sub_trim3_2.fastq.gz (54,667,920 bytes)です。 Ensembl (Zerbino et al., Nucleic Acids Res., 2018)から提供されている Lactobacillus casei 12Aの multi-FASTA形式ゲノム配列ファイル(Lactobacillus_casei_12a.GCA_000309565.2.25.dna.chromosome.Chromosome.fa) がリファレンス配列です。オプションを"-m 1 --best --strata -v 0"とした例です。 -m 1で1か所にのみマップされるリード、 -v 0で許容するミスマッチ数を0個にしています。 --best --strataは、許容するミスマッチ数が1以上の場合に効果を発揮します。ここでは意味をなしませんが、つけておいて悪さをするものではないので、通常は無条件でつけます。

in_f1 <- "mapping_paired_genome2.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqリストファイル)
in_f2 <- "Lactobacillus_casei_12a.GCA_000309565.2.25.dna.chromosome.Chromosome.fa"#入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-m 1 --best --strata -v 0"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2, alignmentParameter=param_mapping)#マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

2. mapping_paired_genome2.txt中のFASTQ形式ファイルを乳酸菌ゲノムにマッピングする場合：

1.と基本的に同じで、オプションを"-m 1 --best --strata -v 2"とした例です。 -m 1で1か所にのみマップされるリード、 -v 2で許容するミスマッチ数を2個にしています。 --best --strataをつけておくことで、例えば同じリードがミスマッチ数0個(perfect match)でマップされるのが1か所のみだったにもかかわらず、ミスマッチ数1 or 2個でもマップされるされる別の場所があったときに-m 1の効果で複数個所にマップされるとして出力されなくなる不幸をなくすことができます。もっともよい層(best strata)のみで評価するという捉え方でいいでしょう。これがどうしても嫌だというヒトは普通はいませんので、通常は無条件でつけます。

in_f1 <- "mapping_paired_genome2.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqリストファイル)
in_f2 <- "Lactobacillus_casei_12a.GCA_000309565.2.25.dna.chromosome.Chromosome.fa"#入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-m 1 --best --strata -v 2"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2, alignmentParameter=param_mapping)#マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

マッピング | paired-end | トランスクリプトーム | basic aligner(基礎) | QuasR(Gaidatzis_2015)

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. mapping_paired_genome2.txt中のFASTQ形式ファイルを乳酸菌トランスクリプトーム配列(transcriptome_Lcasei12A.fasta)にマッピングする場合：

in_f1 <- "mapping_paired_genome2.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqリストファイル)
in_f2 <- "transcriptome_Lcasei12A.fasta"#入力ファイル名を指定してin_f2に格納(リファレンス配列)

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2)            #マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

マッピング | paired-end | トランスクリプトーム | basic aligner(応用) | QuasR(Gaidatzis_2015)

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

1. mapping_paired_genome2.txt中のFASTQ形式ファイルを乳酸菌トランスクリプトーム配列(transcriptome_Lcasei12A.fasta)にマッピングする場合：

乳酸菌RNA-seqデータSRR616268の998,521リードからなるpaired-endのファイルです。 SRR616268sub_trim3_1.fastq.gz (59,092,219 bytes)と SRR616268sub_trim3_2.fastq.gz (54,667,920 bytes)です。リファレンス配列は「イントロ | 一般 | 配列取得 | トランスクリプトーム配列 | GenomicFeatures(Lawrence_2013)」の例題6を実行して得られたもの(transcriptome_Lcasei12A.fasta)を利用します。オプションを"-m 1 --best --strata -v 0"とした例です。 -m 1で1か所にのみマップされるリード、 -v 0で許容するミスマッチ数を0個にしています。 --best --strataは、許容するミスマッチ数が1以上の場合に効果を発揮します。ここでは意味をなしませんが、つけておいて悪さをするものではないので、通常は無条件でつけます。

in_f1 <- "mapping_paired_genome2.txt"  #入力ファイル名を指定してin_f1に格納(RNA-seqリストファイル)
in_f2 <- "transcriptome_Lcasei12A.fasta"#入力ファイル名を指定してin_f2に格納(リファレンス配列)
param_mapping <- "-m 1 --best --strata -v 0"#マッピング時のオプションを指定

#必要なパッケージをロード
library(QuasR)                         #パッケージの読み込み
library(GenomicAlignments)             #パッケージの読み込み

#本番(マッピング)
time_s <- proc.time()                  #計算時間を計測するため
out <- qAlign(in_f1, in_f2, alignmentParameter=param_mapping)#マッピングを行うqAlign関数を実行した結果をoutに格納
time_e <- proc.time()                  #計算時間を計測するため
time_e - time_s                        #計算時間を表示(一番右側の数字。単位はsecond)
out                                    #マッピングに用いたパラメータや入力ファイルの情報などを表示
alignmentStats(out)                    #マッピング結果(alignment statistics)の表示。seqlength：リファレンス配列の総塩基数、mappedとunmappedは対応するリード数

#ファイルに保存(QCレポート用のpdfファイル作成)
out_f <- sub(".bam", "_QC.pdf", out@alignments[,1])#Quqlity Controlレポートのpdfファイル名を作成した結果をout_fに格納
qQCReport(out, pdfFilename=out_f)      #QCレポート結果をファイルに保存
out_f                                  #ファイル名を表示してるだけです

#ファイルに保存(BED形式ファイル)
tmpfname <- out@alignments[,1]         #ファイル名(in_f1の1列目に相当)をtmpfnameとして取り扱いたいだけです
for(i in 1:length(tmpfname)){          #サンプル数(ファイル数)分だけループを回す
  hoge <- readGAlignments(tmpfname[i]) #BAM形式ファイルを読み込んだ結果をhogeに格納(これはGAlignmentsオブジェクト)
  hoge <- as.data.frame(hoge)          #データフレーム形式に変換
  tmp <- hoge[, c("seqnames","start","end")]#必要な列の情報のみ抽出した結果をtmpに格納
  out_f <- sub(".bam", ".bed", tmpfname[i])#BED形式ファイル名を作成した結果をout_fに格納
  out_f                                #ファイル名を表示してるだけです
  write.table(tmp, out_f, sep="\t", append=F, quote=F, row.names=F, col.names=F)#tmpの中身を指定したファイル名で保存
}

マップ後 | について

（ゲノムやトランスクリプトーム配列へのマッピング時には問題にならないと思いますが、おそらく）RNA-seqのアセンブルを行う場合には、sequencing errorの除去以外にも「アダプター配列」や「low-complexity reads (低複雑性のリード；繰り返し配列)」や「PCR duplicates(ロングインサートライブラリによくあるらしい...)」の除去を行うのが普通なようです。（私がTrinityでアセンブルを行う場合にはそんなことやったこともないのですが、やったら大分違うのでしょうか。。。）ここではこれらのerror除去を行うプログラムを列挙しておきます：

入力ファイルがリファレンス配列へのマップ後のファイル（SAM/BAM, BED, GFF形式など）（Rパッケージ）：

入力ファイルがリファレンス配列へのマップ後のファイル（SAM/BAM, BED, GFF形式など）（R以外）：

SAMStat: Lassmann et al., Bioinformatics, 2011
RNA-SeQC: DeLuca et al., Bioinformatics, 2012; RNA-seq用; BAM形式のみ
RSeQC: Wang et al., Bioinformatics, 2012; RNA-seq用

（おそらく）454 platform用：

PyroNoise: Quince et al., Nat. Methods, 2009
ShoRAH: Zagordi et al., BMC Bioinformatics, 2011
NGS QC Toolkit: Patel et al., PLoS One, 2012; Illuminaも可能
KEC and ET: Skums et al., BMC Bioinformatics, 2012

その他：

SHREC: Schroder et al., Bioinformatics, 2009; 入力ファイル形式がよくわからなかったのでそれ以上深入りせず...
TagDust: Lassmann et al., Bioinformatics, 2009; web上でマニュアルを読めなかったのでそれ以上深入りせず...
SeqTrim: Falqueras et al., BMC Bioinformatics, 2010; loginを要求されたのでそれ以上深入りせず...
CUDA-EC: Shi et al., J. Comput. Biol., 2010; web上でマニュアルを読めなかったのでそれ以上深入りせず...
EDAR: Zhao et al., J. Comput. Biol., 2010
Redeem: Yang et al., BMC Bioinformatics, 2011; documentationが不親切でよくわかりません...orz
PBcR: Koren et al., Nat Biotechnol., 2012; Celera Assemblerの一部として実装されているらしい

マップ後 | 出力ファイル形式について

様々ないろいろな出力ファイル形式があることがわかります。

注目すべきは、Sequence Alignment/Map (SAM) formatです。この形式は国際共同研究の1000人のゲノムを解析するという1000 Genomes Projectで採用された（開発された）フォーマットで、("@"から始まる)header sectionと(そうでない)alignment sectionから構成されています。このヒトの目で解読可能な形式がSAMフォーマットで、このバイナリ版がBinary Alignment/Map (BAM)フォーマットというものです。今後SAM/BAM formatという記述をよく見かけるようになることでしょう。

代表的な出力ファイル形式：

BED format
ELAND format
GFF (General Feature Format) format
GFF3 (General Feature Format ver.3) format
SAM (Sequence Alignment/Map) format (Li et al., Bioinformatics, 2009)
SOAP format
ZOOM format

解析 | 機械学習(分類) | 基礎 | MLSeq(Goksuluk_2019)

MLSeqを用いて機械学習(分類)を行うやり方を示します。ここでは入力ファイルをサンプルデータ51のsample51.txtに限定して、ステップごとに一つ一つ丁寧に説明していきます。このデータは、 MLSeqパッケージから提供されている cervical.txtという名前のカウントデータと同じものです。714行×58列からなる数値行列データです（「ヘッダー行」や「行名情報の列」を除く）。データの原著論文は、Witten et al., 2010です。子宮頸がん患者29例の正常組織と癌組織のペアサンプルであり、714のmicroRNA (714 miRNAs)の発現を調べたデータです。 (行名情報の列を除く)最初の29列分が正常サンプル(N1, N2, ..., N29)、残りの29列分が癌サンプル(T1, T2, ..., T29)のデータです。

「ファイル」−「ディレクトリの変更」で解析したいファイルを置いてあるディレクトリに移動し以下をコピペ。

Step 1：入力ファイルの読込みとラベル情報の割当てまで。

最初の29列分が正常組織のデータ、残りの29列分が癌組織のデータだと分かっている場合に、以下のように記述します。読み込んだdataオブジェクトは、714行×58列からなる数値行列データとなっていることが分かります。 MLSeqのBeginner's guide 中の「2 Preparing the input data」(page 4)の作業の一部に相当します。

in_f <- "sample51.txt"                 #入力ファイル名を指定してin_fに格納
param_G1 <- 29                         #G1(N)群のサンプル数を指定
param_G2 <- 29                         #G2(T)群のサンプル数を指定

#必要なパッケージをロード
library(MLSeq)                         #パッケージの読み込み
library(S4Vectors)                     #パッケージの読み込み

#入力ファイルの読み込みとラベル情報の作成
data <- read.table(in_f, header=TRUE, row.names=1, sep="\t")#in_fで指定したファイルの読み込み
data.cl <- c(rep("G1", param_G1), rep("G2", param_G2))#G1群を"G1"、G2群を"G2"としたベクトルdata.clを作成
class <- DataFrame(cond=factor(data.cl))#data.clをもとにしてDataFrameオブジェクトを作成
dim(data)                              #行数と列数を表示
class                                  #確認してるだけです(中身を表示)

以下の事柄は非常にマニアックですが、ドハマりしたので、備忘録的に書いておきます。上記のdata.clオブジェクト作成部分に関する補足情報です。クラスラベル情報の与え方次第で、Step 7の予測モデル構築のところでコケマス。 svmやrfのようなcaret-based classifiersを利用する場合に、特に気をつけてください。 voom-basedやdiscrete classifiersの場合は、様々なクラスラベルの指定法に対応してくれているようです。以下にうまく動く例を示しておきます。

## やり方1
## Step 7で示した全てのアルゴリズムで正常に動作します。
## MLSeqのBeginner's guideのpage4と同じ記述法です。
data.cl <- c(rep("N", param_G1), rep("T", param_G2))

## やり方2
## Step 7で示した全てのアルゴリズムで正常に動作します。
## アルファベットが異なるだけです。Normal vs. Tumorだからといって、NやTにする必要はありません。
data.cl <- c(rep("A", param_G1), rep("B", param_G2))

## やり方3
## Step 7で示した全てのアルゴリズムで正常に動作します。本項目の例題で使われている表記法です。
data.cl <- c(rep("G1", param_G1), rep("G2", param_G2))

## やり方4
## "svmRadial"や"rf"のようなcaret-based classifiersのときにエラーとなります。
data.cl <- c(rep("1", param_G1), rep("2", param_G2))

## やり方5
## Step 7で示した全てのアルゴリズムでエラーとなります。
data.cl <- c(rep(1, param_G1), rep(2, param_G2))

Step 2：分散の大きい上位100行分のデータのみ抽出するところまで。

元の入力データは714行分ありますが、分類を行う上で重要度の高いものから低いものまで様々です。直感的には、行全体で分散(バラつき)が小さいものは分類問題への寄与が小さいと判断できます。それゆえ、ここでは行ごとに分散の値を算出し、分散の大きい上位100行分のデータを利用するようにしています。尚、行数はmicroRNAの種類数に相当します。しかし、実際には行数が遺伝子数だったり転写物数だったりと様々です。それゆえ、バイオインフォの世界では、より一般的な表現としてfeature(フィーチャー；特徴)という言葉を用います。そして、ここの作業は、特徴抽出(feature selection)と呼ばれるものに相当します。入力データの段階でfeature数が100個程度しかないような場合には、ここのステップは行わないのではと思います。遺伝子発現データのような、数万の遺伝子数(数万のfeature数)からなるデータを取り扱う場合には、計算コスト削減を主目的としてfeature selectionを行います。 MLSeqのBeginner's guide 中の「3 Splitting the data」(page 5)の作業の一部に相当します。ここまでの作業で、分散の大きい上位100行分のデータからなるdata.subというオブジェクトを得ています。

param_nfeat <- 100                     #利用するfeature数を指定

#前処理(利用するfeatureを抽出)
vars <- apply(data, 1, var, na.rm=T)   #feature(行)ごとに分散を計算
head(vars)                             #最初の6要素分を表示
vars.sorted <- sort(vars, decreasing=T)#分散の大きい順にソート
head(vars.sorted)                      #最初の6要素分を表示
features <- names(vars.sorted)[1:param_nfeat]#分散の大きい上位param_nfeat個のfeature ID情報を取得
head(features)                         #最初の6要素分を表示
data.sub <- data[features, ]           #featuresで指定した行名のみの発現データ情報を取得
dim(data.sub)                          #行数と列数を表示

Step 3：データセットの分割。

テストセット(30%)とトレーニングセットを分割。 58*0.3=17.4となるので、ceiling関数を使って切り上げています。結果として、18サンプルをテストセットとして使うことになります。 sample関数実行時に非復元抽出を意味するreplace=Tとした理由は、同じサンプルを重複して抽出する事態を避けるためです。 set.seed関数内で指定している2128という数値に特に意味はありません(乱数発生時のタネ番号です)。整数であれば何でもよいはずですが、ここではMLSeqと同じ乱数を発生させるために、同じタネ番号を指定しています。

「前処理(データの分割)」のところでは、データをトレーニングセット(training set)とテストセット(test set)に分割しています。 MLSeqのBeginner's guide 中の「3 Splitting the data」(page 4-5)では、トレーニングセットとして指定する割合のガイドラインを以下のように定めています：
「ほとんどの場合は70%」、「トータルのサンプル数が200-500程度と十分多ければ、80 or 90%」、「サンプル数が少なければ50%」
「サンプル数が十分多ければトレーニングセットが80-90%」というのは妥当です。理由は、予測モデルを構築するのに十分なトレーニングセット内のサンプル数があり、且つテストセットが10-20%しかなくともトータルのサンプル数が多いので、テストセットの総数もある程度稼げるからです。「サンプル数が少なければ50%」というガイドラインから、このパッケージ開発者が「テストセットで使うサンプル数をある程度確保するのは重要だ」という思想だと判断できます。 MLSeqのBeginner's guide の4-5ページ目にかけて、「トータル58サンプルのデータの場合は、トレーニングセットのサンプル数を90%にすることもあるかもしれない。」と書いています。これはマニュアルにも書いているように、「テストセットを用いた評価よりも、より高精度な予測モデルを構築することを重視」することに相当します。58サンプルのうち、たった58*0.1 = 6サンプルだけしかテストセットとして用いられない場合は、たった1サンプルの予測ミスが1/6 = 16.6667%分も予測精度に影響を及ぼすことになります。それゆえ、テストセットの予測精度が悪かった場合、私の思考回路は以下のような感じになります：
「それはたまたま運が悪かっただけ...かなトレーニングセット(検証セット含む)での精度はそれなりにあったから...まあしょうがないかな。一応念のため、トレーニングセットのサンプル数を50-60%くらいに減らして、テストセットを増やしてみようかな。」

param_n.tes <- 0.3                     #テストセットの割合を指定

set.seed(2128)                         #おまじない(同じ乱数になるようにするため)
#前処理(テストセットとして用いる列番号情報取得)
n.tes <- ceiling(ncol(data)*param_n.tes)#テストセットとして用いるサンプル数情報を取得
n.tes                                  #確認してるだけです

ind <- sample(x=ncol(data), size=n.tes, replace=F)#非復元抽出で、テストセットとして用いるサンプルの列番号情報を取得
ind                                    #確認してるだけです

#前処理(データセットの分割)
tmp <- as.matrix(data.sub + 1)         #数値行列data.subの全ての要素に1を足し、matrix形式に変換したものをtmpに格納
data.tes <- tmp[, ind]                 #整数ベクトルindで指定した列の情報をテストセットdata.tesに格納
data.tra <- tmp[, -ind]                #整数ベクトルindで指定した列以外の情報をテストセットdata.traに格納
dim(data.tes)                          #行数と列数を表示
dim(data.tra)                          #行数と列数を表示
class.tes <- DataFrame(cond=class[ind, ])#テストセットのクラスラベル情報をclass.tesに格納
class.tra <- DataFrame(cond=class[-ind, ])#トレーニングセットのクラスラベル情報をclass.traに格納
dim(class.tes)                         #行数と列数を表示
dim(class.tra)                         #行数と列数を表示

Step 4：カウントデータとクラスラベル情報をDESeqDataSet形式のオブジェクトに変換。

トレーニングセットとテストセットの情報を、それぞれDESeqDataSetという形式のオブジェクトに格納しています。 DESeq2パッケージが提供している格納形式です。このパッケージを読み込んだのち、DESeqDataSetFromMatrixという関数を用いてDESeqDataSetという形式のオブジェクトに変換しています。ここまでで、MLSeqのBeginner's guide 中の「3 Splitting the data」(page 4-5あたり)が終了です。

#必要なパッケージをロード
library(DESeq2)                        #パッケージの読み込み

#前処理(DESeqDataSet形式に変換)
tes.s4 <- DESeqDataSetFromMatrix(      #DESeqDataSet形式に変換(テストセット)
               countData = data.tes,   #DESeqDataSet形式に変換(テストセット)
               colData = class.tes,    #DESeqDataSet形式に変換(テストセット)
               design = formula(~cond))#DESeqDataSet形式に変換(テストセット)
tra.s4 <- DESeqDataSetFromMatrix(      #DESeqDataSet形式に変換(トレーニングセット)
               countData = data.tra,   #DESeqDataSet形式に変換(トレーニングセット)
               colData = class.tra,    #DESeqDataSet形式に変換(トレーニングセット)
               design = formula(~cond))#DESeqDataSet形式に変換(トレーニングセット)
tes.s4                                 #確認してるだけです(中身を表示)
tra.s4                                 #確認してるだけです(中身を表示)

Step 5：利用可能な機械学習アルゴリズムを確認。

MLSeqのBeginner's guide 中の「4 Available machine-learning models」(page 5の下のほう)に相当する部分です。ここでリストアップされているもののどれかを、この後で利用するclassify関数中のmethodオプションのところで指定します。 packageVersion関数実行結果として、MLSeqのバージョンが2.2.1となっているヒトは、 93個のアルゴリズムが利用可能であることがわかります。

availableMethods()                     #MLSeqパッケージ内で利用可能な機械学習アルゴリズム名を表示
packageVersion("MLSeq")                #確認してるだけです(中身を表示)

Step 6：データの正規化や変換と、用いる機械学習アルゴリズムの組み合わせについて正しく理解。

MLSeqのBeginner's guide のpage 6の「5 Normalization and transformation」に相当する部分です（page 10付近でも説明されています）。作業は特になく、Step 5で決めたアルゴリズムによって、この後で利用するclassify関数中のオプションをうまく使い分けないといけないという話です。例えば、preProcessingオプションは、入力データに対して「正規化(Normalization)と変換(Transformation)」を実行したい場合に利用します。 normalizeオプションは、入力データに対して「正規化(Normalization)」のみ実行したい場合に利用します。具体的には、以下に示すように「正規化のみ行って、RNA-seqカウントデータに特化した機械学習アルゴリズムを利用したい場合」と「正規化だけでなく変換まで行って、多くの一般的な機械学習アルゴリズムを利用したい場合」に大別してオプションを使い分けます。後者の方で指定する一般的な機械学習アルゴリズムは、caret パッケージで利用できるものに相当します。これは、MLSeq が内部的にcaretを利用しているからです。ここをよく理解してからStep 7に進みます。

6-1. RNA-seqカウントデータに特化した機械学習アルゴリズムを利用したい場合。

・normalizeオプション(以下の3つ)：
  deseq, tmm, and none
  データ正規化までしか行わないのがポイントです。
・methodオプション(以下の6つ)：
  最初の3つは、PLDA,　PLDA2, and NBLDA
  discrete classifiersというカテゴリに属するものたちです。
  原著論文中では、algorithms which are based on discrete distributionsという表現もなされています。
  残りの3つは、voomDLDA,　voomDQDA, and voomNSC
  voom-based classifiersというカテゴリに属するものたちです。
・controlオプション(以下の2つ)：
  discrete classifiersを指定した場合は、discreteControlを使います。
  voom-based classifiersを指定した場合は、voomControlを使います。

6-2.一般的な機械学習アルゴリズムを利用したい場合。

・preProcessingオプション(以下の4つ)：
  deseq-vst, deseq-rlog, deseq-logcpm, and tmm-logcpm
  データ正規化後に変換まで行うのがポイントです。
・methodオプション(沢山)：
  knn, rf, svmLinear, glmboost, ctree, and so on.
  Step 5の「availableMethods()」実行結果として見られたもののうち、上記の6個以外の全て(のはず)です。
  caret-based classifiersとかmicroarray-based classifiersというカテゴリに属するものたちです。
・controlオプション(以下の1つのみ)：
  trainControl

Step 7：予測モデル(分類器)の構築。

MLSeqのBeginner's guide 中の「6 Model building」(page 7)に相当する部分です。classify関数の実行結果として得られるfitというオブジェクトには、最適な予測モデル(optimal model)やトレーニングセットに対する性能評価結果が含まれています。いくつか例示します。多くのアルゴリズムは原著論文が存在しますので適切に引用してください。下記コードで、classify関数実行時に与えているrefオプションは、どのクラスラベルがつけられた群をリファレンスとして利用するかを宣言するものです。このデータの場合は正常サンプル群と癌サンプル群のどちらをリファレンスとして利用するかに相当します。マニュアルのpage 7では"T"となっていますので、ここではそれに対応した"G2"をparam_refオブジェクトとして与えています。 refオプションのデフォルトはNULLです。結果として最初に出現するラベル情報である"N"(本項では"G1")とはせずにわざわざ"T"(本項では"G2")ととした開発者の意図は不明です。また、e1071パッケージのロードも行っています。これは、MLSeqのBeginner's guide 中には明記されていませんでしたが、実行時にこのパッケージが必要だと言われたのでつけています。

7-1. RNA-seqカウントデータに特化した機械学習アルゴリズムを利用したい場合。
voom-based classifierの1つである、voom-based Nearest Shrunken Centroids (voomNSC)、およびdeseq正規化を採用する例です。入力データにはtra.s4を与えています。 controlオプションでは、voomControl関数で定義したオプションを指定しているのがわかります。詳細についてはMLSeqのReference Manual 中のvoomControlの解説ページに書かれています。tuneLengthオプションのデフォルトは10ですが、ここでは探索されるチューニングパラメータの総数(total number of tuning parameter to be searched) を20にしているようです。

param_method <- "voomNSC"              #アルゴリズムを指定
param_normalize <- "deseq"             #正規化法を指定
param_ref <- "G2"                      #リファレンスとして用いるクラスラベル情報を指定

#必要なパッケージをロード
library(e1071)                         #パッケージの読み込み

#本番(モデル構築)
set.seed(2128)                         #おまじない(同じ乱数になるようにするため)
ctrl <- voomControl(tuneLength=20)     #voomControl関数を用いて専用のオプションを定義
fit <- classify(                       #classify関数を用いて予測モデルを構築
           data = tra.s4,              #classify関数を用いて予測モデルを構築
           method = param_method,      #classify関数を用いて予測モデルを構築
           normalize = param_normalize,#classify関数を用いて予測モデルを構築
           ref = param_ref,            #classify関数を用いて予測モデルを構築
           control = ctrl)             #classify関数を用いて予測モデルを構築
fit                                    #fitの中身を表示

実行結果であるfitは、MLSeqという形式のクラスオブジェクトです。 fit実行結果として、「機械学習アルゴリズムとしてvoomNSCが使われていること、 Accuracyは97.5%、Sensitivityは94.12%、Specificityは100%、Reference ClassはG2」が表示されていることがわかります。

str(fit)をやると一気に大量の情報が表示されるのでわかりますが、fitが保有する情報は実際にはもっと沢山あります。例えば、trained(fit)を実行すると、fitオブジェクト内のtrainedModelというスロットに格納されている情報が表示されます。 fitは計100 features×40samplesからなるトレーニングセットから、2つのクラス("G1" or "G2")のどちらに属するかを決めるために構築された予測モデルです。「threshold, NonZeroFeat., Accuracy」という情報と、20行分の数値が見えます。これがclassify関数中のcontrolオプションのところで指定したtuneLength=20の値に対応します。最もよいAccuracy(=0.9750)が得られたthresholdは2.71944であり、そのときに用いられたfeature数は2であることもわかります。 MLSeqの原著論文(Goksuluk et al., 2019)や MLSeqのBeginner's guide のpage 7にも書かれていますが、ここで指定したアルゴリズム(voomNSC)は、入力情報中の100 features全てを使うわけではありません(voomNSC is sparse and uses a subset of features for classification)。この中から分類に寄与する少数のfeaturesを抽出しています。今回の結果では、「100個中2個を使ったときに最も高いAccuracyが得られた」と解釈します。このあたりの議論が、MLSeqの原著論文(Goksuluk et al., 2019) のTable 3に記載されている、voomNSCのSparsity = 0.022の結果と対応します。

fit                                    #fitの中身を表示
show(fit)                              #直前のコマンドと同じ結果が得られる
trained(fit)                           #fitオブジェクト内のtrainedModelというスロットに格納されている情報を表示
fit@modelInfo@trainedModel             #直前のコマンドと同じ結果が得られる
fit.voomNSC <- fit                     #fitオブジェクトののコピーを作成

上記trained(fit)でみられるthreshold（横軸）とAccuracy（縦軸）のプロットは以下で得られます。プロットの数はtuneLength=20で指定した数と対応します。 MLSeqのBeginner's guide のpage 9のFigure 1に相当します。

plot(fit)                              #thresholdとaccuracyのプロットを表示

7-2. RNA-seqカウントデータに特化した機械学習アルゴリズムを利用したい場合。
voom-based classifierの1つである、voom-based diagonal linear discriminant analysis (voomDLDA)、およびdeseq正規化を採用する例です。

param_method <- "voomDLDA"             #アルゴリズムを指定
param_normalize <- "deseq"             #正規化法を指定
param_ref <- "G2"                      #リファレンスとして用いるクラスラベル情報を指定

#必要なパッケージをロード
library(e1071)                         #パッケージの読み込み

#本番(モデル構築)
set.seed(2128)                         #おまじない(同じ乱数になるようにするため)
ctrl <- voomControl(tuneLength=20)     #voomControl関数を用いて専用のオプションを定義
fit <- classify(                       #classify関数を用いて予測モデルを構築
           data = tra.s4,              #classify関数を用いて予測モデルを構築
           method = param_method,      #classify関数を用いて予測モデルを構築
           normalize = param_normalize,#classify関数を用いて予測モデルを構築
           ref = param_ref,            #classify関数を用いて予測モデルを構築
           control = ctrl)             #classify関数を用いて予測モデルを構築
fit                                    #fitの中身を表示

fit実行結果として、「機械学習アルゴリズムとしてvoomDLDAが使われていること、 Accuracyは92.68%、Sensitivityは94.12%、Specificityは91.67%、Reference ClassはG2」が表示されていることがわかります。

7-1で行ったvoomNSCの結果とは、上記のパフォーマンスの違いだけでなく「trained(fit)」の実行結果の見栄えも異なります。 MLSeqの原著論文(Goksuluk et al., 2019)や MLSeqのBeginner's guide のpage 7にも書かれていますが、ここで指定したアルゴリズム(voomDLDA)は、入力情報中の100 features全てを使います(VoomDLDA and voomDQDA approaches are non-sparse and use all features to classify the data)。したがって、実質的にtuneLength=20というオプションは機能していないのだろう、ということが予想されます。 fitオブジェクト中で見られるAccuracy=92.68%と、trained(fit)実行結果として見られるAccuracy=93.75%に違いが見られます。原著論文著者に問い合わせたところ、The accuracy, in fit object, is calculated with the confusion matrix of train dataset. However, the second one is calculated by the rounded averages of counts in each cross-validation fold. Actually, you can use any of them. とのことでした(Thanks to Dr. Zararsiz and Dr. GÖKSÜLÜK)。

fit                                    #fitの中身を表示
show(fit)                              #直前のコマンドと同じ結果が得られる
trained(fit)                           #fitオブジェクト内のtrainedModelというスロットに格納されている情報を表示
fit@modelInfo@trainedModel             #直前のコマンドと同じ結果が得られる
fit.voomDLDA <- fit                    #fitオブジェクトののコピーを作成

上記trained(fit)実行結果中にも「There is no tuning parameter for selected method.」とあることから予想できますが、下記plot(fit)を実行しても何も表示されません。 MLSeqのBeginner's guide のpage 9のFigure 1に相当します。

plot(fit)                              #thresholdとaccuracyのプロットを表示（されない）

7-3. RNA-seqカウントデータに特化した機械学習アルゴリズムを利用したい場合。
discrete classifierの1つである、negative binomial linear discriminant analysis (NBLDA)、およびdeseq正規化を採用する例です。 controlオプションではdiscreteControlを指定しているのがわかります。 discreteControl内で与えているtuneLength=10は、 10通りのグリッドサーチを行ってパラメータチューニングを行えという指令です。 number=5は、トレーニングセットの40サンプルのデータを5分割せよという命令です。 1分割あたり40/5 = 8サンプルからなるサブセットが得られますので、それをさらに8サンプルからなるテストセットと32サンプルからなるトレーニングセットにわけています。「32サンプルからなるトレーニングセットで予測モデルを構築し、8サンプルからなるテストセットで性能評価を行うという作業」を repeats=9で指定した回数繰り返しているようなイメージでよいです。このあたりはマニュアルでも丁寧には書かれていません。 repeatsやtuneLengthで指定する数値を大きくするほど時間がかかるようなイメージです。

param_method <- "NBLDA"                #アルゴリズムを指定
param_normalize <- "deseq"             #正規化法を指定
param_ref <- "G2"                      #リファレンスとして用いるクラスラベル情報を指定

#必要なパッケージをロード
library(e1071)                         #パッケージの読み込み

#本番(モデル構築)
set.seed(2128)                         #おまじない(同じ乱数になるようにするため)
ctrl <- discreteControl(               #discreteControl関数を用いて専用のオプションを定義
           tuneLength=10,              #discreteControl関数を用いて専用のオプションを定義
           number=5,                   #discreteControl関数を用いて専用のオプションを定義
           repeats=9)                  #discreteControl関数を用いて専用のオプションを定義
fit <- classify(                       #classify関数を用いて予測モデルを構築
           data = tra.s4,              #classify関数を用いて予測モデルを構築
           method = param_method,      #classify関数を用いて予測モデルを構築
           normalize = param_normalize,#classify関数を用いて予測モデルを構築
           ref = param_ref,            #classify関数を用いて予測モデルを構築
           control = ctrl)             #classify関数を用いて予測モデルを構築
fit                                    #fitの中身を表示

fit実行結果として、「機械学習アルゴリズムとしてNBLDAが使われていること、 Accuracyは92.5%、Sensitivityは94.12%、Specificityは91.3%、Reference ClassはG2」が表示されていることがわかります。

上記のパフォーマンスは、repeatsで指定する数値次第でコロコロ変わるようです (実際、MLSeqのReference Manual中の page 7あたりでNumber of repeats (repeats) might change model accuracies.という記述もあります。)。 MLSeqの原著論文(Goksuluk et al., 2019) のTable 3に記載されている、NBLDAのSparsityの値がないこと、そしてtrained(fit)実行結果で確信(There is no tuning parameter for selected method.という記載)できるように、 tuneLength=10は機能していないのだろうと判断できます。

fit                                    #fitの中身を表示
show(fit)                              #直前のコマンドと同じ結果が得られる
trained(fit)                           #fitオブジェクト内のtrainedModelというスロットに格納されている情報を表示
fit@modelInfo@trainedModel             #直前のコマンドと同じ結果が得られる
fit.NBLDA <- fit                       #fitオブジェクトののコピーを作成

plot(fit)                              #thresholdとaccuracyのプロットを表示（されない）

7-4. 一般的な機械学習アルゴリズムを利用したい場合。
caret-based classifierの1つである、Support Vector Machineおよび deseq-vst前処理(deseq正規化とvst変換)を採用する例です。ここでは、データに関する事前知識がない場合によく用いられる、ラジアル基底関数(Radial basis function; RBF)と呼ばれるカーネル (svmRadial) を用いてSVMを実行します。また、preProcessingオプションに変更されているので注意してください。 controlオプションでは、trainControl関数で定義したオプションを指定しているのがわかります。このtrainControl自体は、caretパッケージで提供されているものです。 classProbsオプションのデフォルトはFalseなようですが、ここではTrueにしています。 classProbs=Tとした根拠は、 MLSeqのBeginner's guide のpage 7でsvmRadialの実行例がそうなっていたからです。 trainControl関数実行時に、「`repeats` has no meaning for this resampling method.」という警告が出ていることから、 repeatsオプションの数値(ここでは3)を変更しても結果が不変であることが予想されます(実際そうなります)。 tuneLength=7は、SVM実行時に指定するハイパーパラメータである「誤分類をどの程度許容するかというコストパラメータC」の数値を7通り探索せよという指定です。注意点としては、classify関数内のオプションとして直接tuneLength=7を与えています。これは、例題7-1や7-2ではvoomControl関数内にtuneLengthの値を指定していたので、同様にtrainControl関数内に与えたらエラーになったからです。 MLSeqのBeginner's guide のpage 8でも、classify関数内のオプションとして直接tuneLengthを指定しているので、おそらくこれでよいと思います。

param_method <- "svmRadial"            #アルゴリズムを指定
param_preprocess <- "deseq-vst"        #前処理法を指定
param_ref <- "G2"                      #リファレンスとして用いるクラスラベル情報を指定

#必要なパッケージをロード
library(kernlab)                       #パッケージの読み込み

#本番(モデル構築)
set.seed(2128)                         #おまじない(同じ乱数になるようにするため)
ctrl <- trainControl(number=2,         #trainControl関数を用いて専用のオプションを定義
            repeats=3,                 #trainControl関数を用いて専用のオプションを定義
            classProbs=T)              #trainControl関数を用いて専用のオプションを定義
fit <- classify(                       #classify関数を用いて予測モデルを構築
           data = tra.s4,              #classify関数を用いて予測モデルを構築
           method = param_method,      #classify関数を用いて予測モデルを構築
           preProcessing = param_preprocess,#classify関数を用いて予測モデルを構築
           ref = param_ref,            #classify関数を用いて予測モデルを構築
           tuneLength=7,               #classify関数を用いて予測モデルを構築
           control = ctrl)             #classify関数を用いて予測モデルを構築
fit                                    #fitの中身を表示

fit実行結果として、「機械学習アルゴリズムとしてsvmRadialが使われていること、 Accuracyは100%、Sensitivityは100%、Specificityは100%、Reference ClassはG2」が表示されていることがわかります。 MLSeqの原著論文(Goksuluk et al., 2019) のTable 3に記載されている、SVMのSparsityの値がないことから、このアルゴリズムは、7-1で用いたようなsparse classifierのカテゴリに属するものではないことがわかります。また、trained(fit)実行結果から「Resampling: Bootstrapped (2 reps) 」という記述を発見できます。このことから、この2という数値は、trainControl関数中のnumber=2に対応するものだろうと予想できます。さらに、「Resampling results across tuning parameters:」という記述から、numberオプションで指定する数値がブートストラップのリサンプリング回数に対応するのだろうと予想できます。この数値を変えることで、Accuracyが変わるのだろうと予想できます。今回の結果では「sigma = 0.006054987 and C = 0.5」のパラメータを採用したときに最もよいAccuracy = 0.9198718が得られたと解釈します。

fit                                    #fitの中身を表示
show(fit)                              #直前のコマンドと同じ結果が得られる
trained(fit)                           #fitオブジェクト内のtrainedModelというスロットに格納されている情報を表示
fit@modelInfo@trainedModel             #直前のコマンドと同じ結果が得られる
fit.svmRadial <- fit                   #fitオブジェクトののコピーを作成

上記trained(fit)でみられるコストパラメータC（横軸）とAccuracy（縦軸）のプロットは以下で得られます。プロットの数はtuneLength=7で指定した数と対応します。 MLSeqのBeginner's guide のpage 9のFigure 1に相当します。

plot(fit)                              #thresholdとaccuracyのプロットを表示

7-5. 一般的な機械学習アルゴリズムを利用したい場合。
caret-based classifierの1つである、Random Forest (method = "rf")、およびdeseq-vst前処理(deseq正規化とvst変換)を採用する例です。 7-4.で行ったSVMのときとの違いは見た目上ほとんどありませんが、 trainControl関数実行時に、method = "repeatedcv"を明記している点が異なります。 7-4.では明記せずとも正常に動作しましたが、本例題のRandom Forest (rf) 実行時のみ?!、試行錯誤の末、明示する必要があることを見い出しました。 MLSeqのReference Manual 中のpage 7においてRFの実行例は確かにそうなっていました。 MLSeqのBeginner's guide のpage 7でも、確かにSVM実行時にmethod = "repeatedcv"を明記してあります。しかし、7-4.でも示してある通り、明記せずとも正常に動作していたので、rf 実行時のエラー解決に苦労したというオチです。

param_method <- "rf"                   #アルゴリズムを指定
param_preprocess <- "deseq-vst"        #前処理法を指定
param_ref <- "G2"                      #リファレンスとして用いるクラスラベル情報を指定

#必要なパッケージをロード
library(randomForest)                  #パッケージの読み込み

#本番(モデル構築)
set.seed(2128)                         #おまじない(同じ乱数になるようにするため)
ctrl <- trainControl(                  #trainControl関数を用いて専用のオプションを定義
               method = "repeatedcv",  #trainControl関数を用いて専用のオプションを定義
               number=5,               #trainControl関数を用いて専用のオプションを定義
               repeats=3,               #trainControl関数を用いて専用のオプションを定義
               classProbs=T)           #trainControl関数を用いて専用のオプションを定義
fit <- classify(                       #classify関数を用いて予測モデルを構築
           data = tra.s4,              #classify関数を用いて予測モデルを構築
           method = param_method,      #classify関数を用いて予測モデルを構築
           preProcessing = param_preprocess,#classify関数を用いて予測モデルを構築
           ref = param_ref,            #classify関数を用いて予測モデルを構築
           tuneLength=7,               #classify関数を用いて予測モデルを構築
           control = ctrl)             #classify関数を用いて予測モデルを構築
fit                                    #fitの中身を表示

fit実行結果として、「機械学習アルゴリズムとしてrfが使われていること、 Accuracyは95%、Sensitivityは88.24%、Specificityは100%、Reference ClassはG2」が表示されていることがわかります。また、trained(fit)実行結果から「Resampling: Cross-Validated (5 fold, repeated 3 times)」という記述を発見できます。このことから、この5という数値はtrainControl関数中のnumber=5 に、そして3という数値はrepeats=3 に対応するものだろうと予想できます。さらに、「Resampling results across tuning parameters:」という記述から、numberとrepeatsオプションで指定する数値を変えることで、 Accuracyが変わるのだろうと予想できます。今回の結果では「mtry = 18」を採用したときに最もよいAccuracy = 0.9435185が得られたと解釈します。

fit                                    #fitの中身を表示
show(fit)                              #直前のコマンドと同じ結果が得られる
trained(fit)                           #fitオブジェクト内のtrainedModelというスロットに格納されている情報を表示
fit@modelInfo@trainedModel             #直前のコマンドと同じ結果が得られる
fit.rf <- fit                          #fitオブジェクトののコピーを作成

上記trained(fit)でみられる#Randomly Selected Predictors（横軸）とAccuracy（縦軸）のプロットは以下で得られます。プロットの数はtuneLength=7で指定した数と対応します。横軸が18のときに縦軸のAccuracyが最大になっていることから、mtryが#Randomly Selected Predictorsに相当するのだろうと解釈できます。ここまでで得られた情報から、「Step 2のparam_nfeatで指定した100 featuresの中からランダムに2, 18, 34, 51, 67, 83, 100個の計7通り抽出して分類を試し、結果としてランダムに18個を抽出して分類に用いた結果が最もよくAccuracy = 0.9435185であった」と解釈すればよいのだろうと断定できます（推測のみで確たる証拠はなし）。 MLSeqのBeginner's guide のpage 9のFigure 1に相当します。

plot(fit)                              #thresholdとaccuracyのプロットを表示

Step 8：テストセットの予測、および予測精度評価。

MLSeqのBeginner's guide 中の「7 Predicting the class labels of test samples」(page 11)に相当する部分です。 Step 7で構築した予測モデル(分類器)を用いて、Step 4で作成しておいた18サンプルからなるテストセット(tes.s4オブジェクト)の予測を実行します。このテストセットは、Step 1でG1とラベルした6個のNormalサンプル、およびG2とラベルした12個のTumorサンプルから構成されていることがわかります。 本当はどのサンプルがどの群に属するかわかっているが、それを知らないものとして予測してみるとどうなるかを調べようとしているのです。

tes.s4                                 #テストセットの中身を表示
colnames(tes.s4)                       #テストセット中のサンプル名を表示

以下ではStep7の例題番号と対応させて、構築した予測モデルで予測を行っています。

8-1. 7-1.で構築した予測モデル(fit.voomNSC)を利用する場合。
outオブジェクトが予測結果です。colnames(input)で示されたサンプル名の順番で、予測結果が示されています。

fit <- fit.voomNSC                     #予測モデルをfitという名前で取り扱う
input <- tes.s4                        #入力データをinputという名前で取り扱う
out <- predict(object=fit, test.data=input)#predict関数を用いてfitでinputを予測した結果をoutに格納
out                                    #outの中身を表示
colnames(input)                        #テストセット中のサンプル名を表示
rownames(colData(input))               #テストセット中のサンプル名を表示(表現法を変えているだけ)

実際には、サンプル名情報は本質的ではなく、サンプルに付随するラベル情報のほうが重要です。それがcolData(input)$condに相当します。予測結果outと見比べて、異なっているものが予測ミスに相当します。この場合は、計18サンプル中13サンプルの予測に成功していると判断します。

out                                    #outの中身を表示
class.tes$cond                         #テストセット中の真のラベル情報を表示(class.tesはStep 3で作成済み)
colData(input)$cond                    #テストセット中の真のラベル情報を表示
colData(input)$cond == out             #うまく当てられたらTRUE、そうでなければFALSE
sum(colData(input)$cond == out)        #TRUEの要素数
length(out)                            #評価したサンプル数

outオブジェクトをみれば分かりますが、Levelsに相当するラベル情報の順番、特に一番最初に現れるものが"G1"になっています。 Step 7では、リファレンスとして用いるクラスラベル情報を"G2"として実行していました。ここでもこれをリファレンス（基準）として利用すべく変更すべくrelevel関数を用いて"G2"に変更します。なんでこれをわざわざやる必要があるのかは、私もいまだによくわかりません。ここは、MLSeqのBeginner's guide のpage 12の上のほうの作業に相当します。

param_ref <- "G2"                      #リファレンスとして用いるクラスラベル情報を指定
out                                    #outの中身を表示
out <- relevel(out, ref=param_ref)     #relevel関数を用いてparam_refで指定したクラスラベルを基準とするように変更
out                                    #outの中身を表示

colData(input)$cond                    #テストセット中の真のラベル情報を表示
actual <- relevel(colData(input)$cond, ref=param_ref)#relevel関数を用いてparam_refで指定したクラスラベルを基準とするように変更
actual                                 #actualの中身を表示

予測結果outと実際のラベル情報actualを用いて混同行列(confusion matrix)を作成します。まず、table関数を用いて2×2の分割表(contingency table)を作成したのち、それを入力としてconfusionMatrix関数を用いて混同行列を作成します。分割表と混同行列は、見かけ上は同じです。しかし、正式な混同行列の形式にすることによって、AccuracyやSpecificityなどの値が計算できるのです。「str(output)」としてoutputの中の構造(structure)を事前に眺めていたので、 output$tableやoutput$overallやoutput$byClassで情報抽出ができることを事前に学んでいます。 fit.voomNSCのAccuracyは0.722であることがわかります。

tbl <- table(Predicted=out, Actual=actual)#table関数を用いて2×2の分割表を作成
output <- confusionMatrix(data=tbl, positive=param_ref)#confusionMatrix関数を用いて混同行列や各種統計情報を計算
output                                 #中身を表示
output$table                           #table部分のみ表示
output$overall                         #outputオブジェクト中のoverallという部分に格納されている情報のみ表示
output$byClass                         #outputオブジェクト中のbyClassという部分に格納されている情報のみ表示
output$overall["Accuracy"]             #各種統計情報部分の中からAccuracyのみ表示
output$overall["Kappa"]                #各種統計情報部分の中からKappaのみ表示
output$byClass["Sensitivity"]          #byClassという部分の中からSensitivityのみ表示
output.voomNSC  <- output              #outputの中身をコピー

8-2. 7-2.で構築した予測モデル(fit.voomDLDA)を利用する場合。
outオブジェクトが予測結果です。colnames(input)で示されたサンプル名の順番で、予測結果が示されています。

fit <- fit.voomDLDA                    #予測モデルをfitという名前で取り扱う
input <- tes.s4                        #入力データをinputという名前で取り扱う
out <- predict(object=fit, test.data=input)#predict関数を用いてfitでinputを予測した結果をoutに格納
out                                    #outの中身を表示
colnames(input)                        #テストセット中のサンプル名を表示
rownames(colData(input))               #テストセット中のサンプル名を表示(表現法を変えているだけ)

out                                    #outの中身を表示
class.tes$cond                         #テストセット中の真のラベル情報を表示(class.tesはStep 3で作成済み)
colData(input)$cond                    #テストセット中の真のラベル情報を表示
colData(input)$cond == out             #うまく当てられたらTRUE、そうでなければFALSE
sum(colData(input)$cond == out)        #TRUEの要素数
length(out)                            #評価したサンプル数

param_ref <- "G2"                      #リファレンスとして用いるクラスラベル情報を指定
out                                    #outの中身を表示
out <- relevel(out, ref=param_ref)     #relevel関数を用いてparam_refで指定したクラスラベルを基準とするように変更
out                                    #outの中身を表示

colData(input)$cond                    #テストセット中の真のラベル情報を表示
actual <- relevel(colData(input)$cond, ref=param_ref)#relevel関数を用いてparam_refで指定したクラスラベルを基準とするように変更
actual                                 #actualの中身を表示

予測結果outと実際のラベル情報actualを用いて混同行列(confusion matrix)を作成します。まず、table関数を用いて2×2の分割表(contingency table)を作成したのち、それを入力としてconfusionMatrix関数を用いて混同行列を作成します。分割表と混同行列は、見かけ上は同じです。しかし、正式な混同行列の形式にすることによって、AccuracyやSpecificityなどの値が計算できるのです。「str(output)」としてoutputの中の構造(structure)を事前に眺めていたので、 output$tableやoutput$overallやoutput$byClassで情報抽出ができることを事前に学んでいます。 fit.voomDLDAのAccuracyは0.889であることがわかります。

tbl <- table(Predicted=out, Actual=actual)#table関数を用いて2×2の分割表を作成
output <- confusionMatrix(data=tbl, positive=param_ref)#confusionMatrix関数を用いて混同行列や各種統計情報を計算
output                                 #中身を表示
output$table                           #table部分のみ表示
output$overall                         #outputオブジェクト中のoverallという部分に格納されている情報のみ表示
output$byClass                         #outputオブジェクト中のbyClassという部分に格納されている情報のみ表示
output$overall["Accuracy"]             #各種統計情報部分の中からAccuracyのみ表示
output$overall["Kappa"]                #各種統計情報部分の中からKappaのみ表示
output$byClass["Sensitivity"]          #byClassという部分の中からSensitivityのみ表示
output.voomDLDA  <- output             #outputの中身をコピー

8-3. 7-3.で構築した予測モデル(fit.NBLDA)を利用する場合。
outオブジェクトが予測結果です。colnames(input)で示されたサンプル名の順番で、予測結果が示されています。

fit <- fit.NBLDA                       #予測モデルをfitという名前で取り扱う
input <- tes.s4                        #入力データをinputという名前で取り扱う
out <- predict(object=fit, test.data=input)#predict関数を用いてfitでinputを予測した結果をoutに格納
out                                    #outの中身を表示
colnames(input)                        #テストセット中のサンプル名を表示
rownames(colData(input))               #テストセット中のサンプル名を表示(表現法を変えているだけ)

out                                    #outの中身を表示
class.tes$cond                         #テストセット中の真のラベル情報を表示(class.tesはStep 3で作成済み)
colData(input)$cond                    #テストセット中の真のラベル情報を表示
colData(input)$cond == out             #うまく当てられたらTRUE、そうでなければFALSE
sum(colData(input)$cond == out)        #TRUEの要素数
length(out)                            #評価したサンプル数

param_ref <- "G2"                      #リファレンスとして用いるクラスラベル情報を指定
out                                    #outの中身を表示
out <- relevel(out, ref=param_ref)     #relevel関数を用いてparam_refで指定したクラスラベルを基準とするように変更
out                                    #outの中身を表示

colData(input)$cond                    #テストセット中の真のラベル情報を表示
actual <- relevel(colData(input)$cond, ref=param_ref)#relevel関数を用いてparam_refで指定したクラスラベルを基準とするように変更
actual                                 #actualの中身を表示

予測結果outと実際のラベル情報actualを用いて混同行列(confusion matrix)を作成します。まず、table関数を用いて2×2の分割表(contingency table)を作成したのち、それを入力としてconfusionMatrix関数を用いて混同行列を作成します。分割表と混同行列は、見かけ上は同じです。しかし、正式な混同行列の形式にすることによって、AccuracyやSpecificityなどの値が計算できるのです。「str(output)」としてoutputの中の構造(structure)を事前に眺めていたので、 output$tableやoutput$overallやoutput$byClassで情報抽出ができることを事前に学んでいます。 fit.NBLDAのAccuracyは0.833であることがわかります。

tbl <- table(Predicted=out, Actual=actual)#table関数を用いて2×2の分割表を作成
output <- confusionMatrix(data=tbl, positive=param_ref)#confusionMatrix関数を用いて混同行列や各種統計情報を計算
output                                 #中身を表示
output$table                           #table部分のみ表示
output$overall                         #outputオブジェクト中のoverallという部分に格納されている情報のみ表示
output$byClass                         #outputオブジェクト中のbyClassという部分に格納されている情報のみ表示
output$overall["Accuracy"]             #各種統計情報部分の中からAccuracyのみ表示
output$overall["Kappa"]                #各種統計情報部分の中からKappaのみ表示
output$byClass["Sensitivity"]          #byClassという部分の中からSensitivityのみ表示
output.NBLDA  <- output                #outputの中身をコピー

8-4. 7-4.で構築した予測モデル(fit.svmRadial)を利用する場合。
outオブジェクトが予測結果です。colnames(input)で示されたサンプル名の順番で、予測結果が示されています。

fit <- fit.svmRadial                   #予測モデルをfitという名前で取り扱う
input <- tes.s4                        #入力データをinputという名前で取り扱う
out <- predict(object=fit, test.data=input)#predict関数を用いてfitでinputを予測した結果をoutに格納
out                                    #outの中身を表示
colnames(input)                        #テストセット中のサンプル名を表示
rownames(colData(input))               #テストセット中のサンプル名を表示(表現法を変えているだけ)

out                                    #outの中身を表示
class.tes$cond                         #テストセット中の真のラベル情報を表示(class.tesはStep 3で作成済み)
colData(input)$cond                    #テストセット中の真のラベル情報を表示
colData(input)$cond == out             #うまく当てられたらTRUE、そうでなければFALSE
sum(colData(input)$cond == out)        #TRUEの要素数
length(out)                            #評価したサンプル数

param_ref <- "G2"                      #リファレンスとして用いるクラスラベル情報を指定
out                                    #outの中身を表示
out <- relevel(out, ref=param_ref)     #relevel関数を用いてparam_refで指定したクラスラベルを基準とするように変更
out                                    #outの中身を表示

colData(input)$cond                    #テストセット中の真のラベル情報を表示
actual <- relevel(colData(input)$cond, ref=param_ref)#relevel関数を用いてparam_refで指定したクラスラベルを基準とするように変更
actual                                 #actualの中身を表示

予測結果outと実際のラベル情報actualを用いて混同行列(confusion matrix)を作成します。まず、table関数を用いて2×2の分割表(contingency table)を作成したのち、それを入力としてconfusionMatrix関数を用いて混同行列を作成します。分割表と混同行列は、見かけ上は同じです。しかし、正式な混同行列の形式にすることによって、AccuracyやSpecificityなどの値が計算できるのです。「str(output)」としてoutputの中の構造(structure)を事前に眺めていたので、 output$tableやoutput$overallやoutput$byClassで情報抽出ができることを事前に学んでいます。 fit.svmRadialのAccuracyは0.944であることがわかります。

tbl <- table(Predicted=out, Actual=actual)#table関数を用いて2×2の分割表を作成
output <- confusionMatrix(data=tbl, positive=param_ref)#confusionMatrix関数を用いて混同行列や各種統計情報を計算
output                                 #中身を表示
output$table                           #table部分のみ表示
output$overall                         #outputオブジェクト中のoverallという部分に格納されている情報のみ表示
output$byClass                         #outputオブジェクト中のbyClassという部分に格納されている情報のみ表示
output$overall["Accuracy"]             #各種統計情報部分の中からAccuracyのみ表示
output$overall["Kappa"]                #各種統計情報部分の中からKappaのみ表示
output$byClass["Sensitivity"]          #byClassという部分の中からSensitivityのみ表示
output.svmRadial  <- output            #outputの中身をコピー

8-5. 7-5.で構築した予測モデル(fit.rf)を利用する場合。
outオブジェクトが予測結果です。colnames(input)で示されたサンプル名の順番で、予測結果が示されています。

fit <- fit.rf                          #予測モデルをfitという名前で取り扱う
input <- tes.s4                        #入力データをinputという名前で取り扱う
out <- predict(object=fit, test.data=input)#predict関数を用いてfitでinputを予測した結果をoutに格納
out                                    #outの中身を表示
colnames(input)                        #テストセット中のサンプル名を表示
rownames(colData(input))               #テストセット中のサンプル名を表示(表現法を変えているだけ)

out                                    #outの中身を表示
class.tes$cond                         #テストセット中の真のラベル情報を表示(class.tesはStep 3で作成済み)
colData(input)$cond                    #テストセット中の真のラベル情報を表示
colData(input)$cond == out             #うまく当てられたらTRUE、そうでなければFALSE
sum(colData(input)$cond == out)        #TRUEの要素数
length(out)                            #評価したサンプル数

param_ref <- "G2"                      #リファレンスとして用いるクラスラベル情報を指定
out                                    #outの中身を表示
out <- relevel(out, ref=param_ref)     #relevel関数を用いてparam_refで指定したクラスラベルを基準とするように変更
out                                    #outの中身を表示

colData(input)$cond                    #テストセット中の真のラベル情報を表示
actual <- relevel(colData(input)$cond, ref=param_ref)#relevel関数を用いてparam_refで指定したクラスラベルを基準とするように変更
actual                                 #actualの中身を表示

予測結果outと実際のラベル情報actualを用いて混同行列(confusion matrix)を作成します。まず、table関数を用いて2×2の分割表(contingency table)を作成したのち、それを入力としてconfusionMatrix関数を用いて混同行列を作成します。分割表と混同行列は、見かけ上は同じです。しかし、正式な混同行列の形式にすることによって、AccuracyやSpecificityなどの値が計算できるのです。「str(output)」としてoutputの中の構造(structure)を事前に眺めていたので、 output$tableやoutput$overallやoutput$byClassで情報抽出ができることを事前に学んでいます。 fit.rfのAccuracyは0.833であることがわかります。

tbl <- table(Predicted=out, Actual=actual)#table関数を用いて2×2の分割表を作成
output <- confusionMatrix(data=tbl, positive=param_ref)#confusionMatrix関数を用いて混同行列や各種統計情報を計算
output                                 #中身を表示
output$table                           #table部分のみ表示
output$overall                         #outputオブジェクト中のoverallという部分に格納されている情報のみ表示
output$byClass                         #outputオブジェクト中のbyClassという部分に格納されている情報のみ表示
output$overall["Accuracy"]             #各種統計情報部分の中からAccuracyのみ表示
output$overall["Kappa"]                #各種統計情報部分の中からKappaのみ表示
output$byClass["Sensitivity"]          #byClassという部分の中からSensitivityのみ表示
output.rf  <- output                   #outputの中身をコピー

Step 9：分類への寄与度の高いfeatures (i.e., possible biomarkers)の情報を取得。

MLSeqのBeginner's guide 中の「9 Determining possible biomarkers using sparse classifiers」(page 14)に相当する部分です。 Step 8とは独立に、Step 7で構築した予測モデルの情報から抽出する情報になります。 voomNSCのようなsparse classifiersの結果のみ、有意義な情報が得られます。理由は、本項では、Step 2のparam_nfeatで指定した、分散の大きい上位100 featuresを利用していますが、このうち分類への寄与度を算出するclassifiersは一部だからです。以下のコマンドを実行すると、sparse classifierであるfit.voomNSCのみ、2つのfeaturesが表示されていることがわかります。

selectedGenes(fit.voomNSC)            #利用されたfeature情報を表示
selectedGenes(fit.voomDLDA)           #利用されたfeature情報を表示
selectedGenes(fit.NBLDA)              #利用されたfeature情報を表示
selectedGenes(fit.svmRadial)          #利用されたfeature情報を表示
selectedGenes(fit.rf)                 #利用されたfeature情報を表示

trained(fit.voomNSC)@finalModel$model$SelectedGenes#利用されたfeature情報を表示(こんな感じでも情報を取得できる)
trained(fit.voomDLDA)@finalModel$model$SelectedGenes#利用されたfeature情報を表示(こんな感じでも情報を取得できる)
trained(fit.NBLDA)@finalModel$model$SelectedGenes#利用されたfeature情報を表示(こんな感じでも情報を取得できる)
trained(fit.svmRadial)@finalModel$model$SelectedGenes#利用されたfeature情報を表示(こんな感じでも情報を取得できる)
trained(fit.rf)@finalModel$model$SelectedGenes#利用されたfeature情報を表示(こんな感じでも情報を取得できる)

MLSeq：Goksuluk et al., Comput Methods Programs Biomed., 2019
cervicalデータ原著論文Witten et al., BMC Biol., 2010
DESeq2：Love et al., Genome Biol., 2014
TMM正規化法：Robinson and Oshlack, Genome Biol., 2010
voomDDA(voomNSC)：Zararsiz et al., PeerJ, 2017
voomDLDA：Dudoit et al., J American Stat Assoc., 2002

(Rで)塩基配列解析 (last modified 2025/03/31, since 2010)

What's new? (過去のお知らせはこちら)

はじめに

過去のお知らせ

インストール | について

インストール | R本体とRStudio | 最新版 | Win用

インストール | R本体とRStudio | 最新版 | Mac用

インストール | R本体 | 過去版 | Win用

インストール | R本体 | 過去版 | Mac用

インストール | Rパッケージ | について

インストール | Rパッケージ | 必要最小限プラスアルファ

1. RStudioを起動

2. パッケージ群のインストール

3. インストール確認

インストール | Rパッケージ | 個別(2018年11月以降)

1. ゼブラフィッシュゲノムのパッケージ(BSgenome.Drerio.UCSC.danRer7)をインストールしたい場合:

2. TxDb.Rnorvegicus.UCSC.rn5.refGeneパッケージのインストールをしたい場合：

3. TxDb.Hsapiens.UCSC.hg38.knownGeneパッケージのインストールをしたい場合：

4. 線虫ゲノムのパッケージ(BSgenome.Celegans.UCSC.ce6)をインストールしたい場合:

5. TxDb.Celegans.UCSC.ce6.ensGeneパッケージのインストールをしたい場合：

6. 大腸菌ゲノムのパッケージ(BSgenome.Ecoli.NCBI.20080805)をインストールしたい場合:

7. イヌゲノムのパッケージ(BSgenome.Cfamiliaris.UCSC.canFam3)をインストールしたい場合:

8. ショウジョウバエゲノムのパッケージ(BSgenome.Dmelanogaster.UCSC.dm2)をインストールしたい場合:

9. イネゲノムのパッケージ(BSgenome.Osativa.MSU.MSU7)をインストールしたい場合:

インストール | Rパッケージ | 個別(2018年11月以前)

1. ゼブラフィッシュゲノムのパッケージ(BSgenome.Drerio.UCSC.danRer7)をインストールしたい場合:

2. TxDb.Rnorvegicus.UCSC.rn5.refGeneパッケージのインストールをしたい場合：

基本的な利用法

サンプルデータ

バイオインフォマティクス人材育成カリキュラム(次世代シークエンサ) | NGSハンズオン講習会2017

バイオインフォマティクス人材育成カリキュラム(次世代シークエンサ) | NGSハンズオン講習会2016

バイオインフォマティクス人材育成カリキュラム(次世代シークエンサ) | NGSハンズオン講習会2015

バイオインフォマティクス人材育成カリキュラム(次世代シークエンサ) | NGS速習コース2014

書籍 | 日本乳酸菌学会誌 | について

書籍 | 日本乳酸菌学会誌 | 第1回イントロダクション

書籍 | 日本乳酸菌学会誌 | 第2回イントロダクション

書籍 | 日本乳酸菌学会誌 | 第3回イントロダクション

書籍 | 日本乳酸菌学会誌 | 第4回イントロダクション

書籍 | 日本乳酸菌学会誌 | 第5回イントロダクション

書籍 | 日本乳酸菌学会誌 | 第6回イントロダクション

書籍 | 日本乳酸菌学会誌 | 第7回イントロダクション

書籍 | 日本乳酸菌学会誌 | 第8回イントロダクション

書籍 | 日本乳酸菌学会誌 | 第9回イントロダクション

書籍 | 日本乳酸菌学会誌 | 第10回イントロダクション

書籍 | 日本乳酸菌学会誌 | 第11回イントロダクション

書籍 | 日本乳酸菌学会誌 | 第12回イントロダクション

イントロ | 一般 | ランダムに行を抽出

1. タブ区切りテキストファイル(annotation.txt)からランダムに5行分を抽出したい場合：

2. タブ区切りテキストファイル(annotation.txt)からランダムに5行分を抽出したい場合：

イントロ | 一般 | 任意の文字列を行の最初に挿入

1. GTFファイル(human_annotation_sub.gtf)の各行の左端に"chr"を挿入したい場合：

イントロ | 一般 | 任意のキーワードを含む行を抽出(基礎)

1. 目的のタブ区切りテキストファイル(annotation.txt)中の第1列目をキーとして、リストファイル(genelist1.txt)中のものが含まれる行全体を出力したい場合：

2. 目的のタブ区切りテキストファイル(annotation.txt)中の第1列目をキーとして、リストファイル(genelist2.txt)中のものが含まれる行全体を出力したい場合：

3. 目的のタブ区切りテキストファイル(annotation.txt)中の第3列目をキーとして、リストファイル(genelist2.txt)中のものが含まれる行全体を出力したい場合：

4. 目的のタブ区切りテキストファイル(annotation.txt)に対して、リストファイル(genelist1.txt)中のものが含まれる行全体を出力したい場合：

5. 目的のタブ区切りテキストファイル(annotation.txt)中の第1列目をキーとして、リストファイル(genelist1.txt)中のものに対応するannotation.txt中の第4列目(subcellular_location列)のみを出力する場合：

6. 例題4と同じことをsapply関数を用いてやる場合：

7. 例題6と同じことを別のファイルを用いてやる場合：

8. 例題7と基本的には同じだが、「遺伝子IDリストファイル中の文字列」が「アノテーション情報ファイル中の一番左側」にしか存在しないという前提で高速に探索したい場合：

9. 8を基本として、8の出力ファイルは対象の行の情報全てを出力するものであったが、13列目のRefSeq Transcript IDに相当するもののみ抽出したい場合：

10. 9を基本として、8の出力ファイルは対象の行の情報全てを出力するものであったが、13列目のRefSeq Transcript IDに相当するもののみ抽出したい場合：

11. 10を基本として、遺伝子IDリストに対応するRefSeq Transcript IDを抽出ところまでは同じだが、RefSeq IDが同じで遺伝子IDリストにないもの(common)も存在するのでその分を考慮：

12. 目的のタブ区切りテキストファイル(annotation.txt)中の第1列目をキーとして、param2で指定した文字列が含まれる行全体を出力したい場合：

13. 目的のタブ区切りテキストファイル(annotation2.txt)中の第1列目をキーとして、param2で指定した文字列が含まれる行全体を出力したい場合：

14. GFF3形式のタブ区切りテキストファイル(Lactobacillus_casei_12a.GCA_000309565.2.25.chromosome.Chromosome.gff3)に対して、"ID=gene"という文字列が含まれる行全体を出力したい場合：

15. GFF3形式ファイル(annotation.gff)に対して、"CDS"という文字列が含まれる行全体を出力したい場合：

イントロ | 一般 | ランダムな塩基配列を生成

1. 50塩基の長さのランダムな塩基配列を生成する場合：

2. 塩基配列を生成させて任意のdescription("kkk")を追加してFASTA形式ファイルで保存したい場合：

3. 任意の配列長をもつものを複数個作ってmulti-FASTAファイルとして保存したい場合：

4. 配列長情報を含むファイル(seq_length.txt; 中身は「24, 103, 65, 49」という4行からなる数値情報)を読み込む場合：

5. 同一パラメータを与えたときには常に同じ塩基配列が生成されるようにしたい場合：

6. 同一パラメータを与えたときには常に同じ塩基配列が生成されるようにしたい場合2：

イントロ | 一般 | 任意の長さの可能な全ての塩基配列を作成

1. k=3として、4k = 43 = 64通りの3塩基からなる可能な配列を作成したい場合：

2. k=5として、4k = 45 = 1024通りの5塩基からなる可能な配列を作成したい場合：

イントロ | 一般 | 任意の位置の塩基を置換

1. FASTA形式ファイル(sample1.fasta)の場合：

2. FASTA形式ファイル(sample2.fasta)の場合：

1. k=3として、4^k = 4³ = 64通りの3塩基からなる可能な配列を作成したい場合：

2. k=5として、4^k = 4⁵ = 1024通りの5塩基からなる可能な配列を作成したい場合：