名前 | 門田 幸二(かどた こうじ) |
![]() |
---|---|---|
所属 |
東京大学
大学院情報学環・学際情報学府 東京大学 大学院農学生命科学研究科 アグリバイオインフォマティクス教育研究ユニット 東京大学 微生物科学イノベーション連携研究機構 |
|
身分 | 准教授 | |
研究分野 | バイオインフォマティクス(トランスクリプトーム解析) |
トランスクリプトーム解析手法の開発。本ユニットでは、 様々なトランスクリプトームデータの解析や新規解析手法の開発を通じて、 農学生命科学への応用を目指します。「数式を並べ立てた難解な方法を凌駕する"シンプルな方法"の開発」をモットーとしています。 これまでの主な研究成果を三つのカテゴリーで分けていますが、いずれも「トランスクリプトーム解析」でひとまとめにできます。 また、実験系の方でも気軽に研究成果を利用可能なように 「(Rで)マイクロアレイデータ解析」と「(Rで)塩基配列解析」上にも 下記開発手法中の一部について、その利用法を記述しています。
RNA-seqのようなダイナミックレンジの広いデータの正規化は高発現の 発現変動遺伝子(DEG;この検出が本来の目的)の存在が正しいデータ正規化を阻み、 結果として高精度のDEG検出を阻むという自爆気味な問題への解決策として、 「正規化法内部でDEG検出を行い、DEG以外のデータのみで正規化を行う戦略 (DEG Elimination Strategy; DEGES; デゲス)」の提唱を行った論文。 既存のパッケージ(edgeR, baySeq, DESeq, and NBPSeq)の手順よりも これらのパッケージ中の関数を組合せたDEGESのほうが有効であることを示した。 TbTの実体は、edgeRパッケージ中のTMM正規化法とbaySeqパッケージ中のDEG検出法を 組合せたTMM-baySeq-TMMという3ステップからなるパイプライン。 この論文中では、反復ありデータに限定して性能評価を行った。
上記論文の問題点として、TbTは精度は高いが2nd stepのDEG検出段階で用いられたbaySeqが非常に計算時間を要する、 またRパッケージ提供されていないことが挙げられる。それを解消すべく、RNA-seqカウントデータを入力として、頑健なDEGES正規化の考え方を一般化し、Rパッケージとして実装。 具体的な利用ガイドライン(原著論文発表当時;TCC ver. 1.2.0ごろ)としては、TbT正規化法ではなく、 baySeq部分にegdeRを利用するやり方(iDEGES/edgeRと命名)が超高速かつ同程度の性能であることを示した。発現変動解析の一連のパイプラインとしては、 正規化法iDEGES/edgeRに引き続いてedgeRを適用する「iDEGES/edgeR-edgeR」が2群間複製ありデータ用の推奨パイプライン。 また、「iDEGES/DESeq-DESeq」が2群間複製なしデータ用の推奨パイプラインであることも示した。
上記TCC原著論文発表当時から多群間複製ありデータ用の解析パイプラインを一応実装はしていた。 しかし性能評価までは行っていなかったため、3群間比較に限定して性能評価を行って、推奨ガイドラインを示しましたという論文。 様々な組み合わせを試したため、解析パイプラインの表記法もこの論文中ではさらに略記した。 例えば「iDEGES/edgeR-edgeR」は、(TMM-edgeR-TMM)3-edgeRと書ける。 TMM正規化法はedgeRパッケージで提供されているものなので、(edgeR-edgeR-edgeR)3-edgeRと書ける。 edgeRをEとし、iterationの回数は推奨の3に固定したのでわざわざ書かない。よって、「iDEGES/edgeR-edgeR」は、EEE-Eと略記した。 ハイフン(-)の左側はDEGESに基づくmulti-step正規化法部分、右側は正規化後のDEG検出部分で用いる方法である。 TCCは各ステップでedgeR(Eと略記), DESeq(Dと略記), DESeq2(Sと略記)の方法を指定できるので、様々な組み合わせが可能。 例えば2群間複製なしデータ用の推奨パイプライン「iDEGES/DESeq-DESeq」は、DDD-Dと書ける。 こんな感じで論文に示すように様々な組み合わせのパイプラインを3群間比較用シミュレーションとリアルデータで評価した。 結論(推奨パイプライン)としては、3群間複製ありデータ用はTCCのDEGESパイプライン内部でedgeRを用いたEEE-E。 そして3群間複製なしデータ用はTCCのDEGESパイプライン内部でDESeq2を用いたSSS-Sがおススメ。 複製なしデータの場合の推奨がTCC原著論文当時と変わっているが、DESeq2はTCC発表後に出たものである。 それゆえ、おそらく2群間複製なしデータ用の推奨パイプラインもDDD-DからSSS-Sに変わるだろうというあたりまでを述べた。 また、サイドストーリーとして、Abstract中でも述べているが、 サンプル間クラスタリング結果からDEG検出結果のおおよその見積もりが可能であることをおそらく最初に示したのがこの論文。 講習会でよく述べている主張の根拠となる原著論文がこれになります。
サンプル間クラスタリング(SC)結果の解釈は主観的になりがち。そして発現変動解析用データの場合は、 比較したいグループ分け(i.e., Group 1 vs. 2)がある状態でSC結果を主観的に眺める。 シルエットスコア(Silhouette score)は、本来クラスタリングを行う際に どのクラスター数にすればいいかを見積もる客観的な指標として使用されてきた(つまりクラスタリングと密接に関連した使われ方がなされてきた)。 本論文では、クラスタリングの実行手順自体とは無関係に、 発現変動解析用のグループ分けなど任意のグループ分けの情報を与えてシルエットスコアを計算するやり方を提唱しました。 大まかに、スコアが0に近いほどそのグループ分けでの発現変動遺伝子(DEG)の割合が0%に、 そしてスコアが高いほどDEGが多く得られる傾向にあります。 論文中で提案している使い道としては、「発現変動解析を行ってDEGがほとんど得られなかった場合に、 SC結果とシルエットスコアを提示して、(客観的な数値情報である)シルエットスコアが0に近い値だったのでDEGがないのは妥当だね」 みたいなdiscussionに使ってもらえればと思っています。RNA-seqカウントデータでもマイクロアレイデータでも使えます。 「解析 | 一般 | Silhouette scores(シルエットスコア)」から利用可能です。
反復(複製)データが基本的にない数十サンプル程度の多群間用。 上田太一郎氏によって提案された「赤池情報量規準(AIC)に基づく複数外れ値の簡易検出法」を数十サンプルからなるマイクロアレイデータ中の組織特異的遺伝子検出に そのまま適用しましたという論文。「外れ値 検出」などでググって偶然発見した上田先生の論文を見つけた時点でガッツポーズした記憶があります。
上記手法の弱点(発現変動順にランキングできない)とエントロピーで発現変動順にランキングするやり方の弱点(どの組織で特異的発現しているか不明)への問題解決策として、 お互いの長所を組み合わせた方法をROKU法として提案。エントロピーそのままの数式だと「特異的低発現」や「高発現と低発現」がうまく表現できない (ランキングの上位にこない)ため、データ変換をしてからエントロピー計算するやり方も提唱。
通常の2倍発現変化した遺伝子を発現変動遺伝子(DEG)とみなす「倍率変化」だと、全体として低発現の偽物が多く混ざる。 一方、t検定ベースの方法だと高発現側で倍率変化が非常に小さいものが有意だと判定されて気持ち悪い。 先人たちは倍率変化でスクリーニングしたのち、全体として高発現のものをRT-PCRなどで本物だと確認してきた歴史的経緯がある。 だったら、最初から倍率変化を基本としつつ、全体的に高発現な遺伝子に高い重み(低発現な遺伝子に低い重み)をかけてランキングすればいいじゃん、 という思想をシンプルな数式として具現化しました。FCROS 論文中で行われたPlatinum Spike datasetの性能評価でも最高精度なようです。
MAQC論文で再現性が高いのは倍率変化だと結論づけていたが、 WAD法のほうがぶっちぎりで再現性が高いことを示した。 また、再現性・感度・特異度高く発現変動遺伝子を検出するためにどの方法を利用すべきか という正規化法と発現変動遺伝子検出法の手法選択に関する推奨ガイドラインを提案した。中身としては手法比較論文。
上記ガイドラインはAffymetrix GeneChipデータのみについてだったため、 その他のマイクロアレイメーカー製のチップデータについても評価を行い、 WAD法が発現変動遺伝子検出レベルだけでなくGene Ontologyやパスウェイ解析など の機能解析レベルにおいても優れていることを示した。結論はシンプルで「WADの勝ち」というものですw。
HiCEP法(cDNA-AFLPの改良版)から得られる一次元電気泳動データはサイズマーカーも同時に流すが、その誤認識が原因が波形がゆがむ場合がある。 時系列データを取り扱う場合は波形がほとんど変わらないことを利用して、標準正規分布の混合分布で近似して誤認識サイズマーカーピーク周辺の 自動認識と相関係数に基づく補正を行う方法を開発した。今でもこれが一番好きな論文。
上記補正法でもまだ1bp程度のずれは残っているため、ローカルに自動補正を行うアルゴリズムを開発した。 また、complete-linkage clusteringに基づくレーン間のピークアラインメント(同一ピーク認識)法も提案した。 さらに、サンプル間で発現変動しているピークを同定する際に、全体としてピークシグナル強度が高いものがより確からしいのは直感的に妥当だろうということで、 発現変動ピーク同定までを行う一連の手法を提案した。これがのちにWAD法(Kadota et al., AMB, 2008) の開発へとつながった。
Preprint
Osabe T, Shimizu K, Kadota K*, Differential Expression Analysis Using A Model-Based Gene Clustering Algorithm for RNA-Seq Data. In Review
Reviewed journal papers(* for corresponding author, # for contributed equally)
査読なしのものたちです。
基本的に上記の講義以外のものです。
科研費(代表)
科研費(分担)
科研費以外
ご意見、ご質問はkoji.kadota@gmail.comまで。
Last modified: 2021.01.02