page076

第3章 生物配列解析

  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 配列データベース
    データベース(database; DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたもののことです。この場合は、塩基配列やアミノ酸配列の情報を集めたもののことです。
  • 配列(sequence)
    この場合は、塩基配列やアミノ酸配列のことを指します。
  • 相同性検索(homology search)
    リンク先は「相同性」です。調べたい配列(塩基配列またはアミノ酸配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • 相同性(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
  • 進化的類縁関係(evolutionary relationship)
    進化的な観点からみて、互いに近い関係にあることです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 遺伝子構造(gene structure)
    この場合は、ゲノム中のエクソン(exon)イントロン(intron)領域がどこかを知るような理解でよいです。
  • ドメイン(domain)
    リンク先は「タンパク質ドメイン」です。タンパク質の配列、構造の一部で他の部分とは独立に進化し、機能を持った存在です。それぞれのドメインはコンパクトな三次元構造を作り、独立に折りたたまれ、安定化されることが多いです。多くのタンパク質がいくつかのドメインより成り立ち、1つのドメインは進化的に関連した多くのタンパク質の中に現れます。ドメインの長さは様々で、25残基程度から500残基以上に及ぶものもあります。有名なジンクフィンガーのような最も短いドメインは、金属イオンやジスルフィド結合によって安定化されます。
  • 構造予測(structure prediction)
    リンク先は「タンパク質構造予測」です。タンパク質についてそのアミノ酸配列をもとに3次元構造(立体配座)を推定することであり、バイオインフォマティクスおよび計算化学における研究分野の1つです。
  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • プロファイル(profile)
    この場合は、アラインメントによって得られたそれぞれの位置における、塩基やアミノ酸の出現頻度や挿入・欠失の頻度をもとにパターンを表したものという理解でよいです。
  • 隠れマルコフモデル(Hidden Markov Model; HMM)
    確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • バイオインフォマティクス(bioinformatics)
    生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • モチーフ(motif)
    タンパク質には、酵素の活性部位、他の分子との相互作用部位、翻訳後修飾部位など、機能に関わる重要な部位が存在します。それらの部位がもつ、複数のアミノ酸残基から構成される特徴的な配列パターンのことです。

3.1 配列のアラインメント

  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 共通祖先(common descent)
    全生物種の系統樹を描いたときに、一番根っこ部分にある生物種のことだという理解でよいと思います。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 変異(mutation)
    リンク先は「突然変異」です。DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • ペアワイズアラインメント(pairwise alignment)
    リンク先は「シーケンスアラインメント」です。アラインメントは手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べることであり、その作業を2本の配列で行うのがペアワイズアラインメントです。3本以上の場合をマルチプルアラインメント(または多重配列アラインメント)といいます。

3.1.1 大域アラインメントと局所アラインメント

  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 大域アラインメント(global alignment)
    リンク先は「シーケンスアラインメント」です。全体的に類似した配列を比較する際に、配列全体のアラインメントをとることです。ほぼ同じ長さの配列間での比較に有効です。グローバルアラインメントともいいます。
  • 局所アラインメント(local alignment)
    リンク先は「シーケンスアラインメント」です。配列の類似部分が限定されている場合に、配列の一部である類似部分に限定してアラインメントをとることです。ローカルアラインメントともいいます。

3.1.2 配列一致度と類似度スコア

  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • 配列一致度(sequence identity)
    比較する2本の配列が似ている度合いを表す指標の1つです。配列のアラインメントをとったとき、対応する文字が一致する割合を示すものです。分子(numerator)が「対応する文字が一致する数」、分母(denominator)が「アラインメントの長さ」です。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 感度(sensitivityまたはrecall)
    この場合は、「文字の一致しか見ていないため、本当は進化的な類縁関係があるにもかかわらず、それを同定できないことが多い」といったイメージで理解するとよいです。

  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 類似度(similarity)
    どのくらい似ているかを表す指標です。
  • アラインされた配列
    「アラインメントをとった状態の配列」と同じという理解でよいです。
page077
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 式(3.1)
    \[ \begin{align} S(x^{\prime}, y^{\prime}) = \sum_{i=1}^Ls(x_i^{\prime}, y_i^{\prime}) \tag{3.1} \end{align} \] 以下は記号の説明です:
    • \(x, y\)
      アラインメントしたい2本の配列を表す記号のことです。
    • \(x^{\prime}, y^{\prime}\)
      アラインメントをとった状態の配列(ギャップを含む場合あり)のことです。
    • \(x_i^{\prime}, y_i^{\prime}\)
      \(x^{\prime}, y^{\prime}\)\(i\)番目の文字のことです。
    • \(s(x_i^{\prime}, y_i^{\prime})\)
      文字\(x_i^{\prime}, y_i^{\prime}\)の類似度のことです。
    • \(L\)
      アラインメントの長さです。アラインメント前の配列\(x, y\)の配列長をそれぞれ\(m, n\)とすると、どちらか長い方というのは\(\max(m, n)\)と表現できますので、\(L \geq \max(m, n)\)です。
    • \(S(x^{\prime}, y^{\prime})\)
      アラインメント後の2本の配列\(x^{\prime}, y^{\prime}\)の類似度のことです。

  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 類似度(similarity)
    どのくらい似ているかを表す指標です。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 類似度スコア(similarity score)
    進化における変異のしやすさなどをもとに定義される、ある文字(塩基または残基)と別のある文字がどれくらい似ているかを数値化したスコアのことです。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。

  • 配列一致度(sequence identity)
    比較する2本の配列が似ている度合いを表す指標の1つです。配列のアラインメントをとったとき、対応する文字が一致する割合を示すものです。分子(numerator)が「対応する文字が一致する数」、分母(denominator)が「アラインメントの長さ」です。
  • 配列類似度(sequence similarity)
    比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • W3.1
    アラインメントの場合の数に関する補足資料です。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。

3.1.3 ギャップのスコア

  • 相同性(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。

  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 挿入や欠失
    リンク先は「インデル」です。ゲノム上のある場所に1~数十塩基程度の塩基配列が組み込まれるのが挿入(insertion)、逆に元からあった1~数十塩基程度の領域がなくなるのが欠失(deletion)です。2つのイベントを総称してインデル(indel)ともいいます。
  • ギャップペナルティ(gap penalty)
    リンク先は「Gap penalty」です。相同性のある配列のアラインメントをとるとき、対応する文字がない場合に、類似度が低いとして与えるスコアのことです。ギャップをむやみに入れると文字の正しい対応関係が表せなくなってしまうため、ギャップにはマイナスになるようなスコアを与えるのが一般的です。これはギャップ自体が類似度を下げるような効果(つまりペナルティ)に相当しますので、ギャップペナルティとよばれます。
  • リニアギャップペナルティ(linear gap penalty)
    リンク先は「Gap penalty」です。\(k\)個の連続したギャップのペナルティの計算方法として、1文字あたりのギャップペナルティ \(‒d\) (\(d\) > 0)を\(k\)倍するやり方のことです。\(-dk\)または\(-kd\)で表されます。同様に、\(i\)個の連続したギャップペナルティは\(-id\)\(j\)個の連続したギャップペナルティは\(-jd\)と表すことができます。
  • アフィンギャップペナルティ(affine gap penalty)
    リンク先は「Gap penalty」です。\(k\)個の連続したギャップのペナルティの計算方法として、連続したギャップに1つ与えるペナルティ \(‒d\) (\(d\) > 0)のほかに、\(k\)に比例するペナルティ \(-e\) (\(e\) > 0)を別に定義し(\(d\) > \(e\))、\(‒d‒ke\)で計算するやり方のことです。

3.1.4 最適アラインメントの計算

  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
最適大域アラインメント
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • 大域アラインメント(global alignment)
    リンク先は「シーケンスアラインメント」です。全体的に類似した配列を比較する際に、配列全体のアラインメントをとることです。ほぼ同じ長さの配列間での比較に有効です。グローバルアラインメントともいいます。
  • Needleman-Wunsch法(Needleman-Wunsch algorithm)
    リンク先は「Needleman–Wunsch algorithm」です。動的計画法に基づいて、最適な大域アラインメントを行うアルゴリズムのことです。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。本文中では「配列\(x\) = \(x_1x_2...x_m\)\(y\) = \(y_1y_2...y_n\)」のように書いていますが、たとえば次ページで例示している\(x\) = AACCと\(y\) = ACCの場合は、\(x_1\) = A, \(x_2\) = A, \(x_3\) = C, \(x_4\) = C, \(y_1\) = A, \(y_2\) = C, \(y_3\) = Cだと理解すればよいです。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
page078
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • 部分配列(partial sequence)
    この場合は、アミノ酸配列や塩基配列の一部のことを指します。アラインメント前の配列\(x, y\)の配列長をそれぞれ\(m, n\)として、たとえば最適アラインメントを求めたい2つの塩基配列が\(x\) = AACCと\(y\) = ACCだとすると、\(m\) = 4, \(n\) = 3です。本文中の「部分配列\(x_1x_2...x_i\)\(y_1y_2...y_j\)」は、\(x\)の部分配列の長さ\(i\)\(m\)以下(つまり\(i \leq m\))、同様に\(y\)の部分配列の長さ\(j\)\(n\)以下(つまり\(j \leq n\))のように解釈します。たとえば\(i\) = 3, \(j\) = 2とすると、\(x\) = AAC, \(y\) = ACという部分配列の最適アラインメントを考えるのだと理解すればよいです。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
  • スコア行列(score matrix)
    部分配列の最適アラインメントスコア情報を保持した数値行列\(F\)のことです。
  • リニアギャップペナルティ(linear gap penalty)
    リンク先は「Gap penalty」です。\(k\)個の連続したギャップのペナルティの計算方法として、1文字あたりのギャップペナルティ \(‒d\) (\(d\) > 0)を\(k\)倍するやり方のことです。\(-dk\)または\(-kd\)で表されます。同様に、\(i\)個の連続したギャップペナルティは\(-id\)\(j\)個の連続したギャップペナルティは\(-jd\)と表すことができます。
  • \(F(i, j)\)
    長さ\(m\)の配列\(x\) = \(x_1x_2...x_m\)と長さ\(n\)の配列\(y\) = \(y_1y_2...y_n\)の最適アラインメントを動的計画法で求めるにあたり、それよりも短い部分配列\(x_1x_2...x_i\) (\(i \leq m\))と\(y_1y_2...y_j\) (\(j \leq n\))の最適アラインメントのスコアを記憶しておくためのスコア行列が\(F\)です。\(F\)は(\(i+1\))行\(\times\)(\(j+1\))列からなり、添え字は0からスタートします。つまり図3.1図3.2の各行列において、1番左上の要素は\(0\)\(\times 0\)列目として考えるということです。\(F(i, j)\)は、スコア行列\(F\)中の\(i\)\(\times j\)列目の要素のことです。
  • 漸化式(recurrence relation)
    項がそれ以前の項の関数として定まるという意味で、数列を再帰的に定める等式のことです。難解な印象を受けるかもしれませんが、今スコアを定めたいスコア行列\(F\)中の\(i\)\(\times j\)列の要素の値は、単に1つ手前の要素(上、左、左斜め上)の値に基づくのだと理解すればよいです。
  • 式(3.2)
    この式に関連する図3.1の各行列において、1番左上の要素は\(0\)\(\times 0\)列目として考えますのでご注意ください。
    \[ F(i, j) = \max \begin{cases} F(i-1, j-1) + s(x_i, y_j) \\ \tag{3.2} F(i-1, j) - d \\ F(i, j-1) - d \end{cases} \] 以下は記号の説明です:
    • \(F(i-1, j-1)\)
      スコア行列\(F\)中の(\(i-1\))行\(\times\)(\(j-1\))列目の要素のスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.1の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i-1, j-1)\)は、注目している\(F(i, j)\)の左上の要素に対応し、初期条件より\(F(0, 0)\) \(= 0\)です。
    • \(x_i\)
      アラインメント対象である配列\(x\)中の\(i\)番目の文字のことです。たとえば\(x\) = AAACとすると、1番目の文字は\(x_1\) = A, 2番目の文字は\(x_2\) = A, 3番目の文字は\(x_3\) = A, 4番目の文字は\(x_4\) = Cです。
    • \(y_j\)
      アラインメント対象である配列\(y\)中の\(j\)番目の文字のことです。たとえば\(y\) = ACCとすると、1番目の文字は\(y_1\) = A, 2番目の文字は\(y_2\) = C, 3番目の文字は\(y_3\) = Cです。
    • \(s(x_i, y_j)\)
      文字\(x_i\)\(y_i\)の類似度のことです。塩基配列の場合は、page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)としてスコアを定義しています(初期条件の要素を除く)。塩基配列で図3.1の(2)に相当する\(i = 1, j = 1\)の場合、\(x_1\) = A, \(y_1\) = Aと文字が一致していますので、\(s(x_i, y_j)\) \(= s(x_1, y_1)\) \(= +1\)です。図3.1の(2)において、\(0\)\(\times 0\)列目から\(1\)\(\times 1\)列目の要素へと右下方向に伸びている矢印の近くに見えている括弧内の\(+1\)という数値がこれに対応します。なお、アミノ酸配列の場合は、式(3.4)で定義された値になります。
    • \(F(i-1, j)\)
      スコア行列\(F\)中の(\(i-1\))行\(\times\)\(j\)列の要素のスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.1の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i-1, j)\)は、注目している\(F(i, j)\)のすぐ上の要素に対応し、初期条件より\(F(0, 1)\) \(= -2\)です。
    • \(-d\)
      ギャップペナルティのことです。アラインメントをとった際に、対応する文字がない場合に与える罰則に相当する低いスコアのようなものです。不一致と似た概念ではありますが、不一致は対応する文字がある点で異なります。\(d > 0\)として定義していますので、ギャップペナルティは\(-d\)として考えます。
    • \(F(i-1, j) - d\)
      スコア行列\(F\)中の(\(i-1\))行\(\times\)\(j\)列に対応する、配列\(x\)中の\(i\)番目の文字\(x_i\)に対して、配列\(y\)中の\(j\)番目の文字\(y_j\)の左側にギャップ(\(-d\))を割り当てたときのスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.1の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i-1, j)\)は、注目している\(F(i, j)\)のすぐ上の要素に対応し、初期条件より\(F(0, 1)\) \(= -2\)です。また、塩基配列の場合は、page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)としてスコアを定義しています(初期条件の要素を除く)。したがって、この場合は、\(F(i-1, j) - d\) \(= F(0, 1) - 2 = -4\)です。図3.1の(2)において、\(0\)\(\times 1\)列目の要素から\(1\)\(\times 1\)列目の要素へと下方向に伸びている矢印の近くに見えている括弧内の\(-2\)という数値がこれに対応します。「\(x\) = AAACの1番目の文字(つまり\(x_1\) = A)に対して、\(y\) = ACC中の文字ではなく、ギャップを与えてアラインメントをとった場合のスコア」だと理解すればよいです。
    • \(F(i, j-1)\)
      スコア行列\(F\)中の\(i\)\(\times\)(\(j-1\))列の要素のスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.1の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i, j-1)\)は、注目している\(F(i, j)\)のすぐ左の要素に対応し、初期条件より\(F(1, 0)\) \(= -2\)です。
    • \(F(i, j-1) - d\)
      スコア行列\(F\)中の\(i\)\(\times\)(\(j-1\))列に対応する、配列\(y\)中の\(j\)番目の文字\(y_j\)に対して、配列\(x\)中の\(i\)番目の文字\(x_i\)の左側にギャップ(\(-d\))を割り当てたときのスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.1の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i, j-1)\)は、注目している\(F(i, j)\)のすぐ左の要素に対応し、初期条件より\(F(1, 0)\) \(= -2\)です。また、塩基配列の場合は、page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)としてスコアを定義しています(初期条件の要素を除く)。したがって、この場合は、\(F(i, j-1) - d\) \(= F(1, 0) - 2 = -4\)です。図3.1の(2)において、\(1\)\(\times 0\)列目の要素から\(1\)\(\times 1\)列目の要素へと右方向に伸びている矢印の近くに見えている括弧内の\(-2\)という数値がこれに対応します。「\(y\) = ACCの1番目の文字(つまり\(y_1\) = A)に対して、\(x\) = AAAC中の文字ではなく、ギャップを与えてアラインメントをとった場合のスコア」だと理解すればよいです。

  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
  • 配列類似度(sequence similarity)
    比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。
  • バックトラック(backtrack)
    リンク先は「バックトラッキング」です。コンピュータで数学的な問題の解を探索するアルゴリズムです。制約充足問題の解を探索する戦略の一種で、力まかせ探索を改良したものです。この場合は、本文中の「maxで選択した過程を逆にたどること」という理解でよいです。

  • 図3.1
    最適大域アラインメントの計算例です。page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)として計算しています。なお、各行列の1番左上の要素は\(0\)\(\times 0\)列目として考えますのでご注意ください。初刷では右下のほうで「y-ACC」と書かれていますが、正しくは「y=-ACC」ですm(_ _)m
  • 大域アラインメント(global alignment)
    リンク先は「シーケンスアラインメント」です。全体的に類似した配列を比較する際に、配列全体のアラインメントをとることです。ほぼ同じ長さの配列間での比較に有効です。グローバルアラインメントともいいます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
page079
最適局所アラインメント
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • 最適局所アラインメント(optimal local alignment)
    配列類似度を最大にする局所アラインメント(配列の類似部分が限定されている場合に、配列の一部である類似部分に限定したアラインメント)のことです。
  • Smith-Waterman法(Smith–Waterman algorithm)
    リンク先は「Smith–Waterman algorithm」です。動的計画法に基づく、最適局所アラインメントを求める手法です。
  • 局所アラインメント(local alignment)
    リンク先は「シーケンスアラインメント」です。配列の類似部分が限定されている場合に、配列の一部である類似部分に限定してアラインメントをとることです。ローカルアラインメントともいいます。
  • リニアギャップペナルティ(linear gap penalty)
    リンク先は「Gap penalty」です。\(k\)個の連続したギャップのペナルティの計算方法として、1文字あたりのギャップペナルティ \(‒d\) (\(d\) > 0)を\(k\)倍するやり方のことです。\(-dk\)または\(-kd\)で表されます。同様に、\(i\)個の連続したギャップペナルティは\(-id\)\(j\)個の連続したギャップペナルティは\(-jd\)と表すことができます。
  • \(F(i, j)\)
    長さ\(m\)の配列\(x\) = \(x_1x_2...x_m\)と長さ\(n\)の配列\(y\) = \(y_1y_2...y_n\)の最適アラインメントを動的計画法で求めるにあたり、それよりも短い部分配列\(x_1x_2...x_i\) (\(i \leq m\))と\(y_1y_2...y_j\) (\(j \leq n\))の最適アラインメントのスコアを記憶しておくためのスコア行列が\(F\)です。\(F\)は(\(i+1\))行\(\times\)(\(j+1\))列からなり、添え字は0からスタートします。つまり図3.1図3.2の各行列において、1番左上の要素は\(0\)\(\times 0\)列目として考えるということです。\(F(i, j)\)は、スコア行列\(F\)中の\(i\)\(\times j\)列目の要素のことです。
  • 漸化式(recurrence relation)
    項がそれ以前の項の関数として定まるという意味で、数列を再帰的に定める等式のことです。難解な印象を受けるかもしれませんが、今スコアを定めたいスコア行列\(F\)中の\(i\)\(\times j\)列の要素の値は、単に1つ手前の要素(上、左、左斜め上)の値に基づくのだと理解すればよいです。
  • 式(3.3)
    この式に関連する図3.2の各行列において、1番左上の要素は\(0\)\(\times 0\)列目として考えますのでご注意ください。
    \[ F(i, j) = \max \begin{cases} 0 \\ \tag{3.3} F(i-1, j-1) + s(x_i, y_j) \\ F(i-1, j) - d \\ F(i, j-1) - d \end{cases} \] 以下は記号の説明です:
    • \(F(i-1, j-1)\)
      スコア行列\(F\)中の(\(i-1\))行\(\times\)(\(j-1\))列目の要素のスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.2の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i-1, j-1)\)は、注目している\(F(i, j)\)の左上の要素に対応し、初期条件より\(F(0, 0)\) \(= 0\)です。
    • \(x_i\)
      アラインメント対象である配列\(x\)中の\(i\)番目の文字のことです。たとえば\(x\) = AAACとすると、1番目の文字は\(x_1\) = A, 2番目の文字は\(x_2\) = A, 3番目の文字は\(x_3\) = A, 4番目の文字は\(x_4\) = Cです。
    • \(y_j\)
      アラインメント対象である配列\(y\)中の\(j\)番目の文字のことです。たとえば\(y\) = ACCとすると、1番目の文字は\(y_1\) = A, 2番目の文字は\(y_2\) = C, 3番目の文字は\(y_3\) = Cです。
    • \(s(x_i, y_j)\)
      文字\(x_i\)\(y_i\)の類似度のことです。塩基配列の場合は、page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)としてスコアを定義しています(初期条件の要素を除く)。塩基配列で図3.2の(2)に相当する\(i = 1, j = 1\)の場合、\(x_1\) = A, \(y_1\) = Aと文字が一致していますので、\(s(x_i, y_j)\) \(= s(x_1, y_1)\) \(= +1\)です。図3.2の(2)において、\(0\)\(\times 0\)列目から\(1\)\(\times 1\)列目の要素へと右下方向に伸びている矢印の近くに見えている括弧内の\(+1\)という数値がこれに対応します。なお、アミノ酸配列の場合は、式(3.4)で定義された値になります。
    • \(F(i-1, j)\)
      スコア行列\(F\)中の(\(i-1\))行\(\times\)\(j\)列の要素のスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.2の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i-1, j)\)は、注目している\(F(i, j)\)のすぐ上の要素に対応し、初期条件より\(F(0, 1)\) \(= 0\)です。
    • \(-d\)
      ギャップペナルティのことです。アラインメントをとった際に、対応する文字がない場合に与える罰則に相当する低いスコアのようなものです。不一致と似た概念ではありますが、不一致は対応する文字がある点で異なります。\(d > 0\)として定義していますので、ギャップペナルティは\(-d\)として考えます。
    • \(F(i-1, j) - d\)
      スコア行列\(F\)中の(\(i-1\))行\(\times\)\(j\)列に対応する、配列\(x\)中の\(i\)番目の文字\(x_i\)に対して、配列\(y\)中の\(j\)番目の文字\(y_j\)の左側にギャップ(\(-d\))を割り当てたときのスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.2の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i-1, j)\)は、注目している\(F(i, j)\)のすぐ上の要素に対応し、初期条件より\(F(0, 1)\) \(= 0\)です。また、塩基配列の場合は、page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)としてスコアを定義しています(初期条件の要素を除く)。したがって、この場合は、\(F(i-1, j) - d\) \(= F(0, 1) - 2 = -2\)です。図3.2の(2)において、\(0\)\(\times 1\)列目の要素から\(1\)\(\times 1\)列目の要素へと下方向に伸びている矢印の近くに見えている括弧内の\(-2\)という数値がこれに対応します。「\(x\) = AAACの1番目の文字(つまり\(x_1\) = A)に対して、\(y\) = ACC中の文字ではなく、ギャップを与えてアラインメントをとった場合のスコア」だと理解すればよいです。
    • \(F(i, j-1)\)
      スコア行列\(F\)中の\(i\)\(\times\)(\(j-1\))列の要素のスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.2の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i, j-1)\)は、注目している\(F(i, j)\)のすぐ左の要素に対応し、初期条件より\(F(1, 0)\) \(= 0\)です。
    • \(F(i, j-1) - d\)
      スコア行列\(F\)中の\(i\)\(\times\)(\(j-1\))列に対応する、配列\(y\)中の\(j\)番目の文字\(y_j\)に対して、配列\(x\)中の\(i\)番目の文字\(x_i\)の左側にギャップ(\(-d\))を割り当てたときのスコアのことです。たとえば初期条件以外の要素である\(i = 1, j = 1\)の場合、この式の左辺である\(F(i, j)\)は、図3.2の(2)に相当する\(1\)\(\times 1\)列目の要素である\(F(1, 1)\)に注目していることになります。\(F(i, j-1)\)は、注目している\(F(i, j)\)のすぐ左の要素に対応し、初期条件より\(F(1, 0)\) \(= 0\)です。また、塩基配列の場合は、page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)としてスコアを定義しています(初期条件の要素を除く)。したがって、この場合は、\(F(i, j-1) - d\) \(= F(1, 0) - 2 = -2\)です。図3.2の(2)において、\(1\)\(\times 0\)列目の要素から\(1\)\(\times 1\)列目の要素へと右方向に伸びている矢印の近くに見えている括弧内の\(-2\)という数値がこれに対応します。「\(y\) = ACCの1番目の文字(つまり\(y_1\) = A)に対して、\(x\) = AAAC中の文字ではなく、ギャップを与えてアラインメントをとった場合のスコア」だと理解すればよいです。

  • スコア行列(score matrix)
    部分配列の最適アラインメントスコア情報を保持した数値行列\(F\)のことです。
  • バックトラック(backtrack)
    リンク先は「バックトラッキング」です。コンピュータで数学的な問題の解を探索するアルゴリズムです。制約充足問題の解を探索する戦略の一種で、力まかせ探索を改良したものです。この場合は、本文中の「maxで選択した過程を逆にたどること」という理解でよいです。
  • 局所アラインメント(local alignment)
    リンク先は「シーケンスアラインメント」です。配列の類似部分が限定されている場合に、配列の一部である類似部分に限定してアラインメントをとることです。ローカルアラインメントともいいます。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。

  • 図3.2
    最適局所アラインメントの計算例です。page077の6行目あたりに書かれていますが、一致は\(+1\), 不一致は\(-3\), ギャップは\(-2\)として計算しています(初期条件の要素を除く)。なお、各行列の1番左上の要素は\(0\)\(\times 0\)列目として考えますのでご注意ください。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • 局所アラインメント(local alignment)
    リンク先は「シーケンスアラインメント」です。配列の類似部分が限定されている場合に、配列の一部である類似部分に限定してアラインメントをとることです。ローカルアラインメントともいいます。
page080
  • 大域アラインメント(global alignment)
    リンク先は「シーケンスアラインメント」です。全体的に類似した配列を比較する際に、配列全体のアラインメントをとることです。ほぼ同じ長さの配列間での比較に有効です。グローバルアラインメントともいいます。
  • \(F(i, j)\)
    長さ\(m\)の配列\(x\) = \(x_1x_2...x_m\)と長さ\(n\)の配列\(y\) = \(y_1y_2...y_n\)の最適アラインメントを動的計画法で求めるにあたり、それよりも短い部分配列\(x_1x_2...x_i\) (\(i \leq m\))と\(y_1y_2...y_j\) (\(j \leq n\))の最適アラインメントのスコアを記憶しておくためのスコア行列が\(F\)です。\(F\)は(\(i+1\))行\(\times\)(\(j+1\))列からなり、添え字は0からスタートします。つまり図3.1図3.2の各行列において、1番左上の要素は\(0\)\(\times 0\)列目として考えるということです。\(F(i, j)\)は、スコア行列\(F\)中の\(i\)\(\times j\)列目の要素のことです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
  • 図3.2(9)
    最適局所アラインメントの計算例です。

  • 例題3.1
    1ページ目が問題、2ページ目以降が解答例です。
    • アラインメントスコア(alignment score)
      配列類似度と同じで、比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。
    • ギャップペナルティ(gap penalty)
      リンク先は「Gap penalty」です。相同性のある配列のアラインメントをとるとき、対応する文字がない場合に、類似度が低いとして与えるスコアのことです。ギャップをむやみに入れると文字の正しい対応関係が表せなくなってしまうため、ギャップにはマイナスになるようなスコアを与えるのが一般的です。これはギャップ自体が類似度を下げるような効果(つまりペナルティ)に相当しますので、ギャップペナルティとよばれます。

3.2 アミノ酸置換スコア

  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • 配列類似度(sequence similarity)
    比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 置換スコア行列(substitution score matrix)
    タンパク質配列中のあるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものを、全20種類のアミノ酸について数値行列の形で保持したものです。
  • PAM
    リンク先は「Point accepted mutation」です。point accepted mutationの略です。近縁のタンパク質を集めて、置換の頻度を調べて分子進化学的に求めた置換スコアの行列のことです。
  • BLOSUM
    リンク先は「BLOSUM」です。BLOcks SUbstitution Matrixの略です。類縁タンパク質の複数の配列のアラインメントを作成し、ブロック(ギャップなしで保存された部分)で、実際に観測されるアミノ酸の置換をもとに計算した置換スコアの行列のことです。

  • PAM
    リンク先は「Point accepted mutation」です。point accepted mutationの略です。近縁のタンパク質を集めて、置換の頻度を調べて分子進化学的に求めた置換スコアの行列のことです。
  • Dayhoff et al., Atlas of Protein Sequence and Structure, 1978
    PAMの原著論文です。
  • 近縁(closely related)
    生物で分類上非常に近い関係にあることです。一般には「界/門/綱/目/科/属/種」という分類体系で同じ属のものを指します。似た言葉に類縁がありますが、これは近縁よりも対象がより広がっているイメージをもつとよいと思います。つまり、近縁は類縁の部分集合です(近縁\(\subset\)類縁)。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 置換(substitution)
    この場合は、タンパク質配列中のあるアミノ酸が別のアミノ酸に変わることです。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • マルコフ過程(Markov process)
    未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質(これをマルコフ性といいます)を持つ確率過程のことです。
  • 遷移確率(transition probability)
    この場合は、あるアミノ酸から別のアミノ酸へと遷移(置換と同じ意味)する確率という理解でよいです。
  • 置換スコア行列(substitution score matrix)
    タンパク質配列中のあるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものを、全20種類のアミノ酸について数値行列の形で保持したものです。
  • 配列(sequence)
    この場合は、アミノ酸配列のことです。
  • 類似度(similarity)
    どのくらい似ているかを表す指標です。
  • W3.2
    PAMの求め方に関する補足資料です。

  • BLOSUM
    リンク先は「BLOSUM」です。BLOcks SUbstitution Matrixの略です。類縁タンパク質の複数の配列のアラインメントを作成し、ブロック(ギャップなしで保存された部分)で、実際に観測されるアミノ酸の置換をもとに計算した置換スコアの行列のことです。
  • Henikoff and Henikoff, Proc Natl Acad Sci USA., 1992
    BLOSUMの原著論文です。
  • 近縁(closely related)
    生物で分類上非常に近い関係にあることです。一般には「界/門/綱/目/科/属/種」という分類体系で同じ属のものを指します。似た言葉に類縁がありますが、これは近縁よりも対象がより広がっているイメージをもつとよいと思います。つまり、近縁は類縁の部分集合です(近縁\(\subset\)類縁)。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 配列(sequence)
    この場合は、アミノ酸配列のことです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • ブロック(block)
    MSA中のギャップなしで保存された部分のことです。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 置換(substitution)
    この場合は、タンパク質配列中のあるアミノ酸が別のアミノ酸に変わることです。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • クラスタリング(clustering)
    リンク先は「データ・クラスタリング」です。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法、またそのアルゴリズムのことです。データの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法に大別できます。
  • 類似度(similarity)
    どのくらい似ているかを表す指標です。
  • 局所アラインメント(local alignment)
    リンク先は「シーケンスアラインメント」です。配列の類似部分が限定されている場合に、配列の一部である類似部分に限定してアラインメントをとることです。ローカルアラインメントともいいます。
  • W3.3
    BLOSUMの求め方に関する補足資料です。

  • 置換スコア行列(substitution score matrix)
    タンパク質配列中のあるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものを、全20種類のアミノ酸について数値行列の形で保持したものです。ここでは\(\boldsymbol{s}\)としています。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • 置換スコア\(s(a, b)\)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • 対数尤度比(log-likelihood ratio)
    尤度比の対数をとったものです。式(3.4)の右辺のことです。本文中でも説明されていますが、\(\frac{p_{ab}}{q_aq_b}\)は比の形をしています。分母分子は、それぞれの仮定の尤もらしさを示す尤度とみなすことができるので、尤度比といます。そしてその尤度比の対数をとっているので、対数尤度比といえるのです。
  • 式(3.4)
    \[ s(a, b) = \log(\frac{p_{ab}}{q_aq_b}) \tag{3.4} \] 以下は記号の説明です:
    • \(p_{ab}\)
      配列間に何らかの関連性があって、\(a\)\(b\)に置換される確率です。または、アラインメントをとった配列において\(a\)\(b\)が揃って出現する確率です。
    • \(q_a\)
      アミノ酸\(a\)の出現確率です。
    • \(q_b\)
      アミノ酸\(b\)の出現確率です。
    • \(q_aq_b\)
      アミノ酸が独立に出現するとしたとき、\(a\)\(b\)が同時に出現する確率です。
    • \(s(a, b)\)
      アミノ酸\(a\)とアミノ酸\(b\)の置換スコアです。\(a\)\(b\)は独立に出現するのに比べて、同時に出現しやすければプラス、同時に出現しにくければマイナスの値になります。同じ性質のアミノ酸どうしはプラスになる傾向となります。

page081
  • 図3.3
    BLOSUM62の置換スコア行列です。

  • \(q_a\)
    アミノ酸\(a\)の出現確率です。
  • \(q_b\)
    アミノ酸\(b\)の出現確率です。
  • \(p_{ab}\)
    配列間に何らかの関連性があって、\(a\)\(b\)に置換される確率です。または、アラインメントをとった配列において\(a\)\(b\)が揃って出現する確率です。
  • \(q_aq_b\)
    アミノ酸が独立に出現するとしたとき、\(a\)\(b\)が同時に出現する確率です。
  • \(s(a, b)\)
    アミノ酸\(a\)とアミノ酸\(b\)の置換スコアです。\(a\)\(b\)は独立に出現するのに比べて、同時に出現しやすければプラス、同時に出現しにくければマイナスの値になります。同じ性質のアミノ酸どうしはプラスになる傾向となります。

  • PAM
    リンク先は「Point accepted mutation」です。point accepted mutationの略です。近縁のタンパク質を集めて、置換の頻度を調べて分子進化学的に求めた置換スコアの行列のことです。
  • BLOSUM
    リンク先は「BLOSUM」です。BLOcks SUbstitution Matrixの略です。類縁タンパク質の複数の配列のアラインメントを作成し、ブロック(ギャップなしで保存された部分)で、実際に観測されるアミノ酸の置換をもとに計算した置換スコアの行列のことです。
  • \(p_{ab}\)
    配列間に何らかの関連性があって、\(a\)\(b\)に置換される確率です。または、アラインメントをとった配列において\(a\)\(b\)が揃って出現する確率です。
  • 対称行列(symmetric matrix)
    自身の転置行列と一致するような正方行列(行要素の数と列要素の数が一致する行列)のことです。
  • 図3.3
    BLOSUM62の置換スコア行列です。
  • BLOSUM62
    リンク先は「BLOSUM」です。BLOcks SUbstitution Matrixの略です。近縁タンパク質の複数の配列のアラインメントを作成し、ブロック(ギャップなしで保存された部分)で、62%以上一致している配列群をクラスタリングしてまとめ、アミノ酸の置換回数を計算して得た置換スコアの行列のことです。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。

  • 例題3.2
    1ページ目が問題、2ページ目以降が解答例です。
    • BLOSUM62
      リンク先は「BLOSUM」です。BLOcks SUbstitution Matrixの略です。近縁タンパク質の複数の配列のアラインメントを作成し、ブロック(ギャップなしで保存された部分)で、62%以上一致している配列群をクラスタリングしてまとめ、アミノ酸の置換回数を計算して得た置換スコアの行列のことです。
    • アスパラギン酸(aspartic acid)
      アミノ酸のひとつで、2-アミノブタン二酸のことです。略号はAspあるいはD。光学異性体としてL体とD体の両方が存在します。アスパラギンの加水分解物から単離され、由来とその構造からこの名がつきました。酸性極性側鎖アミノ酸に分類されます。L体のアスパラギン酸は蛋白質を構成するアミノ酸の1つです。非必須アミノ酸で、グリコーゲン生産性を持つ。うま味成分のひとつです。
    • グルタミン酸
      アミノ酸のひとつで、2-アミノペンタン二酸のこと。2-アミノグルタル酸ともよばれます。GluあるいはEの略号で表されます。小麦グルテンの加水分解物から初めて発見されたことからこの名がつきました。英語に準じ、グルタメートとよぶこともあります。酸性極性側鎖アミノ酸に分類されます。タンパク質構成アミノ酸のひとつで、非必須アミノ酸です。動物の体内では神経伝達物質としても機能しており、グルタミン酸受容体を介して神経伝達が行われる、興奮性の神経伝達物質です。
    • 置換(substitution)
      この場合は、タンパク質配列中のあるアミノ酸が別のアミノ酸に変わることです。
    • アミノ酸(amino acid)
      広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
    • 置換スコア行列(substitution score matrix)
      タンパク質配列中のあるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものを、全20種類のアミノ酸について数値行列の形で保持したものです。
    • アラインメントスコア(alignment score)
      配列類似度と同じで、比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。
    • ギャップペナルティ(gap penalty)
      リンク先は「Gap penalty」です。相同性のある配列のアラインメントをとるとき、対応する文字がない場合に、類似度が低いとして与えるスコアのことです。ギャップをむやみに入れると文字の正しい対応関係が表せなくなってしまうため、ギャップにはマイナスになるようなスコアを与えるのが一般的です。これはギャップ自体が類似度を下げるような効果(つまりペナルティ)に相当しますので、ギャップペナルティとよばれます。
page082
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。
  • 酸性アミノ酸(acidic amino acids)
    極性アミノ酸の中で、負電荷をもつアミノ酸のことです。具体的には、アスパラギン酸(3文字表記はAsp、1文字表記はD)とグルタミン酸(3文字表記はGlu、1文字表記はE)のことです。
  • 疎水性アミノ酸(hydrophobic amino acids)
    非極性アミノ酸のことです。具体的には、グリシン(3文字表記はGly、1文字表記はG)、アラニン(3文字表記はAla、1文字表記はA)、バリン(3文字表記はVal、1文字表記はV)、ロイシン(3文字表記はLeu、1文字表記はL)、イソロイシン(3文字表記はIle、1文字表記はI)、プロリン(3文字表記はPro、1文字表記はP)、メチオニン(3文字表記はMet、1文字表記はM)、フェニルアラニン(3文字表記はPhe、1文字表記はF)、トリプトファン(3文字表記はTrp、1文字表記はW)のことです。全部で9種類です。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。

3.3 相同性検索

  • 相同性(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 類縁(related)
    生物で分類上近い関係にあることです。似た言葉に近縁がありますが、近縁は一般には「界/門/綱/目/科/属/種」という分類体系で同じ属のものを指し、類縁よりも範囲が狭いです。つまり、近縁は類縁の部分集合です(近縁\(\subset\)類縁)。
  • ホモログ(homolog)
    共通の祖先をもつ遺伝子の塩基配列やタンパク質のアミノ酸配列のことです。相同遺伝子ともいいます。

  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 配列DB
    配列データベースのことです。データベース(database; DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたもののことです。
  • 相同性(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
  • 相同性検索(homology search)
    リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • バイオインフォ(bioinfo)
    バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • 分子生物学(molecular biology)
    生命現象を分子を使って説明(理解)することを目的とする学問です。
  • ゲノム科学(genome science)
    リンク先は「ゲノミクス」です。ゲノムと遺伝子について研究する生命科学の一分野です。ゲノミクスやゲノム学ともいいます。
  • 分子系統学(molecular phylogenetics)
    DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を調べる学問です。(種内の多様性ではなく)種間レベルの違いを対象としています。

  • 微生物(microorganismまたはmicrobe)
    肉眼でその存在が判別できず、顕微鏡などによって観察できる程度以下の大きさの生物のことです。
  • ゲノムDNA(genome DNA)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。実質的にゲノムと同じ意味です。
  • PCR
    リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させる技術のことです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • DB
    データベースのことです。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • 相同(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。相同という言葉自体の説明はほとんどなく、「相同性」や「相同である」といったあたりの説明がほとんどです。対義語は相似(外見や機能は似ているが共通の祖先に由来しないこと)です。
  • 属(genus)
    リンク先は「属 (分類学)」です。生物分類のリンネ式階級分類における基本的階級の1つ、および、その階級に属するタクソンです。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の下から2番目に位置します。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 類縁(related)
    生物で分類上近い関係にあることです。似た言葉に近縁がありますが、近縁は一般には「界/門/綱/目/科/属/種」という分類体系で同じ属のものを指し、類縁よりも範囲が狭いです。つまり、近縁は類縁の部分集合です(近縁\(\subset\)類縁)。
  • 図3.4
    相同性検索のイメージです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • 相同性検索(homology search)
    リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • 比較ゲノム(comparative genomics)
    リンク先は「比較ゲノミクス」です。異なる生物の間でゲノムの構造を比較することにより、それらの進化上の関係、および進化の過程を推定する研究のことです。
  • 遺伝子発現解析(gene expression analysis)
    トランスクリプトーム解析の一分野であり、対象サンプルの遺伝子発現を調べることです。
  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • FASTAPearson and Lipman, Proc Natl Acad Sci USA., 1988
    DNAの塩基配列とタンパク質のアミノ酸配列のシーケンスアラインメントを行うための、バイオインフォマティクスのソフトウェアパッケージです。FASTA形式というのは、元来このFASTAという名前のアラインメントプログラムが入力として使っていたファイル形式のことを指します。

  • 図3.4
    相同性検索のイメージです。

3.3.1 BLAST検索

  • DNAシーケンス技術(DNA sequencing technology)
    DNAの塩基配列を決定する技術のことです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • 配列DB
    配列データベースのことです。データベース(database; DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたもののことです。
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • 最適アラインメント(optimal alignment)
    配列類似度を最大にするアラインメントのことです。
  • FASTAPearson and Lipman, Proc Natl Acad Sci USA., 1988
    DNAの塩基配列とタンパク質のアミノ酸配列のシーケンスアラインメントを行うための、バイオインフォマティクスのソフトウェアパッケージです。FASTA形式というのは、元来このFASTAという名前のアラインメントプログラムが入力として使っていたファイル形式のことを指します。
  • ハッシュ法(hash method)
    リンク先は「ハッシュ関数」です。任意のデータから、別の(多くの場合は短い固定長の)値を得るための方法のことです。主に検索の高速化やデータ比較処理の高速化、さらには改竄の検出に使われる。たとえば、データベース内の項目を探したり、大きなファイル内で重複しているレコードや似ているレコードを検出したり、核酸の並びから類似する配列を探したりといった場合に利用されます。
page083
  • 表3.1
    BLAST検索の種類をまとめたものです。

  • Smith-Waterman法(Smith–Waterman algorithm)
    リンク先は「Smith–Waterman algorithm」です。動的計画法に基づく、最適局所アラインメントを求める手法です。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。

  • BLAST検索(BLAST search)
    BLASTを用いて相同性検索を行うことです。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • DB
    データベースのことです。
  • 表3.1
    BLAST検索の種類をまとめたものです。

3.3.2 BLAST検索の使用例

  • NCBISayers et al., Nucleic Acids Res., 2021
    バイオテクノロジーや分子生物学に関連する一連のデータベースの構築および運営、そして研究に用いられるソフトウェアの開発を行っており、バイオインフォマティクスにおける重要なリソースとなっています。GenBankPubMeddbSNPなど、生命科学分野の主要なリソースを提供する大元締め的なところです。
  • Protein BLAST (blastp)
    NCBIのProtein BLASTのページにリンクを張っています。
  • 図3.5
    クエリ配列の入力画面です。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • DB
    データベースのことです。
  • nr
    non-redundant protein sequencesの略です。冗長性をなくしたアミノ酸配列DBです。これを用いることで、全く同じ検索結果が重複して表示されないメリットがあります。「えぬあーる」と読みます。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 相同性検索(homology search)
    リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • PSI-BLASTAltschul et al., Nucleic Acids Res., 1997
    position-specific iterated BLASTの略です。BLAST検索で得られたトップヒット群の位置特異的なスコア情報を用いてさらにBLAST検索を繰り返すことで、高感度な結果が得られる配列類似性検索アルゴリズムです。
  • PHI-BLASTZhang et al., Nucleic Acids Res., 1998
    Pattern Hit Initiated BLASTの略です。

  • 相同性検索(homology search)
    リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • 相同性(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 図3.7
    BLAST検索結果の表示例です。通常は図3.6のほうを先に見るのですが、まずは検索結果画面を先に見せたかったため、意図的にこのようにしています。
  • デフォルト(default)
    初期値とか初期設定という意味です。「何も指定しなければこの条件設定でやります」というもののことです。
  • E-value
    バイオインフォマティクス分野で塩基またはアミノ酸配列をクエリとしてデータベース検索を行う際に指定する類似性指標のことです。「いーばりゅー」と読み、0に近い値ほどクエリ配列とヒットした配列の類似度が高いと判断します。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。この場合は、シンプルに検索条件のことだと理解すればよいです。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • 図3.6
    BLASTのパラメータ設定の画面です。図3.7と出現順は異なりますが、通常は図3.6のほうを先に見るため意図的にこのようにしています。

page084
  • 図3.5
    クエリ配列の入力画面です。
  • 図3.6
    BLASTのパラメータ設定の画面です。図3.7と出現順は異なりますが、通常は図3.6のほうを先に見るため意図的にこのようにしています。
  • 図3.7
    BLAST検索結果の表示例です。通常は図3.6のほうを先に見るのですが、まずは検索結果画面を先に見せたかったため、意図的にこのようにしています。
page085
  • 図3.7
    BLAST検索結果の表示例です。通常は図3.6のほうを先に見るのですが、まずは検索結果画面を先に見せたかったため、意図的にこのようにしています。
  • 相同性検索(homology search)
    リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • 図3.8
    BLAST検索結果のアラインメントの表示例です。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。

  • 例題3.3
    1ページ目が問題、2ページ目以降が解答例です。
    • シロイヌナズナ(Arabidopsis thaliana)
      アブラナ科シロイヌナズナ属の一年草です。植物のモデル生物として有名です。
    • ホウ素トランスポーター(Boron Transporter)
      環境中に比較的多く存在する元素であるホウ素(元素記号B)の吸収や輸送を制御する輸送体(transporter)です。膜タンパク質です。
    • NP_850469.1
      シロイヌナズナのホウ素トランスポーターのNCBIのエントリです。NCBIGeneというカテゴリにおいて、NP_850469.1で直接検索すると得られます。あるいは、「Arabidopsis thaliana boron transporter」で検索していただくと9件ヒット(2023年5月31日調べ)しますが、そのうちのGene ID: 819329と同じものになります。同じものであるにもかかわらず複数のIDが存在することに違和感を覚えるかもしれませんが、一般論としてゲノム情報の蓄積によって情報の整理がなされていくものですので「そんなものだ」と割り切るしかありません。
    • BOR1_ARATH
      シロイヌナズナのホウ素トランスポーターのUniProtのエントリです。UniProtKBにおいて、上記と同様にBOR1_ARATHで直接検索すると得られます。あるいは、「Arabidopsis thaliana boron transporter」で検索していただくと55件ヒット(2023年5月31日調べ)しますが、そのうちのQ8VYR7 · BOR1_ARATHと同じものになります。
    • アミノ酸配列(amino acid sequence)
      リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
    • クエリ(query)
      問い合わせることです。
    • NCBISayers et al., Nucleic Acids Res., 2021
      バイオテクノロジーや分子生物学に関連する一連のデータベースの構築および運営、そして研究に用いられるソフトウェアの開発を行っており、バイオインフォマティクスにおける重要なリソースとなっています。GenBankPubMeddbSNPなど、生命科学分野の主要なリソースを提供する大元締め的なところです。
    • Protein BLAST (blastp)
      NCBIのProtein BLASTのページにリンクを張っています。
    • パラメータ(parameter)
      リンク先は「媒介変数」です。この場合は、シンプルに検索条件のことだと理解すればよいです。
    • E-value
      バイオインフォマティクス分野で塩基またはアミノ酸配列をクエリとしてデータベース検索を行う際に指定する類似性指標のことです。「いーばりゅー」と読み、0に近い値ほどクエリ配列とヒットした配列の類似度が高いと判断します。
    • 配列一致度(sequence identity)
      比較する2本の配列が似ている度合いを表す指標の1つです。配列のアラインメントをとったとき、対応する文字が一致する割合を示すものです。分子(numerator)が「対応する文字が一致する数」、分母(denominator)が「アラインメントの長さ」です。

3.3.3 BLAST検索のアルゴリズム

  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • 図3.9
    BLASTの手順です。

  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • 類似度スコア(similarity score)
    進化における変異のしやすさなどをもとに定義される、ある文字(塩基または残基)と別のある文字がどれくらい似ているかを数値化したスコアのことです。
  • 文字(charactor)
    この場合は、塩基やアミノ酸のことです。毎回「塩基またはアミノ酸」とか「DNA配列またはアミノ酸配列」のように書かなくても済むように文字という言葉で話を進めていると理解すればよいです。
  • 類似度(similarity)
    どのくらい似ているかを表す指標です。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • 置換スコア行列(substitution score matrix)
    タンパク質配列中のあるアミノ酸の別のアミノ酸への変わりやすさをスコア化したものを、全20種類のアミノ酸について数値行列の形で保持したものです。
  • Protein BLAST (blastp)
    NCBIのProtein BLASTのページにリンクを張っています。
  • Nucleotide BLAST (blastn)
    NCBIのNucleotide BLASTのページにリンクを張っています。
  • デフォルト(default)
    初期値とか初期設定という意味です。「何も指定しなければこの条件設定でやります」というもののことです。
  • 感度(sensitivityまたはrecall)
    この場合は、「本当は進化的な類縁関係があるにもかかわらず、それを同定できないこと」という理解でよいです。

page086
  • 図3.9
    BLASTの手順です。
  • DB配列(database sequences)
    指定したデータベース中の配列群のことです。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • Aho-Corasick法(Aho–Corasick algorithm)
    リンク先は「エイホ–コラシック法」です。入力テキストについて有限の文字列群(辞書)の各要素を探す辞書式マッチングアルゴリズムの一種です。
  • Aho and Corasick, ACM, 1975
    Aho-Corasick法の原著論文です。
  • 木構造(tree structure)
    リンク先は「木構造 (データ構造)」です。グラフ理論の木の構造をしたデータ構造のことです。木構造は、一般のグラフ構造と同様の、ノード(節点、頂点)とノード間を結ぶエッジ(枝、辺)あるいはリンクで表すこともできますが、木構造専用の、特に有向の根付き木となるような表現が使われることも多いです。
  • 挿入・欠失
    リンク先は「インデル」です。ゲノム上のある場所に1~数十塩基程度の塩基配列が組み込まれるのが挿入(insertion)、逆に元からあった1~数十塩基程度の領域がなくなるのが欠失(deletion)です。2つのイベントを総称してインデル(indel)ともいいます。

  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • DB配列(database sequences)
    指定したデータベース中の配列群のことです。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • 類似度スコア(similarity score)
    進化における変異のしやすさなどをもとに定義される、ある文字(塩基または残基)と別のある文字がどれくらい似ているかを数値化したスコアのことです。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • アラインされた配列
    「アラインメントをとった状態の配列」と同じという理解でよいです。

  • 閾値(threshold)
    境目となる値のことです。この場合は、「問い合わせる側の配列」と「問い合わせられる側の配列」が類似していると判断する境目として設定する値のことです。ここで述べている閾値Sは、式(3.4)の左辺のことではありません(あれは小文字のs)のでご注意ください。
  • HSP
    High-scoring Segment Pairの略です。一定の閾値S以上のスコアをもつ類似部分のことです。
  • 統計的有意性(statistical significance)
    この場合は、HSPが同じ長さのランダムな一致領域と比べて有意かどうかということです。
  • 有意(significance)
    リンク先は「有意」です。確率論・統計学の用語で、「確率的に偶然とは考えにくく、意味があると考えられる」ことです。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • DB
    データベースのことです。

  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • HSP
    High-scoring Segment Pairの略です。一定の閾値S以上のスコアをもつ類似部分のことです。
  • DBの配列(database sequences)
    指定したデータベース中の配列群のことです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • アラインメントのスコア(alignment score)
    配列類似度と同じで、比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。

  • HSP
    High-scoring Segment Pairの略です。一定の閾値S以上のスコアをもつ類似部分のことです。
  • 統計的有意性(statistical significance)
    この場合は、HSPが同じ長さのランダムな一致領域と比べて有意かどうかということです。
  • E-value
    バイオインフォマティクス分野で塩基またはアミノ酸配列をクエリとしてデータベース検索を行う際に指定する類似性指標のことです。「いーばりゅー」と読み、0に近い値ほどクエリ配列とヒットした配列の類似度が高いと判断します。具体的には、HSPの配列と、検索対象のDBと同じ長さのランダムな配列で、スコア\(S\)以上のアラインメントが得られる個数の期待値です。
  • Karlin and Altschul, Proc Natl Acad Sci USA., 1990
    式(3.5)のE-valueに関する原著論文です。
  • \(m\), \(n\)
    アラインメント前の2本の配列の長さのことです。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
page087
  • 式(3.5)
    初刷では\(\exp(\lambda S)\)となっていますが、正しくは\(\exp(- \lambda S)\)ですm(_ _)m \[ E(x \geq S) = Kmn \exp(- \lambda S) \tag{3.5} \] 以下は記号の説明です:
    • \(m\), \(n\)
      アラインメント前の2本の配列の長さのことです。
    • \(x\)
      長さ\(m\), \(n\)の2本の配列のアラインメントのスコアのことです。
    • \(S\)
      長さ\(m\), \(n\)の2本の配列のアラインメントのスコア\(x\)の統計的有意性を評価する際に定める閾値、という理解でよいです。同じ長さのランダムな配列どうしでも、一定のアラインメントスコアが得られますので、アラインメントによって得られた\(x\)というスコアが、同じ長さのランダムな配列どうしのアラインメントで得られたスコア分布のどのあたりに位置するか(つまり統計的な有意性があるかどうか)が重要なポイントです。、\(S\)は、それを定めるために設定するスコアの閾値という位置づけです。スコアの最大値が\(S\)以上である分布は極値分布に従い、\(S\) = \(\frac{\ln(Kmn)}{\lambda}\)で与えられます。
    • \(K\)
      文字の出現確率および置換スコアに依存する定数のことです。
    • \(\lambda\)
      対数尤度比と置換スコアとの比です。

  • \(K\)
    文字の出現確率および置換スコアに依存する定数のことです。
  • \(\lambda\)
    対数尤度比と置換スコアとの比のことです。
  • DB
    データベースのことです。
  • BLAST検索(BLAST search)
    BLASTを用いて相同性検索を行うことです。
  • \(n\)
    基本的には「長さ\(m, n\)の2本の配列」の後者の配列長のことですが、DBに対するBLAST検索の場合は、DB中の全配列の長さの和です。
  • 極値分布(extreme value distribution)
    確率論および統計学において、ある累積分布関数にしたがって生じた大きさ\(n\)の標本 \(X_1, X_2, ..., X_n\)のうち、\(S\)以上(あるいは以下)となるものの個数がどのように分布するかを表す、連続確率分布モデルです。
  • 解析的(analytic)
    方程式の解が、いろいろ式変形していけば得られるということです。
  • ギャップ(gap)
    アラインメント時に、対応する文字がないことであり、「-」で表します。
  • 局所アラインメント(local alignment)
    リンク先は「シーケンスアラインメント」です。配列の類似部分が限定されている場合に、配列の一部である類似部分に限定してアラインメントをとることです。ローカルアラインメントともいいます。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。生命現象を説明するのに必要な”登場人物”に相当するのが”要素”で、その要素に掛ける”係数”のようなイメージで”パラメータ”を捉えるとよいと思います。

  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • HSP
    High-scoring Segment Pairの略です。一定の閾値S以上のスコアをもつ類似部分のことです。
  • アラインメントのスコア(alignment score)
    配列類似度と同じで、比較する2本の配列が似ている度合いを表す指標の1つです。大域アラインメントの場合は「対応する文字の類似度をアラインメント全体で足したもの」、局所アラインメントの場合は「スコア行列\(F\)中の要素の最大値」という理解でよいです。
  • E-value
    バイオインフォマティクス分野で塩基またはアミノ酸配列をクエリとしてデータベース検索を行う際に指定する類似性指標のことです。「いーばりゅー」と読み、0に近い値ほどクエリ配列とヒットした配列の類似度が高いと判断します。具体的には、HSPの配列と、検索対象のDBと同じ長さのランダムな配列で、スコア\(S\)以上のアラインメントが得られる個数の期待値です。
  • DBの配列(database sequences)
    指定したデータベース中の配列群のことです。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。

  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • ビットスコア(bit score)
    アラインメントスコアをアミノ酸置換マトリックス(置換スコア)やギャップスコアに依存しないように正規化したスコア\(S^{\prime}\)のことです。単位がビットなのでそうよびます。\(S^{\prime}\) = \(\frac{\lambda S - \ln K}{\ln 2}\)で定義されます。初刷では\(S^{\prime} = \frac{\lambda S - \ln K}{ln 2}\)と書かれていますが、正しくは\(S^{\prime} = \frac{\lambda S - \ln K}{\ln 2}\)ですm(_ _)m。分母の\(\ln\)が斜体ではなくローマン体(立体)だということです。
  • 式(3.6)
    \[ E(x \geq S^{\prime}) = mn 2^{-S^{\prime}} \tag{3.6} \] 以下は記号の説明です:
    • \(m\), \(n\)
      アラインメント前の2本の配列の長さのことです。
    • \(x\)
      長さ\(m\), \(n\)の2本の配列のアラインメントのスコアのことです。
    • \(S^{\prime}\)
      アラインメントスコアをアミノ酸置換マトリックス(置換スコア)やギャップスコアに依存しないように正規化したスコアのことです。

  • 式(3.5)とビットスコアからの式(3.6)の導出についての詳細な解説
    大まかには、ビットスコアの数式を\(\lambda S = ...\)の形に変形し、それを式(3.5)に代入する流れになります。ちなみに\(\ln\) = \(\log_e\)です。
    1. ビットスコアの数式の両辺に\(\ln 2\)を掛ける
      \[ S^{\prime} \times \ln 2 = \lambda S - \ln K \]
    2. 左辺と右辺を入れ替えて、両辺に\(\ln K\)を足す \[ \lambda S = S^{\prime} \times \ln 2 + \ln K \]
    3. 対数の性質である\(m \times \ln 2 = \ln 2^m\)より
      \[ \lambda S = \ln 2^{S^{\prime}} + \ln K \]
    4. 対数の性質である\(\ln X + \ln Y = \ln XY\)より
      \[ \lambda S = \ln (2^{S^{\prime}} K) \]
    5. 得られた\(\lambda S = \ln (2^{S^{\prime}} K)\)を式(3.5)に代入
      \[ E(x \geq S) = Kmn \exp(- \ln (2^{S^{\prime}} K)) \]
    6. \(-\ln a\) = \(\ln \frac{1}{a}\)や、\(-\ln 2^a\) = \(\ln \frac{1}{2^a}\)や、\(-\ln 2^a B\) = \(\ln \frac{1}{2^a B}\)より
      \[ E(x \geq S) = Kmn \exp(\ln (\frac{1}{2^{S^{\prime}} K})) \]
    7. 対数の定義(\(x = a^p\) ↔︎ \(p = \log_ax\))より、\(a^{\log_ax}\) = \(x\)が成立します。同様に、\(e^{\log_ex}\) = \(e^{\ln x}\) = \(\exp(\ln x)\) = \(x\)が成立しますので…
      \[ E(x \geq S) = Kmn \times \frac{1}{2^{S^{\prime}} K} = mn \times \frac{1}{2^{S^{\prime}}} \]
    8. \(\frac{1}{a}\) = \(a^{-1}\)や、\(\frac{1}{2^a}\) = \(2^{-a}\)より
      \[ E(x \geq S) = mn \times 2^{-S^{\prime}} \] なお、ビットスコアの体系における期待値\(E\)の式として、あらためて\(E(x \geq S^{\prime})\) = \(mn \times 2^{-S^{\prime}}\)と書くことができます。よりかみ砕いた説明としては、例えば正規分布でよく閾値を0.05(95%信頼区間)や0.01(99%信頼区間)に設定します。これは\(S\) = 0.05や0.01に相当します。一方で、この正規分布を平均(\(\mu\))が0、標準偏差(\(\sigma\))が1になるように変換したものをZスコア(Z-score)いいます(偏差値と似たようなものです)。Zスコアの体系で用いる閾値が\(S^{\prime}\)に相当し、さきほどのp-valueでの\(S\) = 0.05や0.01は\(S^{\prime}\) = 1.96や2.58に相当します。しかしZスコアの体系では1.96や2.58のような中途半端な閾値ではなく、2や3のようなスッキリした閾値に変更されます。それゆえ、式(3.5)の左辺の閾値と式(3.6)の左辺の閾値の値が変わっていても特に問題ないのだと理解すればよいです。

  • ビットスコア(bit score)
    アラインメントスコアをアミノ酸置換マトリックス(置換スコア)やギャップスコアに依存しないように正規化したスコア\(S^{\prime}\)のことです。単位がビットなのでそうよびます。\(E(x \geq S^{\prime})\) = \(\frac{\lambda S - \ln K}{\ln 2}\)で定義されます。
  • \(\lambda\)
    対数尤度比と置換スコアとの比のことです。
  • \(K\)
    文字の出現確率および置換スコアに依存する定数のことです。
  • \(S\)
    配列のアラインメントのスコアのことです。
  • 置換スコア(substitution score)
    類似度スコアを具体化したものだという理解でよいです。ある文字(塩基または残基)の別のある文字への変わりやすさをスコア化したものです。たとえば、ロイシン(Leu)とイソロイシン(Ile)は性質的にも同じ疎水性残基ですので、LeuからIleへは変わりやすいといえます。しかし、Leuから極性残基のアルギニン(Arg)への置換は起こりにくいといえます。前者の置換スコアは高く、後者は低くなります。

3.3.4 Stand-alone BLAST を利用した相同性検索

  • Stand-alone BLAST
    ローカルなコンピュータ上で動くBLASTのプログラムのことです。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • 相同性検索(homology search)
    リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
  • クエリ配列(query sequence)
    DBに問い合わせる配列のことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 比較ゲノム(comparative genomics)
    リンク先は「比較ゲノミクス」です。異なる生物の間でゲノムの構造を比較することにより、それらの進化上の関係、および進化の過程を推定する研究のことです。
  • W3.4
    Stand-alone BLASTに関する補足資料です。

3.4 多重配列アラインメント(MSA)

3.4.1 MSAの手法

  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • ペアワイズアラインメント(pairwise alignment)
    リンク先は「シーケンスアラインメント」です。アラインメントは手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べることであり、その作業を2本の配列で行うのがペアワイズアラインメントです。3本以上の場合をマルチプルアラインメント(または多重配列アラインメント)といいます。
  • 多重配列アラインメント(multiple sequence alignment; MSA)
    リンク先は「多重整列」です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • 動的計画法(Dynamic Programming; DP)
    対象となる問題を複数の部分問題に分割し、部分問題の計算結果を記録しながら解いていく手法の総称です。
  • 記憶容量(units of information)
    この場合はパソコンのメモリのことです。
  • ヒューリスティク(heuristic)
    リンク先は「ヒューリスティクス」です。必ずしも正しい答えを導けるとは限らないが、ある程度のレベルで正解に近い解を得ることができる方法のことです。発見的手法ともいいます。答えの精度が保証されない代わりに、解答に至るまでの時間が短いという特徴があります。
  • ツリーアラインメント(tree alignment)
    リンク先は「シーケンスアラインメント」です。最も似ている配列どうしを最初にアラインメントし、順次配列を加えてゆくことによってMSAを構築していく方法です。

page088
  • ツリーアラインメント(tree alignment)
    リンク先は「シーケンスアラインメント」です。最も似ている配列どうしを最初にアラインメントし、順次配列を加えてゆくことによってMSAを構築していく方法です。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 図3.10
    ツリーアラインメントの実行例です。

  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • ペアワイズアラインメント(pairwise alignment)
    リンク先は「シーケンスアラインメント」です。アラインメントは手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べることであり、その作業を2本の配列で行うのがペアワイズアラインメントです。3本以上の場合をマルチプルアラインメント(または多重配列アラインメント)といいます。
  • 類似度スコア(similarity score)
    進化における変異のしやすさなどをもとに定義される、ある文字(塩基または残基)と別のある文字がどれくらい似ているかを数値化したスコアのことです。
  • 距離(distance)
    一般的な数値が小さいほど距離が近いようなイメージで捉えるとよいです。そして距離が近い(距離の値が0に近い)ほど、比較する配列間の類似度が高いと判断します。本文中でも書かれているように、類似度スコアの場合(値が大きいほど類似度が高い)とは数値の解釈の仕方が異なります。

  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 案内木(guide tree)
    リンク先は「多重整列」です。ツリーアラインメントを行う際に、計算量を抑えるために使われている近似的な系統樹のことです。案内木は、近隣結合法ないし非加重結合法による階層型クラスタリングによって作られます。ガイドツリーともいいます。

  • 案内木(guide tree)
    リンク先は「多重整列」です。ツリーアラインメントを行う際に、計算量を抑えるために使われている近似的な系統樹のことです。案内木は、近隣結合法ないし非加重結合法による階層型クラスタリングによって作られます。ガイドツリーともいいます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。

  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • Clustal WThompson et al., Nucleic Acids Res., 1994
    リンク先は「Clustal」です。ツリーアラインメントでMSAを構築するプログラムの1つです。
  • Needleman-Wunsch法(Needleman-Wunsch algorithm)
    リンク先は「Needleman–Wunsch algorithm」です。動的計画法に基づいて、最適な大域アラインメントを行うアルゴリズムのことです。
  • kタプル法(k-tuple method)
    k個の連続した文字の一致をもとにアラインメントを構築する手法です。
  • ペアワイズアラインメント(pairwise alignment)
    リンク先は「シーケンスアラインメント」です。アラインメントは手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べることであり、その作業を2本の配列で行うのがペアワイズアラインメントです。3本以上の場合をマルチプルアラインメント(または多重配列アラインメント)といいます。
  • 近隣結合法(neighbor joining method; NJ法)
    リンク先は「近隣結合法」です。系統樹を作成するためのボトムアップ式のクラスタ解析法です。星型の樹形から出発してOTU (系統樹の葉にあたる分類群)をクラスタリングする各段階において、総分岐長を最小化するOTUの組を発見することを原理としています。解析可能な系統樹の樹形や枝長を短時間で求めることができるのが特徴です。
  • 案内木(guide tree)
    リンク先は「多重整列」です。ツリーアラインメントを行う際に、計算量を抑えるために使われている近似的な系統樹のことです。案内木は、近隣結合法ないし非加重結合法による階層型クラスタリングによって作られます。ガイドツリーともいいます。
  • Clustal OmegaSievers et al., Mol Syst Biol., 2011
    MSA構築アルゴリズムの1つです。Clustal Wの高速化と精度の向上を図ったものです。
  • EBI
    EMBLの一部門であり、バイオインフォマティクス関連の研究を行っている研究所です。昔からある塩基配列DBであるEMBL(こっちは組織名ではなくDB名)やUniProtなどを運営しています。

  • kタプル法(k-tuple method)
    k個の連続した文字の一致をもとにアラインメントを構築する手法です。
  • ペアワイズアラインメント(pairwise alignment)
    リンク先は「シーケンスアラインメント」です。アラインメントは手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べることであり、その作業を2本の配列で行うのがペアワイズアラインメントです。3本以上の場合をマルチプルアラインメント(または多重配列アラインメント)といいます。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • 距離(distance)
    一般的な数値が小さいほど距離が近いようなイメージで捉えるとよいです。そして距離が近い(距離の値が0に近い)ほど、比較する配列間の類似度が高いと判断します。
  • k平均法(k-means clustering)
    非階層型クラスタリングのアルゴリズムです。クラスタの平均を用い、与えられたクラスタ数k個に分類するのが特徴です。k-平均法(k-means)、c-平均法(c-means)ともよばれます。この場合は、MSAの入力である3つ以上の配列をk個のクラスターに分けようとしているのだと解釈すればよいです。
  • クラスタリング(clustering)
    リンク先は「データ・クラスタリング」です。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法、またそのアルゴリズムのことです。データの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法に大別できます。
  • クラスタ(cluster)
    この場合は、MSAの入力である3つ以上の配列の部分集合のことを指します。たとえば配列A, B, C, D, Eがあったときに、k平均法でk=2として実行すると2つのクラスタに分類します。たとえばAとCが1つのクラスタで、残りのBとDとEが1つのクラスタを形成するようなイメージです。各クラスタに含まれる構成要素のことをメンバーといいます(この場合は配列)。
  • メンバ(member)
    この場合は、各クラスタの構成要素のことです。クラスタの構成要素が塩基配列のときは塩基配列、遺伝子のときは遺伝子がクラスタのメンバになります。
  • UPGMA
    リンク先は「非加重結合法」です。UPGMAは、Unweighted Pair Group Method with Arithmetic meanの略です。系統樹を作製するためのボトムアップ式のクラスタ解析法です。入力データは対象の各ペア間の距離であり、有根系統樹が作製されます。進化速度が一定(分子時計仮説)と仮定して有根系統樹を作成する際に用いられます。UPGMAは、距離行列を用いた系統推定法である距離行列法の1つであり、総枝長が最短となる樹形が最適樹であると考える最小進化原理に基づいています。
  • 案内木(guide tree)
    リンク先は「多重整列」です。ツリーアラインメントを行う際に、計算量を抑えるために使われている近似的な系統樹のことです。案内木は、近隣結合法ないし非加重結合法による階層型クラスタリングによって作られます。ガイドツリーともいいます。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • HMM
    隠れマルコフモデル(Hidden Markov Model)のことです。確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
  • HH-suiteSteinegger et al., BMC Bioinformatics, 2019
    高感度なタンパク質配列検索を行うためのオープンソースのソフトウェアパッケージです。HH-suiteのwikiページにも解説があります。

  • MSA
    多重配列アラインメント(multiple sequence alignment)の略です。マルチプルアラインメントともいいます。3つ以上の塩基配列またはアミノ酸配列を並べて比較することです。
  • T-CoffeeNotredame et al., J Mol Biol., 2000
    MSA用プログラムです。
  • MAFFTKatoh and Standley, Mol Biol Evol., 2013
    MSA用プログラムです。
  • MUSCLEEdgar RC., Nucleic Acids Res., 2004
    MSA用プログラムです。
  • ツリーアラインメント(tree alignment)
    リンク先は「シーケンスアラインメント