page171

第6章 生物配列統計学

6.1 種間の多様性と分子進化

  • 図6.1
    種間の多様性と種内の多様性です。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 種分化(speciation)
    新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
  • 絶滅(extinction)
    1つの生物種のすべての個体が死ぬことによって、その種が絶えることです。種全体に対してではなく個体群に対して用いることもあります。ただし野生のものも含めてすべての個体の死亡を確認するのは難しく、絶滅したとされた種の個体が後になって生存を確認されることもあります。
  • 地球(The Earth)
    人類を含む多種多様な生命体が生存する天体で、太陽系の惑星の1つです。太陽から3番目に近く、表面に水、空気中に酸素を大量に蓄え、多様な生物が生存することを特徴とする惑星です。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 祖先(ancestor)
    リンク先は「先祖」です。現代人の、既に亡くなった数世代以前の血縁者全般のこと。狭義では、直系の尊属を指す場合が多いです。対義語は子孫、後裔(こうえい)、または末裔(まつえい)です。 生物学的な側面では、進化分類学において、ある生物種の進化前の段階をしばしばこのようによびます。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
page172
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 系図(family tree)
    ある一族の代々の系統を書き表した図表のことです。系譜(けいふ)ともいいますが、系譜と言った場合は血縁関係のみならず、学芸の師匠から弟子への師承関係を表した図表をいう場合も多いです。なお、特定の家の家督相続の継承の系統(家系)を記した系図は家系図(かけいず)、家譜(かふ)ともいいます。

  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 世代(generation)
    「親、祖父母、子供、孫と数える助数詞」や「ほぼ同時期に誕生した集団」という理解でよいです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 複製(replication)
    リンク先は「DNA複製」です。細胞分裂における核分裂の前に、DNAが元の数の2倍となる過程のことです。生命科学分野ではDNA複製のことを複製を略すことが多いです。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 発現(expression)
    リンク先は「遺伝子発現」です。遺伝情報に基づいてRNAやタンパク質が合成されることを指します。
  • 選択圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を増していくことを選択(selection)といい、このような変化が起こる要因のこと指します。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 適応(adaptation)
    進化という観点では「生物種がある環境のもとで生活するのに有利な形質を持っていること」を指しますが、この場合は「何らかの状況にふさわしいことや合致していること」を指します。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • 近縁種(closely related species) 生物で分類上非常に近い関係にある種のことです。
  • チンパンジー(Pan troglodytes)
    哺乳綱霊長目ヒト科チンパンジー属に分類される類人猿のことです。
  • 共通祖先(common descent)
    この場合は、ヒトという生物種内の大元という理解でよいと思います。
  • 遺伝的多型(genetic polymorphism)
    リンク先は「多型」です。遺伝的多型とは、同じ生物種の集団のうちに遺伝子型(ある生物の個体が持つ遺伝物質の構成)の異なる個体が存在すること、またはその異なる遺伝子・DNA配列のことを指します。
  • 遺伝的多様性(genetic diversity)
    (同一生物種内の)遺伝子型(ある生物の個体が持つ遺伝物質の構成)の多様性のことです。

6.1.1 分子進化の中立説と分子系統樹

  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 適応(adaptation)
    進化という観点では「生物種がある環境のもとで生活するのに有利な形質を持っていること」を指しますが、この場合は「何らかの状況にふさわしいことや合致していること」を指します。
  • 推定(estimation)
    現状知り得た情報や傾向を元に、知り得ない事象を決めることです。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • 中立説(neutral theory)
    リンク先は「中立進化説」です。分子レベルでの遺伝子の変化は大部分が自然淘汰に対して有利でも不利でもなく中立的であり、突然変異と遺伝的浮動が進化の主因であるとする説のことです。

  • 環境(environment) 広義では、人や生物を取り巻く家庭・社会・自然などの外的な事の総体です。狭義では、その中で人や生物に何らかの影響を与えるものだけを指す場合もあります。特に限定しない場合は、人間を中心とする生物・生態系を取り巻く環境のことである場合が多いです。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • 淘汰圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を減少させていくことを淘汰(selection)といい、このような変化が起こる要因のこと指します。 選択圧と英語が同じですが、選択と淘汰は表裏一体であることを考慮すれば妥当…かもしれません。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 適応進化(adaptiogenesisまたはadaptive evolution)
    リンク先は「適応」です。生物種が自分の形質を自分がいる環境に合わせて世代を経るごとに変化させていくこと、という理解でよいです。
  • Haldane JBS., J Genet., 1957
  • 適応(adaptation)
    進化という観点では「生物種がある環境のもとで生活するのに有利な形質を持っていること」を指しますが、この場合は「何らかの状況にふさわしいことや合致していること」を指します。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • Zuckerkandl and Pauling, Molecular disease, evolution, and genic heterogeneity, 189–225, 1962
    分子時計の提唱論文です。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ヘモグロビン(hemoglobin; Hb)
    ヒトを含むすべての脊椎動物や一部のその他の動物の血液中に見られる赤血球の中に存在するタンパク質です。1960年頃にはアミノ酸配列が決定されています。
  • 化石(fossil)
    地質時代に生息していた生物が死骸となって永く残っていたもの、もしくはその活動の痕跡のことです。
  • 種分化(speciation)
    新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
  • 分子時計(molecular clock)
    生物種間の分子的な違いを比較し、進化過程で分岐した年代を推定したもの。「生物種間の類縁度が高いほどアミノ酸配列が異なる個数は少ない」という事実から、配列の類似性を頼りにして分岐年代が推定できるのでは?!というアイデアのことを指します。

  • Kimura M., Nature, 1968
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • ヘモグロビン(hemoglobin; Hb)
    ヒトを含むすべての脊椎動物や一部のその他の動物の血液中に見られる赤血球の中に存在するタンパク質です。1960年頃にはアミノ酸配列が決定されています。
  • シトクロームc(cytochrome c)
    ミトコンドリアの内膜に弱く結合しているヘムタンパク質の一種。上記の中立説論文に使われるくらい昔(1960年頃)にアミノ酸配列が決定されています。
  • 三炭糖(triose)
    3個の炭素原子を含む単糖である。アルドトリオース(グリセルアルデヒド)とケトトリオース(ジヒドロキシアセトン)のみが存在する。トリオースは細胞呼吸において重要な生体物質であり、乳酸とピルビン酸はアルドトリオースとケトトリオースから誘導されます。
  • 脱水素酵素(dehydrogenase)
    NAD+/NADP+やFADやFMNのようなフラビン補酵素により基質から1つあるいはそれ以上の数の水素(H)を奪い取って酸化する酵素のことです。
  • 三炭糖リン酸脱水素酵素(glyceraldehyde-3-phosphate dehydrogenase(NADP+))
    解糖系/糖新生を構成する酵素です。この酵素の基質はD-グリセルアルデヒド-3-リン酸とNADP+と水、生成物は3-ホスホ-D-グリセリン酸とNADPHとH+です。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 塩基置換(nucleotide substitution)
    リンク先は「点突然変異」です。ある塩基が別の塩基に置き換わるイベントのことです。
  • Haldane JBS., J Genet., 1957
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 変異(mutation)
    リンク先は「突然変異」です。DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 適応度(fitness)
    生物学、とくに集団遺伝学など数理生物学分野で用いられる語であり、ざっくりいえばその生物個体がどれほどその生活する環境に適応しているかを示す値です。
  • 中立説(neutral theory)
    リンク先は「中立進化説」です。分子レベルでの遺伝子の変化は大部分が自然淘汰に対して有利でも不利でもなく中立的であり、突然変異と遺伝的浮動が進化の主因であるとする説のことです。
  • 淘汰圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を減少させていくことを淘汰(selection)といい、このような変化が起こる要因のこと指します。 選択圧と英語が同じですが、選択と淘汰は表裏一体であることを考慮すれば妥当…かもしれません。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 収斂進化(convergent evolution)
    似たような場所で似たような生活をしている異なる種どうしが、長い年月をかけて似た性質や特徴(つまり形質)を独立に獲得していく現象のことです。 この「似たような場所で似たような生活をしている」というのは、ある生物種が生活を営む上で利用する環境的な要因とも捉えることができますが、これを生態的地位あるいはニッチ(niche)といいます。
  • 配列(sequence)
    この場合は、アミノ酸配列や塩基配列のことを指します。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。

  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 最小進化の規準(minimal evolution criteria)
    「進化の履歴に関していくつかのシナリオが考えられるとき、進化的イベントの数が少ないものを選択する」という考え方です。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
page173
  • 最尤法(method of maximum likelihood)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法です。比較したい複数の生物種由来のアミノ酸配列または塩基配列を並べて(アラインメントをとる、みたいな表現をします)、生物種間で違いのあるサイト(何番目の塩基か、みたいな理解でよい)に着目して系統樹を作成したいのですが、この際に「ある分子(例:アミノ酸残基)が別の分子に置換する際に、分子の種類によって置換しやすさが異なる」のです。似た生物種どうしだと違いのあるサイト数自体が少なく、遠く離れた生物種どうしであるほど異なるサイト数が増える傾向となります。置換分子の組み合わせによっても置換しやすさに違いがあるため、樹形図の可能性は無数にあります。最尤法(最尤推定法の略)は、多くの可能性の中から一番尤もらしい選択肢を得るための有力な方法です。EMアルゴリズム(Expectation-Maximization algorithm)は、確率モデルのパラメータを最尤推定する手法の1つであり、観測不可能な潜在変数に確率モデルが依存する場合に用いられます。
  • ベイズ推定(Bayesian inference)
    観測事象(観測された事実)から、推定したい事柄(それの起因である原因事象)を、ベイズ確率の考え方に基づいて推論することです。この場合の観測事象は置換分子のセットに、そして推定したい事柄が樹形図に相当します。
  • 確率モデル(probabilistic model)
    リンク先は「確率分布」です。確率変数に対して、各々の値をとる確率全体を表したものです。
  • 置換(substitution)
    リンク先は「点突然変異」です。ある塩基が別の塩基に置き換わるイベントのことです。

  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • マルコフ過程(Markov process)
    未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質(これをマルコフ性といいます)を持つ確率過程のことです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • コドン(codon)
    塩基配列がアミノ酸配列に翻訳されるときの、各アミノ酸に対応する3つの塩基配列のことです。
  • 速度行列(rate matrix)
    リンク先は「Transition rate matrix」です。推移速度行列とか推移率行列とよばれるものに相当します。本文中でも後述されていますが、入力が塩基配列のときはA, C, G, Tの4種類あるので4×4の行列、アミノ酸配列のときは20種類あるので20×20の行列になります。行列中の各要素の数値が、対応する行と列の分子間での置換しやすさを表す数値になります。
  • 自由度(degree of freedom)
    変数のうち独立に選べるものの数のことです。
  • 不均質性(heterogeneity)
    この場合は、たとえば転写調節領域やタンパク質コード領域内のサイトは置換が起こりにくいが、その他の領域は起こりやすいといった置換頻度がゲノム上の部位によって異なる性質という理解でよいです。
  • アラインメント(alignment)
    リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
  • 尤度(likelihood)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • 推移確率(transition probability)
    ある状態から別の状態に推移する確率のことです。たとえばサイコロの目が6が出たあとに4が出る確率のようなイメージでよいです。表2.1で示したような、ヒトゲノム配列において、CのあとにGとなる推移確率は、GC含量(0.41)から期待される値よりも低いというような理解でもよいと思います。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • パラメータ(parameter)
    リンク先は「媒介変数」です。特定の系(事象や対象や状況など)を決定したり分類したりする助けとなる任意の特徴量のことです。
  • 潜在変数(latent variable)
    直接は観察されないものの、観測された他の変数から推定される変数のことです。
  • 対数尤度(log-likelihood)
    リンク先は「尤度関数」です。尤度関数の自然対数をとったもののことです。
  • 式(6.1)
  • Felsenstein J., Inferring Phylogenies, 2004
  • Yang Z., Molecular Evolution: A Statistical Approach, 2014
  • 地質(geology)
    地下の岩石・地層の性質・状態・種類などを指す言葉です。
  • 化石(fossil)
    地質時代に生息していた生物が死骸となって永く残っていたもの、もしくはその活動の痕跡のことです。
  • 分子時計(molecular clock)
    生物種間の分子的な違いを比較し、進化過程で分岐した年代を推定したもの。「生物種間の類縁度が高いほどアミノ酸配列が異なる個数は少ない」という事実から、配列の類似性を頼りにして分岐年代が推定できるのでは?!というアイデアのことを指します。
  • 分岐年代(bifurcation age)
    進化の過程で、共通祖先からたとえば生物種AとBに分かれた年代のことを指します。国立遺伝学研究所のヒトがサルと分かれた日などが参考になると思います。

6.1.2 分子進化速度

  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 2倍体(diploid)
    リンク先は「倍数性」です。生物がゲノムを何セットもつかという概念を倍数性といい、2セットもつ生物を2倍体またはディプロイドといいます。ゲノム1セットあたりの染色体数(基本数)はxで表され、ヒトの場合はx = 23となります。ヒトを含むは2倍体は、2xとして表すことができます。
  • Ohta T., Nature, 1973
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
page174
  • 式(6.2)
  • Kimura M., Nature, 1977
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。

  • 図6.2a
    哺乳類の分子系統樹です。(a)は哺乳類のミトコンドリアDNAの分子系統樹です。
  • 哺乳類(mammal)
    哺乳綱(ほにゅうこう)に属する動物の総称です。
  • ミトコンドリア(mitochondria)
    ほとんどすべての真核生物の細胞の中に存在する、細胞小器官の1つです。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • 未熟児(premature infant)
    母子保健法では、「身体の発育が未熟のまま出生した乳児であつて、正常児が出生時に有する諸機能を得るに至るまでのもの」と定義されているようです。なお、産まれたばかりの有袋類の新生仔はjoey (ジョーイ)と呼ぶようです。
  • 育児嚢(marsupium)
    雌の有袋類に見られる未熟な乳仔を育てるための袋のことです。
  • 有袋類(marsupialia)
    哺乳綱獣亜綱後獣下綱の1グループに属する動物の総称です。階級は有袋上目とすることが多いようです。「界・門・綱・目・科・属・種」という分類階級の中の「綱」の中にも亜綱(あこう)や下綱(かこう)といったサブ階級があるようで、哺乳綱の中の獣亜綱の中の後獣下綱と読み解くようです。
  • オポッサム(opossum)
    リンク先は「オポッサム形目」です。未熟児で生まれた子供を育児嚢で育てる有袋類の動物です。
  • 外群(outgroup)
    系統関係を知りたい生物(これを内群といいます)の系統的位置関係を決定するに参照する群のことです。内群の他のグループに近縁であり、他のどの内群のグループよりも互いに遠縁であると考えられるものを選択するのが基本のようです。
  • 子宮(uterus)
    哺乳類における雌(単孔類を除く)の生殖器の1つです。
  • 胎児(fetus)
    生物学上は胎生の動物の母体の中で胚が器官原基の分化が完了してから出産までの成長中の子を指します。
  • 有胎盤類
    哺乳類と有袋類の中で、特に胎盤を有する動物の総称と理解すればよいです。有袋類のオポッサムは、胎盤を持たない(育児嚢をもつ)ので外群(outgroup)として取り扱えます。
  • げっ歯類(rodents)
    リンク先は「齧歯目」です。哺乳綱げっ歯目に属する動物の総称です。ネズミやビーバーが含まれます。
  • 霊長類(primates)
    リンク先は「霊長目」です。哺乳綱霊長目に属する動物の総称です。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • 酸素(oxygen)
    原子番号8の元素です。元素記号はO。原子量は16.00です。この場合は酸素分子O2の文脈で用いています。これは、常温常圧では無色無臭で助燃性をもつ気体として存在します。
  • ATP
    リンク先は「アデノシン三リン酸」です。既知の地球生物のすべての細胞が利用している解糖系でも産生される物質です。生体内では、リン酸1分子、またはリン酸2分子が離れたり結合したりすることで、エネルギーの放出・貯蔵を行います。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。

page175
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 適応進化(adaptiogenesisまたはadaptive evolution)
    リンク先は「適応」です。生物種が自分の形質を自分がいる環境に合わせて世代を経るごとに変化させていくこと、という理解でよいです。
  • 生物学(biology)
    生命現象を研究する、自然科学の一分野です。
  • We et al., Curr Biol., 2017

6.1.3 多遺伝子系統樹と分子進化速度の分解

  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 世代(generation)
    「親、祖父母、子供、孫と数える助数詞」や「ほぼ同時期に誕生した集団」という理解でよいです。
  • 暴露率 「突然変異が起こる原因となるもの(変異原)にさらされる(暴露される)割合」という理解でよいです。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 選択圧(selection pressure)
    リンク先は「選択 (進化)」です。進化において、生物個体や形質などが世代を経ることによってその数や集団内での割合を増していくことを選択(selection)といい、このような変化が起こる要因のこと指します。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。

  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • 式(6.3)
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 二元配置分散分析(two-way analysis of variance)
    リンク先は「分散分析」です。比較したい3つ以上のグループ(群)間のデータが手元にあるときによく用いられる統計的仮説検定法の1つです。すべての群が同じ母集団からのランダムサンプリングによって得られたものだという帰無仮説(null hypothesis)をおいて、帰無仮説の分布(null distribution)からどれだけ離れているか(珍しい事象か)を\(p\)値の低さで評価する枠組みのものです。たとえば、プラセボ投与群(A群) vs. Bという抗がん剤投与群(B群) vs. Cという抗がん剤投与群(C群)というグループラベル情報を割り当てて3群間比較を行うような枠組みが、一元配置分散分析(one-way ANOVA)とよばれるものです。実際には、このようなラベル割り当てだけでなく、たとえば薬の効果に性別が関係するかどうかといったことも同時に調べたいところです。それゆえ同じデータについて「F, M, and X」といった独立したラベル情報を付与してone-way ANOVAを行うこともできます。ここでラベルとして与えた薬の種類や性別といった事柄を要因(factor)といいますが、このような要因間の相互作用(業界では歴史的に交互作用といい、英単語はともにinteractionです)があるかどうかも調べられるのが二元配置分散分析(two-way ANOVA)とよばれるものです。
  • 統計モデル(statistical model)
    サンプルデータの生成に関する一連の統計的仮定を具体化した数理モデルのことです。
  • 対数変換(logarithmic transformation)
    リンク先は「対数」です。対数変換とはlogをとることです。たとえば、底をeとする10の対数は\(\log_e(10)\) \(= 2.302585\)です。
  • リンク関数(link function)
    数式の左辺と右辺の関係を示す分布のことだと解釈すればよいです。この場合は、掛け算の問題を足し算にして考えることができるのでそうしていると解釈すればよいと思います。
  • ポアソン回帰(Poisson regression)
    リンク先は「ポアソン分布」です。ポアソン分布に基づく回帰モデルのことです。ポアソン分布に従う観測結果に対してモデルをフィットしたい(i.e., 回帰したい)場合に用います。
  • 過分散(over-dispersion)
    「かぶんさん」と読みます。この場合は「観測結果のデータのばらつき(つまり分散)がポアソン分布で表現しきれないほど大きい」という意味合いで用いています。なお、分散の一般的な英単語としてはvarianceとかvariabilityをイメージされるかもしれませんが、dispersionという単語も統計分野ではよく用いられます。
  • 負の二項回帰(negative binomial regression)
    リンク先は「負の二項分布」です。負の二項分布に基づく回帰モデルのことです。負の二項分布に従う観測結果に対してモデルをフィットしたい(i.e., 回帰したい)場合に用います。観測結果の分散がポアソン分布よりも大きい(つまり過分散)場合にこのモデルを用いることが多いです。
  • 非負実数値
    「負の値ではない実数」のことです。0以上の実数なので、たとえば0とか0.3とか10.7とかです。
  • 尤度関数(likelihood function)
    手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • 回帰係数(regression coefficient)
    ポアソン回帰や負の二項回帰によって推定された係数のことです。
  • 交互作用(interaction)
    2つ以上の複数の因子(この場合は遺伝子効果と枝効果の2つ)が相互に影響しあうことによって生じた、それぞれの効果のみでは説明できないもののことを指します。

page176
  • 哺乳類(mammal)
    哺乳綱(ほにゅうこう)に属する動物の総称です。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 遺伝子重複(gene duplication)
    遺伝子を含むDNAのある領域が重複する現象のことです。遺伝子重複によって生じた2つの遺伝子はパラログ(paralog)とよばれます。異なる生物に存在する相同な機能を持った遺伝子群であるオーソログ(ortholog)もこのリンク先になります。
  • 図6.2
    哺乳類の分子系統樹です。
  • ミトコンドリア(mitochondria)
    ほとんどすべての真核生物の細胞の中に存在する、細胞小器官の1つです。
  • 分子系統樹(molecular phylogenetic tree)
    リンク先は「分子系統学」です。DNAやRNAやタンパク質の解析を分子レベルの解析といいますが、これらの分子(具体的にはアミノ酸配列や塩基配列)を用いて生物が進化してきた道筋(系統)を樹木のような形で描いた図のことです。
  • げっ歯類(rodents)
    リンク先は「齧歯目」です。哺乳綱げっ歯目に属する動物の総称です。ネズミやビーバーが含まれます。
  • 霊長類(primates)
    リンク先は「霊長目」です。哺乳綱霊長目に属する動物の総称です。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。

6.1.4 表現型進化の予測変数としての分子進化速度の遺伝子×枝交互作用

  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 祖先形質(plesiomorphy)
    リンク先は「共有原始形質」です。2つ以上の分類群で共有される祖先的な性質や特徴のことです。対になる用語は、派生形質です。
  • Yang et al., Genetics, 1995
  • Pagel M., Systematic Biol., 1999a
  • ベイズの公式
    リンク先は「ベイズの定理」です。ある事象に関連する可能性のある条件についての事前の知識に基づいて、その事象の確率を記述するベイズの定理に基づく式のことです。
  • 事後確率(posterior probability)
    条件付き確率の一種であり、ベイズの定理により「事前確率に尤度関数の出力値を掛ける」ことで得られます。なお、事前確率は条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • マルコフ過程(Markov process)
    未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質(これをマルコフ性といいます)を持つ確率過程のことです。
  • 種分化(speciation)
    新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
  • 条件付き確率(conditional probability)
    ある事象Bが起こるという条件下での別の事象Aの確率のことであり、P(A|B)のように表されます。条件付き確率P(A|B)はしばしば「Bが起こったときのAの(条件付き)確率」「条件Bの下でのAの確率」などと表現されます。条件付確率。
  • 推移確率(transition probability)
    ある状態から別の状態に推移する確率のことです。この場合は、祖先形質yからある形質xに遷移する確率のように理解するとよいです。
  • 潜在変数(latent variable)
    直接は観察されないものの、観測された他の変数から推定される変数のことです。

  • 図6.3
    食虫性に関する祖先形質の復元です。
  • 哺乳類(mammal)
    哺乳綱(ほにゅうこう)に属する動物の総称です。
  • 食虫性
    「昆虫をエサとして食べている」ことです。
  • 事後確率(posterior probability)
    条件付き確率の一種であり、ベイズの定理により「事前確率に尤度関数の出力値を掛ける」ことで得られます。なお、事前確率は条件付き確率の一種であり、証拠がない条件で「ある変数について知られていることを確率として表現したもの」です。
  • 現生種
    現在生きている生物種のことです。対の用語は化石種です。
  • 最小進化の規準(minimal evolution criteria)
    「進化の履歴に関していくつかのシナリオが考えられるとき、進化的イベントの数が少ないものを選択する」という考え方です。
  • 祖先形質(plesiomorphy)
    リンク先は「共有原始形質」です。2つ以上の分類群で共有される祖先的な性質や特徴のことです。対になる用語は、派生形質です。
  • 化石(fossil)
    地質時代に生息していた生物が死骸となって永く残っていたもの、もしくはその活動の痕跡のことです。
  • 中生代(Mesozoic era)
    古生代・中生代・新生代と分かれる地質時代の大きな区分の1つであり、約2億5217万年前から約6600万年前に相当するようです。
  • 新生代(Cenozoic era)
    古生代・中生代・新生代と分かれる地質時代の大きな区分の1つであり、6,500万年前から現代までに相当するようです。陸上では恐竜が絶滅し、海中ではアンモナイトや海生爬虫類が絶滅し、哺乳類が繁栄したことがこの時代の特徴のようです。
  • K-Pg境界(Cretaceous-Paleogene boundary)
    「けー、ぴーじーきょうかい」と読みます。地質年代区分の用語で、約6550万年前の中生代と新生代の境目のことです。恐竜などの大型爬虫類やアンモナイトが絶滅したことで有名ですが、海洋のプランクトンや植物類にも多数の絶滅種があったとのことです。
  • 恐竜(dinosaur)
    中生代に繁栄した脊椎動物の分類群の1つです。
  • ニッチ(niche)
    ある生物種が生活を営む上で利用する環境のことです。生態的地位ともいいます。
  • 系統(lineage)
    進化してきた道筋が同じ生物種の集まりという理解でよいです。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 収斂進化(convergent evolution)
    似たような場所で似たような生活をしている異なる種どうしが、長い年月をかけて似た性質や特徴(つまり形質)を独立に獲得していく現象のことです。 この「似たような場所で似たような生活をしている」というのは、ある生物種が生活を営む上で利用する環境的な要因とも捉えることができますが、これを生態的地位あるいはニッチ(niche)といいます。
  • 平行進化(parallel evolution)
    生物の進化に関する現象のひとつであり、異なった種において似通った方向の進化が見られる現象のことです。平行進化の結果が収斂である場合もあるようです。
  • Pagel M., Nature, 1999b

  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 交互作用(interaction)
    2つ以上の複数の因子(この場合は遺伝子効果と枝効果の2つ)が相互に影響しあうことによって生じた、それぞれの効果のみでは説明できないもののことを指します。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 回帰(regression)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめることです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。
page177
  • 図6.3
    食虫性に関する祖先形質の復元です。

  • 質的な形質(qualitative trait)
    質的形質(しつてきけいしつ)というのは、メンデルの法則の説明でよく出てくるような「エンドウマメの形が”丸い”か”しわがある”か」といった、環境要因によらず遺伝要因のみで決定されている形質のことだと理解すればよいです。対義語は量的形質(quantitative trait)であり、これは表現型のばらつきのようなものだと理解すればよいです。
  • ロジスティック回帰(Logistic regression)
    ベルヌーイ分布に従う変数の統計的回帰モデルの一種です。連結関数としてロジットを使用する一般化線形モデル(GLM)の一種でもあるそうです。質的形質のところでも説明しているように、得たい事柄が1か0かといった2値に集約されるときに用いられます(2値ロジスティック回帰ともいいます)。難解だと感じるかもしれませんが、たとえばロジットのグラフをみると、横軸のpの値が0.5以上だと縦軸の値(つまりロジット)が正の値に、そしてそれ以外の横軸の値のときは縦軸が負の値になることがわかります。こんな感じで、“0から1の範囲をとる値”を0または1という2値に変換しているだけだと解釈すればよいでしょう。
  • 説明変数(explanatory variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、xに相当するものです。対になる用語は、f(x)またはyに相当する目的変数(response variable)です。ちなみに本文中のNは遺伝子数です。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ラプラス分布(Laplace distribution)
    正規分布と同じく、平均Mと分散Vの2つのパラメータで表現できる連続確率分布の1つです。正規分布はベル曲線といわれるようにM付近はなだらかですが、ラプラス分布は尖っているのが特徴です。両側指数分布ともよばれますが、これはMの右側のみ(あるいは左側のみ)で考えると指数分布のように見えますので、それが両側にあると考えれば納得できると思います。
  • Lasso回帰(Lasso regression)
    リンク先は「ラッソ回帰」です。変数選択と正則化の両方を実行し、生成する統計モデルの予測精度と解釈可能性を向上させる回帰分析手法です。

  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 交互作用(interaction)
    2つ以上の複数の因子(この場合は遺伝子効果と枝効果の2つ)が相互に影響しあうことによって生じた、それぞれの効果のみでは説明できないもののことを指します。
  • 回帰(regression)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめることです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。
  • 回帰係数(regression coefficient)
    この場合は、Lasso回帰によって推定された係数のことです。
  • 祖先形質(plesiomorphy)
    リンク先は「共有原始形質」です。2つ以上の分類群で共有される祖先的な性質や特徴のことです。対になる用語は、派生形質です。
  • K-Pg境界(Cretaceous-Paleogene boundary)
    「けー、ぴーじーきょうかい」と読みます。地質年代区分の用語で、約6550万年前の中生代と新生代の境目のことです。恐竜などの大型爬虫類やアンモナイトが絶滅したことで有名ですが、海洋のプランクトンや植物類にも多数の絶滅種があったとのことです。
  • 系統(lineage)
    進化してきた道筋が同じ生物種の集まりという理解でよいです。
  • 食性(feeding behavioursまたはfood habit)
    動物の食物に関する性質のことです。動物は個体維持のために食物を食べますが、その種類や様式(食べ方)は、動物の種類によって異なり、非常に多様です。
  • 生活史(life history)
    リンク先は「生活史 (生物)」です。生物の一生における生活の有り様を見渡す時に、それを環境とのかかわりの元でまとめて呼ぶ呼び方です。生物の一生にわたる変化の様子を、その生活に即して考える場合に用います。
  • 有胎盤類
    哺乳類と有袋類の中で、特に胎盤を有する動物の総称と理解すればよいです。
  • 共通祖先(common descent)
    全生物種の系統樹を描いたときに、一番根っこ部分にある生物種のことだという理解でよいと思います。
  • 昆虫(insect)
    六脚亜門の昆虫綱(学名:Insecta)に分類される節足動物の総称です。昆虫は多様な節足動物の中でも、特に陸上で進化したグループです。
  • 回帰係数(regression coefficient)
    ポアソン回帰や負の二項回帰によって推定された係数のことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。

page178
  • 分子進化(molecular evolution)
    世代を経るレベルの長期間における、DNA、RNA、およびタンパク質といった細胞分子の配列構成の変化のことです。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。

6.2 種の遺伝的多様性と集団構造

  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 動物(animal)
    生物学における生物の分類群の1つです。かつて生物は、感覚と運動能力によって植物と動物に大別されていましたが、動物はヘッケルによって多細胞性の後生動物と単細胞性の原生動物に分けられました。ホイッタカーによる五界説では、この後生動物のみを動物界(Animalia)として扱い、これを「動物」として扱うことが一般的です。
  • 環境収容力(carrying capacity)
    ある環境において、そこに継続的に存在できる生物の最大量のことです。「ある環境」を日本とか九州とか西表島と置き換えて、そういう限られた場では養えるヒト(生物全体でもよい)の総数は限られているだろう、では最大何人まで養えるのか?ということを考えている概念だと思えばよいです。
  • 移動(migration)
    「移住」という風に解釈したほうがよいかもしれません。明治時代の北海道の開拓のようなイメージでしょうか。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • 分集団(subpopulation)
    上記の説明の中にほぼ含まれていますが、遺伝子型によってさらに分けられたサブ集団という意味です。たとえば「父親由来がGで母親由来がTのヒト達」が1つの分集団を形成し、「父親由来がでC母親由来がTのヒト達」も別の分集団を形成しているという風に解釈すればよいです。本文では以降は分集団のことを集団とよんでいます。
  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。
  • 昆虫(insect)
    六脚亜門の昆虫綱(学名:Insecta)に分類される節足動物の総称です。昆虫は多様な節足動物の中でも、特に陸上で進化したグループです。
  • 動物(animal)
    生物学における生物の分類群の1つです。かつて生物は、感覚と運動能力によって植物と動物に大別されていましたが、動物はヘッケルによって多細胞性の後生動物と単細胞性の原生動物に分けられました。ホイッタカーによる五界説では、この後生動物のみを動物界(Animalia)として扱い、これを「動物」として扱うことが一般的です。
  • 花粉(pollen)
    種子植物門の植物の花の雄しべから出る粉状の細胞です。雄しべの先端にある葯(やく)という袋の中で形成されます。花粉は、雄しべの葯から出て雌しべの柱頭に付くまでの間の粉状のものの抽象的な呼び名です。花粉は基本的に多細胞体です。
  • 種子(seed)
    種子植物で有性生殖によって形成される散布体です。一般には、単に種(たね)とよばれることが多いです。種子は親植物の組織起源の種皮(しゅひ)という皮に包まれ、その中には受精卵から発育した幼い植物体、すなわち胚が入っています。種子はめしべにある胚珠から発達します。
  • 遺伝的浮動(genetic drift)
    無作為抽出の効果によって生じる、遺伝子プールにおけるアレル頻度の変化のことです。遺伝子プールは「繁殖可能な個体からなる集団がもつ遺伝子の総体」のことです。無作為(ランダム)抽出というのがポイントで、遺伝的浮動は集団から遺伝的変異を取り除く効果があります。この効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなるそうです。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 自然選択(natural selection)
    リンク先は「自然選択説」です。「厳しい自然環境が生物に無目的に起きる変異(突然変異)を選別し、進化に方向性を与える」というものです。「時間の流れで自然と淘汰(選択)されていく」という風に解釈してもよいと思います。
  • 有効集団サイズ(effective population size; Ne)
    リンク先は「Effective population size」です。遺伝的浮動(genetic drift)のところで、「遺伝的変異を取り除く効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなる」と述べましたが、ここで述べている集団サイズのことを本文中でNeを使って説明しています。遺伝的浮動はNeと世代数の関数で表されるというのは、世代数を重ねないと効果の強弱が評価できないと解釈すればよいです。
  • 世代(generation)
    「親、祖父母、子供、孫と数える助数詞」や「ほぼ同時期に誕生した集団」という理解でよいです。
  • 遺伝的多様性(genetic diversity)
    (同一生物種内の)遺伝子型(ある生物の個体が持つ遺伝物質の構成)の多様性のことです。
  • ヘテロ接合度(heterozygosity)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)はヘテロ接合型(heterozygous)といいます。また、そのような状態のことを「ヘテロ接合である」といいます。そのヘテロ接合型の個体が集団内にどれだけいるかという度合いを表すのがヘテロ接合度です。
  • 近交(inbred)
    リンク先は「近交系」です。基本的に近親交配の略という認識でよいです。2倍体個体において相同な染色体ペアの双方のアレルが同一のとき、その座位(サイト)はホモ接合型(homozygous)、そしてそのような状態のことを「ホモ接合である」といいといいます。近親交配を繰り返して世代を進めていくと、ヘテロ接合の座位がどんどん減り、ホモ接合の座位が増えていきます。近交とは、近親交配を20世代以上繰り返して得られた、遺伝子的なバックグラウンドが揃った(つまりヘテロ接合の座位が非常に少ない)状態を表す言葉です。
  • 湖沼
    周囲を陸に囲まれ、海と直接つながっていない静止した水の塊のことです。比較的大きなものを湖、比較的小さなものを池や沼といいます。
  • 水生生物
    リンク先は「水生」です。水中で生活する生物のことです。
  • 海産魚類
    海水域にすむ魚類の総称です。対になる用語は、淡水魚類です。
  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。

  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。
  • 遺伝的多様性(genetic diversity)
    (同一生物種内の)遺伝子型(ある生物の個体が持つ遺伝物質の構成)の多様性のことです。
  • \(F_{\rm{ST}}\)
    集団構造の推定に最も広く使われている遺伝的分化の指標です。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • 回帰分析(regression analysis)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめて分析することです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。

6.2.1 遺伝的分化の指標\(F_{\rm{ST}}\)

  • \(F_{\rm{ST}}\)
    集団構造の推定に最も広く使われている遺伝的分化の指標です。
  • Sewall Green Wright
    リンク先は「シューアル・ライト」です。
  • Wright S., Ann Eugen., 1951
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • メタ集団(metapopulation)
    リンク先は「メタ個体群」です。複数の集団をひっくるめたもののことです。たとえば、「集団Aと集団Bと集団C」をひっくるめたものをメタ集団とよんだりします。「ゲノムとメタゲノム」の関係性をイメージすればよいです。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • 分散(variance)
    リンク先は「分散 (統計学)」です。「データの標準偏差の二乗のこと」であり「平均値からの偏差の二乗の平均」です。
  • 定義(definition)
    一般にコミュニケーションを円滑に行うために、ある言葉の正確な意味や用法について、人々の間で共通認識を抱くために行われる作業のことです。
  • Excoffier L., Handbook of Statistical Genetics, 2001
    \(F_{\rm{ST}}\)の論文です。他の日本語の解説記事としては、[山道ら, 日本生態学会誌, 2008]も(https://doi.org/10.18960/seitai.58.3_241)参考になると思います

  • Nei M., Proc Natl Acad Sci USA., 1973
    \(G_{\rm{ST}}\)の論文です。全集団\(F_{\rm{ST}}\) (global \(F_{\rm{ST}}\))の略ですが、本文中にもあるように\(G_{\rm{ST}}\) = \(F_{\rm{ST}}\)だそうです。
  • 式(6.4)
  • ヘテロ接合度(heterozygosity)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)はヘテロ接合型(heterozygous)といいます。また、そのような状態のことを「ヘテロ接合である」といいます。そのヘテロ接合型の個体が集団内にどれだけいるかという度合いを表すのがヘテロ接合度です。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
page179
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • 定義(definition)
    一般にコミュニケーションを円滑に行うために、ある言葉の正確な意味や用法について、人々の間で共通認識を抱くために行われる作業のことです。
  • Excoffier L., Handbook of Statistical Genetics, 2001
    \(F_{\rm{ST}}\)の論文です。他の日本語の解説記事としては、[山道ら, 日本生態学会誌, 2008]も(https://doi.org/10.18960/seitai.58.3_241)参考になると思います

  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 式(6.5)
  • マイクロサテライト(microsatellite)
    「単位配列の長さ」が数 bp程度のタンデムリピートのことです。short tandem repeat(STR)やsimple sequence repeat(SSR)ともよばれます。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • Kitada et al., G3 (Bathesda), 2021
  • Neiの\(G_{\rm{ST}}\)Nei M., Proc Natl Acad Sci USA., 1973
    式(6.4)のことです。アレル頻度の分散をヘテロ接合度で定義したものです。全集団\(F_{\rm{ST}}\) (global \(F_{\rm{ST}}\))とよばれます。
  • ヘテロ接合度(heterozygosity)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)はヘテロ接合型(heterozygous)といいます。また、そのような状態のことを「ヘテロ接合である」といいます。そのヘテロ接合型の個体が集団内にどれだけいるかという度合いを表すのがヘテロ接合度です。

  • Weir and Cockerham, Evolution, 1984
    WC84の論文です。
  • モーメント推定量(Moment estimator)
    リンク先は「一般化モーメント法」です。最尤法と同じく点推定の一種です。母集団のパラメータを推定する方法であるモーメント法(method of moments)を用いて推定された値がモーメント推定量です。
  • 合祖シミュレーション(coalescent simulation)
    リンク先は「合祖理論」です。現在の集団から得られる遺伝情報から過去の集団動態を推測する際に用いるシミュレーションのことです。
  • Nei and Chesser, Ann Hum Genet., 1983
    NC83の論文です。
  • Kitada et al., Mol Ecol Resour., 2017
  • 不偏推定量(unbiased estimator)
    サンプリングによって得られた推定量の期待値が母集団のそれに等しいときに、その推定量を不偏推定量といいます。たとえば、さいころを10回振って得た出目の平均値(標本平均)よりも、それを100セット行って得た標本平均の平均のほうが、より母平均に近づきます。本文では、遺伝子座の数が多くなるほど、得られる遺伝的分化の指標がより真の値(つまり不偏推定量)に収束するという意味で述べています。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • 結合比推定量(combined ratio estimator)
  • Cockran, WG., Sampling Techniques, 1977
  • 大数の法則(Law of Large Numbers)
    確率論・統計学における基本定理の一つ。極限定理とよばれる定理の一種です。「独立同分布に従う可積分な確率変数列の標本平均は平均に収束する」という法則です。たとえば、サイコロを振る試行を莫大に繰り返せば、出た目の平均(標本平均)が出る目の平均である3.5の近傍から外れる確率をいくらでも小さくできるといったことをまことしやかに述べているだけです。
  • Kitada et al., G3 (Bathesda), 2021
    「遺伝子座の数が大きくなると大数の法則により、NC83、WC84ともFSTの真値に収束する」の原著論文です。

  • 分散分析(analysis of variance; ANOVA)
    比較したい3つ以上のグループ(群)間のデータが手元にあるときによく用いられる統計的仮説検定法の1つです。すべての群が同じ母集団からのランダムサンプリングによって得られたものだという帰無仮説(null hypothesis)をおいて、帰無仮説の分布(null distribution)からどれだけ離れているか(珍しい事象か)を\(p\)値の低さで評価する枠組みのものです。たとえば、プラセボ投与群(A群) vs. Bという抗がん剤投与群(B群) vs. Cという抗がん剤投与群(C群)というグループラベル情報を割り当てて3群間比較を行うような枠組みが、一元配置分散分析(one-way ANOVA)とよばれるものです。実際には、このようなラベル割り当てだけでなく、たとえば薬の効果に性別が関係するかどうかといったことも同時に調べたいところです。それゆえ同じデータについて「F, M, and X」といった独立したラベル情報を付与してone-way ANOVAを行うこともできます。ここでラベルとして与えた薬の種類や性別といった事柄を要因(factor)といいますが、このような要因間の相互作用(業界では歴史的に交互作用といい、英単語はともにinteractionです)があるかどうかも調べられるのが二元配置分散分析(two-way ANOVA)とよばれるものです。
  • Cockerham and Weir, Proc Natl Acad Sci USA., 1987
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 同祖
    同一祖先のことです。
page180
  • 近縁(closely related)
    生物で分類上非常に近い関係にあることです。一般には「界/門/綱/目/科/属/種」という分類体系で同じ属のものを指します。似た言葉に類縁がありますが、これは近縁よりも対象がより広がっているイメージをもつとよいと思います。つまり、近縁は類縁の部分集合です(近縁\(\subset\)類縁)。
  • 近親交配(inbreeding)
    親やきょうだいや子など親等が近い(同じ祖先からの)個体どうしで交配することです。対義語は、おそらく任意交配(または自由交配; panmictic)です。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • 固定指数(fixation index)
    \(F_{\rm{ST}}\)の別名です。

  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 集団固有\(F_{\rm{ST}}\)(population-specific \(F_{\rm{ST}}\))
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • Weir and Goudet, Genetics, 2017
    WG17の論文です。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • 式(6.6)
  • 大数の法則(Law of Large Numbers)
    確率論・統計学における基本定理の一つ。極限定理とよばれる定理の一種です。「独立同分布に従う可積分な確率変数列の標本平均は平均に収束する」という法則です。たとえば、サイコロを振る試行を莫大に繰り返せば、出た目の平均(標本平均)が出る目の平均である3.5の近傍から外れる確率をいくらでも小さくできるといったことをまことしやかに述べているだけです。
  • ヘテロ接合度(heterozygosity)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)はヘテロ接合型(heterozygous)といいます。また、そのような状態のことを「ヘテロ接合である」といいます。そのヘテロ接合型の個体が集団内にどれだけいるかという度合いを表すのがヘテロ接合度です。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。

6.2.2 ヒトの進化と多様性

  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • マイクロサテライト(microsatellite)
    「単位配列の長さ」が数 bp程度のタンデムリピートのことです。short tandem repeat(STR)やsimple sequence repeat(SSR)ともよばれます。
  • Rosenberg et al., Science, 2002
  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。
  • 遺伝的浮動(genetic drift)
    無作為抽出の効果によって生じる、遺伝子プールにおけるアレル頻度の変化のことです。遺伝子プールは「繁殖可能な個体からなる集団がもつ遺伝子の総体」のことです。無作為(ランダム)抽出というのがポイントで、遺伝的浮動は集団から遺伝的変異を取り除く効果があります。この効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなるそうです。
  • 図6.4
    ヒトの集団構造です。
  • 遺伝的多様性(genetic diversity)
    (同一生物種内の)遺伝子型(ある生物の個体が持つ遺伝物質の構成)の多様性のことです。
  • ヘテロ接合度(heterozygosity)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)はヘテロ接合型(heterozygous)といいます。また、そのような状態のことを「ヘテロ接合である」といいます。そのヘテロ接合型の個体が集団内にどれだけいるかという度合いを表すのがヘテロ接合度です。期待ヘテロ接合度(\(H_e\))は、ヘテロ接合度の期待値という理解でよいです。expected heterozygosityなので\(H_e\)で表すのでしょう。
  • WC84:Weir and Cockerham, Evolution, 1984
  • 標準誤差(standard error)
    ここでの標準誤差は「標本平均の標準誤差」です。本文中の標本平均が0.0488で、標準誤差が0.0012に相当します。標本平均が母平均に対する標本平均のばらつきの度合いを表す指標と理解すればよいです。標本平均の値は、標本の数が増えるほど母平均に近づくのは直感的にわかると思います。この場合の標本は遺伝子座に相当します。
  • 図6.4a
    ヒトの集団構造です。
  • ユーラシア(Eurasia)
    アジア州とヨーロッパ州を一続きの大陸(ユーラシア大陸)と考えたときの呼称です。本来は大地形区分名であり、地形学的には太平洋の列島群を除いた大陸地域を指すようです。
  • 突然変異(mutation)
    DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 遺伝的浮動(genetic drift)
    無作為抽出の効果によって生じる、遺伝子プールにおけるアレル頻度の変化のことです。遺伝子プールは「繁殖可能な個体からなる集団がもつ遺伝子の総体」のことです。無作為(ランダム)抽出というのがポイントで、遺伝的浮動は集団から遺伝的変異を取り除く効果があります。この効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなるそうです。
  • Wright S., Ann Eugen., 1951
  • Slatkin M., Science, 1987
    \(F_{\rm{ST}}\) = 0.02のときは、0.02 = 1/(1 + 4Nem)より、4Nem = 1/0.02 - 1 = 50 - 1 = 49となります。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • Waples and Gaggiotti, Mol Ecol., 2006
  • Whitlock and McCauley, Heredity, 1999

page181
  • 図6.4b
    ヒトの集団構造です。
  • アフリカ(Africa)
    広義にはアフリカ大陸およびその周辺のマダガスカル島などの島嶼・海域を含む地域の総称で、六大州の1つです。
  • Bantu Kenya
    リンク先は「バントゥー系民族」です。Bantuがバントゥーに相当します。アフリカ言語の大カテゴリであるバントゥー語群に属する多様な言語を使用するケニヤ(Kenya)の人々という理解でよいと思います。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • Liu et al., Am J Hum Genet., 2006
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 進化(evolution)
    生物の形質が世代を経る中で変化していく現象のことです。
  • ポリネシア(Polynesia)
    オセアニアの海洋部の分類の1つです。
  • Nielsen et al., Nature, 2017
  • 近隣結合系統樹(neighbor joining tree; NJ樹)
    リンク先は「近隣結合法」です。系統樹を作製するためのボトムアップ式のクラスタ解析法。星型の樹形から出発してOTU (系統樹の葉にあたる分類群)をクラスタリングする各段階において、総分岐長を最小化するOTUの組を発見することを原理としています。解析可能な系統樹の樹形や枝長を短時間で求めることができるのが特徴です。
  • Saitou and Nei, Mol Biol Evol., 1987
  • 図6.4c
    ヒトの集団構造です。
  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。

6.2.3 野生ポプラの集団分化と環境適応

  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • 花季(かき)
    花の咲く時期または期間のことです。
  • 種子(seed)
    種子植物で有性生殖によって形成される散布体です。一般には、単に種(たね)とよばれることが多いです。種子は親植物の組織起源の種皮(しゅひ)という皮に包まれ、その中には受精卵から発育した幼い植物体、すなわち胚が入っています。種子はめしべにある胚珠から発達します。

page182
  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • 非コード領域(non-coding region)
    「タンパク質コード領域ではない部分」という理解でよいです。
  • イントロン(intron)
    転写はされるが最終的に機能する転写産物からスプライシングによって除去される塩基配列のことです。
  • コード領域(coding region)
    「タンパク質コード領域」という理解でよいです。
  • 非翻訳領域(untranslated region; UTR)
    転写はされるがタンパク質に翻訳されない領域のことです。タンパク質に翻訳される領域(coding sequence; CDS)の上流側(5’側)のUTRを5’UTRといい、下流側を3’UTRといいます。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • Geraldes et al., Mol Ecol Resour., 2013
  • GWAS
    リンク先は「Genome-wide association study」です。ゲノムワイド関連解析(genome-wide association study)の略です。ある集団内に存在する個体間の形質と塩基配列の違い(たとえばSNPや遺伝子型)との関連をゲノム全体で調べ,形質と関連する塩基配列の違いを統計的に検出する方法です。
  • さび病(rustまたはrust disease)
    リンク先は「サビキン目」です。サビキン目は担子菌門の目の1つで、サビキン(錆菌または銹菌)と総称されます。植物に寄生する絶対寄生菌であり、赤・黒などに着色したさびのように見える無性胞子(さび胞子)を作ることで病害が引き起こされます。これをさび病といいます。
  • 気孔(stoma)
    葉の表皮に存在する小さな穴(開口部)のことです。孔辺細胞とよばれる2つの細胞が唇のような形で向かい合った構造になっており、2つの孔辺細胞の形が変化することによって孔の大きさが調節されます。主に光合成、呼吸および蒸散のために、外部と気体の交換を行う目的で使用されます。stomaが単数形で、stomataが複数形です。
  • スクリーニング(screening)
    多数の中から特定の条件に合うものを抽出するために選別することです。
  • McKown et al., New Phytol., 2014
  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。
  • Geraldes et al., Evolution, 2014

  • WC84:Weir and Cockerham, Evolution, 1984
    Weir and Cockerhamによって提唱されたモーメント推定量のことです。
  • \(H_e\)
    期待ヘテロ接合度のことです。
  • 図6.5
    北米の野生ポプラ25集団の集団構造です。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 種子(seed)
    種子植物で有性生殖によって形成される散布体です。一般には、単に種(たね)とよばれることが多いです。種子は親植物の組織起源の種皮(しゅひ)という皮に包まれ、その中には受精卵から発育した幼い植物体、すなわち胚が入っています。種子はめしべにある胚珠から発達します。
  • BC内陸部
    ブリティッシュコロンビア州の内陸部という意味です。カナダの州の1つで、太平洋に面したカナダ最西部に位置しています。
  • 多次元尺度構成法(Multi Dimensional Scaling; MDS)
    多変量解析の一手法である。主成分分析(PCA)のように、分類対象物の関係を2次元や3次元といった低次元空間における点の布置で表現する手法です。
  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。

  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • サンプリング(sampling)
    リンク先は「標本調査」です。母集団から標本を抽出することです。母集団(ある解析対象生物種のすべての個体)をすべて調査対象とする全数調査は、予算的な面からも非現実的です。このため、現実的な数の菌株(strain)を抽出して、手元の情報のみから母集団の性質を統計学的に推定する方法が標本調査です。生命科学系のほぼすべての研究は、標本調査によって得られています。
  • 重回帰分析(multiple regression analysis)
    観測データを数式(モデル)に当てはめて分析することです。単回帰分析は説明変数が1つだけなのに対して、重回帰分析は説明変数が2つ以上ある場合の回帰分析になります。
  • 多重共線性(multicollinearity)
    重回帰分析(multiple regression analysis)」の中にも多重共線性の項目がありますが、説明変数の中に相関係数が高い組み合わせがあることです。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。
  • 説明変数(explanatory variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、xに相当するものです。
  • 目的変数(response variable)
    リンク先は「数式」です。たとえば、f(x) = y = 2x + 8みたいな数式があったとすると、f(x)またはyに相当するものです。応答変数ともよばれます。
  • 共分散(covariance)
    2組の対応するデータ(要素数が同じ2つのベクトル)間での、平均からの偏差の積の平均値のことです。
  • 一般化最小二乗法(generalized least squares; GLS)
    リンク先は「Generalized least squares」です。回帰モデルの残差の間にある程度の相関がある場合に、線形回帰モデルの未知パラメータを推定するための手法です。
  • 表6.1
    野生ポプラ集団の環境適応の推測結果です。

  • 回帰分析(regression analysis)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめて分析することです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。
  • 図6.6
    北米の野生ポプラの集団分化と環境の図です。
  • 夏至(summer solstice)
    北半球では一年のうちで最も昼(日の出から日没まで)の時間が長い日のことです。南半球では、北半球の夏至の日に最も昼の時間が短くなります。

  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 祖先(ancestor)
    リンク先は「先祖」です。現代人の、既に亡くなった数世代以前の血縁者全般のこと。狭義では、直系の尊属を指す場合が多いです。対義語は子孫、後裔(こうえい)、または末裔(まつえい)です。 生物学的な側面では、進化分類学において、ある生物種の進化前の段階をしばしばこのようによびます。
  • 回帰分析(regression analysis)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめて分析することです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。
  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • BC内陸部
    ブリティッシュコロンビア州の内陸部という意味です。カナダの州の1つで、太平洋に面したカナダ最西部に位置しています。
  • 種子(seed)
    種子植物で有性生殖によって形成される散布体です。一般には、単に種(たね)とよばれることが多いです。種子は親植物の組織起源の種皮(しゅひ)という皮に包まれ、その中には受精卵から発育した幼い植物体、すなわち胚が入っています。種子はめしべにある胚珠から発達します。
page183
  • 図6.5
    北米の野生ポプラ25集団の集団構造です。
  • 表6.1
    野生ポプラ集団の環境適応の推測結果です。
page184
  • 図6.6
    北米の野生ポプラの集団分化と環境です。

6.2.4 \(F_{\rm{ST}}\)の計算のためのソフトウェア

  • FinePop2
    \(F_{\rm{ST}}\)を計算するためのRパッケージです。全集団\(F_{\rm{ST}}\)を計算するglobalFST関数、集団対\(F_{\rm{ST}}\)を計算するpop_pairwiseFST関数、そして集団固有\(F_{\rm{ST}}\)を計算するpop_specificFST関数などが提供されています。

  • Genepop
    データフォーマットです。

  • WC84:Weir and Cockerham, Evolution, 1984

  • 回帰分析(regression analysis)
    リンク先は「回帰分析」です。観測データを数式(モデル)に当てはめて分析することです。当てはまりのよい数式を探すことや、当てはまった数式中のパラメータを解釈することで、そのデータの特性の理解につながります。

  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。

  • CPU
    中央演算処理装置(Central Processing Unit)の略です。コンピュータにおける中心的な処理装置(プロセッサ)のことです。コンピュータの頭脳や心臓部に例えられることが多いです。

  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。

  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。

  • マイクロサテライト(microsatellite)
    「単位配列の長さ」が数 bp程度のタンデムリピートのことです。short tandem repeat(STR)やsimple sequence repeat(SSR)ともよばれます。

  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。

  • 図6.4c
    ヒトの集団構造です。

  • ポプラの回帰分析に用いたデータとR script
    リンク先のpoplar_bioinf.zip中にある、3つのファイル(omega.csv, poplar_gls_data.csv, poplar_env.R)です。

  • 例題6.1
    1ページ目が問題、2ページ目以降が解答例です。PDFファイル中のRコマンドのコピペ実行は不具合が生じやすいため、実際にコピペする際は以下のスクリプトをご利用ください。

    # パッケージのインストール部分
    install.packages("ape")
    install.packages("FinePop2")
    install.packages("sf")
    install.packages("tibble") 
    install.packages("RColorBrewer")
    
    # パッケージのロード(1回目)
    library(ape)
    library(FinePop2)
    library(sf)
    library(tibble)
    library(RColorBrewer)
    
    # パッケージのロード(2回目)
    library(ape)
    library(FinePop2)
    library(sf)
    library(tibble)
    library(RColorBrewer)
page185

6.3 集団の歴史と適応

  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 生息域
    リンク先は「生息地」です。生物が主に生息する区域のことです。
  • 適応(adaptation)
    生物種がある環境のもとで生活するのに有利な形質を持っていることです。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 集団構造(population structure)
    集団どうしの全体的な関係性のことだと理解すればよいです。たとえば、日本人のSNPの遺伝子型データを約1.1万人集めてクラスタリングすると、「九州・中国」、「近畿・四国」、「東北・北海道」、そして「沖縄」の4つのクラスターに分かれたという報告があります。これを著者らは「都道府県レベルで日本人の遺伝的集団構造を明らかにした」と述べています(Watanabe et al., J Hum Genet., 2021)。
  • エピジェネティックな修飾(epigenetic modification)
    リンク先は「エピジェネティクス」です。ゲノムの塩基配列自体は変わらないものの、その一部が化学的な修飾を受けて遺伝子の発現が制御され、それが維持される仕組みが存在します。この仕組みのことをエピジェネティクス、そして修飾を受けたゲノムのことをエピゲノムといいます。DNAメチル化やヒストン修飾(ヒストンのアセチル化やメチル化)とよばれるものがこの修飾の実体であり、エピジェネティック修飾ともよばれます。
  • 表現型の可塑性(phenotypic plasticity)
    生物個体がその表現型を環境条件に応じて変化させる能力のことです。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • 変異(mutation)
    リンク先は「突然変異」です。DNA複製時のミスなどによって、ある塩基が別の塩基に置き換わったり、1つ以上の塩基が挿入または欠失するイベントのことを指します。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • 生殖隔離(reproductive isolation)
    リンク先は「生殖的隔離」です。この場合は、「2つの集団の個体間で交配が行われない状況」のことを指します。
  • 中立遺伝子座
    中立な突然変異が起こっている遺伝子座です。
  • 多遺伝子的(polygenic)
    リンク先は「ポリジーン遺伝(polygenic inheritance)」です。多くの遺伝子による要因が1つの形質に影響を与えることを指す用語です。本文中の言葉でいえば、「その形質に関わる数百から数千の遺伝子のアレル頻度がわずかに変化すること」です。要因に相当するのがアレル頻度となります。多因子遺伝ともよばれます。対義語が後述する「多面発現的」です。
  • 多面発現的(pleiotropic)
    リンク先は「多相遺伝(pleiotropy)」です。「1つの遺伝子が複数の異なる形質に影響を与えるさま」です。対義語が前述の「多遺伝子的」です。「1つの遺伝子が沢山の形質に影響を与えること」が多面発現(pleiotropy)であり、多相遺伝とか多面作用ともよばれます。
  • 集団分化
    「ある集団が分かれて別々の(サブ)集団になっていくこと」です。
  • 遺伝的混合(genetic admixture)
    リンク先は「genetic admixture」です。以前に分岐または分離された遺伝系統(genetic lineages)が混合することです。混合により、新しい遺伝系統が集団に導入されます。なお、遺伝系統とは、祖先の遺伝型を派生型に接続する一連の突然変異のことです。
  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。

6.3.1 集団分化と環境:数量化3類

  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 数量化3類
    リンク先は「数量化理論」です。下記の対応分析(correspondence analysis)と同じものです。
  • 適応(adaptation)
    生物種がある環境のもとで生活するのに有利な形質を持っていることです。
  • 対応分析(correspondence analysis)
    リンク先は「Correspondence analysis」です。クロス集計表など、行と列からなるデータの特徴を図示し、項目間の関係を視覚的に把握する方法です。主成分分析に似ていますが、連続データではなくカテゴリデータに適用されます。
  • Benzecri, JP., Data Analyses. Volume II. Correspondence Analysis., 1973
  • Hayashi C., Ann Inst Stat Math., 1953
  • 図6.7
    北米の野生ポプラの集団分化と形質の環境適応です。
  • North American Carbon Program (NACP)
  • Unified North American Soil Map
  • Liu et al., Biogeosciences, 2013
  • 環境値のまとめ
    • 土壌深度(Depth)
    • 密度(Bulk)
    • 粘土(Clay)
    • 沈泥(Silt)
    • 砂(Sand)
    • 礫(Gravel)
    • 陽イオン交換容量(Cation)
    • 有機炭素濃度(Carbon)
    • 水素イオン指数(pH)
  • 形質値のまとめ
    • 向軸側気孔密度(ADd)
      向軸側気孔は、葉の表側の気孔のことです。一般に気孔は葉の裏側に形成されますが、北方など光合成効率の低下する環境では表側にも気孔が形成され光合成効率を補うことがあります。
    • 背軸側気孔密度(ABd)
      背軸側気孔は、葉の裏側の気孔のことです。通常の環境下で光合成のガス交換を担います。
    • さび病進行度(DP)
      ここでは疾患進行曲線下面積(area under disease progress curve; AUDPC)を用いています。経時的な疾患強度の定量的尺度であり、高いほど疾患の進行が速く、疾患に対する感受性が高くなります。
  • さび病(rustまたはrust disease)
    リンク先は「サビキン目」です。サビキン目は担子菌門の目の1つで、サビキン(錆菌または銹菌)と総称されます。植物に寄生する絶対寄生菌であり、赤・黒などに着色したさびのように見える無性胞子(さび胞子)を作ることで病害が引き起こされます。これをさび病といいます。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • 集団分化
    「ある集団が分かれて別々の(サブ)集団になっていくこと」です。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。
  • 図6.5b
    北米の野生ポプラ25集団の集団構造です。
  • 図6.7aの説明部分
    • 緯度(LAT)
    • 夏期最長日照時間(DAY)
    • 年平均気温(MAT)
    • 夏期平均気温(MWMT)
    • 無霜日数(FFD)
    • 年平均熱水分指数(AHM)
    • 夏期平均熱水分指数(SHM)
    • 年平均降水量(MAP)
    • 夏期平均降水量(MSP)
    • 標高(ALT)

page186
  • 図6.7
    北米の野生ポプラの集団分化と形質の環境適応です。

  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • AHM
    年平均熱水分指数のことです。
  • 有意性の検定(statistical test)
    リンク先は「仮説検定」です。この場合は、「年平均熱水分指数(AHM)と有意な相関を持つ遺伝子座」を一般化最小二乗法という方法で検出・評価しているということになります。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 共分散(covariance)
    2組の対応するデータ(要素数が同じ2つのベクトル)間での、平均からの偏差の積の平均値のことです。
  • 一般化最小二乗法(generalized least squares; GLS)
    リンク先は「Generalized least squares」です。回帰モデルの残差の間にある程度の相関がある場合に、線形回帰モデルの未知パラメータを推定するための手法です。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • サンプルサイズ
    リンク先は「Sample size determination」です。図6.7bの説明部分です。この場合は、サンプル数は円の数に相当するので約22個、サンプルサイズは各円の大きさに相当します(円ごとに異なります)。

6.3.2 集団構造の背景:遺伝子流動の推定

  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 移住(migration)
    明治時代の北海道の開拓のようなイメージでしょうか。
  • Cavalli-Sforza and Edwards, Am J Hum Genet., 1967
  • Felsenstein J., J Theor Biol., 1982
  • Cann et al., Nature, 1987
  • 種分化(speciation)
    新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
  • 相同遺伝子(homolog)
    共通祖先に由来する遺伝子どうしのことです。
  • 集団分化
    「ある集団が分かれて別々の(サブ)集団になっていくこと」です。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
page187
  • 図6.8
    北米の野生ポプラの集団分化と移住の混合グラフです。

  • 遺伝的混合(genetic admixture)
    リンク先は「genetic admixture」です。以前に分岐または分離された遺伝系統(genetic lineages)が混合することです。混合により、新しい遺伝系統が集団に導入されます。なお、遺伝系統とは、祖先の遺伝型を派生型に接続する一連の突然変異のことです。
  • 混合グラフ(admixture graph)
    集団間移住の情報を集団分化の樹上グラフに枝として加えたものです。
  • 図6.8
    北米の野生ポプラの集団分化と移住の混合グラフです。
  • 移住枝
    集団分化の樹上グラフ上に枝として加えられた集団間移住の情報です。
  • Felsenstein J., J Theor Biol., 1982
  • Cavalli-Sforza LL., Am J Hum Genet., 1973
  • Cavalli-Sforza and Piazza, Theor Popul Biol., 1975
  • MixMapper:]Lipson et al., Mol Biol Evol., 2013](https://pubmed.ncbi.nlm.nih.gov/23709261/)
  • TreeMixPickrell and Pritchard, PLoS Genet., 2012

  • TreeMixPickrell and Pritchard, PLoS Genet., 2012
  • 集団分化
    「ある集団が分かれて別々の(サブ)集団になっていくこと」です。
  • 混合グラフ(admixture graph)
    集団間移住の情報を集団分化の樹上グラフに枝として加えたものです。
  • 最尤推定法(method of maximum likelihood)
    リンク先は「最尤推定」です。与えられたデータからそれが従う確率分布の母数を点推定する方法です。最尤法は、最尤推定法の略です。EMアルゴリズム(Expectation-Maximization algorithm)は、確率モデルのパラメータを最尤推定する手法の1つであり、観測不可能な潜在変数に確率モデルが依存する場合に用いられます。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • Cavalli-Sforza and Edwards, Am J Hum Genet., 1967
  • ガウスモデル(Gaussian model)
    リンク先は「正規分布」です。正規分布の別名はガウス分布(Gaussian distribution)です。正規分布モデルの別名がガウスモデルだという理解でよいです。混合ガウスモデル(Gaussian mixture model; GMM)というのが同時に引っ掛かってきますが、これは1つのガウスモデルだけだと1つの山しか表現できないが、複数の山を表現したい場合にガウス分布が複数あるようなモデル(つまりGMM)を想定しておくのだと理解すればよいです。
  • 式(6.7)
  • 遺伝的浮動(genetic drift)
    無作為抽出の効果によって生じる、遺伝子プールにおけるアレル頻度の変化のことです。遺伝子プールは「繁殖可能な個体からなる集団がもつ遺伝子の総体」のことです。無作為(ランダム)抽出というのがポイントで、遺伝的浮動は集団から遺伝的変異を取り除く効果があります。この効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなるそうです。
page188
  • 山登り法(hill climbing)
    評価関数の極値を探索する探索アルゴリズムであり、最も代表的な局所探索法として知られています。
  • 尤度(likelihood)
    リンク先は「尤度関数」です。手元の配列データはサンプリングによって観察された結果ですが、この観察結果から元々どのようなパラメータをもった確率分布から生じたものかを評価する際に用いる関数という理解でよいです。たとえば、(本当は平均4・標準偏差9だということがわかっている正規分布からランダム抽出によって得られた)観測結果の数値ベクトル情報を出発点して、正規分布であることはわかっているが平均と標準偏差がわからないのでそれを推定するための関数というイメージで捉えるとよいです。たとえば、平均0・標準偏差1だったとした場合の尤度は低く、平均2・標準偏差4だったとした場合の尤度は多少高くなり、平均4・標準偏差9だったとした場合の尤度が最大になり、…といった感じです。
  • 遺伝的混合(genetic admixture)
    リンク先は「genetic admixture」です。以前に分岐または分離された遺伝系統(genetic lineages)が混合することです。混合により、新しい遺伝系統が集団に導入されます。なお、遺伝系統とは、祖先の遺伝型を派生型に接続する一連の突然変異のことです。
  • AIC
    赤池情報量規準(Akaike’s Information Criterion)のことです。リンク先は「赤池情報量規準」です。統計モデルの良さを評価するための指標の1つです。

  • ポプラ(Populus trichocarpa)
    真正双子葉類キントラノオ目ヤナギ科ヤマナラシ属、またはハコヤナギ属に属する樹木のことです。
  • 集団分化
    「ある集団が分かれて別々の(サブ)集団になっていくこと」です。
  • 混合グラフ(admixture graph)
    集団間移住の情報を集団分化の樹上グラフに枝として加えたものです。
  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • SBC27
    カナダの州の1つがブリティッシュコロンビア州(British Columbia; BC)で略称がBCです。その南部(south BC)という意味でSBCです。
  • 遺伝的混合(genetic admixture)
    リンク先は「genetic admixture」です。以前に分岐または分離された遺伝系統(genetic lineages)が混合することです。混合により、新しい遺伝系統が集団に導入されます。なお、遺伝系統とは、祖先の遺伝型を派生型に接続する一連の突然変異のことです。
  • 花粉(pollen)
    種子植物門の植物の花の雄しべから出る粉状の細胞です。雄しべの先端にある葯(やく)という袋の中で形成されます。花粉は、雄しべの葯から出て雌しべの柱頭に付くまでの間の粉状のものの抽象的な呼び名です。花粉は基本的に多細胞体です。
  • 風媒植物(anemophilous plant)
    リンク先は「風媒花」です。花粉を運ぶ手段として風を利用する(風を媒介するという意味で風媒)花をもつ植物のことです。

6.3.3 多遺伝子形質の適応

  • 集団(group)
    生物の集まりという程度の理解でよいです。
  • 集団分化
    「ある集団が分かれて別々の(サブ)集団になっていくこと」です。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 遺伝的浮動(genetic drift)
    無作為抽出の効果によって生じる、遺伝子プールにおけるアレル頻度の変化のことです。遺伝子プールは「繁殖可能な個体からなる集団がもつ遺伝子の総体」のことです。無作為(ランダム)抽出というのがポイントで、遺伝的浮動は集団から遺伝的変異を取り除く効果があります。この効果は、集団サイズ(集団内の個体数)が小さいとき強くなり、集団が大きいとき弱くなるそうです。
  • アレル頻度(allele frequency)
    母親由来と父親由来で塩基配列が異なるものが対象ですが、その中でもたとえばある特定のサイトにおいて「父親由来がGで母親由来がTのヒト達」とか、「父親由来がでC母親由来がTのヒト達」とか様々な遺伝子型(genotype)に分けることができます。同じヒトという集団を100%として、さらにそれを遺伝子型によって分けた集団ごとの人数(あるいは割合)がアレル頻度です。
  • GWAS
    リンク先は「Genome-wide association study」です。ゲノムワイド関連解析(genome-wide association study)の略です。ある集団内に存在する個体間の形質と塩基配列の違い(たとえばSNPや遺伝子型)との関連をゲノム全体で調べ,形質と関連する塩基配列の違いを統計的に検出する方法です。
  • 適応(adaptation)
    生物種がある環境のもとで生活するのに有利な形質を持っていることです。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • 多遺伝子適応(polygenic adaptation)
    「その形質に関わる数百から数千の遺伝子のアレル頻度が協調して一貫した方向でわずかに変化していくこと」という理解でよいです。
  • Pritchard et al., Curr Biol., 2010
  • Pritchard and Di Rienzo, Nat Rev Genet., 2010
  • Mathieson et al., Nature, 2015
  • Field et al., Science, 2016
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 系統樹(phylogenetic tree)
    生物が進化してきた道筋(これを系統といいます)を樹木のような形で描いた図のことです。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 混合グラフ(admixture graph)
    集団間移住の情報を集団分化の樹上グラフに枝として加えたものです。
  • PolyGraphRacimo et al., Genetics, 2018

  • 混合グラフ(admixture graph)
    集団間移住の情報を集団分化の樹上グラフに枝として加えたものです。
  • GWAS
    リンク先は「Genome-wide association study」です。ゲノムワイド関連解析(genome-wide association study)の略です。ある集団内に存在する個体間の形質と塩基配列の違い(たとえばSNPや遺伝子型)との関連をゲノム全体で調べ,形質と関連する塩基配列の違いを統計的に検出する方法です。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 有意(significance)
    リンク先は「有意」です。確率論・統計学の用語で、「確率的に偶然とは考えにくく、意味があると考えられる」ことです。
  • 相関(correlation)
    2つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように互いに関係を持つこと、またはそういう関係のことを指します。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNP