page038

第2章 ゲノム情報解析(発展編)

  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 多様性(diversity)
    幅広く性質の異なる群が存在することです。性質に類似性のある群が形成される点が特徴で、単純に「いろいろある」こととは異なります。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • エピジェネティクス(epigenetics)
    ゲノムの塩基配列自体は変わらないものの、その一部が化学的な修飾を受けて遺伝子の発現が制御され、それが維持される仕組みのことです。
  • 遺伝子発現(gene expression)
    遺伝子の情報が細胞における構造および機能に変換される過程のことです。
  • 統計(statistic)
    現象を調査することによって数量で把握すること、または、調査によって得られた数量データ(統計量)のことです。統計の性質を調べる学問は統計学です。
  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。

2.1 多様性の解析(パンゲノム解析)

  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
  • 真核生物(eukaryote)
    動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 統計(statistic)
    現象を調査することによって数量で把握すること、または、調査によって得られた数量データ(統計量)のことです。統計の性質を調べる学問は統計学です。

2.1.1 リシーケンシングとパンゲノム解析

  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • シーケンス(sequence)
    リンク先は「シークエンス」です。この場合は、DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
  • リシーケンシング(resequencingまたはre-sequencing)
    すでに配列決定された生物種のゲノムを再度シーケンスして解析する枠組みのことです。
  • Gao et al., Front Genet., 2020
    リシーケンシング(resequencingまたはre-sequencing)と明記されている論文の例です。
  • 一塩基置換(single-base nucleotide substitution)
    リンク先は「点突然変異」です。DNAやRNAのA、C、G、Tのうち1つ(1塩基)が別の塩基に置き換わってしまう突然変異のことです。
  • 一塩基多型(single nucleotide polymorphism; SNP)
    ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • Nakano et al., J Biomed Sci., 2016
    日本人の心房細動(atrial fibrillation)の病因(etiology)と、アルコール分解関連遺伝子(ADH1BとALDH2)のSNPとの関連について調べた論文です。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • 多様性(diversity)
    幅広く性質の異なる群が存在することです。性質に類似性のある群が形成される点が特徴で、単純に「いろいろある」こととは異なります。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • 一塩基変異(single nucleotide variation; SNV)
    SNP(ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られること)で定義された1%という基準に合致しない稀(rare)なもののことです。
  • Barton and Zeng, Mol Biol Evol., 2018
    「INDELがSNP やSNV に次いでよく見られるゲノムの多様性のタイプ」は、Small insertions and deletions (INDELs, ≤50 bp) are the most common type of variability after single nucleotide polymorphism (SNP). を根拠としています。
  • インデル(INDEL)
    ゲノム上の数十塩基程度の挿入(insertion)や欠失(deletion)のことです。deletion insertion polymorphism(DIP)ともよばれます。
  • DB
    データベースのことです。
  • dbSNPSayers et al., Nucleic Acids Res., 2021
    ヒトの一塩基変異(single nucleotide variation; SNV)、マイクロサテライト、小規模なインデルなどの情報からなるDBです。dbSNPのハンドブックには、INDEL以外の「挿入と欠失」をまとめた呼び方として、small-scale multi-base deletionsまたはinsertionsやdeletion insertion polymorphism(DIP)などがあげられています。
  • 1000 Genomes Project Consortium, Nature, 2012
    1,000人ゲノムプロジェクト論文です。実際には14の民族からなる1,092人の個体差を調べています。
  • Sudmant et al., Nature, 2015
    1,000人ゲノムプロジェクトの後継プロジェクト論文です。26の民族からなる2,504人の違いを調べています。

  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • バクテリア(bacteria)
    リンク先は「細菌」です。正確には真正細菌です。古細菌・真正細菌・真核生物という分類学上の3つのドメインの1つ、あるいはそこに含まれる生物のことです。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。
  • 多様性(diversity)
    幅広く性質の異なる群が存在することです。性質に類似性のある群が形成される点が特徴で、単純に「いろいろある」こととは異なります。
  • Tettelin et al., Proc Natl Acad Sci USA., 2005
    パンゲノム提唱論文です。パンゲノムは、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
page039
  • 大腸菌(Escherichia coli)
    グラム陰性の桿菌(かんきん)で通性嫌気性菌に属し、環境中に存在する細菌(バクテリア)の主要な種(species)の1つです。
  • バクテリア(bacteria)
    リンク先は「細菌」です。正確には真正細菌です。古細菌・真正細菌・真核生物という分類学上の3つのドメインの1つ、あるいはそこに含まれる生物のことです。
  • 病原性(pathogenicity)
    真正細菌やウイルスなどの病原体が、他の生物に感染して宿主に感染症を起こす性質・能力のことです。
  • 大腸菌K-12株(E. coli K-12)
    毒性の強い株であり、下痢の発作を引き起こします。実験目的で最も頻繁に利用される株です。
  • 大腸菌O-157株(E. coli O-157)
    リンク先は「病原性大腸菌」です。食中毒の原因菌としても有名な腸管出血性大腸菌のことです。K-12にも言及されています。
  • 森 浩禎, 生物工学, 90: 293-297, 2012
    大腸菌(Escherichia coli)のパンゲノムについて触れられています。
  • リシーケンシング(resequencingまたはre-sequencing)
    すでに配列決定された生物種のゲノムを再度シーケンスして解析する枠組みのことです。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • dbSNPSayers et al., Nucleic Acids Res., 2021
    ヒトの一塩基変異(single nucleotide variation; SNV)、マイクロサテライト、小規模なインデルなどの情報からなるDBです。
  • インデル(INDEL)
    ゲノム上の数十塩基程度の挿入(insertion)や欠失(deletion)のことです。deletion insertion polymorphism(DIP)ともよばれます。

  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
  • デノボアセンブリ(de novo assembly)
    リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
  • メモリ(memory)
    リンク先は「主記憶装置」です。データを記憶する部品のことです。コンピュータが計算を実行する際に利用する、データを一時的に記憶する場所のことです。場所が大きいものほど「メモリが大きい」などと表現します。
  • ミスアセンブリ(mis-assembly)
    デノボアセンブリの結果として、キメラコンティグを生成してしまうことです。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • ガイド(guide)
    基準となる大まかな指標、目安などを示すもののことです。補助線のようなイメージで捉えるとよいと思います。
  • Card et al., PLoS One, 2014
    リファレンスゲノム配列が利用可能な場合には、ガイド(guide)として利用するのが基本というのがわかる論文です。 このリファレンス配列をガイドとして利用するアプローチは、reference-guided、reference-based、reference-assistedなどと表現されます。
  • リンクドリード(linked read)
    ショートリード技術を活用してロングリードを得る手段(技術)のことです。
  • 被覆率(カバレッジ; coverage)
    リンク先は「Coverage (genetics)」です。コンセンサス配列を構築する際に、コンセンサス配列の長さの何倍の総塩基数を用いたかという情報です。コンセンサス配列よりも総塩基数が少ない情報だと、コンセンサス配列を作ることがそもそもできません。コンセンサス配列が100塩基だとすると、それを構築する際に用いた元の総塩基数が500塩基だとすると、被覆率は5倍といった具合で計算します。一見すると「卵が先かニワトリが先かという議論なのでは?」という印象を受けるかもしれませんが、たとえばゲノム配列決定の場面などではゲノムサイズを推定する方法が存在しますので、そのゲノム配列を決定したい場合にどの程度の総塩基数のデータであればどの程度確からしいゲノム配列が得られるかもわかるのです。被覆率と同じ意味で深度(depth)という言葉も用いられますので、たとえば低い被覆率(low coverage)と浅い深度(shallow depth)は同じ意味です。
  • Zhou et al., Nat Commun., 2021
    リンクドリード入力として、リファレンスを用いてアセンブリを行うプログラムAquilaの論文です。

2.1.2 原核生物のパンゲノム解析

  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
  • バクテリア(bacteria)
    リンク先は「細菌」です。正確には真正細菌です。古細菌・真正細菌・真核生物という分類学上の3つのドメインの1つ、あるいはそこに含まれる生物のことです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • Sherman and Salzberg, Nat Rev Genet., 2020
    パンゲノム解析の総説です。「ゲノム中に占める遺伝子領域の割合が非常に高い(多くの場合90%超)」は、 Defining the pan-genome in terms of genes rather than DNA sequence is sensible for prokaryotes. Not only do genes comprise most (typically 90% or more) of the sequence content in these species,… を根拠としています。
  • 構造アノテーション(structural annotation)
    塩基配列から遺伝子領域を見つける作業です。
  • 図2.1
    バクテリアにおけるパンゲノム解析の概念図です。集合論的に表現すれば、パンゲノムは和集合(union)、コアゲノムは積集合(intersection)となります。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。
page040
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
  • 和集合(union)
    集合の集まり(集合族)に対して、それらの集合のいずれか少なくとも1つに含まれているような要素をすべて集めることにより得られる集合のことです。
  • 積集合(intersection)
    リンク先は「共通部分 (数学)」です。与えられた集合の集まり(族)すべてに共通に含まれる(集合を構成する個々の数学的対象のこと)をすべて含み、それ以外の元は含まない集合のことです。

  • 図2.1b

    バクテリアにおけるパンゲノム解析の概念図です。(b)は、(a)の結果を行列として示したものです。表形式なので(ちょっと不格好ですが)以下でも示しておきます。右端の2列が非必須ゲノムです。

    菌株1 菌株2 菌株3 コアゲノム アクセサリ遺伝子 ユニーク遺伝子
    gene1 \(\circ\) 1 yes
    gene2 \(\circ\) 1 yes
    gene3 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene4 \(\circ\) \(\circ\) 2 yes
    gene5 \(\circ\) 1 yes
    gene6 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene7 \(\circ\) \(\circ\) 2 yes
    gene8 \(\circ\) 1 yes
    gene9 \(\circ\) 1 yes
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。株と菌株は実質的に同じものを指します。
  • 行列(matrix)
    数や記号や式などを縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • 要素(element)
    たとえば数値ベクトルなら、ベクトル内の各数値のことです。数値行列でいえば、たとえば\(i\)\(\times j\)列の箇所にある数値のことを指します。Excelで「セル」とよんでいるものと同義です。行列を構成する「マス目」のことです。
  • オーソログ(ortholog)
    生物種で相同性がある遺伝子どうしのことです。
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 非必須ゲノム(dispensable genome)
    (バクテリアの場合は)コアゲノム以外の遺伝子の集合のことです。dispensableは「不要」とか「なくても困らない」とか「重要ではない」という意味の形容詞です。アクセサリゲノムとも訳されるようです。
  • Sherman and Salzberg, Nat Rev Genet., 2020
    パンゲノム解析の総説です。パンゲノム(pan-genome)はコアゲノム(core genome)と非必須ゲノム(dispensable genome)から構成されます。非必須ゲノムはさらに、1つの菌株のみに存在するユニーク遺伝子(unique gene)と、それ以外のアクセサリ遺伝子(accessory gene)から構成されます。このあたりは、“Defining a pan-genome”という節に記載されています。
  • ユニーク遺伝子(unique gene)
    パンゲノム解析対象のすべての菌株(strain)の中で、1つの菌株のみに存在する遺伝子群のことです。非必須ゲノムの構成要素の1つです。
  • アクセサリ遺伝子(accessory gene)
    パンゲノム解析対象のすべての遺伝子の中から、コアゲノムとユニーク遺伝子(unique gene)を除いた残りの遺伝子群のことです。「複数の菌株に存在するが、すべての株に存在するわけではない遺伝子群」のことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • PAVプロファイル(PAV profile)
    PAVはpresence/absence variationの略です。ゲノムごとに遺伝子の存在の有無をバイナリで表現したもののことです。
  • Hu et al., Bioinformatics, 2017
    EUPANという真核生物のパンゲノム解析プログラムの論文です。ゲノムごとに遺伝子の存在の有無をバイナリ(0または1のような2つの値のどちらか)で表現したpresence/absence variation(PAV)プロファイルの概念図がFig. 1の中央左側に示されています。

  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。株と菌株は実質的に同じものを指します。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
  • 解析対象に菌株4を加えた場合

    バクテリアにおけるパンゲノム解析の概念図である図2.1bと同じような形式で、gene6とgene10とgene11からなる菌株4を追加したものを示しておきます。

    菌株1 菌株2 菌株3 菌株4 コアゲノム アクセサリ遺伝子 ユニーク遺伝子
    gene1 \(\circ\) 1 yes
    gene2 \(\circ\) 1 yes
    gene3 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene4 \(\circ\) \(\circ\) 2 yes
    gene5 \(\circ\) 1 yes
    gene6 \(\circ\) \(\circ\) \(\circ\) \(\circ\) 4 yes
    gene7 \(\circ\) \(\circ\) 2 yes
    gene8 \(\circ\) 1 yes
    gene9 \(\circ\) 1 yes
    gene10 \(\circ\) 1 yes
    gene11 \(\circ\) 1 yes
  • 解析対象を菌株2と3のみにした場合

    バクテリアにおけるパンゲノム解析の概念図である図2.1bと同じような形式で、菌株2と3のみの結果を示しておきます。

    菌株2 菌株3 コアゲノム アクセサリ遺伝子 ユニーク遺伝子
    gene2 \(\circ\) 1 yes
    gene3 \(\circ\) \(\circ\) 2 yes
    gene4 \(\circ\) 1 yes
    gene6 \(\circ\) \(\circ\) 2 yes
    gene7 \(\circ\) \(\circ\) 2 yes
    gene8 \(\circ\) 1 yes
    gene9 \(\circ\) 1 yes
  • サンプリング(sampling)
    リンク先は「標本調査」です。母集団から標本を抽出することです。母集団(ある解析対象生物種のすべての個体)をすべて調査対象とする全数調査は、予算的な面からも非現実的です。このため、現実的な数の菌株(strain)を抽出して、手元の情報のみから母集団の性質を統計学的に推定する方法が標本調査です。生命科学系のほぼすべての研究は、標本調査によって得られています。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • パンゲノムとコアゲノムのプロット図の例
    EUPAN論文(Hu et al., Bioinformatics, 2017)の Fig. 1の中央下側(⑦)にも、 ゲノム数が増えるとパンゲノムが増えてコアゲノムが減っていくイメージが示されています。パンゲノムの増加のイメージ図については、「実験医学別冊 論文図表を読む作法」の第7章にあるAccumulation curveとも対応しています。

2.1.3 パンゲノムデータ解析と統計

  • Nourdin-Galindo et al., Front Cell Infect Microbiol., 2017
    サケ科魚類の流行病であるリケッチア敗血症の原因菌Piscirickettsia salmonisを対象として、地理的・遺伝的に代表的な19株のパンゲノム解析を行った論文です。Fig. 2Bが「パンゲノムとコアゲノムのプロット図」の例です。計6個のプロットのうち、右下まで伸びている●(red circle)のプロットが凡例の1番上のCore-Genome All Genomesに、そして右上まで伸びている◆(red diamond)のプロットが凡例の上から2番目のPan-Genome All Genomesに対応します。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
  • ランダムサンプリング(random sampling)
    リンク先は「標本調査」です。母集団から標本を抽出することです。母集団(ある解析対象生物種のすべての個体)をすべて調査対象とする全数調査は、予算的な面からも非現実的です。このため、現実的な数の菌株(strain)を抽出して、手元の情報のみから母集団の性質を統計学的に推定する方法が標本調査です。生命科学系のほぼすべての研究は、標本調査によって得られています。サンプリングとランダムサンプリングは、実質的に同じ意味です。
page041
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
  • ヒープスの法則(Heaps’ law)
    リンク先は「Heaps’ law」です。バクテリアのパンゲノム解析において、横軸が菌株数、縦軸が遺伝子数のプロットをとったときに、パンゲノムを構成する遺伝子数の増加の程度を表現する際によく用いられる数式という理解でよいです。
  • べき乗則(power law)
    リンク先は「冪乗則(べきじょうそく)」です。べき乗則とも書かれます。「べき分布(power law distribution)」もこのリンク先です。バクテリアのパンゲノム解析において、横軸が菌株数、縦軸が遺伝子数のプロットをとったときに、コアゲノムを構成する遺伝子数の減少の程度を表現する際によく用いられる数式という理解でよいです。統計モデルの1つであり、\(f(x) = ax^k\)のような形で表されることが多いです(\(a\)\(k\)は定数)。\(x\)に相当する説明変数のスケールが変わる(単位がmmからcmに変わるとかそういうイメージ)と\(a\)\(k\)の値も変わりますが、関数自体の形は変わらないのが特徴です。両対数プロットをとると直線性を示すという説明もよくなされます。
  • 曲線あてはめ(curve fitting)
    実験的に得られたデータまたは制約条件に最もよく当てはまるような曲線を求めることです。
  • Figure 2Bの曲線
    Nourdin-Galindo et al., Front Cell Infect Microbiol., 2017Fig. 2Bのことです。
  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
  • Costa et al., Bioinform Biol Insights, 2020
    原核生物のパンゲノム解析の総説です。

  • 図2.1b

    バクテリアにおけるパンゲノム解析の概念図です。(b)は、(a)の結果を行列として示したものです。表形式なので(ちょっと不格好ですが)以下でも示しておきます。右端の2列が非必須ゲノムです。この表作成作業は、ゲノム(strain)間での同一遺伝子の対応付けであるため、オーソログ同定作業と同義です。

    菌株1 菌株2 菌株3 コアゲノム アクセサリ遺伝子 ユニーク遺伝子
    gene1 \(\circ\) 1 yes
    gene2 \(\circ\) 1 yes
    gene3 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene4 \(\circ\) \(\circ\) 2 yes
    gene5 \(\circ\) 1 yes
    gene6 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene7 \(\circ\) \(\circ\) 2 yes
    gene8 \(\circ\) 1 yes
    gene9 \(\circ\) 1 yes
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。株と菌株は実質的に同じものを指します。
  • アノテーション(annotation)
    この場合は、塩基配列に対して生物学的意味を注釈付けすることです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 参照DB
    この場合は、手元にある未知機能の塩基配列に注釈付けを行う際に用いる「これまでに蓄積されてきた遺伝子機能に関する情報を収集したデータベース」のことです。
  • タンパク質産物(protein product)
    mRNAの情報に基づいて、合成されたタンパク質のことです。「遺伝子産物」とか「タンパク質産物」と表現する場合が結構ありますので、産物という表現に慣れておいてもらいたいという意図でつけています。
  • transposase
    トランスポゾンの末端に結合し、カットアンドペーストメカニズムまたは複製転移メカニズムによってゲノムの別の部分への移動を触媒する酵素です。トランスポザーゼのことです。
  • 仮想タンパク質(hypothetical protein)
    リンク先は「Hypothetical protein」です。実験的な証拠はないものの、おそらくそうであろうと予測されたタンパク質のことです。
  • 乳酸菌(Lactic acid bacteria)
    代謝により乳酸を産生する細菌類の総称です。ヨーグルト、乳酸菌飲料、漬け物など食品の発酵に寄与します。一部の乳酸菌は、腸などの消化管(腸内細菌)や膣に常在して、他の微生物と共生あるいは拮抗することによって腸内環境の恒常性維持に役立っていると考えられています。
  • DFASTTanizawa et al., Bioinformatics, 2018
    DFASTは、乳酸菌を含むバクテリア用のアノテーションプログラムです。ゲノムやコンティグなどの塩基配列のmulti-FASTAファイルを入力として与えて実行すると、構造アノテーションと機能アノテーション結果が返されます。
  • 谷澤ら, 日本乳酸菌学会誌, 28:94-100, 2017b(NGS連載第10回)
    「2,599遺伝子中463個がhypothetical protein」は、この解説記事の本文中では明記されていません。しかし、この中の図1で見えているfeatures.tsvファイル中の”product”列内で、“hypothetical protein”をカウントした結果が463個でした。
  • Cho et al., Nat Commun., 2013
    トラゲノム解読論文です。本文中では改めては引用していません。
  • Mittal et al., Sci Rep., 2019
    ネコ科ゲノム比較系論文です。上記のトラゲノム配列中に約百万個のエラー(1塩基置換, single nucleotide substitution)が含まれていたことを報告しています。これも本文中では改めては引用していません。
  • コミュニティアノテーション(community annotation)
    興味ある生物種の特徴や性質を理解した研究者のコミュニティで、継続的なアップデートや修正を行うことです。
  • オーソログ(ortholog)
    生物種で相同性がある遺伝子どうしのことです。

2.1.4 オーソログの同定

  • 配列類似性検索(sequence similarity search)
    この場合は、手元にあるアノテーションしたい塩基配列(query sequenceとかクエリ側などといいます)を、公共配列DB(DB側などといいます)に対して問い合わせて、DB側に似た配列が存在するかどうかを調べることです。この類似性検索作業の実体は、配列のアラインメントです。
  • BLASTAltschul et al., J Mol Biol., 1990
    NCBI BLASTにリンクを張っています。BLASTは、Basic Local Alignment Search Toolの略です。「ぶらすと」と読みます。DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアラインメントを行うためのアルゴリズム、またはそのアルゴリズムを実装したプログラムのことです。
  • アルゴリズム(algorithm)
    「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
  • 構造アノテーション(structural annotation)
    塩基配列から遺伝子領域を見つける作業です。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 図2.2a
    ゲノム(菌株)間での同一遺伝子の対応付け(オーソログの同定)の図です。(a)は(multi-)FASTA形式ファイルの例です。
  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。株と菌株は実質的に同じものを指します。
  • FASTA形式ファイル
    リンク先は「FASTA format」です。複数の遺伝子配列情報が1つのファイルに格納されているのでmulti-FASTAとよばれることもありますが、今の時代は1つの配列情報のみからなるsingle-FASTAファイルとして取り扱う局面のほうがむしろ稀であるため、事実上同一視して差し支えありません。
  • 配列DB
    配列データベースのことです。データベース(database; DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたもののことです。
  • 閾値(threshold)
    境目となる値のことです。この場合は、「問い合わせる側の配列」と「問い合わせられる側の配列」が類似していると判断する境目として設定する値のことです。

  • 図2.2b
    ゲノム(菌株)間での同一遺伝子の対応付け(オーソログの同定)の図です。(b)はBLASTを用いた配列類似性検索例です。BLASTで問い合わせる側をquery側、問い合わせられる側をデータベース(DB)側などといいます。
  • 菌株(strain)
    リンク先は「Strain (biology)」です。他の菌株と区別されるような、独特の特徴を持つ種内サブグループです。ヒトでいえば、民族の違いのようなイメージで捉えるとよいと思います(民族≒菌株)。あるバクテリア(生物種)をシャーレなどで分離して培養したもののことです。シャーレ上で培養された単一の細胞コロニーに由来するもの全体を指す言葉です。株と菌株は実質的に同じものを指します。
page042
  • 図2.2a
    ゲノム(菌株)間での同一遺伝子の対応付け(オーソログの同定)です。

  • ベストヒット(best hit)
    クエリ配列と最も類似度が高かったDB側の配列のことです。
  • 図2.2c
    ゲノム(菌株)間での同一遺伝子の対応付け(オーソログの同定)の図です。(c)は双方向のヒット結果のみを示した概念図です。2つの菌株間でのオーソログ同定を行う際によく用いられるのが、双方向ベストヒット(bi-directional best hit)あるいは相互ベストヒット(reciprocal best hit)という基準です。具体的には、BLASTを用いた全遺伝子どうしの比較(all-versus-all BLAST comparison)がよく行われます。
  • オーソログ(ortholog)
    生物種で相同性がある遺伝子どうしのことです。この場合は「菌株で類似性が高い遺伝子どうしのこと」だと読み替えればよいです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 双方向ベストヒット(bi-directional best hit)
    今は2つの菌株間で同一遺伝子を対応付けようとしています。「片方の株をクエリ側、もう片方の株をDB側にしてBLASTして得られたベストヒット」が一方向のベストヒットに相当します。これに加えて、「クエリ側とDB側を入れ替えてもう一度同じ作業を行って得られたベストヒット」で矛盾なく相思相愛でベストヒットになっているもの、あるいはその一連の作業のことです。相互ベストヒット(reciprocal best hit)ともいいます。
  • orthoFinderEmms and Kelly, Genome Biol., 2019
    オーソログ同定プログラムです。

2.1.5 真核生物のパンゲノム解析

  • 哺乳類(mammal)
    哺乳綱(ほにゅうこう)に属する動物の総称です。
  • 植物(plant)
    草や木などのように、根があって場所が固定されて生きているような生物のことです。対義語は動物です。
  • ゲノムサイズ(genome size)
    (正確にはハプロイドゲノムだと思いますが)ある生物種がもつゲノムの総塩基数という理解でよいです。
  • 真核生物(eukaryote)
    動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • エクソン(exon)
    デオキシリボ核酸(DNA)またはリボ核酸(RNA)の塩基配列中で成熟mRNAに残る部分です。
  • Piovesan et al., BMC Res Notes, 2019
    ヒト遺伝子の統計情報論文です。「ヒトはエクソンがゲノムの数%しか占めていない」は、Table 2中のTotalというところのExonが174,797,813 bp、そしてIntronが3,555,747,074 bpという結果より、174,797,813/ (174,797,813 + 3,555,747,074) = 0.04685584から、5%未満であるということを主な根拠としています。もちろんTable 2はprotein-coding transcriptsに限定した結果ですので、それ以外を含めるとさらに分母の数値が大きくなることは容易に想像がつきます。よって、「ゲノムの数%」と書いてよいと判断しています。
  • 種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 多様性(diversity)
    幅広く性質の異なる群が存在することです。性質に類似性のある群が形成される点が特徴で、単純に「いろいろある」こととは異なります。
  • イントロン(intron)
    転写はされるが最終的に機能する転写産物からスプライシングによって除去される塩基配列のことです。
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
page043
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • コアゲノム(core genome)
    パンゲノム解析で用いられる概念であり、たとえばバクテリアの場合は「解析対象のすべての株で共通して存在する遺伝子の集合」を指します。ヒトなどの場合は「解析対象の全個体で共通して存在する領域の集合」を指します。集合論的に言えば、積集合(intersection)と理解すればよいです。
  • Sherman and Salzberg, Nat Rev Genet., 2020
    パンゲノム解析の総説です。真核生物の場合は、コアゲノムが「個体間で共通してみられる領域を結合したもの(積集合)」、パンゲノムが「コアゲノム以外の領域(dispensable genome)をコアゲノム内に挿入して作成したようなもの(和集合)」として定義されます。具体的なイメージは、Fig. 1bに提示されています。

  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 図2.1b

    バクテリアにおけるパンゲノム解析の概念図です。(b)は、(a)の結果を行列として示したものです。表形式なので(ちょっと不格好ですが)以下でも示しておきます。右端の2列が非必須ゲノムです。この表作成作業は、ゲノム(strain)間での同一遺伝子の対応付けであるため、オーソログ同定作業と同義です。

    菌株1 菌株2 菌株3 コアゲノム アクセサリ遺伝子 ユニーク遺伝子
    gene1 \(\circ\) 1 yes
    gene2 \(\circ\) 1 yes
    gene3 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene4 \(\circ\) \(\circ\) 2 yes
    gene5 \(\circ\) 1 yes
    gene6 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene7 \(\circ\) \(\circ\) 2 yes
    gene8 \(\circ\) 1 yes
    gene9 \(\circ\) 1 yes
  • PAVプロファイル(PAV profile)
    PAVはpresence/absence variationの略です。ゲノムごとに遺伝子の存在の有無をバイナリで表現したもののことです。上記図2.1bの左表のことです。
  • Hu et al., Bioinformatics, 2017
    EUPANという真核生物のパンゲノム解析プログラムの論文です。PAVに基づく解析(PAV-based analysis)は、Fig. 1中で、PAV-based pan-genome analysesやPAV-based GWASなどとも表現されていることがわかります。map-to-pan戦略もFig. 1に書かれています。バイナリのフラグを立てる作業は、具体的には「マップされれば1、されなければ0」とすることです。
  • ゲノムサイズ(genome size)
    (正確にはハプロイドゲノムだと思いますが)ある生物種がもつゲノムの総塩基数という理解でよいです。
  • 真核生物(eukaryote)
    動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
  • 和集合(union)
    集合の集まり(集合族)に対して、それらの集合のいずれか少なくとも1つに含まれているような要素をすべて集めることにより得られる集合のことです。
  • 積集合(intersection)
    リンク先は「共通部分 (数学)」です。与えられた集合の集まり(族)すべてに共通に含まれる(集合を構成する個々の数学的対象のこと)をすべて含み、それ以外の元は含まない集合のことです。
  • map-to-pan戦略
    Hu et al., Bioinformatics, 2017で提唱されたパンゲノム解析戦略です。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
  • マッピング(mapping)
    リードデータがゲノム配列上のどこに由来するかを調べる作業のことですが、実質的にはアラインメントと同じです。
  • バイナリ(binary)
    二進法のことです。yesかnoか、1か0かということです。本文中の直後の「フラグ」は、旗をたてるかたてないかという意味で用いています。
  • Wang et al., Nature, 2018
    コメのパンゲノム解析論文です。EUPANが利用されている論文例です。

  • 真核生物(eukaryote)
    動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • トマト(tomato)
    南アメリカのアンデス山脈高原地帯原産のナス科ナス属の植物、また、その果実のことです。多年生植物で、果実は食用として利用されます。緑黄色野菜の一種です。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • Tomato Genome Consortium, Nature, 2012
    トマトのゲノム配列決定論文です。
  • 系統(lineage)
    この場合は、トマトという生物種の中の特定の品種(同一種の栽培植物や飼養動物で、形態や性質の変異が遺伝的に分離・固定されたもの)という理解でよいです。
  • 栽培(cultivation)
    野菜や樹木などの植物、キノコ、藻類などを植えて育てることです。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • 遺伝的多様性(genetic diversity)
    (同一生物種内の)遺伝子型(ある生物の個体が持つ遺伝物質の構成)の多様性のことです。
  • 品種改良(breeding)
    栽培植物や家畜などにおいて、より人間に有用な品種を作り出すことです。育種のことです。
  • Gao et al., Nat Genet., 2019
    トマトのパンゲノム解析論文です。系統的・地理的に代表的な725株(この論文ではaccessionsと表現されている)のゲノム配列を用いてパンゲノムを構築し、リファレンスゲノムでは報告されていなかった4,873個もの遺伝子を同定したという論文です。
  • 非必須ゲノム(dispensable genome)
    (バクテリアの場合は)コアゲノム以外の遺伝子の集合のことです。dispensableは「不要」とか「なくても困らない」とか「重要ではない」という意味の形容詞です。アクセサリゲノムとも訳されるようです。
  • 図2.1b

    バクテリアにおけるパンゲノム解析の概念図です。(b)は、(a)の結果を行列として示したものです。右端の2列が非必須ゲノムです。

    菌株1 菌株2 菌株3 コアゲノム アクセサリ遺伝子 ユニーク遺伝子
    gene1 \(\circ\) 1 yes
    gene2 \(\circ\) 1 yes
    gene3 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene4 \(\circ\) \(\circ\) 2 yes
    gene5 \(\circ\) 1 yes
    gene6 \(\circ\) \(\circ\) \(\circ\) 3 yes
    gene7 \(\circ\) \(\circ\) 2 yes
    gene8 \(\circ\) 1 yes
    gene9 \(\circ\) 1 yes
  • ゲノム編集(genome editing)
    部位特異的ヌクレアーゼを利用して、思い通りに標的遺伝子を改変する技術のことです。部位特異的ヌクレアーゼとしては、2005年以降に開発・発見された、ZFN、TALEN、CRISPR/Cas9を中心としています。
  • GABA
    リンク先は「γ-アミノ酪酸」です。GABAはGamma-AminoButyric Acidの略です。アミノ酸のひとつで、主に抑制性の神経伝達物質として機能している物質です。
  • Della Coletta et al., Genome Biol., 2021
    農産物のパンゲノム解析の総説です。パンゲノムとゲノム編集(genome editing)で品種改良を行うイメージなどが記載されています。

2.1.6 その他の多様性解析(染色体再構成や構造変異)

  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • 多様性(diversity)
    幅広く性質の異なる群が存在することです。性質に類似性のある群が形成される点が特徴で、単純に「いろいろある」こととは異なります。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • SNV
    一塩基変異(single nucleotide variation)のことです。SNP(ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られること)で定義された1%という基準に合致しない稀(rare)なもののことです。
  • Nguyen et al., Am J Med Genet C Semin Med Genet., 2015
    ヒト5番染色体短腕(5p)の欠失に関する総説です。
  • 猫鳴き症候群
    リンク先は「染色体異常」です。丸顔で両眼隔離・発育障害・知能障害・子ネコ様の鳴き声などの異常が起きる、染色体異常に伴う病気(症候群)のことです。
  • Alkan et al., Nat Rev Genet., 2011
    構造変異(structural variation; SV)に関する総説です。
  • コピー数変異(Copy Number Variation; CNV)
    リンク先は「コピー数多型」です。ある集団のなかで1細胞あたりのコピー数が個体間で異なるゲノムの領域のことです。遺伝子重複反復配列に関する事柄と同義です。コピー数多型ともいいます。
  • 遺伝子重複(gene duplication)
    遺伝子を含むDNAのある領域が重複する現象のことです。遺伝子重複によって生じた2つの遺伝子はパラログ(paralog)とよばれます。異なる生物に存在する相同な機能を持った遺伝子群であるオーソログもこのリンク先になります。
  • リピート(repeat)
    リンク先は「反復配列」です。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。ゲノム上での存在様式の違いによって、大きく「縦列反復配列またはタンデムリピート(tandem repeat)」と「散在反復配列(dispersed repeat)」の2つのクラスに分類されます。
  • 分節重複(segmental duplication)
    リンク先は「Low copy repeats」です。セグメント重複やゲノム重複とも訳されるようです。10-300 Kbの長さで、95%以上の類似性を持った領域がゲノム上の複数個所に存在することを指します。染色体再構成(Chromosomal Rearrangement)とも表現されるようです。ヒトでは、Y染色体に特に多く存在するようです。
  • Della Coletta et al., Genome Biol., 2021
    農産物のパンゲノム解析の総説です。
  • 染色体再構成(Chromosomal Rearrangement)
    リンク先は「Chromosomal rearrangement」です。染色体の構造の変化を伴う染色体異常の一種です。欠失(deletion)、重複(duplication)、逆位(inversion)、転座(translocation)もこれに含まれます。
  • 逆位(inversion)
    リンク先は「Chromosomal inversion」です。染色体の一部の領域が逆向きになることです。
  • 転座(translocation)
    リンク先は「染色体転座」です。染色体の異常な再配列が引き起こされる現象のことです。相互転座(reciprocal translocation)とロバートソン転座(Robertsonian translocation)の2つの主要なタイプが存在します。相互転座は非相同染色体間で一部が交換されることで生じる染色体異常であり、2つの異なる染色体断片が交換されます。ロバートソン転座では、2つの非相同染色体が連結されます。転座によって離れていた遺伝子が連結されることで、融合遺伝子が生じる可能性があります。がんゲノム解析分野でよく話題になる融合遺伝子検出プログラム開発などを志向するヒトは、このあたりの原理も正しく理解しておかないと厳しいかと思います。
  • 図2.1a
    バクテリアにおけるパンゲノム解析の概念図です。(a)は、3種類の菌株の仮想ゲノム配列です。gene4が菌株1と菌株2の間で向きが変わっていますが、これが逆位(inversion)の具体例です。
  • Alkan et al., Nat Rev Genet., 2011
    Alkan論文のことです。Figure 1に構造変異の例が示されています。
  • Della Coletta et al., Genome Biol., 2021
    Della Coletta論文のことです。Fig. 1に構造変異の例が示されています。

page044
  • Alkan et al., Nat Rev Genet., 2011
    Alkan論文のことです。Figure 1に構造変異の例が示されています。
  • Della Coletta et al., Genome Biol., 2021
    Della Coletta論文のことです。Fig. 1に構造変異の例が示されています。

  • 構造変異(structural variation; SV)
    リンク先は「Structural variation」です。染色体レベルの構造の変異(多様性)のことです。染色体再構成(Chromosomal Rearrangement)とほとんど意味は同じで、挿入(insertion)や欠失(deletion)、重複(duplication)、コピー数変異(Copy Number Variation; CNV)、逆位(inversion)、転座(translocation)など様々なものの総称という理解でよいです。
  • Feuk et al., Nat Rev Genet., 2006
    構造変異(structural variation; SV)に関する総説です。オープンアクセスではありません。「かつて構造変異(SV)という言葉は、1,000塩基以上あるINDELや逆位などのゲノムの多様性を指す総称として定義されていた」の根拠として引用している論文です。
  • インデル(INDEL)
    ゲノム上の数十塩基程度の挿入(insertion)や欠失(deletion)のことです。deletion insertion polymorphism(DIP)ともよばれます。
  • Ho et al., Nat Rev Genet., 2020
    構造変異に関する総説です。「様々なSV同定用プログラム」は、Table 1にリストアップされています。
  • 生命科学(life science)
    生命を研究対象とする学問のことです。
  • MethodsX
    論文のMethods部分に特化したオープンアクセス雑誌という理解でよいと思います。
  • Chow et al., MethodsX, 2019
    MethodsXに掲載された論文例です。転座の一種である相互転座(reciprocal translocation)の状況を、プログラムを用いてどのように捉えたかという一連の流れがコマンドオプションつきで丁寧に記載されています。
  • 転座(translocation)
    リンク先は「染色体転座」です。染色体の異常な再配列が引き起こされる現象のことです。相互転座(reciprocal translocation)とロバートソン転座(Robertsonian translocation)の2つの主要なタイプが存在します。相互転座は非相同染色体間で一部が交換されることで生じる染色体異常であり、2つの異なる染色体断片が交換されます。ロバートソン転座では、2つの非相同染色体が連結されます。
  • ナノポア(Nanopore)
    文脈によって、「分析対象である1本鎖DNA分子がナノポア内を通過すると、塩基の種類に応じて特徴的な電流の変化(ionic current fluctuation)が観測されるのを利用してロングリードデータを得るシーケンス技術」、「その技術を利用したシーケンサ」、そして「そのメーカー」のことを指します。
  • ロングリード(long read)
    数千~数万塩基程度の長さをもつリードのことです。
  • NanoSVStancu et al., Nat Commun., 2017
    構造変異(structural variation; SV)検出プログラムです。
  • IGVThorvaldsdóttir et al., Brief Bioinform., 2013
    IGVは、Integrative Genomics Viewerの略です。生物種に特化していないゲノム解析分野の代表的な可視化ツール(ビューアまたはブラウザ)です。
  • PubMed
    文献検索サイトです。

2.2 ハプロタイプフェージング

  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 接合性(zygosity)
    生物の形質(生物のもつ性質や特徴のこと)に関するアレル(SNPが観測された塩基またはそれを含む遺伝子)の類似性のことです。アレル間の塩基配列の類似性のことです。
  • ジェノタイピング(genotyping)
    シンプルにいえば「遺伝子型を解析すること」です。ある個体のDNA配列をDNAシーケンシングなどによって識別し、他の個体のDNA配列や基準となるDNA配列と比較することによって、遺伝子型(genotype)の違いを検出する方法のことです。ジェノタイピングにより、ある個体が両親から受け継いだ対立遺伝子(アレル)を明らかにすることができます。
  • ゲノムワイド関連解析(genome-wide association study; GWAS)
    リンク先は「Genome-wide association study」です。ある集団内に存在する個体間の形質と塩基配列の違い(たとえばSNPや遺伝子型)との関連をゲノム全体で調べ,形質と関連する塩基配列の違いを統計的に検出する方法です。
  • 多重比較問題(multiple comparison problem)
    リンク先は「Multiple comparisons problem」です。有意水準を変えずに一度に複数のSNPの検定を行うと、本当は有意ではないSNPsが有意と判定されてしまう問題と理解すればよいです。
  • 倍数性(ploidyまたはpolyploidy)
    生物がゲノムを何セットもつかということです。1倍体またはハプロイド(haploid)、2倍体またはディプロイド(diploid)、3倍体またはトリプロイド(triploid)、倍数体(polyploid)などもこのリンク先です。ヒトの染色体総数を2n = 46と表現することもありますが、このnは単相数(haploid number)のことを指しており、基本数xとは別の概念であるので注意してください。単層数nは「生殖細胞中の染色体数」として定義されます。なお、基本数xは「ゲノム1セットあたりの染色体数」です。
  • 品種改良(breeding)
    栽培植物や家畜などにおいて、より人間に有用な品種を作り出すことです。育種のことです。

2.2.1 ジェノタイピング

  • パンゲノム(pangenomeまたはpan-genome)
    元々は、バクテリアの種(species)内の菌株(strain)間の多様性を議論する文脈で提唱されたものです。たとえばヒトゲノムリファレンス配列は1つですが、実際にはSNPなど個体間で配列が異なります。パンゲノムは、このような個体間の違いも含めた同一生物種内の多様性(和集合的なイメージ)だと解釈すればよいです。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • 哺乳類(mammal)
    哺乳綱(ほにゅうこう)に属する動物の総称です。
  • 相同染色体(homologous chromosome)
    リンク先は「相同」です。精子や卵子のような生殖細胞(gamete)以外のヒトの体細胞(somatic cell)は、44本の常染色体(1~22番までの染色体)と2本の性染色体(女性は2本のX染色体のペア、男性はX染色体とY染色体のペア)の計46本の染色体をもちます。相同染色体は、性染色体以外の対応する染色体の対のことです。たとえば、母親由来の3番染色体と父親由来の3番染色体は、その2対で相同染色体です。
  • 精子(spermatozoon)
    雄性の生殖細胞の1つです。動物、藻類やコケ植物、シダ植物、一部の裸子植物(イチョウなど)にみられます。
  • 卵子(ovum)
    リンク先は「卵細胞」です。雌性で不動の配偶子です。卵細胞や卵(らん)ともよばれます。
  • 生殖細胞(germ cell)
    生殖において遺伝情報を次世代へ伝える役割をもつ細胞です。胚細胞ともいいます。
  • 体細胞(somatic cell)
    多細胞生物を構成する細胞のうち生殖細胞以外の細胞のことです。
  • 常染色体(autosomal chromosomeまたはautosome)
    性染色体以外の染色体のことであり、ヒトの体細胞は22対、44本の常染色体をもちます。性染色体どの染色体が何番であるかは本来は大きさ順で決められていましたが、一部発見時の誤りがあったため実際の大きさとは必ずしも比例しない場合があります。たとえばヒトの21番染色体は、22番染色体よりも小さいです。
  • 性染色体(sex chromosome)
    雌雄異体の生物で雌雄によって形態や数が異なる染色体、もしくは形態的な差異が見られないが性決定に関与する染色体のことです。染色体構成を常染色体および性染色体を明らかにして示すときは、常染色体の1セットを記号Aで示し、2n=2A+XY, n=A+Yなどと表記します。
  • 相同(ホモロジー; homology)
    リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例:ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。相同という言葉自体の説明はほとんどなく、「相同性」や「相同である」といったあたりの説明がほとんどです。対義語は相似(外見や機能は似ているが共通の祖先に由来しないこと)です。
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
  • ジェノタイピング(genotyping)
    シンプルにいえば「遺伝子型を解析すること」です。ある個体のDNA配列をDNAシーケンシングなどによって識別し、他の個体のDNA配列や基準となるDNA配列と比較することによって、遺伝子型(genotype)の違いを検出する方法のことです。ジェノタイピングにより、ある個体が両親から受け継いだ対立遺伝子(アレル)を明らかにすることができます。
  • 国際HapMap計画International HapMap Consortium, Nature, 2003
    ヒトゲノムのハプロタイプマップを構築することを目標とした計画です。
  • ハプロタイプフェージングの例
    • ジャガイモ(potato)の論文:Zhou et al., Nat Genet., 2020
    • 蛾(moth)の論文:Yen et al., Gigascience, 2020
      ウッドタイガー(模様が近いので「木のトラ?!」なのですかね)とよばれるErebidae科の蛾(ガ)です。和名は、ヒメキシタヒトリ(Arctia plantaginis)です。
    • 牛(cattle)の論文:Low et al., Nat Commun., 2020
      アンガス牛(Angus)とブラーマン牛(Brahman)の2つの亜種のゲノムをトリオビニング法(trio binning)で高解像度で決定したという論文です。 ここでいうトリオは、「両親とその子孫(offspring)」の3人で1組という意味です。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。

  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 相同染色体(homologous chromosome)
    リンク先は「相同」です。リンク先は「相同」です。精子や卵子のような生殖細胞(gamete)以外のヒトの体細胞(somatic cell)は、44本の常染色体(1~22番までの染色体)と2本の性染色体(女性は2本のX染色体のペア、男性はX染色体とY染色体のペア)の計46本の染色体をもちます。相同染色体は、性染色体以外の対応する染色体の対のことです。たとえば、母親由来の3番染色体と父親由来の3番染色体は、その2対で相同染色体です。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • 遺伝子座(locus)
    「座位」もこのリンク先になります。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。locusが単数形で、lociが複数形です。
  • 対立遺伝子(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
page045
  • アルコール(alcohol)
    炭化水素の水素原子をヒドロキシ基(-OH)で置き換えた物質の総称です。ただし、芳香環の水素原子を置換したものはフェノール類とよばれ、アルコールと区別されます。最初に「アルコール」として認識された物質は、酒に含まれるエタノール(酒精)です。この歴史的経緯により、エタノールもしくは酒を指して「アルコール」と言うことも多いです。
  • 代謝(metabolism)
    生命の維持のために有機体が行う、外界から取り入れた無機物や有機化合物を素材として行う一連の合成や化学反応のことです。
  • アセトアルデヒド(acetaldehyde)
    アルデヒドの一種です。IUPAC命名法では エタナール(ethanal)ともいい、他に酢酸アルデヒド、エチルアルデヒドなどの別名があります。自然界では植物の正常な代謝過程で産生され、特に果実などに多く含まれています。また、人体においてはアルコールの代謝によって生成されて、一般に二日酔いの原因と見なされているほか、たばこの依存性を高めるともいわれ、発がん性があります。
  • アルコール脱水素酵素(ADH)
    リンク先は「アルコールデヒドロゲナーゼ」です。アルコールを酸化してアルデヒドにする反応を触媒する酵素です。アルコール脱水素酵素ともよばれます。人間の場合、少なくとも6種のアイソフォームが存在します。肝臓に多く存在し、エタノールを摂取した時に働きます。
  • 酢酸(acetic acid)
    簡単なカルボン酸の一種です。IUPAC命名法では、酢酸は許容慣用名であり、系統名はエタン酸(ethanoic acid)です。純粋なものは冬に凍結することから氷酢酸(ひょうさくさん)とよばれます。2分子の酢酸が脱水縮合すると別の化合物の無水酢酸となります。食酢(す、ヴィネガー)に含まれる弱酸で、強い酸味と刺激臭をもちます。遊離酸・塩・エステルの形で植物界に広く分布します。酸敗したミルク・チーズのなかにも存在します。
  • アルデヒド脱水素酵素(ALDH2)
    リンク先は「アルデヒドデヒドロゲナーゼ」です。アルデヒドからカルボン酸への酸化反応を触媒する酵素群およびそれをコードする遺伝子群です。生物一般に存在し、基質である有害なアルデヒドを代謝することで多くの生理的機能をもちます。現在までにヒトゲノム中には19個のALDH遺伝子が存在することが知られており、ヒトにおけるALDH遺伝子の欠損はアルコール(エタノール)の摂取によるフラッシング反応や、シェーグレン・ラルソン症候群などの先天性異常を引き起こすこと、様々な疾患のリスクを増減させることが知られています。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。

  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 接合性(zygosity)
    生物の形質(生物のもつ性質や特徴のこと)に関するアレル(SNPが観測された塩基またはそれを含む遺伝子)の類似性のことです。アレル間の塩基配列の類似性のことです。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • 座位
    リンク先は「遺伝子座」です。冠婚葬祭などで座る順番という意味の「座位」を、ゲノム上での遺伝子の順番という意味にたとえた(譬えた)表現と解釈すればよいです。あるアレルの染色体上の位置のことです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • ヘテロ接合(heterozygous)
    リンク先は「接合性」です。2倍体個体において、相同な染色体ペアの双方のアレルが異なるとき、その座位(サイト)の状態のことを指す言葉です。「ヘテロ接合である」とか「ヘテロ接合型」といいます(英語はheterozygousで共通)。そしてヘテロ接合の細胞や個体を「ヘテロ接合体(heterozygote)」といいます。
  • ホモ接合(homozygous)
    リンク先は「ホモ接合型」です。2倍体個体において、相同な染色体ペアの双方のアレルが同じとき、その座位(サイト)の状態のことを指す言葉です。「ホモ接合である」とか「ホモ接合型」といいます(英語はhomozygousで共通)。そしてホモ接合の細胞や個体を「ホモ接合体(homozygote)」といいます。
  • 図2.3a
    遺伝子型と表現型の図です。リファレンス配列と同じ(または多数派に相当する)ほうを野生型アレル(wild-type allele)またはメジャーアレル(major allele)、そうでない(少数派)ほうを変異型アレル(mutant allele)またはマイナーアレル(minor allele)といいます。
  • Maeda et al., Acta Neuropathol Commun., 2020
    野生型アレル(wild-type allele)や変異型アレル(mutant allele)という表現が使われるという例として取り上げた論文です。
  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。
  • ジェノタイピング(genotyping)
    シンプルにいえば「遺伝子型を解析すること」です。ある個体のDNA配列をDNAシーケンシングなどによって識別し、他の個体のDNA配列や基準となるDNA配列と比較することによって、遺伝子型(genotype)の違いを検出する方法のことです。ジェノタイピングにより、ある個体が両親から受け継いだ対立遺伝子(アレル)を明らかにすることができます。
  • Scheben et al., Plant Biotechnol J., 2017
    ジェノタイピングに関する総説です。

  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • dbSNPSayers et al., Nucleic Acids Res., 2021
    ヒトの一塩基変異(single nucleotide variation; SNV)、マイクロサテライト、小規模なインデルなどの情報からなるDBです。
  • rs671
    ヒトリファレンスゲノム(GRCh38.p13というバージョン)において、12番染色体の111,803,962番目に存在するSNV(Single Nucleotide Variation; 一塩基変異)です。アルデヒド脱水素酵素(ALDH2)という遺伝子上にあります。リファレンス上のこの位置はGです。ヨーロッパ(European)やアフリカ(African)のヒトは、Gを持つ割合が0.99以上です。一方、東アジア(East Asian)のヒトはGを持つ割合が0.7821となっていることがここの情報からわかります。
  • ヒトゲノム計画(Human Genome Project)
    ヒトのゲノムの全塩基配列を解析するプロジェクトです。ヒトゲノムの概要版(ドラフトとよばれます)の論文は2001年に(Lander et al., Nature, 2001)、そして完全版は2022年に(Nurk et al., Science, 2022)発表されています。
  • リファレンスゲノム(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことです。
  • GRCh38.p12
    これは2017/12/21にリリースされたヒトのリファレンスゲノムです。2019/02/28にGRCh38.p13が、そして2022/02/03にGRCh38.p14がリリースされています。
  • 図2.3b
    遺伝子型と表現型の図です。(b)は表現型のほうです。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
page046
  • Jiang et al., Oncotarget, 2017
    東アジア(Eastern Asia)の人々について、rs671と胃がん(gastric cancer)との関連を調べた論文です。
  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。
  • 疾患(disease)
    リンク先は「病気」です。疾患は、一般には熱や風邪など生活上の病気には用いられず、伝染病や癌など深刻な病気に用いられ、命に関わるようなニュアンスがあります。
  • 単一遺伝子疾患(single gene disordersまたはmonogenic diseases)
    リンク先は「遺伝子疾患」です。遺伝子の異常が原因になって起きる疾患の総称です。
  • APC遺伝子
    APCはadenomatous polyposis coliの略です。この遺伝子によってコードされるタンパク質は、DP2.5(deleted in polyposis 2.5)としても知られます。APCタンパク質はβ-カテニンの濃度を負に制御する調節因子であり、細胞接着に関与するE-カドヘリンと相互作用します。APC遺伝子の変異は大腸がんにつながる可能性があります。APCはがん抑制遺伝子に分類されます。がん抑制遺伝子は、癌性腫瘍につながる可能性のある、無制御な細胞増殖を防ぎます。APC遺伝子から産生されるタンパク質は、細胞の腫瘍への成長が決定されるいくつかの細胞過程で重要な役割を果たしています。
  • 家族性大腸腺腫症(familial adenomatous polyposis; FAP)
    大腸に100個以上のポリープ(ポリポーシス)が発生する遺伝的な疾患です。家族性大腸ポリポーシス、家族性腺腫性ポリポーシスなどともよばれます。常染色体顕性遺伝(常染色体優性遺伝)の遺伝疾患であり、原因遺伝子はAPC遺伝子であることが判明しています。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • Marees et al., Int J Methods Psychiatr Res., 2018
    表現形質(phenotypic trait)という言葉が使われている論文です。論文の中身には立ち入っていません。

2.2.2 ジェノタイピングと統計

  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • Hidaka et al., Carcinogenesis, 2015
    日本人の胃がん発症の飲酒量との関連について調べた論文です。「罹患群457人と対照群457人」の比較を行っていることがFigure 1の左下あたりの数値からわかります。
  • ADH
    リンク先は「アルコールデヒドロゲナーゼ」です。アルコール代謝関連遺伝子であり、具体的にはアルコール脱水素酵素(アルコールを酸化してアルデヒドにする反応を触媒する酵素)です。肝臓に多く存在し、エタノールを摂取した時に働きます。人間の場合、少なくとも6種のアイソフォームが存在します。Hidaka et al., Carcinogenesis, 2015が調べたのは、そのうちの3つ(ADH1B、ADH1C、ALDH2)です。
  • 胃がん(gastric cancer)
    胃に生じる上皮性悪性腫瘍・癌の総称です。初期の症状には、胸やけ、上腹部の痛み、吐き気、食欲不振などがあります。進行すると、体重減少、嘔吐、嚥下困難、下血などの症状が出現します。がんは胃以外にも広がり、とりわけ肝臓、肺、骨、腹膜、リンパ節などに転移することがあります。
  • 検診(screening)
    リンク先は「がん検診」です。がんの症状がない人々において、存在が知られていないがんを見つけようとする医学的検査(スクリーニング)のことです。がん検診でがんの徴候が見つかった場合、がんの診断を確実なものにするために、より確実性の高い二次検査が行われます。
  • 血液(blood)
    動物の体内を巡る主要な体液で、全身の細胞に栄養分や酸素を運搬し、二酸化炭素や老廃物を運び出すための媒体です。
  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。
  • コホート研究(cohort study)
    分析疫学における手法の1つであり、特定の要因に曝露した集団と曝露していない集団を一定期間追跡し、研究対象となる疾病の発生率を比較することで、要因と疾病発生の関連を調べる観察研究の一種です。要因対照研究(factor-control study)ともよばれます。

  • Hidaka et al., Carcinogenesis, 2015
    Hidaka論文です。「飲酒量(①飲まない、②少し飲む、③多く飲む)と表現型との関連」は、Table 1に示されています。
  • 表現型(phenotype)
    観察可能な性質や特徴のことです。
  • 分割表(contingency table)
    統計学または日本工業規格において、2つ以上の変数(名義尺度が一般的)の間の関係を記録し分析するためのものです。クロス集計表(cross table)ともよばれます。
  • 図2.4a
    コホート研究によって得られたデータの解析例です。(c)は、RStudioで実行しています。
  • 原著論文(original paper)
    査読を経て受理されれば刊行される一般的な学術論文のことです。この場合は、Hidaka et al., Carcinogenesis, 2015の論文を指します。
  • カイ二乗検定(chi-square test)
    帰無仮説が正しければ検定統計量が漸近的にカイ二乗分布に従うような統計的検定法の総称です。
  • \(p\)値(p-value)
    リンク先は「有意」です。2群間比較の場合は、罹患群と対照群の2つの分布に差がないという帰無仮説が正しいという仮定のもとで、\(p\)値で示された確率で起こる程度の珍しさであると解釈します。実用上は帰無仮説のことをほとんど意識することはなく、シンプルに\(p\)値が1に近いほど現在比較している2群間で差がない、そして0に近いほど差があると解釈します。
  • 帰無仮説(null hypothesis)
    リンク先は「仮説検定」です。統計的仮説検定を行う際に、拠り所として設定する仮説という理解でよいです。この仮説が正しいと仮定したうえで、その仮説に従う母集団から実際に観察された標本が抽出される確率を求めて、その確率が非常に小さければ統計的に有意だと判定します。
  • 仮想データ1や仮想データ2
    図2.4aのうち、中央と右側の分割表のことです。
  • サンプルサイズ
    リンク先は「Sample size determination」です。「罹患群457人と対照群457人」の比較の場合は、サンプルサイズは罹患群と対照群ともに457です。「罹患群62人と対照群98人」の比較の場合は、サンプルサイズは罹患群が62、対照群が98です。
  • 図2.4の作成に用いたRスクリプトファイル
    rcode_fig2.4.Rです。「\(p\)値が限りなく0に近い値(5.6333e-10)になる」ことがわかるコードも含めています。左記目次の付録でも解説しています。

page047
  • 図2.4
    コホート研究によって得られたデータの解析例です。

  • カイ二乗検定(chi-square test)
    帰無仮説が正しければ検定統計量が漸近的にカイ二乗分布に従うような統計的検定法の総称です。
  • \(p\)値(p-value)
    リンク先は「有意」です。2群間比較の場合は、罹患群と対照群の2つの分布に差がないという帰無仮説が正しいという仮定のもとで、\(p\)値で示された確率で起こる程度の珍しさであると解釈します。実用上は帰無仮説のことをほとんど意識することはなく、シンプルに\(p\)値が1に近いほど現在比較している2群間で差がない、そして0に近いほど差があると解釈します。

  • Hidaka et al., Carcinogenesis, 2015
    「ジェノタイピングによって得られた遺伝子型ごとの分布を調べている」は、Table 2に示されています。
  • ジェノタイピング(genotyping)
    シンプルにいえば「遺伝子型を解析すること」です。ある個体のDNA配列をDNAシーケンシングなどによって識別し、他の個体のDNA配列や基準となるDNA配列と比較することによって、遺伝子型(genotype)の違いを検出する方法のことです。ジェノタイピングにより、ある個体が両親から受け継いだ対立遺伝子(アレル)を明らかにすることができます。
  • 遺伝子型(genotype)
    ある生物の個体が持つ遺伝物質の構成のことです。ほぼすべてのヒトを含む2倍体の生物個体の体細胞は、母親由来と父親由来のゲノムをもちます。ゲノム中のある特定のサイトにおいて、母親由来と父親由来でどのような塩基の構成になっているかを表したものが遺伝子型です。母親由来と父親由来で塩基が異なる場合をヘテロ接合型、同じ場合をホモ接合型といいます。ホモ接合型は、さらに2種類に分かれます。1つは、ヒトの標準配列(参照配列またはリファレンス配列)と同じ場合で、ホモ接合型顕性(ほもせつごうがたけんせい)とよばれるものです。そしてもう1つは、ヒトの標準配列と異なる場合でホモ接合型潜性(ほもせつごうがたせんせい)とよばれるものです。標準配列と同じものを大文字、異なるものを小文字で表します。それゆえ、3種類の遺伝子型は、ホモ接合型顕性がPP、ヘテロ接合型がPp、ホモ接合型潜性がppのように表されます。
  • AAをもっているヒトの割合が非常に小さい
    これは、rs671の説明のおさらいになりますが、ヒトリファレンスゲノム(GRCh38.p13というバージョン)上のこの位置はGです。ヨーロッパ(European)やアフリカ(African)のヒトは、Gを持つ割合が0.99以上です。一方、東アジア(East Asian)のヒトはGを持つ割合が0.7821となっていることがここの情報からわかります。ある個体が父親由来母親由来ともにリファレンスゲノム上の塩基(G)と異なってAになっている場合をAAとしています。よって、Hidaka論文で調べたときに\((457 + 457 =)914\)人中36名だけがAAだったというのは妥当といえます。
  • 罹患
    病気になること(疾患にかかること)です。
  • 図2.4b
    コホート研究によって得られたデータの解析例です。
  • サンプルサイズ
    リンク先は「Sample size determination」です。「罹患群457人と対照群457人」の比較の場合は、サンプルサイズは罹患群と対照群ともに457です。「罹患群62人と対照群98人」の比較の場合は、サンプルサイズは罹患群が62、対照群が98です。
  • 胃がん(gastric cancer)
    胃に生じる上皮性悪性腫瘍・癌の総称です。初期の症状には、胸やけ、上腹部の痛み、吐き気、食欲不振などがあります。進行すると、体重減少、嘔吐、嚥下困難、下血などの症状が出現します。がんは胃以外にも広がり、とりわけ肝臓、肺、骨、腹膜、リンパ節などに転移することがあります。
  • 相乗効果(synergy)
    ある要素が他の要素と合わさる事によって単体で得られる以上の結果を上げることです。シナジー効果と同じ意味です。
  • ADH
    リンク先は「アルコールデヒドロゲナーゼ」です。アルコール代謝関連遺伝子であり、具体的にはアルコール脱水素酵素(アルコールを酸化してアルデヒドにする反応を触媒する酵素)です。肝臓に多く存在し、エタノールを摂取した時に働きます。人間の場合、少なくとも6種のアイソフォームが存在します。Hidaka et al., Carcinogenesis, 2015が調べたのは、そのうちの3つ(ADH1B、ADH1C、ALDH2)です。
  • 統計解析(statistical analysis)
    この場合は、統計的仮説検定の意味で用いていますが、検定をメインとしたデータ解析全般という捉え方でもよいです。
  • RStudio
    オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語およびその開発実行環境であるRの機能拡張版という理解でよいです。RStudioは、内部的にRを動かしています。
  • 図2.4c
    コホート研究によって得られたデータの解析例です。(c)はデータ解析環境RStudioでの実行例です。
  • カイ二乗検定(chi-square test)
    帰無仮説が正しければ検定統計量が漸近的にカイ二乗分布に従うような統計的検定法の総称です。Rではchisq.testという名前の関数で利用可能です。
  • 数値行列(numerical matrix)
    数字を縦と横に矩形状に配列したものです。矩形(くけい)状というのは、4つの角がすべて90度の長方形だという理解でよいです。ひし形とかではない(ただし正方形を45度回転したものを除く)ということです。
  • \(p\)値(p-value)
    リンク先は「有意」です。2群間比較の場合は、罹患群と対照群の2つの分布に差がないという帰無仮説が正しいという仮定のもとで、\(p\)値で示された確率で起こる程度の珍しさであると解釈します。実用上は帰無仮説のことをほとんど意識することはなく、シンプルに\(p\)値が1に近いほど現在比較している2群間で差がない、そして0に近いほど差があると解釈します。
  • スクリーンショット(screenshot)
    コンピュータのモニタもしくはその他の視覚出力デバイス上に表示されたものの全体または一部分を写した画像のことです。スクリーンキャプチャやスクリーンダンプともよばれます。略して、スクショともよばれます。
  • PC
    パーソナルコンピュータ(パソコン)のことです。
page048
  • Phredスコア(phred score)
    「Phredクオリティスコア」と同義です。自動DNAシーケンシング用のプログラムphredに用いられているベースコールのスコアです。式(1.1)の説明部分でもクオリティスコアに言及していますが、直感的にはA・C・G・Tそれぞれのシグナル強度が同程度でわずかながら高い値だったとしてGとコールされた場合は、そのGに付随するphredクオリティスコアは低い値になります。逆に、A・C・Gのシグナル強度が非常に低く、Tのシグナル強度が非常に高かった場合、コールされたTに付随するphredクオリティスコアは高い値になります。

2.2.3 ゲノムワイド関連解析(GWAS)

  • Hidaka et al., Carcinogenesis, 2015
    日本人の胃がん発症の飲酒量との関連について調べた論文です。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 相同染色体(homologous chromosome)
    リンク先は「相同」です。精子や卵子のような生殖細胞(gamete)以外のヒトの体細胞(somatic cell)は、44本の常染色体(1~22番までの染色体)と2本の性染色体(女性は2本のX染色体のペア、男性はX染色体とY染色体のペア)の計46本の染色体をもちます。相同染色体は、性染色体以外の対応する染色体の対のことです。たとえば、母親由来の3番染色体と父親由来の3番染色体は、その2対で相同染色体です。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • ゲノムワイド関連解析(genome-wide association study; GWAS)
    リンク先は「Genome-wide association study」です。ある集団内に存在する個体間の形質と塩基配列の違い(たとえばSNPや遺伝子型)との関連をゲノム全体で調べ,形質と関連する塩基配列の違いを統計的に検出する方法です。
  • 形質(trait)
    生物のもつ性質や特徴のことです。遺伝によって子孫に伝えられる性質や特徴のことを遺伝形質といいますが、これを略して形質とよぶこともあります。
  • \(p\)値(p-value)
    リンク先は「有意」です。2群間比較の場合は、罹患群と対照群の2つの分布に差がないという帰無仮説が正しいという仮定のもとで、\(p\)値で示された確率で起こる程度の珍しさであると解釈します。実用上は帰無仮説のことをほとんど意識することはなく、シンプルに\(p\)値が1に近いほど現在比較している2群間で差がない、そして0に近いほど差があると解釈します。
  • Zhao et al., Nat Commun., 2011
    イネ(rice)のGWAS論文です。
  • マンハッタンプロット(Manhattan plot)
    リンク先は「Manhattan plot」です。横軸をゲノム全体(あるいは一部)、そして縦軸を\(-\log(pvalue)\)として注目すべきSNPが大きな値となるように表現したプロットのことです。ニューヨーク市の中心街であるマンハッタンのビル群(Manhattan skyline)をイメージして名付けられたようです。
  • Hammond et al., Elife, 2021
    マンハッタンプロットがある論文例です(Fig. 1)。
  • 多重比較問題(multiple comparison problem)
    リンク先は「Multiple comparisons problem」です。この場合は、有意水準を変えずに一度に複数のSNPの検定を行うと、本当は有意ではないSNPが有意と判定されてしまう問題と理解すればよいです。
  • 有意水準(significance level)
    リンク先は「有意」です。どの程度の正確さをもって帰無仮説(着目する形質の違いとSNPに関連がない)を棄却するかを表す定数(閾値)のことです。通常α(あるふぁ)と略記されます。\(p\)値が有意水準α未満の場合に、帰無仮説を棄却します。
  • 偽陽性(false positives;FPs)
    リンク先は「第一種過誤と第二種過誤」です。本当は着目する形質との関連がないにもかかわらずあるとしてしまう誤りのことです。この「偽陽性」に相当するのが「第一種過誤(Type I error)」です。
  • マンハッタンプロットで縦軸が7.3付近に水平線が引かれている例
    Hammond et al., Elife, 2021Fig. 1では赤い点線が引かれています。
  • genome-wide significance
    GWASでよく用いられる閾値のことであり、\(5×10^{-8}\)です。
  • 閾値(threshold)
    境目となる値のことです。この場合は、「着目する形質の違いと関連している」と判断する境目として設定する値のことです。

  • 例題2.1
    1ページ目が問題、2ページ目以降が解答例です。

2.2.4 ロングリード時代のハプロタイプフェージング

  • 相同染色体(homologous chromosome)
    リンク先は「相同」です。精子や卵子のような生殖細胞(gamete)以外のヒトの体細胞(somatic cell)は、44本の常染色体(1~22番までの染色体)と2本の性染色体(女性は2本のX染色体のペア、男性はX染色体とY染色体のペア)の計46本の染色体をもちます。相同染色体は、性染色体以外の対応する染色体の対のことです。たとえば、母親由来の3番染色体と父親由来の3番染色体は、その2対で相同染色体です。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • SNP
    一塩基多型(single nucleotide polymorphism)のことです。ある生物種集団のゲノム塩基配列中に1塩基が変異した多様性が見られ、その変異が集団内で1%以上の頻度で見られる時、それをSNPといいます。SNPで定義された1%という基準に合致しない稀(rare)なものは、一塩基変異(single nucleotide variation; SNV)とよばれます。
  • ジェノタイピング(genotyping)
    シンプルにいえば「遺伝子型を解析すること」です。ある個体のDNA配列をDNAシーケンシングなどによって識別し、他の個体のDNA配列や基準となるDNA配列と比較することによって、遺伝子型(genotype)の違いを検出する方法のことです。ジェノタイピングにより、ある個体が両親から受け継いだ対立遺伝子(アレル)を明らかにすることができます。
  • リファレンス配列(reference sequence)
    この場合は、マッピング対象のゲノム配列のことです。
  • Nielsen et al., Nat Rev Genet., 2011
    ジェノタイピングなどに関する総説です。「ジェノタイピングがリファレンス配列との比較に基づいていること」は、Having aligned the fragments of one or more individuals to a reference genome, ‘SNP calling’ identifies variable sites, whereas ‘genotype calling’ determines the genotype for each individual at each site.を根拠としています。
  • アレル(allele)
    各個体は(両親から1セットずつの)計2セットのゲノムを持つので、たとえばある遺伝子\(J\)が存在する場所(これを遺伝子座といいます)は、基本的に母親由来ゲノム上と父親由来ゲノム上の2箇所存在することになります。この「母親由来の遺伝子\(J\)」と「父親由来の遺伝子\(J\)」といった同じ場所にある(同じ遺伝子座を占める)個々の遺伝子のことをアレル(対立遺伝子)といいます。
  • International HapMap Consortium, Nature, 2003
    国際HapMap計画の論文です。「アレルという言葉が個体内と個体間の両方の意味で用いられていること」は、Human DNA sequence variationという節の文章を根拠としています。
  • 解像度(resolution)
    ビットマップ画像における画素の密度を示す数値のことです。画像を表現する格子の細かさを解像度と呼び、一般に1インチをいくつに分けるかという分割数で表します。
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
  • Hidaka et al., Carcinogenesis, 2015
    日本人の胃がん発症の飲酒量との関連について調べた論文です。遺伝子型がAGまたはAAの変異型アレルをもつ個体は、論文中ではALDH2 A allele carriersと表現されています。
  • ALDH2
    リンク先は「アルデヒドデヒドロゲナーゼ」です。アルデヒド脱水素酵素のことです。アルデヒドからカルボン酸への酸化反応を触媒する酵素群およびそれをコードする遺伝子群です。生物一般に存在し、基質である有害なアルデヒドを代謝することで多くの生理的機能をもちます。現在までにヒトゲノム中には19個のALDH遺伝子が存在することが知られており、ヒトにおけるALDH遺伝子の欠損はアルコール(エタノール)の摂取によるフラッシング反応や、シェーグレン・ラルソン症候群などの先天性異常を引き起こすこと、様々な疾患のリスクを増減させることが知られています。
  • rs671
    ヒトリファレンスゲノム(GRCh38.p13というバージョン)において、12番染色体の111,803,962番目に存在するSNV(Single Nucleotide Variation; 一塩基変異)です。アルデヒド脱水素酵素(ALDH2)という遺伝子上にあります。リファレンス上のこの位置はGです。ヨーロッパ(European)やアフリカ(African)のヒトは、Gを持つ割合が0.99以上です。一方、東アジア(East Asian)のヒトはGを持つ割合が0.7821となっていることがここの情報からわかります。

  • ハプロタイプ(haplotype)
    haploid genotype(半数体の遺伝子型)の略です。2倍体生物の場合、ハプロタイプは各遺伝子座位にある対立遺伝子のいずれか一方の組み合わせのことです。この場合は、「どちらか一方の親由来のゲノム配列」のことです。限定的な意味としては、「同一染色体上で統計学的に見て関連のある、つまり遺伝的に連鎖している多型(SNPなど)の組み合わせ」のことも指します。このような組み合わせがわかれば、ある範囲内について、少数の対立遺伝子を同定することで他の多型座位も決めることができるからです。このような情報を収集したのが、国際HapMap計画です。この2種類のハプロタイプの意味についてはこの段落で述べています。後者のほうは、本文中では「SNPsとして観測された同一染色体上のアレルの並びのこと」だと述べています。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • ハプロタイプフェージング(haplotype phasing)
    リンク先は「ハプロタイプ」です。母親由来と父親由来の両方のゲノム配列を決定する作業のことです。ハプロタイプ(haplotype)は、haploid genotype(半数体の遺伝子型)の略です。フェージングというのは、相に分けるという風に理解すればよく、ひいては「母親由来のゲノムと父親由来のゲノムに分ける」ことだと解釈すればよいです。ロングリードが得られるからこそ、このようなフェージングが可能になっています。
page049
  • Kang et al., Am J Hum Genet., 2004
    “haplotype phasing”という言葉が最初に出現した論文だと思われます。
  • NGS
    次世代シーケンシング(next-generation sequencing)技術のことです。この場合は、安価に大量の配列データを得ることができないような時代背景でしたという意味で用いています。ショートリードが本格的に広まり始めたのは2008年頃です。
  • 1000 Genomes Project Consortium, Nature, 2012
    1,000人ゲノムプロジェクト論文です。実際には14の民族からなる1,092人の個体差を調べています。
  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
    </