page001

第1章 ゲノム情報解析(基礎編)

  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 遺伝情報(genetic information)
    遺伝現象によって親から子に伝わる情報のことです。DNAの塩基配列情報だけではなくその修飾や、母性mRNA・蛋白質なども含みます。一般的には、ゲノムDNAに書き込まれた塩基配列の情報と同義的に使われることが多いです。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • データベース(database; DB)
    検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたもののことです。
  • 基準となるゲノム配列(reference genome)
    リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことを指し、リファレンスゲノムともよばれます。

1.1 生物基礎

  • バイオインフォマティクス(bioinformatics)
    生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • RNA
    リボ核酸(ribonucleic acid)のことです。リボースを糖成分とする核酸です。リボヌクレオチドが多数重合したもので、1本鎖をなし、アデニン(A)、グアニン(G)、シトシン(C)、ウラシル(U)の4種の塩基を含みます。一般にDNA(デオキシリボ核酸)を鋳型として合成され、その遺伝情報の伝達やタンパク質の合成を行います。
  • DNAポリメラーゼ(DNA polymerase)
    1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
  • 真核生物(eukaryote)
    動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
    • 真正細菌(bacteriaまたはeubacteria)
      リンク先は「細菌」です。生物の主要な系統(ドメイン)の1つで、古細菌、真核生物とともに全生物界を三分します。古細菌と合わせて原核生物ともよばれます。単に細菌ともよばれることが多いです。細菌は、大腸菌、枯草菌、藍色細菌(シアノバクテリア)など様々な系統を含む生物群です。形状は球菌か桿菌、ラセン菌が一般的で、通常1~10 µmほどの微小な生物です。核を持たないという点で古細菌と似ていますが、古細菌と細菌の分岐は極めて古いです。
    • 古細菌(archaea)
      生物の主要な系統(ドメイン)の1つで、真核生物、真正細菌とともに全生物界を三分します。古細菌は形態や名称こそ(真正)細菌と類似していますが、細菌とは異なる系統です。非常に多様な生物を含み、高度好塩菌、メタン菌、好熱菌などがよく知られています。
  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • ヌクレオソーム(nucleosome)
    真核生物におけるDNAのパッケージングの基本的単位です。ヌクレオソームの構造は8つのヒストンタンパク質に巻き付いたDNA断片から構成され、概念的には糸巻きに巻き付いた糸に類似しています。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソームです。各ヌクレオソームの8つのヒストンタンパク質はヒストン8量体とよばれ、その周囲には約1.65ターンのDNAが巻きついています。ヒストン8量体はヒストンH2A、H2B、H3、H4各2コピーずつから構成されます。
  • セントラルドグマ(central dogma)
    遺伝情報は「DNA → (転写) → mRNA → (翻訳) → タンパク質」の順に伝達されるという、分子生物学の概念です。セントラルとは中心、ドグマとは宗教における教義のことであり、セントラルドグマは「分子生物学の中心原理」または「生物学の中心教義」とよばれることがあります。

1.1.1 核酸と塩基

  • ヒト(human)
    広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
  • 赤血球細胞(red blood cellまたはerythrocyte)
    リンク先は「赤血球」です。血液細胞の1種であり、酸素を運ぶ役割をもちます。
  • 神経細胞(neuron)
    神経系を構成する細胞で、ニューロンともいいます。その機能は情報処理と情報伝達に特化しており、動物に特有です。
  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • 多細胞生物(multicellular organism)
    複数の細胞で体が構成されている生物のことです。1つの細胞のみで体が構成されている生物は単細胞生物とよばれます。動物界や植物界に所属するものは、すべて多細胞生物です。
  • 生物(organism)
    生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
  • 自己再生能力(self-renewal ability)
    体が(比較的小規模な)外傷などを負った時にそれを治す能力や、皮膚のような老化して自然に剥がれ落ちていく細胞を補う能力のことを指します。
  • 複製能力(self-replication ability)
    リンク先は「自己複製」です。細胞は適当な条件が整うと、細胞分裂による複製を行うことができます。その能力のことです。
  • 表皮(epidermis)
    多細胞生物のもっとも外側を覆う組織のことです。皮膚は、体の一番外側から「表皮・真皮・皮下組織」の3層で構成されますが、その一番外側の層を指す言葉です。
  • 角層(stratum corneum)
    表皮はさらに4つの層(角質層、顆粒層、有棘層、基底層)から構成されますが、その一番外側にある「表皮角化細胞が角化した扁平な角層細胞が重なった層」が角層です。角質層というのが正確なのかもしれませんが、一般には角層で通じます。
  • 垢(dirt)
    角質化する多層上皮を持つ脊椎動物の表皮の古い角質が、新しい角質と交代して剥がれ落ちたものと、皮膚分泌物が交じり合ったもののことです。
  • 基底層(basal layer)
    表皮を構成する4つの層(角質層、顆粒層、有棘層、基底層)のうち、一番内側にある層のことです。基底細胞やメラノサイト(色素形成細胞)などから構成されています。そのさらに内側に向かうと、「真皮、皮下組織」の層になります。
  • 複製(replication)
    リンク先は「DNA複製」です。細胞分裂における核分裂の前に、DNAが元の数の2倍となる過程のことです。生命科学分野ではDNA複製のことを複製を略すことが多いです。
  • 水(water)
    化学式H2Oで表される、水素と酸素の化合物です。日本語においては特に湯と対比して用いられ、温度が低く、かつ凝固して氷にはなっていない、液状の物全般を指します。
  • 糖質(saccharides)
    リンク先は「炭水化物」です。糖質は、単糖を構成成分とする有機化合物の総称です。炭水化物は、糖質と食物繊維から構成されます。いわゆる「三大栄養素」は炭水化物・タンパク質・脂肪ですが、炭水化物の構成要素である食物繊維はエネルギー原になりにくいため、実質的に糖質・タンパク質・脂肪が三大栄養素ということになります。
  • 脂質(lipid)
    リンク先は「脂肪」です。炭水化物、タンパク質と共に「三大栄養素」と総称され、多くの生物種の栄養素です。脂肪のカロリーは9kcal/gであり、炭水化物、タンパク質の4kcal/gよりも単位重量あたりの熱量が大きく、哺乳類をはじめとして動物の栄養の摂取や貯蔵方法として多く利用されています。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • 核酸(nucleic acid)
    リボ核酸 (RNA)とデオキシリボ核酸 (DNA)の総称で、塩基と糖、リン酸からなるヌクレオチドがホスホジエステル結合で連なった生体高分子のことです。
  • 図1.1
    核酸(DNAとRNA)の図です。

  • 核酸(nucleic acid)
    リボ核酸(RNA)とデオキシリボ核酸(DNA)の総称で、塩基と糖、リン酸からなるヌクレオチドがホスホジエステル結合で連なった生体高分子のことです。
  • 糖(sugar)
    多価アルコールの最初の酸化生成物であり、ホルミル基(−CHO)またはカルボニル基(>C=O)を1つもちます。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • リン酸(phosphoric acid)
    リンのオキソ酸の一種で、化学式H3PO4の無機酸です。オルトリン酸(orthophosphoric acid)ともよばれます。広義では、オルトリン酸・二リン酸(ピロリン酸)H4P2O7・メタリン酸HPO3など、五酸化二リンP2O5が水和してできる酸を総称してリン酸ということがあります。
  • ヌクレオチド(nucleotide)
    ヌクレオドは、ヌクレオシド(塩基と糖が結合した化合物の一種)にリン酸基が結合したものです。ヌクレオドの糖として、リボースが結合したものがリボヌクレオド、デオキシリボースが結合したものがデオキシリボヌクレオドです。リボヌクレオドにリン酸基が結合したものがリボヌクレオド、デオキシリボヌクレオドにリン酸基が結合したものがデオキシリボヌクレオドです。
  • ホスホジエステル結合(phosphodiester bond)
    炭素原子の間がリン酸を介した2つのエステル結合によって強く共有結合している結合様式のことです。地球上のすべての生命に存在し、DNAやRNAの骨格を形成しています。この場合、(デオキシ)リボースの5’位の炭素原子と、他の(デオキシ)リボースの3’位の炭素原子の間を結合しています。
  • 生体高分子(biopolymers)
    生物の細胞が作り出す天然の高分子のことであり、モノマー単位が共有結合して構成された大きな分子です。
  • ポリマー(polymer)
    リンク先は「重合体」です。複数のモノマー(単量体)が重合する(結合して鎖状や網状になる)ことによってできた化合物のことです。このため、一般的には高分子の有機化合物です。DNAやRNAはポリマーです。DNAのモノマーはデオキシヌクレオド、RNAのモノマーはデオキシリボヌクレオドです。
  • リボ核酸(ribonucleic acid; RNA)
    リボースを糖成分とする核酸です。リボヌクレオチドが多数重合したもので、1本鎖をなし、アデニン(A)、グアニン(G)、シトシン(C)、ウラシル(U)の4種の塩基を含みます。一般にDNA(デオキシリボ核酸)を鋳型として合成され、その遺伝情報の伝達やタンパク質の合成を行います。
  • デオキシリボ核酸(deoxyribonucleic acid; DNA)
    デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。

page002
  • 図1.1
    核酸(DNAとRNA)の図です。

  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • ポリマー(polymer)
    リンク先は「重合体」です。複数のモノマー(単量体)が重合する(結合して鎖状や網状になる)ことによってできた化合物のことです。このため、一般的には高分子の有機化合物です。DNAやRNAはポリマーです。DNAのモノマーはデオキシヌクレオド、RNAのモノマーはデオキシリボヌクレオドです。
  • ポリヌクレオチド鎖(polynucleotide chain)
    リンク先は「ポリヌクレオチド」です。13個以上のヌクレオチドモノマーが鎖状に共有結合してできた生体高分子です。DNA(デオキシリボ核酸)とRNA(リボ核酸)は、それぞれ異なる生物学的機能を持つポリヌクレオチドの例です。「ポリヌクレオチド」と「ポリヌクレオチド鎖」は実質的に同じものを指します。
  • DNAポリメラーゼ(DNA polymerase)
    1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
page003
  • 水素結合(hydrogen bond)
    電気陰性度が大きな原子(陰性原子)に共有結合で結びついた水素原子が、近傍に位置した窒素、酸素、硫黄、フッ素、π電子系などの孤立電子対とつくる非共有結合性の引力的相互作用です。水素結合には、異なる分子の間に働くもの(分子間力)と単一の分子の異なる部位の間(分子内)に働くものがあります。
  • 塩基対(base pair; bp)
    デオキシリボ核酸(DNA)の2本のポリヌクレオチド分子が、AとT (もしくはAとU)、CとGという決まった組を作り、水素結合で繋がったものを指します。この組み合わせはジェームズ・ワトソンフランシス・クリックが発見したもので、「ワトソン・クリック型塩基対」「天然型塩基対」といいます。DNAや RNAの場合、ワトソン・クリック型塩基対が形成しさらに隣り合う塩基対の間に疎水性相互作用が働くことが、二重らせん構造が安定化する駆動力となっています。
  • 二重らせん(double helix)
    DNAが生細胞中でとっている立体構造です。具体的には、互いに相補的な2本のDNA鎖がらせん状に絡み合う構造です。DNA二重らせん構造は、1953年、分子模型を構築する手法を用いてジェームズ・ワトソンフランシス・クリックによって提唱されました。
  • ピリミジン(pyrimidine)
    有機化合物の一種で、ベンゼンの1,3位の炭素が窒素で置換されたものです。分子式 C4H4N2、分子量80.09の複素環式芳香族化合物のアミンの一種で、特有の刺激臭をもちます。核酸やヌクレオチドを構成する核酸塩基として知られるチミン(T)、シトシン(C)、ウラシル(U)は、ピリミジンの誘導体です。
  • ピリミジン塩基(pyrimidine base)
    核酸の構成要素のうちピリミジン核を基本骨格とする塩基性物質です。核酸略号はPyrです。実質的に、チミン(T)、シトシン(C)、ウラシル(U)の総称という理解でよいです。
  • プリン(purine)
    リンク先は「プリン (化学)」です。分子式C5H4N4、分子量120.1の複素環式芳香族化合物の一種です。中性の水には溶けにくく、酸性あるいはアルカリ性にすると良くとけます。
  • プリン塩基(purine base)
    プリン骨格を持った核酸塩基です。つまり、プリン環を基本骨格とする生体物質で核酸あるいはアルカロイドの塩基性物質です。実質的に、核酸塩基であるアデニン(A)およびグアニン(G)の総称という理解でよいです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。

1.1.2 真核生物と原核生物

  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • 核(nuclear)
    リンク先は「細胞核」です。真核生物の細胞を構成する細胞小器官の1つです。細胞の遺伝情報の保存と伝達を行い、ほぼすべての細胞に存在します。通常は単に核ということが多いです。細胞核は細胞の遺伝物質の大部分を含んでおり、複数の長い直鎖状のDNA分子が様々な種類のタンパク質(ヒストンなど)と複合体を形成することで、染色体が形成されています。
  • 真核細胞(eukaryotic cell)
    細胞核(cell nucleus)(通常は単に”核”といいます)とよばれる細胞小器官含んでいる細胞のことです。
  • 原核細胞(prokaryotic cell)
    細胞核(cell nucleus)(通常は単に”核”といいます)とよばれる細胞小器官含んでいない細胞のことです。
  • 真核生物(eukaryote)
    動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
  • 原核生物(prokaryote)
    細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
    • 真正細菌(bacteriaまたはeubacteria)
      リンク先は「細菌」です。生物の主要な系統(ドメイン)の1つで、古細菌、真核生物とともに全生物界を三分します。古細菌と合わせて原核生物ともよばれます。単に細菌ともよばれることが多いです。細菌は、大腸菌、枯草菌、藍色細菌(シアノバクテリア)など様々な系統を含む生物群です。形状は球菌か桿菌、ラセン菌が一般的で、通常1~10 µmほどの微小な生物です。核を持たないという点で古細菌と似ていますが、古細菌と細菌の分岐は極めて古いです。
    • 古細菌(archaea)
      生物の主要な系統(ドメイン)の1つで、真核生物、真正細菌とともに全生物界を三分します。古細菌は形態や名称こそ(真正)細菌と類似していますが、細菌とは異なる系統です。非常に多様な生物を含み、高度好塩菌、メタン菌、好熱菌などがよく知られています。
  • ドメインWoese et al., Proc Natl Acad Sci USA., 1990
    リンク先は「ドメイン (分類学)」です。3ドメイン仮説(three domain hypothesis)の論文です。3ドメインシステム(three-domain system)ともよばれるようです。ドメインは、「界/門/綱/目/科/属/種」という分類体系のさらに上の階層であり、基礎的なゲノムの進化の違いを反映して行われています。3ドメイン説においては、真核生物ドメイン、細菌ドメイン、古細菌ドメインの3つのタクソンがこの階級に位置づけられています。
  • 図1.2
    生物の分類の図です。
  • 出芽酵母(budding yeast)
    budding yeastは出芽によって増える酵母の総称であり、通常はSaccharomyces cerevisiaeのことを指します。
  • 細胞分裂(cell division)
    1つの細胞が2個以上の娘細胞に分かれる生命現象です。単細胞生物では、細胞分裂が個体の増殖となります。多細胞生物では、受精卵以後の発生に伴う細胞分裂によって細胞数が増えます。
  • 細胞周期(cell cycle)
    1つの細胞が2つの娘細胞を生み出す過程で起こる一連の事象、およびその周期のことです。細胞周期の代表的な事象として、ゲノムDNAの複製と分配、それに引き続く細胞質分裂(dh)があります。細胞周期は、光学顕微鏡での観察に基づき、間期(interphase)とM期(M phase)とに分けられます。間期はさらにG1期、S期、G2期に分けられます。M期は有糸分裂と細胞質分裂によって構成されます。有糸分裂では姉妹染色分体が細胞の両極に分かれ、引き続く細胞質分裂では細胞質が割れて2つの細胞が生み出されます。
  • タンパク質間相互作用(protein-protein interaction; PPI)
    多くのタンパク質は他のタンパク質や生体高分子と相互作用することでその機能を果たしますが、そのような複数の異なるタンパク質分子が状態に応じて特異的複合体を形成する現象のことです。
  • Mewes et al., Nature, 1997
    出芽酵母(budding yeast)のゲノム配列決定論文です。

  • 細胞分裂(cell division)
    1つの細胞が2個以上の娘細胞に分かれる生命現象です。単細胞生物では、細胞分裂が個体の増殖となります。多細胞生物では、受精卵以後の発生に伴う細胞分裂によって細胞数が増えます。
  • 細胞(cell)
    すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
  • 娘細胞(daughter cells)
    細胞分裂の結果として生じる2つ以上の細胞のことです。細胞分裂する前の細胞を、対義的に母細胞(ぼさいぼう)とよびます。
  • 複製開始点(origin of replicationまたはreplication origin)
    リンク先は「複製起点」です。ゲノムの複製が開始される、ゲノム上の特定の配列のことです。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • 二重らせん(double helix)
    DNAが生細胞中でとっている立体構造です。具体的には、互いに相補的な2本のDNA鎖がらせん状に絡み合う構造です。DNA二重らせん構造は、1953年、分子模型を構築する手法を用いてジェームズ・ワトソンフランシス・クリックによって提唱されました。
  • 変性(denaturation)
    この場合は、二重らせんがほどけ2つの1本鎖DNA(これを親鎖といいます)に分かれることを指します。それぞれの親鎖(parent strand)は、鋳型鎖(template strand)ともよばれます。
  • 鋳型鎖(template strand)
    この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNA鎖のことを指します。
  • DNAポリメラーゼ(DNA polymerase)
    1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
  • 鋳型(template)
    この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNAのことを指します。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
page004
  • ヌクレオチド(nucleotide)
    ヌクレオドは、ヌクレオシド(塩基と糖が結合した化合物の一種)にリン酸基が結合したものです。ヌクレオドの糖として、リボースが結合したものがリボヌクレオド、デオキシリボースが結合したものがデオキシリボヌクレオドです。リボヌクレオドにリン酸基が結合したものがリボヌクレオド、デオキシリボヌクレオドにリン酸基が結合したものがデオキシリボヌクレオドです。
  • 塩基対(base pair; bp)
    デオキシリボ核酸(DNA)の2本のポリヌクレオチド分子が、AとT (もしくはAとU)、CとGという決まった組を作り、水素結合で繋がったものを指します。この組み合わせはジェームズ・ワトソンフランシス・クリックが発見したもので、「ワトソン・クリック型塩基対」「天然型塩基対」といいます。DNAや RNAの場合、ワトソン・クリック型塩基対が形成しさらに隣り合う塩基対の間に疎水性相互作用が働くことが、二重らせん構造が安定化する駆動力となっています。
  • 相補鎖または相補配列(complementary sequence)
    リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。
  • DNA複製(DNA replication)
    細胞分裂における核分裂の前に、DNAが複製されてその数が2倍となる過程のことです。単に複製とよばれることが多いです。複製される側の1本鎖DNAを親鎖(parent strand)、DNA複製によって新しく合成された1本鎖DNAを娘鎖(daughter strand)といいます。
  • 真核細胞(eukaryotic cell)
    細胞核(cell nucleus)(通常は単に”核”といいます)とよばれる細胞小器官含んでいる細胞のことです。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • 核分裂(karyokinesisまたはmitosis)
    リンク先は「体細胞分裂」です。1個の体細胞(多細胞生物を構成している細胞のうち生殖細胞以外の細胞の総称)が分裂して同じ遺伝情報を持つ2個の娘細胞を生み出す一連の過程(これを体細胞分裂といいます)は、間期→前期→前中期→中期→後期→終期に分類されます。このうち、前期から後期のステージを核分裂といいます。なお、後期終盤から終期のステージを細胞質分裂(cytokinesis)といいます。

1.1.3 染色体構造と遺伝子発現

  • 染色体(chromosome)
    遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン(H2A, H2B, H3, H4)が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
  • 細胞分裂期(M phase)
    リンク先は「細胞分裂」です。ざっくりいうと、1つの細胞が2個以上の娘細胞に分かれる時期のことです。1つの細胞が2つの娘細胞を生み出す過程で起こる一連の事象およびその周期のことを細胞周期(cell cycle)といいます。細胞周期は、間期(interphase)とM期(M phase)に大別されますが、M期に相当する時期が細胞分裂期に相当します。
  • 核型(karyotype)
    染色体を大きさ順に並べて表示した図のことです。
  • 紡錘体(spindle apparatus)
    真核生物の細胞分裂において、姉妹染色分体を娘細胞へ分離するために形成される細胞骨格構造です。遺伝学的に同一な娘細胞を作り出す過程である有糸分裂の際に形成される紡錘体は、mitotic spindle(有糸分裂紡錘体)とよばれます。また、母細胞の染色体の半数を含む配偶子を形成する過程である減数分裂の際に形成される紡錘体は、meiotic spindle(減数分裂紡錘体)とよばれます。
  • セントロメア(centromere)
    染色体の長腕と短腕が交差する部位のことです。染色体のほぼ中央に位置することからこの名がつけられています。
  • テロメア(telomere)
    真核生物の染色体の末端部にある構造であり、染色体末端を保護する役目をもちます。テロメアは特徴的な繰り返し配列をもつDNAと、様々なタンパク質からなる構造です。DNAは5’末端から3’末端に向かって複製されます。したがって、鋳型DNAの片方はDNA2本鎖がほどけると同時に複製されますが、もう片方は何度もDNAポリメラーゼ(DNAを複製)が働くこととなり、どうしても複製できない部分が残ってしまいます。それを補うために無意味な繰り返し配列=テロメアがあると考えられています。
  • 二重らせん(double helix)
    DNAが生細胞中でとっている立体構造です。具体的には、互いに相補的な2本のDNA鎖がらせん状に絡み合う構造です。DNA二重らせん構造は、1953年、分子模型を構築する手法を用いてジェームズ・ワトソンフランシス・クリックによって提唱されました。
  • ヒストン(histone)
    真核生物のクロマチン(染色体)を構成する主要なタンパク質です。ヒストンは、長い DNA分子を折りたたんで核内に収納する役割をもちます。ヒストンはDNAに結合するタンパク質の大部分を占め、ヒストンとDNAの重量比はほぼ1:1です。コアヒストンはH2A、H2B、H3、H4の4種類に分類されます。それぞれ2分子ずつ集まり、ヒストン8量体(ヒストンオクタマー)を形成します。1つのヒストン8量体は、約146 bpのDNAを左巻きに約1.65回巻き付け、ヌクレオソームを構築します。ヌクレオソームはクロマチン構造の最小単位です。
  • クロマチン(chromatin)
    真核細胞内に存在するDNAとタンパク質の複合体のことです。ヒト2倍体細胞に納められているDNAの総延長はおよそ2 mに達します。これを直径約10 μmの核に収納するための構造がクロマチンです。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソーム(nucleosome)です。クロマチンは凝集の度合いによりヘテロクロマチン(heterochromatin)とユークロマチン(euchromatin)に分類されます。遺伝子密度が低い領域や遺伝子発現が抑制されている領域は、強く折りたたまれてヘテロクロマチンを形成する傾向にあります。一方、遺伝子の転写が活発な領域のクロマチンは比較的緩んでおり、ユークロマチンとよばれます。
  • 図1.3
    ヒストンとクロマチンの図です。

  • クロマチン(chromatin)
    真核細胞内に存在するDNAとタンパク質の複合体のことです。ヒト2倍体細胞に納められているDNAの総延長はおよそ2 mに達します。これを直径約10 μmの核に収納するための構造がクロマチンです。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソーム(nucleosome)です。クロマチンは凝集の度合いによりヘテロクロマチン(heterochromatin)とユークロマチン(euchromatin)に分類されます。遺伝子密度が低い領域や遺伝子発現が抑制されている領域は、強く折りたたまれてヘテロクロマチンを形成する傾向にあります。一方、遺伝子の転写が活発な領域のクロマチンは比較的緩んでおり、ユークロマチンとよばれます。
  • ヒストン8量体(histone octamer)
    リンク先は「ヒストン」です。真核生物のクロマチン(染色体)を構成する主要なタンパク質複合体です。ヒストンは、長い DNA分子を折りたたんで核内に収納する役割をもちます。ヒストンはDNAに結合するタンパク質の大部分を占め、ヒストンとDNAの重量比はほぼ1:1です。コアヒストンはH2A、H2B、H3、H4の4種類に分類されます。それぞれ2分子ずつ集まって8量体を形成したものがヒストン8量体(ヒストンオクタマー)です。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • ヌクレオソーム(nucleosome)
    真核生物におけるDNAのパッケージングの基本的単位です。ヌクレオソームの構造は8つのヒストンタンパク質に巻き付いたDNA断片から構成され、概念的には糸巻きに巻き付いた糸に類似しています。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソームです。各ヌクレオソームの8つのヒストンタンパク質はヒストン8量体とよばれ、その周囲には約1.65ターンのDNAが巻きついています。ヒストン8量体はヒストンH2A、H2B、H3、H4各2コピーずつから構成されます。
  • 遺伝子(gene)
    大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
  • 二重らせん(double helix)
    DNAが生細胞中でとっている立体構造です。具体的には、互いに相補的な2本のDNA鎖がらせん状に絡み合う構造です。DNA二重らせん構造は、1953年、分子模型を構築する手法を用いてジェームズ・ワトソンフランシス・クリックによって提唱されました。
  • 翻訳(translation)
    mRNAの情報に基づいて、タンパク質を合成する反応のことです。
  • メッセンジャーRNA(mRNA)
    リンク先は「伝令RNA」です。タンパク質に翻訳されうる塩基配列情報と構造を持ったRNAのことです。通常はmRNAと表記されます。
  • 転写(transcription)
    一般に染色体またはオルガネラのDNAの塩基配列(遺伝子)を元に、RNAが合成されることです。
  • ヘテロクロマチン(heterochromatin)
    細胞周期の間も常に凝縮されたクロマチンの形状、または種類のことです。転写されず、濃い色が観察されます。セントロメアとテロメア周辺によく見つかり、主に短い配列の繰り返し構造をとっています。
  • ユークロマチン(euchromatin)
    比較的緩んだ形状または種類のクロマチンのことです。転写が頻繁な領域、すなわち遺伝子がより多く含まれている領域です(緩んでないとDNAポリメラーゼがそもそも近づけないと理解すればよいです)。染色体上では薄い色が観察され、細胞周期では中期でのみ凝縮されます。
  • セントラルドグマ(central dogma)
    遺伝情報は「DNA→(転写)→mRNA→(翻訳)→タンパク質」の順に伝達されるという、分子生物学の概念です。セントラルとは中心、ドグマとは宗教における教義のことであり、セントラルドグマは「分子生物学の中心原理」または「生物学の中心教義」とよばれることがあります。
  • RNA
    リボ核酸(ribonucleic acid)のことです。リボースを糖成分とする核酸です。リボヌクレオチドが多数重合したもので、1本鎖をなし、アデニン(A)、グアニン(G)、シトシン(C)、ウラシル(U)の4種の塩基を含みます。一般にDNA(デオキシリボ核酸)を鋳型として合成され、その遺伝情報の伝達やタンパク質の合成を行います。
  • 遺伝子発現(gene expression)
    遺伝子の情報が細胞における構造および機能に変換される過程のことです。
  • 図1.4
    セントラルドグマの図です。

  • mRNA
    リンク先は「伝令RNA」です。メッセンジャーRNAのことです。タンパク質に翻訳されうる塩基配列情報と構造を持ったRNAのことです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • タンパク質(protein)
    20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
  • アミノ酸配列(amino acid sequence)
    リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
  • 翻訳(translation)
    mRNAの情報に基づいて、タンパク質を合成する反応のことです。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • アミノ酸(amino acid)
    広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH2)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
page005
  • 図1.5
    転写と翻訳の図です。

  • グルタミン(glutamine)
    アミノ酸の一種で、2-アミノ-4-カルバモイル酪酸(2-アミノ-4-カルバモイルブタン酸)のことです。側鎖にアミドを有し、グルタミン酸のヒドロキシ基をアミノ基に置き換えた構造をもちます。酸加水分解によりグルタミン酸となります。略号はGlnあるいはQです。
  • コドン(codon)
    塩基配列がアミノ酸配列に翻訳されるときの、各アミノ酸に対応する3つの塩基配列のことです。
  • 遺伝コード(genetic code)
    DNAの配列において、ヌクレオチド3個の塩基の組み合わせであるトリプレットが、1個のアミノ酸を指定する対応関係のことです。

1.2 塩基配列決定の基礎

  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • シーケンサ(sequencer)
    DNA分子の塩基配列を決定する機器のことです。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
  • スループット(throughput)
    「単位時間当たりの処理能力」という理解でよいです。
  • 第1世代(=旧世代)シーケンサの特徴
    エラー率は概ね1%、約800塩基というリード長、得られる総塩基数は(第2世代以降のシーケンサと比較して)大したことない、という理解でよいです。

1.2.1 サンガー法の原理

  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • RNA
    リボ核酸(ribonucleic acid)のことです。リボースを糖成分とする核酸です。リボヌクレオチドが多数重合したもので、1本鎖をなし、アデニン(A)、グアニン(G)、シトシン(C)、ウラシル(U)の4種の塩基を含みます。一般にDNA(デオキシリボ核酸)を鋳型として合成され、その遺伝情報の伝達やタンパク質の合成を行います。
  • 核酸(nucleic acid)
    リボ核酸 (RNA)とデオキシリボ核酸 (DNA)の総称で、塩基と糖、リン酸からなるヌクレオチドがホスホジエステル結合で連なった生体高分子のことです。
  • ポリマー(polymer)
    リンク先は「重合体」です。複数のモノマー(単量体)が重合する(結合して鎖状や網状になる)ことによってできた化合物のことです。このため、一般的には高分子の有機化合物です。DNAやRNAはポリマーです。DNAのモノマーはデオキシヌクレオド、RNAのモノマーはデオキシリボヌクレオドです。
  • ヌクレオチド(nucleotide)
    ヌクレオドは、ヌクレオシド(塩基と糖が結合した化合物の一種)にリン酸基が結合したものです。ヌクレオドの糖として、リボースが結合したものがリボヌクレオド、デオキシリボースが結合したものがデオキシリボヌクレオドです。リボヌクレオドにリン酸基が結合したものがリボヌクレオド、デオキシリボヌクレオドにリン酸基が結合したものがデオキシリボヌクレオドです。
  • モノマー(monomer)
    重合を行う際の基質のことです。単量体ともいいます。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
page006
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 塩基対(base pair; bp)
    デオキシリボ核酸(DNA)の2本のポリヌクレオチド分子が、AとT (もしくはAとU)、CとGという決まった組を作り、水素結合で繋がったものを指します。この組み合わせはジェームズ・ワトソンフランシス・クリックが発見したもので、「ワトソン・クリック型塩基対」「天然型塩基対」といいます。DNAや RNAの場合、ワトソン・クリック型塩基対が形成しさらに隣り合う塩基対の間に疎水性相互作用が働くことが、二重らせん構造が安定化する駆動力となっています。
  • 相補鎖または相補配列(complementary sequence)
    リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。

  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • シーケンス(sequence)
    リンク先は「シークエンス」です。他分野の説明も含まれていますので、その中の項目「生物学」をご覧ください。核酸、蛋白質、糖鎖などの高分子化合物(ポリマー)において、それを構成するモノマーのつながっている順番(配列)のことです。この場合は、シンプルに本文中の説明通り塩基配列のことです。
  • シーケンシング(sequencing)
    リンク先は「DNAシークエンシング」です。DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
  • 第5世代移動通信システム(5th Generation Mobile Communication System; 5G)
    1G・2G・3G・4Gに続く国際電気通信連合 (ITU) が定める規定「IMT-2020」を満足する無線通信システムです。一般的に英語の”5th Generation”から、「5G」(ファイブジー)と略されます。
  • ヒトゲノム計画(Human Genome Project)
    ヒトのゲノムの全塩基配列を解析するプロジェクトです。ヒトゲノムの概要版(ドラフトとよばれます)の論文は2001年に(Lander et al., Nature, 2001)、そして完全版は2022年に(Nurk et al., Science, 2022)発表されています。
  • サンガー法(Sanger method)
    リンク先は「DNAシークエンシング」内の「酵素法」です。第1世代の塩基配列決定法です。フレデリック・サンガー(F. Sanger)らが開発した様々なDNAシーケンシング技術の総称です。サンガー法は、酵素法やジデオキシ法ともよばれています。
  • 鋳型(template)
    この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNAのことを指します。
  • DNAポリメラーゼ(DNA polymerase)
    1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
  • 相補鎖または相補配列(complementary sequence)
    リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。
  • ポリマー(polymer)
    リンク先は「重合体」です。複数のモノマー(単量体)が重合する(結合して鎖状や網状になる)ことによってできた化合物のことです。このため、一般的には高分子の有機化合物です。DNAやRNAはポリマーです。DNAのモノマーはデオキシヌクレオド、RNAのモノマーはデオキシリボヌクレオドです。
  • デオキシヌクレオド(deoxynucleotide)
    五炭糖である2-デオキシリボースの1’位に塩基が結合したものです。このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • デオキシヌクレオド三リン酸(deoxy-nucleoside triphosphate; dNTP)
    リンク先は「ヌクレオド三リン酸」です。dATP・dCTP・dGTP・dTTPの総称がdNTPです。「ヌクレオドは、ヌクレオドにリン酸基が結合したもの」ですが、リン酸が何個くっついているかまで正確に言い表したものだと理解すればよいです。 リボース(ribose)の2位のヒドロキシル基(-OH)が水素(-H)に置換されたものをデオキシリボース(deoxyribose)といいます。
  • ヌクレオシド(nucleocide)
    五炭糖であるリボース(ribose)の1’位に塩基が結合したものです。このヌクレオドの5’位にリン酸が結合したものをヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、RNAはヌクレオチドのポリマーです。

  • サンガー法(Sanger method)
    リンク先は「DNAシークエンシング」内の「酵素法」です。サンガー法は、酵素法やジデオキシ法ともよばれています。4種類の蛍光色素で横軸が時間、縦軸がシグナル強度の図の例としては、Seroussi E., Genes(Basel), 2021Figure 1があげられます。
  • フレデリック・サンガー(Frederick Sanger)
    リンク先は「フレデリック・サンガー」です。イギリスの生化学者です。
  • DNAシーケンシング(DNA sequencing)
    リンク先は「DNAシークエンシング」です。DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
  • ジデオキシ法:Sanger et al., Proc Natl Acad Sci USA., 1977
    DNAの主な構成成分はデオキシリボースのほうなので、ジデオキシリボースが結合したポリマーのほうはポリメラーゼの伸長反応が停止することを利用した塩基配列決定法です。
  • ポリマー(polymer)
    リンク先は「重合体」です。複数のモノマー(単量体)が重合する(結合して鎖状や網状になる)ことによってできた化合物のことです。このため、一般的には高分子の有機化合物です。DNAやRNAはポリマーです。DNAのモノマーはデオキシヌクレオド、RNAのモノマーはデオキシリボヌクレオドです。
  • ジデオキシヌクレオド三リン酸(dideoxy-nucleoside triphosphate; ddNTP)
    リンク先は「ヌクレオド三リン酸」です。ddATP・ddCTP・ddGTP・ddTTPの総称がddNTPです。リボース(ribose)の2位と3位ののヒドロキシル基(-OH)が水素(-H)に置換されたものをジデオキシリボース(dideoxyribose)といいます。DNAの主な構成成分はデオキシリボースのほうなので、ジデオキシリボースが結合したポリマーのほうはポリメラーゼの伸長反応が停止することを利用したのがジデオキシ法です。
  • dNTP
    リンク先は「ヌクレオド三リン酸」です。デオキシヌクレオド三リン酸(deoxy-nucleoside triphosphate)のことです。dATP・dCTP・dGTP・dTTPの総称がdNTPです。「ヌクレオドは、ヌクレオドにリン酸基が結合したもの」ですが、リン酸が何個くっついているかまで正確に言い表したものだと理解すればよいです。リボース(ribose)の2位のヒドロキシル基(-OH)が水素(-H)に置換されたものをデオキシリボース(deoxyribose)といいます。デオキシリボースを含むヌクレオド三リン酸は、名前の前に「デオキシ」という接頭辞を付け、略称には”d”を付けます。
page007
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • 電気泳動(electrophoresis)
    荷電粒子あるいは分子が電場(電界)中を移動する現象、あるいはその現象を利用した解析手法です。特に分子生物学や生化学ではDNAやタンパク質を分離する手法としてなくてはならないものです。江戸時代に使われていた唐箕(とうみ)をイメージすればよいです。 物体を風で飛ばすと、重いものは手前に落ちるが、軽いものは遠くまで飛びます。電気泳動の基本原理もこれと同じです。
  • 蛍光色素(fluorescent dye)
    蛍光を発光する色素のことです。蛍光色素が光を吸収すると、色素中の電子が励起され、それが基底状態に戻る際に余分なエネルギーを電磁波として放出します。この電磁波が蛍光です。
  • 相補鎖または相補配列(complementary sequence)
    リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • 図1.6
    サンガー法(ジデオキシ法)による塩基配列決定例です。
  • ベースコール(base call)
    リンク先は「Base calling」です。1人がポジションごとに得られるA・C・G・Tそれぞれのシグナル強度の波形を読み取り、ポジションごとに最もシグナル強度が高い塩基(base)をコール(call)し、もう1人がそれを記録するという作業が昔行われていました。ベースコールという言葉はその名残です。

1.2.2 塩基配列決定精度

  • ベースコール(base call)
    リンク先は「Base calling」です。1人がポジションごとに得られるA・C・G・Tそれぞれのシグナル強度の波形を読み取り、ポジションごとに最もシグナル強度が高い塩基(base)をコール(call)し、もう1人がそれを記録するという作業が昔行われていました。ベースコールという言葉はその名残です。
  • phredEwing et al., Genome Res., 1998
    最も有名なベースコール用プログラム(ベースコーラー; base caller)です。電気泳動に基づく蛍光シグナル強度の波形データ(trace data)を入力として、「塩基配列」および「位置ごとのベースコールの信頼度に相当するクオリティスコア」を出力します。
  • 電気泳動(electrophoresis)
    荷電粒子あるいは分子が電場(電界)中を移動する現象、あるいはその現象を利用した解析手法です。特に分子生物学や生化学ではDNAやタンパク質を分離する手法としてなくてはならないものです。江戸時代に使われていた唐箕(とうみ)をイメージすればよいです。 物体を風で飛ばすと、重いものは手前に落ちるが、軽いものは遠くまで飛びます。電気泳動の基本原理もこれと同じです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • クオリティスコア(quality score)
    自動DNAシーケンシング用のプログラムphredに用いられているベースコールのスコアです。式(1.1)の説明部分でもクオリティスコアに言及していますが、直感的にはA・C・G・Tそれぞれのシグナル強度が同程度でわずかながら高い値だったとしてGとコールされた場合は、そのGに付随するPhredクオリティスコアは低い値になります。逆に、A・C・Gのシグナル強度が非常に低く、Tのシグナル強度が非常に高かった場合、コールされたTに付随するPhredクオリティスコアは高い値になります。
  • 対数変換(logarithmic transformation)
    リンク先は「対数」です。対数変換とはlogをとることです。たとえば、底をeとする10の対数は\(\log_e(10)\) \(= 2.302585\)です。
  • 式(1.1)
    クオリティスコア\(q\)の数式です。\(p\)は、シーケンスエラーとなる確率(エラー率)のことです。
    \[ q = -10 \times \log_{10}(p) \tag{1.1} \] \(p = 0.01\)のとき \[ \begin{align} q &= -10 \times \log_{10}(0.01) \\ &= -10 \times \log_{10}(10^{-2}) \\ &= -10 \times (-2) \\ &= 20 \end{align} \] \(p = 0.001\)のとき \[ \begin{align} q &= -10 \times \log_{10}(0.001) \\ &= -10 \times \log_{10}(10^{-3}) \\ &= -10 \times (-3) \\ &= 30 \end{align} \]
  • エラー率(error rate; \(p\))
    シーケンスエラーとなる確率のことです。たとえば、100塩基のベースコール中、95個の塩基を正しく決定できたなら、エラー率5% (\(p\) \(= 0.05\))です。
  • phredクオリティスコア(phred quality score)
    自動DNAシーケンシング用のプログラムphredに用いられているベースコールのスコアです。式(1.1)の説明部分でもクオリティスコアに言及していますが、直感的にはA・C・G・Tそれぞれのシグナル強度が同程度でわずかながら高い値だったとしてGとコールされた場合は、そのGに付随するphredクオリティスコアは低い値になります。逆に、A・C・Gのシグナル強度が非常に低く、Tのシグナル強度が非常に高かった場合、コールされたTに付随するphredクオリティスコアは高い値になります。
  • 第3世代シーケンサ(third-generation sequencer)
    パックバイオ社一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術や、ナノポア社の技術に基づくロングリードが得られるシーケンサのことです。
  • 業界標準(de facto standard)
    「事実上の標準」を指す用語です。

  • サンガー法(Sanger method)
    リンク先は「DNAシークエンシング」内の「酵素法」です。サンガー法は、酵素法やジデオキシ法ともよばれています。4種類の蛍光色素で横軸が時間、縦軸がシグナル強度の図の例としては、Seroussi E., Genes(Basel), 2021Figure 1があげられます。
  • 電気泳動(electrophoresis)
    荷電粒子あるいは分子が電場(電界)中を移動する現象、あるいはその現象を利用した解析手法です。特に分子生物学や生化学ではDNAやタンパク質を分離する手法としてなくてはならないものです。江戸時代に使われていた唐箕(とうみ)をイメージすればよいです。 物体を風で飛ばすと、重いものは手前に落ちるが、軽いものは遠くまで飛びます。電気泳動の基本原理もこれと同じです。
  • 鋳型(template)
    この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNAのことを指します。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
  • シーケンサ(sequencer)
    DNA分子の塩基配列を決定する機器のことです。
  • 毛細管(capillary)
    物理学や化学などの実験に用いられる「髪の毛のように細い」管のことです。キャピラリーともよばれます。
  • ウェル(well)
    小さな穴とか「くぼみ」という理解でよいです。
  • マイクロプレート(microplate)
    多数のくぼみ(穴またはウェル)のついた平板からなる実験・検査器具で、各ウェルを試験管あるいはシャーレとして利用するものです。冷蔵庫にあるプラスチックの製氷皿を小型化させたようなものという理解でよいです。
  • ラン(run)
    1回の運転のことです。
  • スループット(throughput)
    「単位時間当たりの処理能力」という理解でよいです。
  • エラー率(error rate; \(p\))
    シーケンスエラーとなる確率のことです。たとえば、100塩基のベースコール中、95個の塩基を正しく決定できたなら、エラー率5% (\(p\) \(= 0.05\))です。
  • 第1世代(=旧世代)シーケンサの特徴
    エラー率は概ね1%、約800塩基というリード長、得られる総塩基数は(第2世代以降のシーケンサと比較して)大したことない、という理解でよいです。
  • 第2世代シーケンサ(second-generation sequencer)
    イルミナ社が製造しているような「大量のショートリードを出力するシーケンサのこと」です。かつて次世代シーケンサ(NGS)とよばれていたジャンルの、何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。

1.2.3 PCR増幅とその周辺

  • DNAポリメラーゼ(DNA polymerase)
    1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
  • 鋳型(template)
    この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNAのことを指します。
  • 相補鎖または相補配列(complementary sequence)
    リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。
  • モノマー(monomer)
    重合を行う際の基質のことです。単量体ともいいます。
  • デオキシヌクレオド(deoxynucleotide)
    五炭糖である2-デオキシリボースの1’位に塩基が結合したものです。このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • 触媒(catalyst)
    一般に、特定の化学反応の反応速度を速める物質で、自身は反応の前後で変化しないもののことです。
  • 酵素(enzyme)
    生体内外で起こる化学反応に対して触媒として機能する分子のことです。
  • ポリマー(polymer)
    リンク先は「重合体」です。複数のモノマー(単量体)が重合する(結合して鎖状や網状になる)ことによってできた化合物のことです。このため、一般的には高分子の有機化合物です。DNAやRNAはポリマーです。DNAのモノマーはデオキシヌクレオド、RNAのモノマーはデオキシリボヌクレオドです。
  • DNA複製(DNA replication)
    細胞分裂における核分裂の前に、DNAが複製されてその数が2倍となる過程のことです。単に複製とよばれることが多いです。複製される側の1本鎖DNAを親鎖(parent strand)、DNA複製によって新しく合成された1本鎖DNAを娘鎖(daughter strand)といいます。
page008
  • 相補鎖または相補配列(complementary sequence)
    リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。
  • プライマー (primer)
    アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
  • 鋳型鎖(template strand)
    この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNA鎖のことを指します。
  • サンガー法(Sanger method)
    リンク先は「DNAシークエンシング」内の「酵素法」です。サンガー法は、酵素法やジデオキシ法ともよばれています。4種類の蛍光色素で横軸が時間、縦軸がシグナル強度の図の例としては、Seroussi E., Genes(Basel), 2021Figure 1があげられます。
  • ddNTP
    リンク先は「ヌクレオド三リン酸」です。ジデオキシヌクレオド三リン酸(dideoxy-nucleoside triphosphate)のことで、ddATP・ddCTP・ddGTP・ddTTPの総称がddNTPです。リボース(ribose)の2位と3位ののヒドロキシル基(-OH)が水素(-H)に置換されたものをジデオキシリボース(dideoxyribose)といいます。DNAの主な構成成分はデオキシリボースのほうなので、ジデオキシリボースが結合したポリマーのほうはポリメラーゼの伸長反応が停止することを利用したのがジデオキシ法です。

  • DNAポリメラーゼ(DNA polymerase)
    1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
  • DNAサンプル(DNA sample)
    この場合は、シーケンスしたいDNA試料のことです。
  • ポリメラーゼ連鎖反応(polymerase chain reaction; PCR)
    DNAサンプルの特定領域を数百万〜数十億倍に増幅させる反応または技術です。DNAポリメラーゼとよばれる酵素の働きを利用して、一連の温度変化のサイクルを経て任意の遺伝子領域やゲノム領域のコピーを指数関数的(ねずみ算的、連鎖的)に増幅することで、少量のDNAサンプルからその詳細を研究するに十分な量にまで増幅することが目的です。
  • アニーリング(annealing)
    核酸(DNAまたはRNA)の分子が相補的に複合体を形成することです。「ハイブリダイゼーション(hybridization)」と実質的に同じです。
  • ねずみ算
    和算の1つで、「ある期間に、ネズミがどれだけ増えるか」ということを計算する問題です。ねずみ算の結果は膨大な数となるため、「急激に数が増えること」を「ねずみ算式に増える」と表現することがあります。ここでは、そのような意味で用いています。
  • PCR増幅(PCR amplification)
    リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させるPCR技術を用いてDNA量を増幅させることです。
  • サンガー法(Sanger method)
    リンク先は「DNAシークエンシング」内の「酵素法」です。サンガー法は、酵素法やジデオキシ法ともよばれています。4種類の蛍光色素で横軸が時間、縦軸がシグナル強度の図の例としては、Seroussi E., Genes(Basel), 2021Figure 1があげられます。
  • プライマー (primer)
    アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • オリゴヌクレオチド(oligonucleotide)
    おおよそ20 bpかそれ以下の長さの短いヌクレオチド(DNAまたはRNA)の配列のことです。
  • 核酸(nucleic acid)
    リボ核酸 (RNA)とデオキシリボ核酸 (DNA)の総称で、塩基と糖、リン酸からなるヌクレオチドがホスホジエステル結合で連なった生体高分子のことです。
  • ハイブリダイゼーション(hybridization)
    核酸(DNAまたはRNA)の分子が相補的に複合体を形成することです。

  • シーケンス反応(sequence reaction)
    この場合は、サンガー法による塩基配列決定の中で行われる、DNAポリメラーゼ(DNA polymerase)によるDNA合成反応のことを指しています。
  • プライマー (primer)
    アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
  • PCR
    リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させる技術のことです。
  • 鋳型鎖(template strand)
    この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNA鎖のことを指します。
  • アニーリング(annealing)
    核酸(DNAまたはRNA)の分子が相補的に複合体を形成することです。「ハイブリダイゼーション(hybridization)」と実質的に同じです。
  • 図1.7
    プライマーの特異性が低い場合の例です。
  • ジデオキシ法:Sanger et al., Proc Natl Acad Sci USA., 1977
    DNAの主な構成成分はデオキシリボースのほうなので、ジデオキシリボースが結合したポリマーのほうはポリメラーゼの伸長反応が停止することを利用した塩基配列決定法です。
  • 1984年に勧告された命名法:Cornish-Bowden A., Nucleic Acids Res., 1985

    この論文のTable 1に示されていますが、以下でもまとめておきます。

    塩基 1文字表記 表記の由来
    A or C M aMino
    A or G R puRine
    A or T W Weak interaction (2 H bonds)
    C or G S Strong interaction (3 H bonds)
    C or T Y pYrimidine
    G or T K Ketone
    A or C or G V not-T (not-U), V follows U in the alphabet
    A or C or T H not-G, H follows G in the alphabet
    A or G or T D not-C, D follows C in the alphabet
    C or G or T B not-A, B follows A in the alphabet
    A or C or G or T N aNy
page009
  • エラー率(error rate; \(p\))
    シーケンスエラーとなる確率のことです。たとえば、100塩基のベースコール中、95個の塩基を正しく決定できたなら、エラー率5% (\(p\) \(= 0.05\))です。\(p\) \(= 0.1\)のときのphredスコア\(q\) \(= 10\)は以下のように計算します。
    \[ \begin{align} q &= -10 \times \log_{10}(0.1) \\ &= -10 \times \log_{10}(10^{-1}) \\ &= -10 \times (-1) \\ &= 10 \end{align} \]
  • phredスコア(phred score)
    「Phredクオリティスコア」と同義です。自動DNAシーケンシング用のプログラムphredに用いられているベースコールのスコアです。式(1.1)の説明部分でもクオリティスコアに言及していますが、直感的にはA・C・G・Tそれぞれのシグナル強度が同程度でわずかながら高い値だったとしてGとコールされた場合は、そのGに付随するphredクオリティスコアは低い値になります。逆に、A・C・Gのシグナル強度が非常に低く、Tのシグナル強度が非常に高かった場合、コールされたTに付随するphredクオリティスコアは高い値になります。
  • ベースコール(base call)
    リンク先は「Base calling」です。1人がポジションごとに得られるA・C・G・Tそれぞれのシグナル強度の波形を読み取り、ポジションごとに最もシグナル強度が高い塩基(base)をコール(call)し、もう1人がそれを記録するという作業が昔行われていました。ベースコールという言葉はその名残です。

  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • プライマー (primer)
    アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
  • アニーリング(annealing)
    核酸(DNAまたはRNA)の分子が相補的に複合体を形成することです。「ハイブリダイゼーション(hybridization)」と実質的に同じです。
  • ヒトゲノム(human genome)
    ヒトの全ゲノム配列のことです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • ゲノムサイズ(genome size)
    (正確にはハプロイドゲノムだと思いますが)ある生物種がもつゲノムの総塩基数という理解でよいです。
  • 生物種(species)
    リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
  • バイオインフォマティクス(bioinformatics)
    生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • PCRプライマー設計ソフトウェアのリストGuo et al., Bioinformatics, 2021

  • 転写開始点(transcription start site; TSS)
    リンク先は「転写 (生物学)」です。RNAの転写が開始される部位のことであり、転写されたRNAの1番目の塩基の位置に相当します。
  • PCR増幅(PCR amplification)
    リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させるPCR技術を用いてDNA量を増幅させることです。
  • プライマー (primer)
    アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
  • ゲノム(genome)
    ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
  • ゲノム編集(genome editing)
    部位特異的ヌクレアーゼを利用して、思い通りに標的遺伝子を改変する技術のことです。部位特異的ヌクレアーゼとしては、2005年以降に開発・発見された、ZFN、TALEN、CRISPR/Cas9を中心としています。
  • Saha et al., Nature, 2021
    ゲノム編集系の総説です。
  • ガイドRNA(guide RNA)
    リンク先は「Guide RNA」です。RNAまたはDNAを標的とする酵素のガイドとして機能するRNAの一部です。
  • オフターゲット効果(off-target effect)
    リンク先は「ゲノム編集」です。標的部位ではない場所をも改変してしまう現象のことです。

1.3 次世代型の塩基配列決定技術(NGS)

  • 第2世代シーケンサ(second-generation sequencer)
    イルミナ社が製造しているような「大量のショートリードを出力するシーケンサのこと」です。かつて次世代シーケンサ(NGS)とよばれていたジャンルの、何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。
  • イルミナ社(Illumina)
    出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
  • シーケンス(sequence)
    リンク先は「シークエンス」です。この場合は、DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
  • サンプル(sample)
    この場合は、シーケンスしたい試料のことです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。

1.3.1 イルミナのショートリード

  • サンガー法(Sanger method)
    リンク先は「DNAシークエンシング」内の「酵素法」です。第1世代の塩基配列決定法です。フレデリック・サンガー(F. Sanger)らが開発した様々なDNAシーケンシング技術の総称です。サンガー法は、酵素法やジデオキシ法ともよばれています。
  • 次世代シーケンサ(next-generation sequencer; NGS)
    何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。2022年現在は、主に第2世代シーケンサ(2nd-generation sequencer)とよばれているシーケンシング技術に基づく機器のことを指します。2010~2015年頃はNGSとよくよばれていました。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。ちなみに、1.5節や1.6節で述べているロングリードが得られるシーケンス技術や機器が第3世代です。
  • イルミナ社(Illumina)
    出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
  • 日米欧三極で運営されている次世代シーケンサ(Next-Generation Sequencing; NGS)から得られたデータを格納する塩基配列データベース(DB)
    International Nucleotide Sequence Database Collaboration (INSDC)によって運用されています。 ライフサイエンス系DB全般については、坊農秀雅・小野浩雅・監修、生命科学データベース・ウェブツール、MEDSi、2018が参考になると思います。
  • アーカイブ(archive)
    コンピュータにおいてデータを長期間保存するために、データとファイル作成日時や作成者などの付随するメタデータを関連づけて一体で保存することです。アーカイブは、データの書き換えを想定せずオリジナルのファイルを長期間保存します。バックアップと似た概念でしばしば混同されますが、バックアップはデータの最新版を保存して災害時にロールバックしやすくするものです。
  • NGSデータ(NGS data)
    次世代シーケンサ(NGS)の出力データのことです。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
  • 第2世代シーケンサ(second-generation sequencer)
    イルミナ社が製造しているような「大量のショートリードを出力するシーケンサのこと」です。かつて次世代シーケンサ(NGS)とよばれていたジャンルの、何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。
  • ショートリード(short read)
    イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
page010

1.3.2 ライブラリ調製

  • NGS
    ここでのNGSは、次世代シーケンシング(next-generation sequencing)技術のことを指します。特にショートリードについてです。
  • バイオインフォ(bioinfo)
    バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
  • ライブラリ調製(library preparation)
    典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。したがって、ライブラリ調製とは、配列決定したい試料をNGS機器にかけられる状態にする作業のことを指します。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • DNA
    デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオド、このデオキシヌクレオドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオドのポリマーです。
  • 断片化(fragmentation)
    この場合は、試料(サンプル)中のDNAをNGS機器で読める(ベースコールできる)長さの断片に処理することです。酵素を使った断片化や、超音波処理による断片化が行われます。
  • サイズ選択(size selection)
    断片化されたDNAは様々な長さになっているため、一定の長さの範囲に収まっているものだけを選択的に抽出する作業です。
  • 電気泳動(electrophoresis)
    荷電粒子あるいは分子が電場(電界)中を移動する現象、あるいはその現象を利用した解析手法です。特に分子生物学や生化学ではDNAやタンパク質を分離する手法としてなくてはならないものです。江戸時代に使われていた唐箕(とうみ)をイメージすればよいです。 物体を風で飛ばすと、重いものは手前に落ちるが、軽いものは遠くまで飛びます。電気泳動の基本原理もこれと同じです。
  • イルミナ(Illumina)
    出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
  • アダプター(adapter)
    シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
  • オリゴヌクレオチド(oligonucleotide)
    おおよそ20 bpかそれ以下の長さの短いヌクレオチド(DNAまたはRNA)の配列のことです。
  • ライゲーション(ligation)
    リンク先は「DNAリガーゼ」です。DNAリガーゼ(DNA ligase)は、DNA鎖の末端どうしをリン酸ジエステル結合でつなぐ酵素です。ligaseは「ライゲーション(ligation)する酵素」であり、DNAライゲースとも発音されます。つまり、ライゲーションは連結という意味です。「アダプターライゲーション」は、その名の通り「アダプター配列をDNA断片の両端に連結する操作のこと」です。
  • ライブラリ(library)
    典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合のことをシーケンシングライブラリまたは単にライブラリとよびます。したがってライブラリとは、NGS機器にかけられる状態にされた試料中のDNA断片のことです。
  • インサート(insert)
    ライブラリ調製後のDNA断片のことです。ほぼ余談ですが、ライブラリ調製も改良がなされており、最近では断片化(fragmentation)とアダプターの付加が同時に行えます。アダプター付加は「タグ付け(tagging)」と表現されるため、taggingとfragmentationの造語としてタグメンテーション(tagmentation)とよばれます。
  • 図1.8
    一般的なイルミナのライブラリの概念図です。

  • アダプター(adapter)
    シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
  • インサート(insert)
    ライブラリ調製後のDNA断片のことです。ほぼ余談ですが、ライブラリ調製も改良がなされており、最近では断片化(fragmentation)とアダプターの付加が同時に行えます。アダプター付加は「タグ付け(tagging)」と表現されるため、taggingとfragmentationの造語としてタグメンテーション(tagmentation)とよばれます。
  • プライマー (primer)
    アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
  • PCR
    リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させる技術のことです。
  • PCR増幅(PCR amplification)
    リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させるPCR技術を用いてDNA量を増幅させることです。
  • イルミナ(Illumina)
    出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
  • インプットDNA量(input)
    この場合は、サンプル調製キットに供する際にあらかじめ用意しておくべきDNA量のことです。
  • ワークフロー(workflow)
    この場合は、サンプル調整という「いくつかのステップからなる一連の作業工程」という理解でよいです。作業手順とか作業手続きという風に解釈してもよいです。
  • ライブラリ調製(library preparation)
    典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。したがって、ライブラリ調製とは、配列決定したい試料をNGS機器にかけられる状態にする作業のことを指します。
  • アンプリコン(amplicon)
    リンク先は「Amplicon」です。PCR増幅されたDNAのことです。文脈によってはPCR増幅前のDNAのことも指します。
  • アニーリング(annealing)
    核酸(DNAまたはRNA)の分子が相補的に複合体を形成することです。「ハイブリダイゼーション(hybridization)」と実質的に同じです。
  • ハイブリダイゼーション(hybridization)
    核酸(DNAまたはRNA)の分子が相補的に複合体を形成することです。

  • プライマー (primer)
    アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
  • インデックス(index)
    この場合は、プライマー配列の両端に付加される8-mer程度のオリゴヌクレオチドのことです。このオリゴヌクレオチドの配列は既知なので、サンプルごとに異なるオリゴヌクレオチドを付加しておけば、異なるサンプルを混ぜた状態でシーケンスすることができるメリットがあります。シーケンス後に同一のインデックスをもつリードを分ければ、由来サンプルごとに分けることができます。バーコード配列ともよばれます。
  • オリゴヌクレオチド(oligonucleotide)
    おおよそ20 bpかそれ以下の長さの短いヌクレオチド(DNAまたはRNA)の配列のことです。
  • ラン(run)
    1回の運転のことです。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
  • 図1.8
    一般的なイルミナのライブラリの概念図です。
  • ウェルプレート(well plate)
    リンク先は「マイクロプレート」です。多数のくぼみ(穴またはウェル)のついた平板からなる実験・検査器具で、各ウェルを試験管あるいはシャーレとして利用するものです。冷蔵庫にあるプラスチックの製氷皿を小型化させたようなものという理解でよいです。マイクロプレートも、ウェルプレートも、マイクロウェルプレートも実質的に同じものを指します。
page011
  • シーケンス(sequence)
    リンク先は「シークエンス」です。この場合は、DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
  • マルチプレックスシーケンス(multiplex sequence)
    一度のランで多数の異なるサンプルを同時にシーケンスすることです。マルチプレックス解析ともいいます。
  • NGS機器
    何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。
  • de-multiplexing
    マルチプレックスシーケンスで得られた異なるサンプル由来のリードを、由来サンプルごとに振り分ける作業のことです。

1.3.3 シーケンスモードとファイル形式(FASTQ)

  • イルミナ(Illumina)
    出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
  • ライブラリ(library)
    典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合のことをシーケンシングライブラリまたは単にライブラリとよびます。したがってライブラリとは、NGS機器にかけられる状態にされた試料中のDNA断片のことです。
  • シーケンス(sequence)
    この場合は、塩基配列を決定することです。
  • シングルエンド(single-end; SE)
    イルミナのライブラリの片側のみからシーケンスを行うモードのことです。
  • ペア―ドエンド(paired-end; PE)
    イルミナのライブラリの両端からシーケンスを行うモードのことです。
  • 図1.9
    イルミナのペア―ドエンドシーケンスの概念図です。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
  • インサート(insert)
    ライブラリ調製後のDNA断片のことです。
  • インサートサイズ(insert size)
    ライブラリ中のインサート部分の長さのことです。
  • 中央値(median)
    データや集合の代表値の1つで、順位が中央である値のことです。たとえば偶数個の要素からなる数値データ(2, 9, 25, 74)の中央値は、真ん中の2つの平均値として計算し、\((9 + 25)/2\) \(= 17\)となります。また、奇数個の(2, 9, 25, 74, 88)の中央値は、25です。
  • ライブラリ調製(library preparation)
    典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。したがって、ライブラリ調製とは、配列決定したい試料をNGS機器にかけられる状態にする作業のことを指します。
  • Turner FS, Front. Genet., 2014
    インサートサイズがリード長よりも短いものが存在しうる例は、FIGURE 2Bです。
  • PE
    ペア―ドエンド(paired-end)の略で、イルミナのライブラリの両端からシーケンスを行うモードのことです。
  • 図1.9a
    イルミナのペア―ドエンドシーケンスの概念図です。(a)は500塩基程度のインサートサイズのものの概念図です。

  • 図1.9b
    イルミナのペア―ドエンドシーケンスの概念図です。(b)は237塩基程度のインサートサイズのものの概念図です。ペア―ドエンドで両側から読んだ際の2つのリードに重なりがあることを伝えたい程度ですので、リード長を\(l\)とすると、\(l < IS < 2 \times l\)の範囲に収まるようなインサートサイズ\(IS\)であれば、\(IS\) \(= 237\)でなくても構いません。たとえば\(l\) \(= 150\)なら\(150 < IS < 300\)ということですので、\(IS\) \(= 242\)でも\(170\)でも\(290\)でも構わないということです。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
  • 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオドはヌクレオドの構成要素であり、ヌクレオドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
  • のりしろ
    一般的な説明としては、「紙などをはりあわせるとき、のりをつける部分」のことです。この場合は、異なるリードどうしを連結させていく際に考慮する一致塩基領域に相当します。
page012
  • 図1.10
    FASTQ形式の例です。DRR000031の冒頭4リード分を示しています。最初の4000行分(つまり1000リード分)のFASTQファイルはDRR000031_4000.fastqです。

  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • デノボアセンブリ(de novo assembly)
    リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
  • 前処理(preprocessing)
    この場合は、図1.9bで例示されているような重なりのあるペアのリードをマージさせる作業のことを指します。
  • Magoc and Salzberg, Bioinformatics, 2011
    リード前処理の一環として、ペア―ドエンド(paired-end; PE)の2つのリードペア末端の一致部分を連結させる前処理(preprocessing)を行うことで、アセンブリの精度を高める工夫を行うプログラムFLASHの開発論文です。
  • アダプター(adapter)
    シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
  • インサート(insert)
    ライブラリ調製後のDNA断片のことです。ほぼ余談ですが、ライブラリ調製も改良がなされており、最近では断片化(fragmentation)とアダプターの付加が同時に行えます。アダプター付加は「タグ付け(tagging)」と表現されるため、taggingとfragmentationの造語としてタグメンテーション(tagmentation)とよばれます。

  • デノボアセンブリ(de novo assembly)
    リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
  • 業界標準(de facto standard)
    「事実上の標準」を指す用語です。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
  • FASTQ
    テキストベースの形式で、DNAなどの塩基配列とそのクオリティスコアを1つのファイルに一緒に保存する際に用いられます。塩基配列とクオリティスコアは各1文字のASCII文字で表され、これにより塩基とクオリティの対応関係が分かりやすくなっています。拡張子は.fastqや.fqです。NGS解析分野の業界標準の形式です。
  • 図1.10
    FASTQ形式の例です。
  • 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
  • phredクオリティスコア(phred quality score)
    自動DNAシーケンシング用のプログラムphredに用いられているベースコールのスコアです。式(1.1)の説明部分でもクオリティスコアに言及していますが、直感的にはA・C・G・Tそれぞれのシグナル強度が同程度でわずかながら高い値だったとしてGとコールされた場合は、そのGに付随するphredクオリティスコアは低い値になります。逆に、A・C・Gのシグナル強度が非常に低く、Tのシグナル強度が非常に高かった場合、コールされたTに付随するphredクオリティスコアは高い値になります。

1.4 クオリティコントロール(QC)

  • ステレオタイプ(stereotype)
    多くの人に浸透している先入観、思い込み、認識、固定観念、レッテル、偏見、差別などの類型化された観念を指す用語です。
  • 品質管理(quality control; QC)
    リードファイルを入力として、アダプター配列や配列決定精度が低い領域とトリムして、その後の解析に支障をきたさないようにする作業のことです。クオリティコントロールの枠組みに、クオリティチェックや前処理が含まれます。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
  • phredスコア(phred score)
    「Phredクオリティスコア」と同義です。自動DNAシーケンシング用のプログラムphredに用いられているベースコールのスコアです。式(1.1)の説明部分でもクオリティスコアに言及していますが、直感的にはA・C・G・Tそれぞれのシグナル強度が同程度でわずかながら高い値だったとしてGとコールされた場合は、そのGに付随するphredクオリティスコアは低い値になります。逆に、A・C・Gのシグナル強度が非常に低く、Tのシグナル強度が非常に高かった場合、コールされたTに付随するphredクオリティスコアは高い値になります。
  • アダプター(adapter)
    シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。本文中の「不良個所」の意味は、リード全体が使い物にならないという意味で「不良品」、リード中のアダプター配列をトリムせねばならないという意味で「不良個所」と書いています。
  • FASTQ
    テキストベースの形式で、DNAなどの塩基配列とそのクオリティスコアを1つのファイルに一緒に保存する際に用いられます。塩基配列とクオリティスコアは各1文字のASCII文字で表され、これにより塩基とクオリティの対応関係が分かりやすくなっています。拡張子は.fastqや.fqです。NGS解析分野の業界標準の形式です。
  • クオリティコントロール(quality control; QC)
    「品質管理」のことです。QCの枠組みに、クオリティチェックや前処理が含まれます。
  • クオリティチェック(quality check)
    クオリティコントロールの部分集合であり、この場合はFASTQファイル中の全体的な品質を概観する(チェックする)という意味で用いています。「品質の悪いリードがあるかどうか」や「アダプター配列がふくまれているかどうか」を調べる行為のみで、実際にそれらを除去したりという作業自体はクオリティチェックには含まれません。
  • GC含量(GC content)
    塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
  • FastQC
    最も有名なクオリティチェック用プログラムです。
  • html
    HyperText Markup Languageの略です。リンク先は「HyperText Markup Language」です。ハイパーテキストを記述するためのマークアップ言語の1つです。略してHTML(エイチティーエムエル)とよばれることが多いです。World Wide Web (WWW)において、Webページを表現するために用いられます。この場合の「htmlレポート」は、FastQCプログラムが出力するクオリティチェック結果のhtmlファイルのことです。具体例としては、SRR616268sub_1_fastqc.htmlを挙げておきます。これは日本乳酸菌学会誌上で2014年からやらせていただいているNGS連載原稿の第4回ウェブ資料中のFaQCs(ver. 1.34)によるQCという項目内で提供しているものです。

  • FastQC
    最も有名なクオリティチェック用プログラムです。
  • クオリティチェック(quality check)
    クオリティコントロールの部分集合であり、この場合はFASTQファイル中の全体的な品質を概観する(チェックする)という意味で用いています。「品質の悪いリードがあるかどうか」や「アダプター配列がふくまれているかどうか」を調べる行為のみで、実際にそれらを除去したりという作業自体はクオリティチェックには含まれません。
  • 前処理(preprocessing)
    この場合は、「アダプター配列のトリム」や「クオリティの低い領域のフィルタリング」の作業のことを指します。「処理後のデータのチェック」はクオリティチェックなのではないか?と思われるかもしれませんが、本文中ではそういった作業もひっくるめて前処理の枠組みに含めています。
  • アダプター(adapter)
    シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
  • クオリティの低い領域(low quality region)
    この場合は、リード中のPhredクオリティスコアが低い領域のことです。意味合いとしてはフィルタリングというよりはトリミングに近く、トリムが続くのを避けたかったという程度です。
  • cutadaptMartin M., EMBnet J., 2011
page013
  • trimmomaticBolger et al., Bioinformatics, 2014
  • オールインワン(all in one)
    幾つかの物や機能などが1つにまとめられている形態のことです。ある1つの目的達成に、本来複数組み合わせて使用する製品群を1つにまとめた工業製品と、その設計思想です。
  • fastpChen et al., Bioinformatics, 2018
  • ライブラリ(library)
    この場合は、シーケンシングライブラリのことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この「アダプター配列などがつけられた断片の集合のこと」を指しています。実験手順によって、本来のサンプル由来の断片配列以外の配列が異なるため、どのような種類のアダプター配列を用いたのかなどによってオプションを変更する必要があるのです。
  • リード(read)
    ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
  • クオリティスコア分布(distribution of quality scores)
    シチュエーションによって異なりますが、「横軸がリード中の塩基配列の位置、縦軸がPhredクオリティスコア」のようなものを想像してもよいですし、あるいは「リードごとに平均クオリティスコアを算出し、横軸が平均クオリティスコア、縦軸がその頻度」のような分布を想像してもよいと思います。
  • イルミナ(Illumina)
    出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
  • ショートリード(short read)
    イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
  • 藤博幸 編, よくわかるバイオインフォマティクス入門, 講談社
    アダプター配列除去は、99~100ページ目あたりに記載があります。

1.5 ロングリード技術(パックバイオ)