page001

第1章ゲノム情報解析(基礎編)

ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
生物(organism)
生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
遺伝情報(genetic information)
遺伝現象によって親から子に伝わる情報のことです。DNAの塩基配列情報だけではなくその修飾や、母性mRNA・蛋白質なども含みます。一般的には、ゲノムDNAに書き込まれた塩基配列の情報と同義的に使われることが多いです。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
塩基(base)
リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
生物種(species)
リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
データベース(database; DB)
検索や蓄積が容易にできるよう整理された情報の集まり。通常はコンピュータによって実現されたもののことです。
基準となるゲノム配列(reference genome)
リンク先は「Reference genome」です。ある生物種を代表する基準となるゲノム配列のことを指し、リファレンスゲノムともよばれます。

1.1 生物基礎

バイオインフォマティクス(bioinformatics)
生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
RNA
リボ核酸(ribonucleic acid)のことです。リボースを糖成分とする核酸です。リボヌクレオチドが多数重合したもので、1本鎖をなし、アデニン(A)、グアニン(G)、シトシン(C)、ウラシル(U)の4種の塩基を含みます。一般にDNA(デオキシリボ核酸)を鋳型として合成され、その遺伝情報の伝達やタンパク質の合成を行います。
DNAポリメラーゼ(DNA polymerase)
1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
真核生物(eukaryote)
動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
原核生物(prokaryote)
細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
- 真正細菌(bacteriaまたはeubacteria)
  リンク先は「細菌」です。生物の主要な系統(ドメイン)の1つで、古細菌、真核生物とともに全生物界を三分します。古細菌と合わせて原核生物ともよばれます。単に細菌ともよばれることが多いです。細菌は、大腸菌、枯草菌、藍色細菌(シアノバクテリア)など様々な系統を含む生物群です。形状は球菌か桿菌、ラセン菌が一般的で、通常1～10 µmほどの微小な生物です。核を持たないという点で古細菌と似ていますが、古細菌と細菌の分岐は極めて古いです。
- 古細菌(archaea)
  生物の主要な系統(ドメイン)の1つで、真核生物、真正細菌とともに全生物界を三分します。古細菌は形態や名称こそ(真正)細菌と類似していますが、細菌とは異なる系統です。非常に多様な生物を含み、高度好塩菌、メタン菌、好熱菌などがよく知られています。
染色体(chromosome)
遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン（H2A, H2B, H3, H4）が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
ヌクレオソーム(nucleosome)
真核生物におけるDNAのパッケージングの基本的単位です。ヌクレオソームの構造は8つのヒストンタンパク質に巻き付いたDNA断片から構成され、概念的には糸巻きに巻き付いた糸に類似しています。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソームです。各ヌクレオソームの8つのヒストンタンパク質はヒストン8量体とよばれ、その周囲には約1.65ターンのDNAが巻きついています。ヒストン8量体はヒストンH2A、H2B、H3、H4各2コピーずつから構成されます。
セントラルドグマ(central dogma)
遺伝情報は「DNA → (転写) → mRNA → (翻訳) → タンパク質」の順に伝達されるという、分子生物学の概念です。セントラルとは中心、ドグマとは宗教における教義のことであり、セントラルドグマは「分子生物学の中心原理」または「生物学の中心教義」とよばれることがあります。

1.1.1 核酸と塩基

ヒト(human)
広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
赤血球細胞(red blood cellまたはerythrocyte)
リンク先は「赤血球」です。血液細胞の1種であり、酸素を運ぶ役割をもちます。
神経細胞(neuron)
神経系を構成する細胞で、ニューロンともいいます。その機能は情報処理と情報伝達に特化しており、動物に特有です。
細胞(cell)
すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
多細胞生物(multicellular organism)
複数の細胞で体が構成されている生物のことです。1つの細胞のみで体が構成されている生物は単細胞生物とよばれます。動物界や植物界に所属するものは、すべて多細胞生物です。
生物(organism)
生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
自己再生能力(self-renewal ability)
体が(比較的小規模な)外傷などを負った時にそれを治す能力や、皮膚のような老化して自然に剥がれ落ちていく細胞を補う能力のことを指します。
複製能力(self-replication ability)
リンク先は「自己複製」です。細胞は適当な条件が整うと、細胞分裂による複製を行うことができます。その能力のことです。
表皮(epidermis)
多細胞生物のもっとも外側を覆う組織のことです。皮膚は、体の一番外側から「表皮・真皮・皮下組織」の3層で構成されますが、その一番外側の層を指す言葉です。
角層(stratum corneum)
表皮はさらに4つの層(角質層、顆粒層、有棘層、基底層)から構成されますが、その一番外側にある「表皮角化細胞が角化した扁平な角層細胞が重なった層」が角層です。角質層というのが正確なのかもしれませんが、一般には角層で通じます。
垢(dirt)
角質化する多層上皮を持つ脊椎動物の表皮の古い角質が、新しい角質と交代して剥がれ落ちたものと、皮膚分泌物が交じり合ったもののことです。
基底層(basal layer)
表皮を構成する4つの層(角質層、顆粒層、有棘層、基底層)のうち、一番内側にある層のことです。基底細胞やメラノサイト(色素形成細胞)などから構成されています。そのさらに内側に向かうと、「真皮、皮下組織」の層になります。
複製(replication)
リンク先は「DNA複製」です。細胞分裂における核分裂の前に、DNAが元の数の2倍となる過程のことです。生命科学分野ではDNA複製のことを複製を略すことが多いです。
水(water)
化学式H₂Oで表される、水素と酸素の化合物です。日本語においては特に湯と対比して用いられ、温度が低く、かつ凝固して氷にはなっていない、液状の物全般を指します。
糖質(saccharides)
リンク先は「炭水化物」です。糖質は、単糖を構成成分とする有機化合物の総称です。炭水化物は、糖質と食物繊維から構成されます。いわゆる「三大栄養素」は炭水化物・タンパク質・脂肪ですが、炭水化物の構成要素である食物繊維はエネルギー原になりにくいため、実質的に糖質・タンパク質・脂肪が三大栄養素ということになります。
脂質(lipid)
リンク先は「脂肪」です。炭水化物、タンパク質と共に「三大栄養素」と総称され、多くの生物種の栄養素です。脂肪のカロリーは9kcal/gであり、炭水化物、タンパク質の4kcal/gよりも単位重量あたりの熱量が大きく、哺乳類をはじめとして動物の栄養の摂取や貯蔵方法として多く利用されています。
タンパク質(protein)
20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
核酸(nucleic acid)
リボ核酸 (RNA)とデオキシリボ核酸 (DNA)の総称で、塩基と糖、リン酸からなるヌクレオチドがホスホジエステル結合で連なった生体高分子のことです。
図1.1
核酸(DNAとRNA)の図です。
核酸(nucleic acid)
リボ核酸(RNA)とデオキシリボ核酸(DNA)の総称で、塩基と糖、リン酸からなるヌクレオチドがホスホジエステル結合で連なった生体高分子のことです。
糖(sugar)
多価アルコールの最初の酸化生成物であり、ホルミル基(−CHO)またはカルボニル基(>C=O)を1つもちます。
塩基(base)
リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
リン酸(phosphoric acid)
リンのオキソ酸の一種で、化学式H₃PO₄の無機酸です。オルトリン酸(orthophosphoric acid)ともよばれます。広義では、オルトリン酸・二リン酸（ピロリン酸）H₄P₂O₇・メタリン酸HPO₃など、五酸化二リンP₂O₅が水和してできる酸を総称してリン酸ということがあります。
ヌクレオチド(nucleotide)
ヌクレオチドは、ヌクレオシド(塩基と糖が結合した化合物の一種)にリン酸基が結合したものです。ヌクレオシドの糖として、リボースが結合したものがリボヌクレオシド、デオキシリボースが結合したものがデオキシリボヌクレオシドです。リボヌクレオシドにリン酸基が結合したものがリボヌクレオチド、デオキシリボヌクレオシドにリン酸基が結合したものがデオキシリボヌクレオチドです。
ホスホジエステル結合(phosphodiester bond)
炭素原子の間がリン酸を介した2つのエステル結合によって強く共有結合している結合様式のことです。地球上のすべての生命に存在し、DNAやRNAの骨格を形成しています。この場合、(デオキシ)リボースの5’位の炭素原子と、他の(デオキシ)リボースの3’位の炭素原子の間を結合しています。
生体高分子(biopolymers)
生物の細胞が作り出す天然の高分子のことであり、モノマー単位が共有結合して構成された大きな分子です。
ポリマー(polymer)
リンク先は「重合体」です。複数のモノマー(単量体)が重合する(結合して鎖状や網状になる)ことによってできた化合物のことです。このため、一般的には高分子の有機化合物です。DNAやRNAはポリマーです。DNAのモノマーはデオキシヌクレオチド、RNAのモノマーはデオキシリボヌクレオチドです。
リボ核酸(ribonucleic acid; RNA)
リボースを糖成分とする核酸です。リボヌクレオチドが多数重合したもので、1本鎖をなし、アデニン(A)、グアニン(G)、シトシン(C)、ウラシル(U)の4種の塩基を含みます。一般にDNA(デオキシリボ核酸)を鋳型として合成され、その遺伝情報の伝達やタンパク質の合成を行います。
デオキシリボ核酸(deoxyribonucleic acid; DNA)
デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。

page002

図1.1
核酸(DNAとRNA)の図です。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
ポリマー(polymer)
リンク先は「重合体」です。複数のモノマー(単量体)が重合する(結合して鎖状や網状になる)ことによってできた化合物のことです。このため、一般的には高分子の有機化合物です。DNAやRNAはポリマーです。DNAのモノマーはデオキシヌクレオチド、RNAのモノマーはデオキシリボヌクレオチドです。
ポリヌクレオチド鎖(polynucleotide chain)
リンク先は「ポリヌクレオチド」です。13個以上のヌクレオチドモノマーが鎖状に共有結合してできた生体高分子です。DNA(デオキシリボ核酸)とRNA(リボ核酸)は、それぞれ異なる生物学的機能を持つポリヌクレオチドの例です。「ポリヌクレオチド」と「ポリヌクレオチド鎖」は実質的に同じものを指します。
DNAポリメラーゼ(DNA polymerase)
1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。

page003

水素結合(hydrogen bond)
電気陰性度が大きな原子(陰性原子)に共有結合で結びついた水素原子が、近傍に位置した窒素、酸素、硫黄、フッ素、π電子系などの孤立電子対とつくる非共有結合性の引力的相互作用です。水素結合には、異なる分子の間に働くもの(分子間力)と単一の分子の異なる部位の間(分子内)に働くものがあります。
塩基対(base pair; bp)
デオキシリボ核酸(DNA)の2本のポリヌクレオチド分子が、AとT (もしくはAとU)、CとGという決まった組を作り、水素結合で繋がったものを指します。この組み合わせはジェームズ・ワトソンとフランシス・クリックが発見したもので、「ワトソン・クリック型塩基対」「天然型塩基対」といいます。DNAや RNAの場合、ワトソン・クリック型塩基対が形成しさらに隣り合う塩基対の間に疎水性相互作用が働くことが、二重らせん構造が安定化する駆動力となっています。
二重らせん(double helix)
DNAが生細胞中でとっている立体構造です。具体的には、互いに相補的な2本のDNA鎖がらせん状に絡み合う構造です。DNA二重らせん構造は、1953年、分子模型を構築する手法を用いてジェームズ・ワトソンとフランシス・クリックによって提唱されました。
ピリミジン(pyrimidine)
有機化合物の一種で、ベンゼンの1,3位の炭素が窒素で置換されたものです。分子式 C₄H₄N₂、分子量80.09の複素環式芳香族化合物のアミンの一種で、特有の刺激臭をもちます。核酸やヌクレオチドを構成する核酸塩基として知られるチミン(T)、シトシン(C)、ウラシル(U)は、ピリミジンの誘導体です。
ピリミジン塩基(pyrimidine base)
核酸の構成要素のうちピリミジン核を基本骨格とする塩基性物質です。核酸略号はPyrです。実質的に、チミン(T)、シトシン(C)、ウラシル(U)の総称という理解でよいです。
プリン(purine)
リンク先は「プリン (化学)」です。分子式C₅H₄N₄、分子量120.1の複素環式芳香族化合物の一種です。中性の水には溶けにくく、酸性あるいはアルカリ性にすると良くとけます。
プリン塩基(purine base)
プリン骨格を持った核酸塩基です。つまり、プリン環を基本骨格とする生体物質で核酸あるいはアルカロイドの塩基性物質です。実質的に、核酸塩基であるアデニン(A)およびグアニン(G)の総称という理解でよいです。
塩基(base)
リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
GC含量(GC content)
塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。

1.1.2 真核生物と原核生物

細胞(cell)
すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
核(nuclear)
リンク先は「細胞核」です。真核生物の細胞を構成する細胞小器官の1つです。細胞の遺伝情報の保存と伝達を行い、ほぼすべての細胞に存在します。通常は単に核ということが多いです。細胞核は細胞の遺伝物質の大部分を含んでおり、複数の長い直鎖状のDNA分子が様々な種類のタンパク質(ヒストンなど)と複合体を形成することで、染色体が形成されています。
真核細胞(eukaryotic cell)
細胞核(cell nucleus)(通常は単に”核”といいます)とよばれる細胞小器官を含んでいる細胞のことです。
原核細胞(prokaryotic cell)
細胞核(cell nucleus)(通常は単に”核”といいます)とよばれる細胞小器官を含んでいない細胞のことです。
真核生物(eukaryote)
動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
原核生物(prokaryote)
細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
- 真正細菌(bacteriaまたはeubacteria)
  リンク先は「細菌」です。生物の主要な系統(ドメイン)の1つで、古細菌、真核生物とともに全生物界を三分します。古細菌と合わせて原核生物ともよばれます。単に細菌ともよばれることが多いです。細菌は、大腸菌、枯草菌、藍色細菌(シアノバクテリア)など様々な系統を含む生物群です。形状は球菌か桿菌、ラセン菌が一般的で、通常1～10 µmほどの微小な生物です。核を持たないという点で古細菌と似ていますが、古細菌と細菌の分岐は極めて古いです。
- 古細菌(archaea)
  生物の主要な系統(ドメイン)の1つで、真核生物、真正細菌とともに全生物界を三分します。古細菌は形態や名称こそ(真正)細菌と類似していますが、細菌とは異なる系統です。非常に多様な生物を含み、高度好塩菌、メタン菌、好熱菌などがよく知られています。
ドメイン：Woese et al., Proc Natl Acad Sci USA., 1990
リンク先は「ドメイン (分類学)」です。3ドメイン仮説(three domain hypothesis)の論文です。3ドメインシステム(three-domain system)ともよばれるようです。ドメインは、「界/門/綱/目/科/属/種」という分類体系のさらに上の階層であり、基礎的なゲノムの進化の違いを反映して行われています。3ドメイン説においては、真核生物ドメイン、細菌ドメイン、古細菌ドメインの3つのタクソンがこの階級に位置づけられています。
図1.2
生物の分類の図です。
出芽酵母(budding yeast)
budding yeastは出芽によって増える酵母の総称であり、通常はSaccharomyces cerevisiaeのことを指します。
細胞分裂(cell division)
1つの細胞が2個以上の娘細胞に分かれる生命現象です。単細胞生物では、細胞分裂が個体の増殖となります。多細胞生物では、受精卵以後の発生に伴う細胞分裂によって細胞数が増えます。
細胞周期(cell cycle)
1つの細胞が2つの娘細胞を生み出す過程で起こる一連の事象、およびその周期のことです。細胞周期の代表的な事象として、ゲノムDNAの複製と分配、それに引き続く細胞質分裂(dh)があります。細胞周期は、光学顕微鏡での観察に基づき、間期(interphase)とM期(M phase)とに分けられます。間期はさらにG1期、S期、G2期に分けられます。M期は有糸分裂と細胞質分裂によって構成されます。有糸分裂では姉妹染色分体が細胞の両極に分かれ、引き続く細胞質分裂では細胞質が割れて2つの細胞が生み出されます。
タンパク質間相互作用(protein-protein interaction; PPI)
多くのタンパク質は他のタンパク質や生体高分子と相互作用することでその機能を果たしますが、そのような複数の異なるタンパク質分子が状態に応じて特異的複合体を形成する現象のことです。
Mewes et al., Nature, 1997
出芽酵母(budding yeast)のゲノム配列決定論文です。
細胞分裂(cell division)
1つの細胞が2個以上の娘細胞に分かれる生命現象です。単細胞生物では、細胞分裂が個体の増殖となります。多細胞生物では、受精卵以後の発生に伴う細胞分裂によって細胞数が増えます。
細胞(cell)
すべての生物が持つ、微小な部屋状の下部構造のことです。生物体の構造上・機能上の基本単位です。
娘細胞(daughter cells)
細胞分裂の結果として生じる2つ以上の細胞のことです。細胞分裂する前の細胞を、対義的に母細胞(ぼさいぼう)とよびます。
複製開始点(origin of replicationまたはreplication origin)
リンク先は「複製起点」です。ゲノムの複製が開始される、ゲノム上の特定の配列のことです。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
二重らせん(double helix)
DNAが生細胞中でとっている立体構造です。具体的には、互いに相補的な2本のDNA鎖がらせん状に絡み合う構造です。DNA二重らせん構造は、1953年、分子模型を構築する手法を用いてジェームズ・ワトソンとフランシス・クリックによって提唱されました。
変性(denaturation)
この場合は、二重らせんがほどけ2つの1本鎖DNA(これを親鎖といいます)に分かれることを指します。それぞれの親鎖(parent strand)は、鋳型鎖(template strand)ともよばれます。
鋳型鎖(template strand)
この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNA鎖のことを指します。
DNAポリメラーゼ(DNA polymerase)
1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
鋳型(template)
この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNAのことを指します。
塩基(base)
リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。

page004

ヌクレオチド(nucleotide)
ヌクレオチドは、ヌクレオシド(塩基と糖が結合した化合物の一種)にリン酸基が結合したものです。ヌクレオシドの糖として、リボースが結合したものがリボヌクレオシド、デオキシリボースが結合したものがデオキシリボヌクレオシドです。リボヌクレオシドにリン酸基が結合したものがリボヌクレオチド、デオキシリボヌクレオシドにリン酸基が結合したものがデオキシリボヌクレオチドです。
塩基対(base pair; bp)
デオキシリボ核酸(DNA)の2本のポリヌクレオチド分子が、AとT (もしくはAとU)、CとGという決まった組を作り、水素結合で繋がったものを指します。この組み合わせはジェームズ・ワトソンとフランシス・クリックが発見したもので、「ワトソン・クリック型塩基対」「天然型塩基対」といいます。DNAや RNAの場合、ワトソン・クリック型塩基対が形成しさらに隣り合う塩基対の間に疎水性相互作用が働くことが、二重らせん構造が安定化する駆動力となっています。
相補鎖または相補配列(complementary sequence)
リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。
DNA複製(DNA replication)
細胞分裂における核分裂の前に、DNAが複製されてその数が2倍となる過程のことです。単に複製とよばれることが多いです。複製される側の1本鎖DNAを親鎖(parent strand)、DNA複製によって新しく合成された1本鎖DNAを娘鎖(daughter strand)といいます。
真核細胞(eukaryotic cell)
細胞核(cell nucleus)(通常は単に”核”といいます)とよばれる細胞小器官を含んでいる細胞のことです。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
核分裂(karyokinesisまたはmitosis)
リンク先は「体細胞分裂」です。1個の体細胞(多細胞生物を構成している細胞のうち生殖細胞以外の細胞の総称)が分裂して同じ遺伝情報を持つ2個の娘細胞を生み出す一連の過程(これを体細胞分裂といいます)は、間期→前期→前中期→中期→後期→終期に分類されます。このうち、前期から後期のステージを核分裂といいます。なお、後期終盤から終期のステージを細胞質分裂(cytokinesis)といいます。

1.1.3 染色体構造と遺伝子発現

染色体(chromosome)
遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン（H2A, H2B, H3, H4）が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
細胞分裂期(M phase)
リンク先は「細胞分裂」です。ざっくりいうと、1つの細胞が2個以上の娘細胞に分かれる時期のことです。1つの細胞が2つの娘細胞を生み出す過程で起こる一連の事象およびその周期のことを細胞周期(cell cycle)といいます。細胞周期は、間期(interphase)とM期(M phase)に大別されますが、M期に相当する時期が細胞分裂期に相当します。
核型(karyotype)
染色体を大きさ順に並べて表示した図のことです。
紡錘体(spindle apparatus)
真核生物の細胞分裂において、姉妹染色分体を娘細胞へ分離するために形成される細胞骨格構造です。遺伝学的に同一な娘細胞を作り出す過程である有糸分裂の際に形成される紡錘体は、mitotic spindle(有糸分裂紡錘体)とよばれます。また、母細胞の染色体の半数を含む配偶子を形成する過程である減数分裂の際に形成される紡錘体は、meiotic spindle(減数分裂紡錘体)とよばれます。
セントロメア(centromere)
染色体の長腕と短腕が交差する部位のことです。染色体のほぼ中央に位置することからこの名がつけられています。
テロメア(telomere)
真核生物の染色体の末端部にある構造であり、染色体末端を保護する役目をもちます。テロメアは特徴的な繰り返し配列をもつDNAと、様々なタンパク質からなる構造です。DNAは5’末端から3’末端に向かって複製されます。したがって、鋳型DNAの片方はDNA2本鎖がほどけると同時に複製されますが、もう片方は何度もDNAポリメラーゼ(DNAを複製)が働くこととなり、どうしても複製できない部分が残ってしまいます。それを補うために無意味な繰り返し配列=テロメアがあると考えられています。
二重らせん(double helix)
DNAが生細胞中でとっている立体構造です。具体的には、互いに相補的な2本のDNA鎖がらせん状に絡み合う構造です。DNA二重らせん構造は、1953年、分子模型を構築する手法を用いてジェームズ・ワトソンとフランシス・クリックによって提唱されました。
ヒストン(histone)
真核生物のクロマチン(染色体)を構成する主要なタンパク質です。ヒストンは、長い DNA分子を折りたたんで核内に収納する役割をもちます。ヒストンはDNAに結合するタンパク質の大部分を占め、ヒストンとDNAの重量比はほぼ1:1です。コアヒストンはH2A、H2B、H3、H4の4種類に分類されます。それぞれ2分子ずつ集まり、ヒストン8量体(ヒストンオクタマー)を形成します。1つのヒストン8量体は、約146 bpのDNAを左巻きに約1.65回巻き付け、ヌクレオソームを構築します。ヌクレオソームはクロマチン構造の最小単位です。
クロマチン(chromatin)
真核細胞内に存在するDNAとタンパク質の複合体のことです。ヒト2倍体細胞に納められているDNAの総延長はおよそ2 mに達します。これを直径約10 μmの核に収納するための構造がクロマチンです。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソーム(nucleosome)です。クロマチンは凝集の度合いによりヘテロクロマチン(heterochromatin)とユークロマチン(euchromatin)に分類されます。遺伝子密度が低い領域や遺伝子発現が抑制されている領域は、強く折りたたまれてヘテロクロマチンを形成する傾向にあります。一方、遺伝子の転写が活発な領域のクロマチンは比較的緩んでおり、ユークロマチンとよばれます。
図1.3
ヒストンとクロマチンの図です。
クロマチン(chromatin)
真核細胞内に存在するDNAとタンパク質の複合体のことです。ヒト2倍体細胞に納められているDNAの総延長はおよそ2 mに達します。これを直径約10 μmの核に収納するための構造がクロマチンです。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソーム(nucleosome)です。クロマチンは凝集の度合いによりヘテロクロマチン(heterochromatin)とユークロマチン(euchromatin)に分類されます。遺伝子密度が低い領域や遺伝子発現が抑制されている領域は、強く折りたたまれてヘテロクロマチンを形成する傾向にあります。一方、遺伝子の転写が活発な領域のクロマチンは比較的緩んでおり、ユークロマチンとよばれます。
ヒストン8量体(histone octamer)
リンク先は「ヒストン」です。真核生物のクロマチン(染色体)を構成する主要なタンパク質複合体です。ヒストンは、長い DNA分子を折りたたんで核内に収納する役割をもちます。ヒストンはDNAに結合するタンパク質の大部分を占め、ヒストンとDNAの重量比はほぼ1:1です。コアヒストンはH2A、H2B、H3、H4の4種類に分類されます。それぞれ2分子ずつ集まって8量体を形成したものがヒストン8量体(ヒストンオクタマー)です。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
ヌクレオソーム(nucleosome)
真核生物におけるDNAのパッケージングの基本的単位です。ヌクレオソームの構造は8つのヒストンタンパク質に巻き付いたDNA断片から構成され、概念的には糸巻きに巻き付いた糸に類似しています。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソームです。各ヌクレオソームの8つのヒストンタンパク質はヒストン8量体とよばれ、その周囲には約1.65ターンのDNAが巻きついています。ヒストン8量体はヒストンH2A、H2B、H3、H4各2コピーずつから構成されます。
遺伝子(gene)
大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
二重らせん(double helix)
DNAが生細胞中でとっている立体構造です。具体的には、互いに相補的な2本のDNA鎖がらせん状に絡み合う構造です。DNA二重らせん構造は、1953年、分子模型を構築する手法を用いてジェームズ・ワトソンとフランシス・クリックによって提唱されました。
翻訳(translation)
mRNAの情報に基づいて、タンパク質を合成する反応のことです。
メッセンジャーRNA(mRNA)
リンク先は「伝令RNA」です。タンパク質に翻訳されうる塩基配列情報と構造を持ったRNAのことです。通常はmRNAと表記されます。
転写(transcription)
一般に染色体またはオルガネラのDNAの塩基配列(遺伝子)を元に、RNAが合成されることです。
ヘテロクロマチン(heterochromatin)
細胞周期の間も常に凝縮されたクロマチンの形状、または種類のことです。転写されず、濃い色が観察されます。セントロメアとテロメア周辺によく見つかり、主に短い配列の繰り返し構造をとっています。
ユークロマチン(euchromatin)
比較的緩んだ形状または種類のクロマチンのことです。転写が頻繁な領域、すなわち遺伝子がより多く含まれている領域です(緩んでないとDNAポリメラーゼがそもそも近づけないと理解すればよいです)。染色体上では薄い色が観察され、細胞周期では中期でのみ凝縮されます。
セントラルドグマ(central dogma)
遺伝情報は「DNA→（転写）→mRNA→（翻訳）→タンパク質」の順に伝達されるという、分子生物学の概念です。セントラルとは中心、ドグマとは宗教における教義のことであり、セントラルドグマは「分子生物学の中心原理」または「生物学の中心教義」とよばれることがあります。
RNA
リボ核酸(ribonucleic acid)のことです。リボースを糖成分とする核酸です。リボヌクレオチドが多数重合したもので、1本鎖をなし、アデニン(A)、グアニン(G)、シトシン(C)、ウラシル(U)の4種の塩基を含みます。一般にDNA(デオキシリボ核酸)を鋳型として合成され、その遺伝情報の伝達やタンパク質の合成を行います。
遺伝子発現(gene expression)
遺伝子の情報が細胞における構造および機能に変換される過程のことです。
図1.4
セントラルドグマの図です。
mRNA
リンク先は「伝令RNA」です。メッセンジャーRNAのことです。タンパク質に翻訳されうる塩基配列情報と構造を持ったRNAのことです。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
タンパク質(protein)
20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
アミノ酸配列(amino acid sequence)
リンク先は「一次構造」です。一次構造は、生体分子の特定の単位とそれらをつなぐ化学結合の正確な配置のことです。タンパク質の場合は、ポリマーの分岐や交差がないため、アミノ酸残基の並びと同義です。
翻訳(translation)
mRNAの情報に基づいて、タンパク質を合成する反応のことです。
塩基(base)
リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
アミノ酸(amino acid)
広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH₂)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。

page005

図1.5
転写と翻訳の図です。
グルタミン(glutamine)
アミノ酸の一種で、2-アミノ-4-カルバモイル酪酸(2-アミノ-4-カルバモイルブタン酸)のことです。側鎖にアミドを有し、グルタミン酸のヒドロキシ基をアミノ基に置き換えた構造をもちます。酸加水分解によりグルタミン酸となります。略号はGlnあるいはQです。
コドン(codon)
塩基配列がアミノ酸配列に翻訳されるときの、各アミノ酸に対応する3つの塩基配列のことです。
遺伝コード(genetic code)
DNAの配列において、ヌクレオチド3個の塩基の組み合わせであるトリプレットが、1個のアミノ酸を指定する対応関係のことです。

1.2 塩基配列決定の基礎

塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
シーケンサ(sequencer)
DNA分子の塩基配列を決定する機器のことです。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
スループット(throughput)
「単位時間当たりの処理能力」という理解でよいです。
第1世代(=旧世代)シーケンサの特徴
エラー率は概ね1%、約800塩基というリード長、得られる総塩基数は(第2世代以降のシーケンサと比較して)大したことない、という理解でよいです。

1.2.1 サンガー法の原理

塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
RNA
リボ核酸(ribonucleic acid)のことです。リボースを糖成分とする核酸です。リボヌクレオチドが多数重合したもので、1本鎖をなし、アデニン(A)、グアニン(G)、シトシン(C)、ウラシル(U)の4種の塩基を含みます。一般にDNA(デオキシリボ核酸)を鋳型として合成され、その遺伝情報の伝達やタンパク質の合成を行います。
核酸(nucleic acid)
リボ核酸 (RNA)とデオキシリボ核酸 (DNA)の総称で、塩基と糖、リン酸からなるヌクレオチドがホスホジエステル結合で連なった生体高分子のことです。
ポリマー(polymer)
リンク先は「重合体」です。複数のモノマー(単量体)が重合する(結合して鎖状や網状になる)ことによってできた化合物のことです。このため、一般的には高分子の有機化合物です。DNAやRNAはポリマーです。DNAのモノマーはデオキシヌクレオチド、RNAのモノマーはデオキシリボヌクレオチドです。
ヌクレオチド(nucleotide)
ヌクレオチドは、ヌクレオシド(塩基と糖が結合した化合物の一種)にリン酸基が結合したものです。ヌクレオシドの糖として、リボースが結合したものがリボヌクレオシド、デオキシリボースが結合したものがデオキシリボヌクレオシドです。リボヌクレオシドにリン酸基が結合したものがリボヌクレオチド、デオキシリボヌクレオシドにリン酸基が結合したものがデオキシリボヌクレオチドです。
モノマー(monomer)
重合を行う際の基質のことです。単量体ともいいます。
塩基(base)
リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。

page006

DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
塩基対(base pair; bp)
デオキシリボ核酸(DNA)の2本のポリヌクレオチド分子が、AとT (もしくはAとU)、CとGという決まった組を作り、水素結合で繋がったものを指します。この組み合わせはジェームズ・ワトソンとフランシス・クリックが発見したもので、「ワトソン・クリック型塩基対」「天然型塩基対」といいます。DNAや RNAの場合、ワトソン・クリック型塩基対が形成しさらに隣り合う塩基対の間に疎水性相互作用が働くことが、二重らせん構造が安定化する駆動力となっています。
相補鎖または相補配列(complementary sequence)
リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
シーケンス(sequence)
リンク先は「シークエンス」です。他分野の説明も含まれていますので、その中の項目「生物学」をご覧ください。核酸、蛋白質、糖鎖などの高分子化合物(ポリマー)において、それを構成するモノマーのつながっている順番(配列)のことです。この場合は、シンプルに本文中の説明通り塩基配列のことです。
シーケンシング(sequencing)
リンク先は「DNAシークエンシング」です。DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
第5世代移動通信システム(5th Generation Mobile Communication System; 5G)
1G・2G・3G・4Gに続く国際電気通信連合 (ITU) が定める規定「IMT-2020」を満足する無線通信システムです。一般的に英語の”5th Generation”から、「5G」（ファイブジー）と略されます。
ヒトゲノム計画(Human Genome Project)
ヒトのゲノムの全塩基配列を解析するプロジェクトです。ヒトゲノムの概要版(ドラフトとよばれます)の論文は2001年に(Lander et al., Nature, 2001)、そして完全版は2022年に(Nurk et al., Science, 2022)発表されています。
サンガー法(Sanger method)
リンク先は「DNAシークエンシング」内の「酵素法」です。第1世代の塩基配列決定法です。フレデリック・サンガー(F. Sanger)らが開発した様々なDNAシーケンシング技術の総称です。サンガー法は、酵素法やジデオキシ法ともよばれています。
鋳型(template)
この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNAのことを指します。
DNAポリメラーゼ(DNA polymerase)
1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
相補鎖または相補配列(complementary sequence)
リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。
ポリマー(polymer)
リンク先は「重合体」です。複数のモノマー(単量体)が重合する(結合して鎖状や網状になる)ことによってできた化合物のことです。このため、一般的には高分子の有機化合物です。DNAやRNAはポリマーです。DNAのモノマーはデオキシヌクレオチド、RNAのモノマーはデオキシリボヌクレオチドです。
デオキシヌクレオチド(deoxynucleotide)
五炭糖である2-デオキシリボースの1’位に塩基が結合したものです。このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
デオキシヌクレオシド三リン酸(deoxy-nucleoside triphosphate; dNTP)
リンク先は「ヌクレオシド三リン酸」です。dATP・dCTP・dGTP・dTTPの総称がdNTPです。「ヌクレオチドは、ヌクレオシドにリン酸基が結合したもの」ですが、リン酸が何個くっついているかまで正確に言い表したものだと理解すればよいです。リボース(ribose)の2位のヒドロキシル基(-OH)が水素(-H)に置換されたものをデオキシリボース(deoxyribose)といいます。
ヌクレオシド(nucleocide)
五炭糖であるリボース(ribose)の1’位に塩基が結合したものです。このヌクレオシドの5’位にリン酸が結合したものをヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、RNAはヌクレオチドのポリマーです。
サンガー法(Sanger method)
リンク先は「DNAシークエンシング」内の「酵素法」です。サンガー法は、酵素法やジデオキシ法ともよばれています。4種類の蛍光色素で横軸が時間、縦軸がシグナル強度の図の例としては、Seroussi E., Genes(Basel), 2021のFigure 1があげられます。
フレデリック・サンガー(Frederick Sanger)
リンク先は「フレデリック・サンガー」です。イギリスの生化学者です。
DNAシーケンシング(DNA sequencing)
リンク先は「DNAシークエンシング」です。DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
ジデオキシ法：Sanger et al., Proc Natl Acad Sci USA., 1977
DNAの主な構成成分はデオキシリボースのほうなので、ジデオキシリボースが結合したポリマーのほうはポリメラーゼの伸長反応が停止することを利用した塩基配列決定法です。
ポリマー(polymer)
リンク先は「重合体」です。複数のモノマー(単量体)が重合する(結合して鎖状や網状になる)ことによってできた化合物のことです。このため、一般的には高分子の有機化合物です。DNAやRNAはポリマーです。DNAのモノマーはデオキシヌクレオチド、RNAのモノマーはデオキシリボヌクレオチドです。
ジデオキシヌクレオシド三リン酸(dideoxy-nucleoside triphosphate; ddNTP)
リンク先は「ヌクレオシド三リン酸」です。ddATP・ddCTP・ddGTP・ddTTPの総称がddNTPです。リボース(ribose)の2位と3位ののヒドロキシル基(-OH)が水素(-H)に置換されたものをジデオキシリボース(dideoxyribose)といいます。DNAの主な構成成分はデオキシリボースのほうなので、ジデオキシリボースが結合したポリマーのほうはポリメラーゼの伸長反応が停止することを利用したのがジデオキシ法です。
dNTP
リンク先は「ヌクレオシド三リン酸」です。デオキシヌクレオシド三リン酸(deoxy-nucleoside triphosphate)のことです。dATP・dCTP・dGTP・dTTPの総称がdNTPです。「ヌクレオチドは、ヌクレオシドにリン酸基が結合したもの」ですが、リン酸が何個くっついているかまで正確に言い表したものだと理解すればよいです。リボース(ribose)の2位のヒドロキシル基(-OH)が水素(-H)に置換されたものをデオキシリボース(deoxyribose)といいます。デオキシリボースを含むヌクレオシド三リン酸は、名前の前に「デオキシ」という接頭辞を付け、略称には”d”を付けます。

page007

DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
電気泳動(electrophoresis)
荷電粒子あるいは分子が電場(電界)中を移動する現象、あるいはその現象を利用した解析手法です。特に分子生物学や生化学ではDNAやタンパク質を分離する手法としてなくてはならないものです。江戸時代に使われていた唐箕(とうみ)をイメージすればよいです。物体を風で飛ばすと、重いものは手前に落ちるが、軽いものは遠くまで飛びます。電気泳動の基本原理もこれと同じです。
蛍光色素(fluorescent dye)
蛍光を発光する色素のことです。蛍光色素が光を吸収すると、色素中の電子が励起され、それが基底状態に戻る際に余分なエネルギーを電磁波として放出します。この電磁波が蛍光です。
相補鎖または相補配列(complementary sequence)
リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
図1.6
サンガー法(ジデオキシ法)による塩基配列決定例です。
ベースコール(base call)
リンク先は「Base calling」です。1人がポジションごとに得られるA・C・G・Tそれぞれのシグナル強度の波形を読み取り、ポジションごとに最もシグナル強度が高い塩基(base)をコール(call)し、もう1人がそれを記録するという作業が昔行われていました。ベースコールという言葉はその名残です。

1.2.2 塩基配列決定精度

ベースコール(base call)
リンク先は「Base calling」です。1人がポジションごとに得られるA・C・G・Tそれぞれのシグナル強度の波形を読み取り、ポジションごとに最もシグナル強度が高い塩基(base)をコール(call)し、もう1人がそれを記録するという作業が昔行われていました。ベースコールという言葉はその名残です。
phred：Ewing et al., Genome Res., 1998
最も有名なベースコール用プログラム(ベースコーラー; base caller)です。電気泳動に基づく蛍光シグナル強度の波形データ(trace data)を入力として、「塩基配列」および「位置ごとのベースコールの信頼度に相当するクオリティスコア」を出力します。
電気泳動(electrophoresis)
荷電粒子あるいは分子が電場(電界)中を移動する現象、あるいはその現象を利用した解析手法です。特に分子生物学や生化学ではDNAやタンパク質を分離する手法としてなくてはならないものです。江戸時代に使われていた唐箕(とうみ)をイメージすればよいです。物体を風で飛ばすと、重いものは手前に落ちるが、軽いものは遠くまで飛びます。電気泳動の基本原理もこれと同じです。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
クオリティスコア(quality score)
自動DNAシーケンシング用のプログラムphredに用いられているベースコールのスコアです。式(1.1)の説明部分でもクオリティスコアに言及していますが、直感的にはA・C・G・Tそれぞれのシグナル強度が同程度でわずかながら高い値だったとしてGとコールされた場合は、そのGに付随するPhredクオリティスコアは低い値になります。逆に、A・C・Gのシグナル強度が非常に低く、Tのシグナル強度が非常に高かった場合、コールされたTに付随するPhredクオリティスコアは高い値になります。
対数変換(logarithmic transformation)
リンク先は「対数」です。対数変換とはlogをとることです。たとえば、底をeとする10の対数は\(\log_e(10)\) \(= 2.302585\)です。
式(1.1)
クオリティスコア\(q\)の数式です。\(p\)は、シーケンスエラーとなる確率(エラー率)のことです。
\[ q = -10 \times \log_{10}(p) \tag{1.1} \] \(p = 0.01\)のとき \[ \begin{align} q &= -10 \times \log_{10}(0.01) \\ &= -10 \times \log_{10}(10^{-2}) \\ &= -10 \times (-2) \\ &= 20 \end{align} \] \(p = 0.001\)のとき \[ \begin{align} q &= -10 \times \log_{10}(0.001) \\ &= -10 \times \log_{10}(10^{-3}) \\ &= -10 \times (-3) \\ &= 30 \end{align} \]
エラー率(error rate; \(p\))
シーケンスエラーとなる確率のことです。たとえば、100塩基のベースコール中、95個の塩基を正しく決定できたなら、エラー率5% (\(p\) \(= 0.05\))です。
phredクオリティスコア(phred quality score)
自動DNAシーケンシング用のプログラムphredに用いられているベースコールのスコアです。式(1.1)の説明部分でもクオリティスコアに言及していますが、直感的にはA・C・G・Tそれぞれのシグナル強度が同程度でわずかながら高い値だったとしてGとコールされた場合は、そのGに付随するphredクオリティスコアは低い値になります。逆に、A・C・Gのシグナル強度が非常に低く、Tのシグナル強度が非常に高かった場合、コールされたTに付随するphredクオリティスコアは高い値になります。
第3世代シーケンサ(third-generation sequencer)
パックバイオ社の一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術や、ナノポア社の技術に基づくロングリードが得られるシーケンサのことです。
業界標準(de facto standard)
「事実上の標準」を指す用語です。
サンガー法(Sanger method)
リンク先は「DNAシークエンシング」内の「酵素法」です。サンガー法は、酵素法やジデオキシ法ともよばれています。4種類の蛍光色素で横軸が時間、縦軸がシグナル強度の図の例としては、Seroussi E., Genes(Basel), 2021のFigure 1があげられます。
電気泳動(electrophoresis)
荷電粒子あるいは分子が電場(電界)中を移動する現象、あるいはその現象を利用した解析手法です。特に分子生物学や生化学ではDNAやタンパク質を分離する手法としてなくてはならないものです。江戸時代に使われていた唐箕(とうみ)をイメージすればよいです。物体を風で飛ばすと、重いものは手前に落ちるが、軽いものは遠くまで飛びます。電気泳動の基本原理もこれと同じです。
鋳型(template)
この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNAのことを指します。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
シーケンサ(sequencer)
DNA分子の塩基配列を決定する機器のことです。
毛細管(capillary)
物理学や化学などの実験に用いられる「髪の毛のように細い」管のことです。キャピラリーともよばれます。
ウェル(well)
小さな穴とか「くぼみ」という理解でよいです。
マイクロプレート(microplate)
多数のくぼみ(穴またはウェル)のついた平板からなる実験・検査器具で、各ウェルを試験管あるいはシャーレとして利用するものです。冷蔵庫にあるプラスチックの製氷皿を小型化させたようなものという理解でよいです。
ラン(run)
1回の運転のことです。
スループット(throughput)
「単位時間当たりの処理能力」という理解でよいです。
エラー率(error rate; \(p\))
シーケンスエラーとなる確率のことです。たとえば、100塩基のベースコール中、95個の塩基を正しく決定できたなら、エラー率5% (\(p\) \(= 0.05\))です。
第1世代(=旧世代)シーケンサの特徴
エラー率は概ね1%、約800塩基というリード長、得られる総塩基数は(第2世代以降のシーケンサと比較して)大したことない、という理解でよいです。
第2世代シーケンサ(second-generation sequencer)
イルミナ社が製造しているような「大量のショートリードを出力するシーケンサのこと」です。かつて次世代シーケンサ(NGS)とよばれていたジャンルの、何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。

1.2.3 PCR増幅とその周辺

DNAポリメラーゼ(DNA polymerase)
1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
鋳型(template)
この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNAのことを指します。
相補鎖または相補配列(complementary sequence)
リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。
モノマー(monomer)
重合を行う際の基質のことです。単量体ともいいます。
デオキシヌクレオチド(deoxynucleotide)
五炭糖である2-デオキシリボースの1’位に塩基が結合したものです。このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
触媒(catalyst)
一般に、特定の化学反応の反応速度を速める物質で、自身は反応の前後で変化しないもののことです。
酵素(enzyme)
生体内外で起こる化学反応に対して触媒として機能する分子のことです。
ポリマー(polymer)
リンク先は「重合体」です。複数のモノマー(単量体)が重合する(結合して鎖状や網状になる)ことによってできた化合物のことです。このため、一般的には高分子の有機化合物です。DNAやRNAはポリマーです。DNAのモノマーはデオキシヌクレオチド、RNAのモノマーはデオキシリボヌクレオチドです。
DNA複製(DNA replication)
細胞分裂における核分裂の前に、DNAが複製されてその数が2倍となる過程のことです。単に複製とよばれることが多いです。複製される側の1本鎖DNAを親鎖(parent strand)、DNA複製によって新しく合成された1本鎖DNAを娘鎖(daughter strand)といいます。

page008

相補鎖または相補配列(complementary sequence)
リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。
プライマー (primer)
アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
鋳型鎖(template strand)
この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNA鎖のことを指します。
サンガー法(Sanger method)
リンク先は「DNAシークエンシング」内の「酵素法」です。サンガー法は、酵素法やジデオキシ法ともよばれています。4種類の蛍光色素で横軸が時間、縦軸がシグナル強度の図の例としては、Seroussi E., Genes(Basel), 2021のFigure 1があげられます。
ddNTP
リンク先は「ヌクレオシド三リン酸」です。ジデオキシヌクレオシド三リン酸(dideoxy-nucleoside triphosphate)のことで、ddATP・ddCTP・ddGTP・ddTTPの総称がddNTPです。リボース(ribose)の2位と3位ののヒドロキシル基(-OH)が水素(-H)に置換されたものをジデオキシリボース(dideoxyribose)といいます。DNAの主な構成成分はデオキシリボースのほうなので、ジデオキシリボースが結合したポリマーのほうはポリメラーゼの伸長反応が停止することを利用したのがジデオキシ法です。
DNAポリメラーゼ(DNA polymerase)
1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
DNAサンプル(DNA sample)
この場合は、シーケンスしたいDNA試料のことです。
ポリメラーゼ連鎖反応(polymerase chain reaction; PCR)
DNAサンプルの特定領域を数百万〜数十億倍に増幅させる反応または技術です。DNAポリメラーゼとよばれる酵素の働きを利用して、一連の温度変化のサイクルを経て任意の遺伝子領域やゲノム領域のコピーを指数関数的(ねずみ算的、連鎖的)に増幅することで、少量のDNAサンプルからその詳細を研究するに十分な量にまで増幅することが目的です。
アニーリング(annealing)
核酸(DNAまたはRNA)の分子が相補的に複合体を形成することです。「ハイブリダイゼーション(hybridization)」と実質的に同じです。
ねずみ算
和算の1つで、「ある期間に、ネズミがどれだけ増えるか」ということを計算する問題です。ねずみ算の結果は膨大な数となるため、「急激に数が増えること」を「ねずみ算式に増える」と表現することがあります。ここでは、そのような意味で用いています。
PCR増幅(PCR amplification)
リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させるPCR技術を用いてDNA量を増幅させることです。
サンガー法(Sanger method)
リンク先は「DNAシークエンシング」内の「酵素法」です。サンガー法は、酵素法やジデオキシ法ともよばれています。4種類の蛍光色素で横軸が時間、縦軸がシグナル強度の図の例としては、Seroussi E., Genes(Basel), 2021のFigure 1があげられます。
プライマー (primer)
アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
オリゴヌクレオチド(oligonucleotide)
おおよそ20 bpかそれ以下の長さの短いヌクレオチド(DNAまたはRNA)の配列のことです。
核酸(nucleic acid)
リボ核酸 (RNA)とデオキシリボ核酸 (DNA)の総称で、塩基と糖、リン酸からなるヌクレオチドがホスホジエステル結合で連なった生体高分子のことです。
ハイブリダイゼーション(hybridization)
核酸(DNAまたはRNA)の分子が相補的に複合体を形成することです。
シーケンス反応(sequence reaction)
この場合は、サンガー法による塩基配列決定の中で行われる、DNAポリメラーゼ(DNA polymerase)によるDNA合成反応のことを指しています。
プライマー (primer)
アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
PCR
リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させる技術のことです。
鋳型鎖(template strand)
この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNA鎖のことを指します。
アニーリング(annealing)
核酸(DNAまたはRNA)の分子が相補的に複合体を形成することです。「ハイブリダイゼーション(hybridization)」と実質的に同じです。
図1.7
プライマーの特異性が低い場合の例です。
ジデオキシ法：Sanger et al., Proc Natl Acad Sci USA., 1977
DNAの主な構成成分はデオキシリボースのほうなので、ジデオキシリボースが結合したポリマーのほうはポリメラーゼの伸長反応が停止することを利用した塩基配列決定法です。

1984年に勧告された命名法：Cornish-Bowden A., Nucleic Acids Res., 1985

この論文のTable 1に示されていますが、以下でもまとめておきます。

塩基	1文字表記	表記の由来
A or C	M	aMino
A or G	R	puRine
A or T	W	Weak interaction (2 H bonds)
C or G	S	Strong interaction (3 H bonds)
C or T	Y	pYrimidine
G or T	K	Ketone
A or C or G	V	not-T (not-U), V follows U in the alphabet
A or C or T	H	not-G, H follows G in the alphabet
A or G or T	D	not-C, D follows C in the alphabet
C or G or T	B	not-A, B follows A in the alphabet
A or C or G or T	N	aNy

page009

エラー率(error rate; \(p\))
シーケンスエラーとなる確率のことです。たとえば、100塩基のベースコール中、95個の塩基を正しく決定できたなら、エラー率5% (\(p\) \(= 0.05\))です。\(p\) \(= 0.1\)のときのphredスコア\(q\) \(= 10\)は以下のように計算します。
\[ \begin{align} q &= -10 \times \log_{10}(0.1) \\ &= -10 \times \log_{10}(10^{-1}) \\ &= -10 \times (-1) \\ &= 10 \end{align} \]
phredスコア(phred score)
「Phredクオリティスコア」と同義です。自動DNAシーケンシング用のプログラムphredに用いられているベースコールのスコアです。式(1.1)の説明部分でもクオリティスコアに言及していますが、直感的にはA・C・G・Tそれぞれのシグナル強度が同程度でわずかながら高い値だったとしてGとコールされた場合は、そのGに付随するphredクオリティスコアは低い値になります。逆に、A・C・Gのシグナル強度が非常に低く、Tのシグナル強度が非常に高かった場合、コールされたTに付随するphredクオリティスコアは高い値になります。
ベースコール(base call)
リンク先は「Base calling」です。1人がポジションごとに得られるA・C・G・Tそれぞれのシグナル強度の波形を読み取り、ポジションごとに最もシグナル強度が高い塩基(base)をコール(call)し、もう1人がそれを記録するという作業が昔行われていました。ベースコールという言葉はその名残です。
塩基(base)
リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
プライマー (primer)
アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
アニーリング(annealing)
核酸(DNAまたはRNA)の分子が相補的に複合体を形成することです。「ハイブリダイゼーション(hybridization)」と実質的に同じです。
ヒトゲノム(human genome)
ヒトの全ゲノム配列のことです。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
ゲノムサイズ(genome size)
(正確にはハプロイドゲノムだと思いますが)ある生物種がもつゲノムの総塩基数という理解でよいです。
生物種(species)
リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
GC含量(GC content)
塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
バイオインフォマティクス(bioinformatics)
生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
PCRプライマー設計ソフトウェアのリスト：Guo et al., Bioinformatics, 2021
転写開始点(transcription start site; TSS)
リンク先は「転写 (生物学)」です。RNAの転写が開始される部位のことであり、転写されたRNAの1番目の塩基の位置に相当します。
PCR増幅(PCR amplification)
リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させるPCR技術を用いてDNA量を増幅させることです。
プライマー (primer)
アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
ゲノム編集(genome editing)
部位特異的ヌクレアーゼを利用して、思い通りに標的遺伝子を改変する技術のことです。部位特異的ヌクレアーゼとしては、2005年以降に開発・発見された、ZFN、TALEN、CRISPR/Cas9を中心としています。
Saha et al., Nature, 2021
ゲノム編集系の総説です。
ガイドRNA(guide RNA)
リンク先は「Guide RNA」です。RNAまたはDNAを標的とする酵素のガイドとして機能するRNAの一部です。
オフターゲット効果(off-target effect)
リンク先は「ゲノム編集」です。標的部位ではない場所をも改変してしまう現象のことです。

1.3 次世代型の塩基配列決定技術(NGS)

第2世代シーケンサ(second-generation sequencer)
イルミナ社が製造しているような「大量のショートリードを出力するシーケンサのこと」です。かつて次世代シーケンサ(NGS)とよばれていたジャンルの、何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。
イルミナ社(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
シーケンス(sequence)
リンク先は「シークエンス」です。この場合は、DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
サンプル(sample)
この場合は、シーケンスしたい試料のことです。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。

1.3.1 イルミナのショートリード

サンガー法(Sanger method)
リンク先は「DNAシークエンシング」内の「酵素法」です。第1世代の塩基配列決定法です。フレデリック・サンガー(F. Sanger)らが開発した様々なDNAシーケンシング技術の総称です。サンガー法は、酵素法やジデオキシ法ともよばれています。
次世代シーケンサ(next-generation sequencer; NGS)
何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。2022年現在は、主に第2世代シーケンサ(2nd-generation sequencer)とよばれているシーケンシング技術に基づく機器のことを指します。2010～2015年頃はNGSとよくよばれていました。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。ちなみに、1.5節や1.6節で述べているロングリードが得られるシーケンス技術や機器が第3世代です。
イルミナ社(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
日米欧三極で運営されている次世代シーケンサ(Next-Generation Sequencing; NGS)から得られたデータを格納する塩基配列データベース(DB)
International Nucleotide Sequence Database Collaboration (INSDC)によって運用されています。ライフサイエンス系DB全般については、坊農秀雅・小野浩雅・監修、生命科学データベース・ウェブツール、MEDSi、2018が参考になると思います。
アーカイブ(archive)
コンピュータにおいてデータを長期間保存するために、データとファイル作成日時や作成者などの付随するメタデータを関連づけて一体で保存することです。アーカイブは、データの書き換えを想定せずオリジナルのファイルを長期間保存します。バックアップと似た概念でしばしば混同されますが、バックアップはデータの最新版を保存して災害時にロールバックしやすくするものです。
NGSデータ(NGS data)
次世代シーケンサ(NGS)の出力データのことです。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
第2世代シーケンサ(second-generation sequencer)
イルミナ社が製造しているような「大量のショートリードを出力するシーケンサのこと」です。かつて次世代シーケンサ(NGS)とよばれていたジャンルの、何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。
ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。

page010

1.3.2 ライブラリ調製

NGS
ここでのNGSは、次世代シーケンシング(next-generation sequencing)技術のことを指します。特にショートリードについてです。
- 原理が示された論文：Bentley et al., Nature, 2008
- Youtube動画：【イルミナ】Sequencing by Synthesis (SBS) Technology
バイオインフォ(bioinfo)
バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
ライブラリ調製(library preparation)
典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。したがって、ライブラリ調製とは、配列決定したい試料をNGS機器にかけられる状態にする作業のことを指します。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
断片化(fragmentation)
この場合は、試料(サンプル)中のDNAをNGS機器で読める(ベースコールできる)長さの断片に処理することです。酵素を使った断片化や、超音波処理による断片化が行われます。
サイズ選択(size selection)
断片化されたDNAは様々な長さになっているため、一定の長さの範囲に収まっているものだけを選択的に抽出する作業です。
電気泳動(electrophoresis)
荷電粒子あるいは分子が電場(電界)中を移動する現象、あるいはその現象を利用した解析手法です。特に分子生物学や生化学ではDNAやタンパク質を分離する手法としてなくてはならないものです。江戸時代に使われていた唐箕(とうみ)をイメージすればよいです。物体を風で飛ばすと、重いものは手前に落ちるが、軽いものは遠くまで飛びます。電気泳動の基本原理もこれと同じです。
イルミナ(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
アダプター(adapter)
シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
オリゴヌクレオチド(oligonucleotide)
おおよそ20 bpかそれ以下の長さの短いヌクレオチド(DNAまたはRNA)の配列のことです。
ライゲーション(ligation)
リンク先は「DNAリガーゼ」です。DNAリガーゼ(DNA ligase)は、DNA鎖の末端どうしをリン酸ジエステル結合でつなぐ酵素です。ligaseは「ライゲーション(ligation)する酵素」であり、DNAライゲースとも発音されます。つまり、ライゲーションは連結という意味です。「アダプターライゲーション」は、その名の通り「アダプター配列をDNA断片の両端に連結する操作のこと」です。
ライブラリ(library)
典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合のことをシーケンシングライブラリまたは単にライブラリとよびます。したがってライブラリとは、NGS機器にかけられる状態にされた試料中のDNA断片のことです。
インサート(insert)
ライブラリ調製後のDNA断片のことです。ほぼ余談ですが、ライブラリ調製も改良がなされており、最近では断片化(fragmentation)とアダプターの付加が同時に行えます。アダプター付加は「タグ付け(tagging)」と表現されるため、taggingとfragmentationの造語としてタグメンテーション(tagmentation)とよばれます。
図1.8
一般的なイルミナのライブラリの概念図です。
アダプター(adapter)
シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
インサート(insert)
ライブラリ調製後のDNA断片のことです。ほぼ余談ですが、ライブラリ調製も改良がなされており、最近では断片化(fragmentation)とアダプターの付加が同時に行えます。アダプター付加は「タグ付け(tagging)」と表現されるため、taggingとfragmentationの造語としてタグメンテーション(tagmentation)とよばれます。
プライマー (primer)
アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
PCR
リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させる技術のことです。
PCR増幅(PCR amplification)
リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させるPCR技術を用いてDNA量を増幅させることです。
イルミナ(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
インプットDNA量(input)
この場合は、サンプル調製キットに供する際にあらかじめ用意しておくべきDNA量のことです。
ワークフロー(workflow)
この場合は、サンプル調整という「いくつかのステップからなる一連の作業工程」という理解でよいです。作業手順とか作業手続きという風に解釈してもよいです。
ライブラリ調製(library preparation)
典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。したがって、ライブラリ調製とは、配列決定したい試料をNGS機器にかけられる状態にする作業のことを指します。
アンプリコン(amplicon)
リンク先は「Amplicon」です。PCR増幅されたDNAのことです。文脈によってはPCR増幅前のDNAのことも指します。
アニーリング(annealing)
核酸(DNAまたはRNA)の分子が相補的に複合体を形成することです。「ハイブリダイゼーション(hybridization)」と実質的に同じです。
ハイブリダイゼーション(hybridization)
核酸(DNAまたはRNA)の分子が相補的に複合体を形成することです。
プライマー (primer)
アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
インデックス(index)
この場合は、プライマー配列の両端に付加される8-mer程度のオリゴヌクレオチドのことです。このオリゴヌクレオチドの配列は既知なので、サンプルごとに異なるオリゴヌクレオチドを付加しておけば、異なるサンプルを混ぜた状態でシーケンスすることができるメリットがあります。シーケンス後に同一のインデックスをもつリードを分ければ、由来サンプルごとに分けることができます。バーコード配列ともよばれます。
オリゴヌクレオチド(oligonucleotide)
おおよそ20 bpかそれ以下の長さの短いヌクレオチド(DNAまたはRNA)の配列のことです。
ラン(run)
1回の運転のことです。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
図1.8
一般的なイルミナのライブラリの概念図です。
ウェルプレート(well plate)
リンク先は「マイクロプレート」です。多数のくぼみ(穴またはウェル)のついた平板からなる実験・検査器具で、各ウェルを試験管あるいはシャーレとして利用するものです。冷蔵庫にあるプラスチックの製氷皿を小型化させたようなものという理解でよいです。マイクロプレートも、ウェルプレートも、マイクロウェルプレートも実質的に同じものを指します。

page011

シーケンス(sequence)
リンク先は「シークエンス」です。この場合は、DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
マルチプレックスシーケンス(multiplex sequence)
一度のランで多数の異なるサンプルを同時にシーケンスすることです。マルチプレックス解析ともいいます。
NGS機器
何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。
de-multiplexing
マルチプレックスシーケンスで得られた異なるサンプル由来のリードを、由来サンプルごとに振り分ける作業のことです。

1.3.3 シーケンスモードとファイル形式(FASTQ)

イルミナ(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
ライブラリ(library)
典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合のことをシーケンシングライブラリまたは単にライブラリとよびます。したがってライブラリとは、NGS機器にかけられる状態にされた試料中のDNA断片のことです。
シーケンス(sequence)
この場合は、塩基配列を決定することです。
シングルエンド(single-end; SE)
イルミナのライブラリの片側のみからシーケンスを行うモードのことです。
ペア―ドエンド(paired-end; PE)
イルミナのライブラリの両端からシーケンスを行うモードのことです。
図1.9
イルミナのペア―ドエンドシーケンスの概念図です。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
インサート(insert)
ライブラリ調製後のDNA断片のことです。
インサートサイズ(insert size)
ライブラリ中のインサート部分の長さのことです。
中央値(median)
データや集合の代表値の1つで、順位が中央である値のことです。たとえば偶数個の要素からなる数値データ(2, 9, 25, 74)の中央値は、真ん中の2つの平均値として計算し、\((9 + 25)/2\) \(= 17\)となります。また、奇数個の(2, 9, 25, 74, 88)の中央値は、25です。
ライブラリ調製(library preparation)
典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。したがって、ライブラリ調製とは、配列決定したい試料をNGS機器にかけられる状態にする作業のことを指します。
Turner FS, Front. Genet., 2014
インサートサイズがリード長よりも短いものが存在しうる例は、FIGURE 2Bです。
PE
ペア―ドエンド(paired-end)の略で、イルミナのライブラリの両端からシーケンスを行うモードのことです。
図1.9a
イルミナのペア―ドエンドシーケンスの概念図です。(a)は500塩基程度のインサートサイズのものの概念図です。
図1.9b
イルミナのペア―ドエンドシーケンスの概念図です。(b)は237塩基程度のインサートサイズのものの概念図です。ペア―ドエンドで両側から読んだ際の2つのリードに重なりがあることを伝えたい程度ですので、リード長を\(l\)とすると、\(l < IS < 2 \times l\)の範囲に収まるようなインサートサイズ\(IS\)であれば、\(IS\) \(= 237\)でなくても構いません。たとえば\(l\) \(= 150\)なら\(150 < IS < 300\)ということですので、\(IS\) \(= 242\)でも\(170\)でも\(290\)でも構わないということです。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
塩基(base)
リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
のりしろ
一般的な説明としては、「紙などをはりあわせるとき、のりをつける部分」のことです。この場合は、異なるリードどうしを連結させていく際に考慮する一致塩基領域に相当します。

page012

図1.10
FASTQ形式の例です。DRR000031の冒頭4リード分を示しています。最初の4000行分(つまり1000リード分)のFASTQファイルはDRR000031_4000.fastqです。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
前処理(preprocessing)
この場合は、図1.9bで例示されているような重なりのあるペアのリードをマージさせる作業のことを指します。
Magoc and Salzberg, Bioinformatics, 2011
リード前処理の一環として、ペア―ドエンド(paired-end; PE)の2つのリードペア末端の一致部分を連結させる前処理(preprocessing)を行うことで、アセンブリの精度を高める工夫を行うプログラムFLASHの開発論文です。
アダプター(adapter)
シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
インサート(insert)
ライブラリ調製後のDNA断片のことです。ほぼ余談ですが、ライブラリ調製も改良がなされており、最近では断片化(fragmentation)とアダプターの付加が同時に行えます。アダプター付加は「タグ付け(tagging)」と表現されるため、taggingとfragmentationの造語としてタグメンテーション(tagmentation)とよばれます。
デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
業界標準(de facto standard)
「事実上の標準」を指す用語です。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
FASTQ
テキストベースの形式で、DNAなどの塩基配列とそのクオリティスコアを1つのファイルに一緒に保存する際に用いられます。塩基配列とクオリティスコアは各1文字のASCII文字で表され、これにより塩基とクオリティの対応関係が分かりやすくなっています。拡張子は.fastqや.fqです。NGS解析分野の業界標準の形式です。
図1.10
FASTQ形式の例です。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
phredクオリティスコア(phred quality score)
自動DNAシーケンシング用のプログラムphredに用いられているベースコールのスコアです。式(1.1)の説明部分でもクオリティスコアに言及していますが、直感的にはA・C・G・Tそれぞれのシグナル強度が同程度でわずかながら高い値だったとしてGとコールされた場合は、そのGに付随するphredクオリティスコアは低い値になります。逆に、A・C・Gのシグナル強度が非常に低く、Tのシグナル強度が非常に高かった場合、コールされたTに付随するphredクオリティスコアは高い値になります。

1.4 クオリティコントロール(QC)

ステレオタイプ(stereotype)
多くの人に浸透している先入観、思い込み、認識、固定観念、レッテル、偏見、差別などの類型化された観念を指す用語です。
品質管理(quality control; QC)
リードファイルを入力として、アダプター配列や配列決定精度が低い領域とトリムして、その後の解析に支障をきたさないようにする作業のことです。クオリティコントロールの枠組みに、クオリティチェックや前処理が含まれます。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。
phredスコア(phred score)
「Phredクオリティスコア」と同義です。自動DNAシーケンシング用のプログラムphredに用いられているベースコールのスコアです。式(1.1)の説明部分でもクオリティスコアに言及していますが、直感的にはA・C・G・Tそれぞれのシグナル強度が同程度でわずかながら高い値だったとしてGとコールされた場合は、そのGに付随するphredクオリティスコアは低い値になります。逆に、A・C・Gのシグナル強度が非常に低く、Tのシグナル強度が非常に高かった場合、コールされたTに付随するphredクオリティスコアは高い値になります。
アダプター(adapter)
シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。本文中の「不良個所」の意味は、リード全体が使い物にならないという意味で「不良品」、リード中のアダプター配列をトリムせねばならないという意味で「不良個所」と書いています。
FASTQ
テキストベースの形式で、DNAなどの塩基配列とそのクオリティスコアを1つのファイルに一緒に保存する際に用いられます。塩基配列とクオリティスコアは各1文字のASCII文字で表され、これにより塩基とクオリティの対応関係が分かりやすくなっています。拡張子は.fastqや.fqです。NGS解析分野の業界標準の形式です。
クオリティコントロール(quality control; QC)
「品質管理」のことです。QCの枠組みに、クオリティチェックや前処理が含まれます。
クオリティチェック(quality check)
クオリティコントロールの部分集合であり、この場合はFASTQファイル中の全体的な品質を概観する(チェックする)という意味で用いています。「品質の悪いリードがあるかどうか」や「アダプター配列がふくまれているかどうか」を調べる行為のみで、実際にそれらを除去したりという作業自体はクオリティチェックには含まれません。
GC含量(GC content)
塩基配列中のシトシン(C)およびグアニン(G)の割合のことです。ほとんどの場合、(C+G)/(A+C+G+T)として計算されます。GC含量の高いDNAは低いものよりも安定していますが、この安定性は水素結合によるものではなく、主に塩基対のスタッキング相互作用によるものだとも書かれています。PCRでは、プライマーのGC含量から相補DNAのアニーリング温度が予測されます。高いGC含量を持つプライマーは、高いアニーリング温度を持つことが示唆されます。
FastQC
最も有名なクオリティチェック用プログラムです。
html
HyperText Markup Languageの略です。リンク先は「HyperText Markup Language」です。ハイパーテキストを記述するためのマークアップ言語の1つです。略してHTML(エイチティーエムエル)とよばれることが多いです。World Wide Web (WWW)において、Webページを表現するために用いられます。この場合の「htmlレポート」は、FastQCプログラムが出力するクオリティチェック結果のhtmlファイルのことです。具体例としては、SRR616268sub_1_fastqc.htmlを挙げておきます。これは日本乳酸菌学会誌上で2014年からやらせていただいているNGS連載原稿の第4回ウェブ資料中のFaQCs(ver. 1.34)によるQCという項目内で提供しているものです。
FastQC
最も有名なクオリティチェック用プログラムです。
クオリティチェック(quality check)
クオリティコントロールの部分集合であり、この場合はFASTQファイル中の全体的な品質を概観する(チェックする)という意味で用いています。「品質の悪いリードがあるかどうか」や「アダプター配列がふくまれているかどうか」を調べる行為のみで、実際にそれらを除去したりという作業自体はクオリティチェックには含まれません。
前処理(preprocessing)
この場合は、「アダプター配列のトリム」や「クオリティの低い領域のフィルタリング」の作業のことを指します。「処理後のデータのチェック」はクオリティチェックなのではないか？と思われるかもしれませんが、本文中ではそういった作業もひっくるめて前処理の枠組みに含めています。
アダプター(adapter)
シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
クオリティの低い領域(low quality region)
この場合は、リード中のPhredクオリティスコアが低い領域のことです。意味合いとしてはフィルタリングというよりはトリミングに近く、トリムが続くのを避けたかったという程度です。
cutadapt：Martin M., EMBnet J., 2011

page013

trimmomatic：Bolger et al., Bioinformatics, 2014
オールインワン(all in one)
幾つかの物や機能などが1つにまとめられている形態のことです。ある1つの目的達成に、本来複数組み合わせて使用する製品群を1つにまとめた工業製品と、その設計思想です。
fastp：Chen et al., Bioinformatics, 2018
ライブラリ(library)
この場合は、シーケンシングライブラリのことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この「アダプター配列などがつけられた断片の集合のこと」を指しています。実験手順によって、本来のサンプル由来の断片配列以外の配列が異なるため、どのような種類のアダプター配列を用いたのかなどによってオプションを変更する必要があるのです。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
クオリティスコア分布(distribution of quality scores)
シチュエーションによって異なりますが、「横軸がリード中の塩基配列の位置、縦軸がPhredクオリティスコア」のようなものを想像してもよいですし、あるいは「リードごとに平均クオリティスコアを算出し、横軸が平均クオリティスコア、縦軸がその頻度」のような分布を想像してもよいと思います。
イルミナ(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
藤博幸編, よくわかるバイオインフォマティクス入門, 講談社
アダプター配列除去は、99～100ページ目あたりに記載があります。

1.5 ロングリード技術(パックバイオ)

第3世代シーケンサ(third-generation sequencer)
パックバイオ社の一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術や、ナノポア社の技術に基づくロングリードが得られるシーケンサのことです。
パックバイオ社(Pacific Biosciences)
一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術を利用したロングリードデータを提供するシーケンサのメーカーです。
シーケンス(sequence)
リンク先は「シークエンス」です。この場合は、DNAを構成するヌクレオチドの結合順序(塩基配列)を決定することです。
QC
クオリティコントロール(quality control)の略です。「品質管理」のことです。QCの枠組みに、クオリティチェックや前処理が含まれます。

1.5.1 SMRTシーケンシングの原理

第2世代シーケンサ(second-generation sequencer)
イルミナ社が製造しているような「大量のショートリードを出力するシーケンサのこと」です。かつて次世代シーケンサ(NGS)とよばれていたジャンルの、何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。
ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
第3世代シーケンサ(third-generation sequencer)
パックバイオ社の一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術や、ナノポア社の技術に基づくロングリードが得られるシーケンサのことです。
ロングリード(long read)
数千～数万塩基程度の長さをもつリードのことです。
Cui et al., Plant Methods, 2020
シロイヌナズナ(Arabidopsis)というモデル植物の転写物配列決定において、パックバイオとナノポア(1.6節)の性能評価を行ったという論文です。
パックバイオ社(Pacific Biosciences)
一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術を利用したロングリードデータを提供するシーケンサのメーカーです。
Travers et al., Nucleic Acids Res., 2010
パックバイオのSMRTbell技術の論文です。SMRTbellの図などが載っています。本当の原著論文はEid et al., Science, 2009だとは思いますが、オープンアクセスではないのでこちらを示しています。
Youtube動画：Introduction to PacBio Highly Accurate Long-Read Sequencing
ライブラリ調製(library preparation)
典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。したがって、ライブラリ調製とは、配列決定したい試料をNGS機器にかけられる状態にする作業のことを指します。
インサートサイズ(insert size)
ライブラリ中のインサート(ライブラリ調製後のDNA断片)部分の長さのことです。
イルミナ(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
リード長(read length)
シークエンサから得られた塩基配列の長さ(塩基の数)のことです。
アダプター(adapter)
シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
パックバイオ(PacBio)
基本的にはPacific Biosciences社の略称ですが、文脈によってはこの会社のシーケンサそのものを指す場合もあります。
ハーブ(herb)
一般的に料理の香り付けや保存料、薬、香料、防虫などに利用されたり、香りに鎮静・興奮などの作用がある有用植物で、緑の葉を持つ草、茎のやわらかい植物などを指すことが多いです。
センシンレン(Andrographis paniculata)
キツネノマゴ科の一年生植物であり、インド、スリランカ原生のハーブおよび薬草です。サンビロートとよばれるほか、国ごとの呼び名があります。高さ20cm～1mくらいまでの中型の一年草で、東南アジアから中国にかけて広く分布します。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
図1.11
パックバイオのシーケンシング原理の図です。出典はRhoads and Au, Genomics Proteomics Bioinformatics., 2015です。

page014

ライブラリ(library)
この場合は、シーケンシングライブラリのことです。典型的なシーケンシング実験では、ゲノムは数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この「アダプター配列などがつけられた断片の集合のこと」を指しています。
Liang et al., Front Genet., 2020
ハーブの一種であるセンシンレン(Andrographis paniculata)のゲノム配列決定論文です。「平均リード長がライブラリ間で2倍以上の差がある」は、Table S1を根拠としています。
特有のアセンブリ戦略
谷澤ら, 日本乳酸菌学会誌, 2016でも解説していますが、「短いリード」を「ごく一部の長いリード」にマップしてアセンブリ精度を高めるような戦略です。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
図1.11
パックバイオのシーケンシング原理の図です。出典はRhoads and Au, Genomics Proteomics Bioinformatics., 2015です。
- 図1.11a
  原著論文のFigure 1と同じです。
  - ヘアピン(hairpin)
    リンク先は「ステムループ」です。2本鎖DNAの末端にある、対合していないループ領域のことです。Figure 1では、緑色の部分に相当します。これがヘアピン上の(ステムループ構造をとった)アダプター配列です。
  - ライブラリ(library)
    この場合は、ライブラリ調製(試料をNGS機器にかけられる状態にする作業)後のDNA断片の集合を指します。
  - 変性(denaturation)
    この場合は、二重らせんがほどけ2つの1本鎖DNA(これを親鎖といいます)に分かれることを指します。それぞれの親鎖(parent strand)は、鋳型鎖(template strand)ともよばれます。
  - 鋳型(template)
    この場合は、DNAの変性によって二重らせんがほどけ、2つの1本鎖DNAになったそれぞれのDNA鎖のことを指します。
  - 蛍光標識
    蛍光色素(蛍光を発光する色素のこと)で標識する(目印をつける)ことです。
  - dNTP
    リンク先は「ヌクレオシド三リン酸」です。デオキシヌクレオシド三リン酸(deoxy-nucleoside triphosphate)のことです。dATP・dCTP・dGTP・dTTPの総称がdNTPです。「ヌクレオチドは、ヌクレオシドにリン酸基が結合したもの」ですが、リン酸が何個くっついているかまで正確に言い表したものだと理解すればよいです。リボース(ribose)の2位のヒドロキシル基(-OH)が水素(-H)に置換されたものをデオキシリボース(deoxyribose)といいます。デオキシリボースを含むヌクレオシド三リン酸は、名前の前に「デオキシ」という接頭辞を付け、略称には”d”を付けます。
  - プライマー (primer)
    アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
  - DNAポリメラーゼ(DNA polymerase)
    1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
  - 複製過程(replication process)
    リンク先は「DNA複製」です。DNAが複製されてその数が2倍となる過程のことです。
  - リアルタイム(real time)
    日本語で「即時に」や「同時に」、「実時間」という意味の言葉です。
- 図1.11b
  原著論文のFigure 2と同じで、SMRTセル(SMRT cell)の図です。
  - ウェル(well)
    小さな穴とか「くぼみ」という理解でよいです。Figure 2では、SMRT cellの中にZero-Mode Waveguides (ZMWs)とよばれるウェルが約15万あると書かれていますが、2022年現在では、100万とかそれくらいになっていたと思います。
  - テンプレート(template)
    この場合は、シーケンスされる1本鎖DNAのことです。
  - DNAポリメラーゼ(DNA polymerase)
    1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
  - 塩基(base)
    リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
- 図1.11c
  原著論文のFigure 3と同じで、光パルス(light pulses)が発せられるイメージと、塩基の種類の違いによってパルスが変化するイメージが示されています。
  - パルス(pulse)
    短時間に急峻な変化をするシグナル(信号)の総称です。Figure 3の右下に見えているのが、パルスの具体的なイメージです。この場合は、一定の幅を持った矩形波(くけいは)のことだという理解でよいです。
  - 塩基配列(nucleotide sequence)
    DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。

1.5.2 リードの特徴とシーケンスモード

パックバイオで得られるリードについて
- ポリメラーゼリード(polymerase read)またはContinuous Long Read (CLR)とよばれます。
- CLRはポリメラーゼが環状のテンプレートを旋回(traverse)して得られたものであるため、アダプターやインサートを複数コピー含みうります。
- CLRはアダプター除去後に複数個のリードに分割することができ、分割後のリードをサブリード(subread)といいます。
Continuous Long Read(CLR)
パックバイオから出力される、アダプターやインサートを複数コピー含みうる塩基配列のことです。ポリメラーゼリードともよばれます。
ポリメラーゼ(polymerase)
リンク先は「DNAポリメラーゼ」です。1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
テンプレート(template)
この場合は、シーケンスされる1本鎖DNAのことです。
アダプター(adapter)
シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
インサート(insert)
ライブラリ調製後のDNA断片のことです。
リード(read)
この場合は、パックバイオから出力された塩基配列(ポリメラーゼリードまたはCLR)の中から、アダプターをトリムして得られたサンプル由来塩基配列のことを指しています。
サブリード(subread)
パックバイオから出力された塩基配列(ポリメラーゼリードまたはCLR)の中から、アダプターをトリムして得られたサンプル由来塩基配列のことです。
ZMW
Zero-Mode Waveguideのことです。パックバイオシーケンサが用いているデバイス(つまりSMRTセル)の表面にある小さな穴(ウェル)のことです。1つ1つのウェル内に、シーケンスされる1本鎖DNAがある状態でシーケンス反応が行われます。シーケンスされる場という理解でよいです。
アラインメント(alignment)
リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
コンセンサス配列(consensus sequence)
シーケンスアラインメントの各位置における最も高頻度の塩基またはアミノ酸残基が計算された配列のことです。
Circular Consensus Sequence(CCS)
パックバイオから出力されたポリメラーゼリード(CLR)から、アダプター配列を除去して得られた複数のサブリードのアラインメントをとってコンセンサス配列にしたもののことです。
トレードオフ(trade-off)
何かを得ると、別の何かを失う、相容れない関係のことです。
第3世代シーケンサ(third-generation sequencer)
パックバイオ社の一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術や、ナノポア社の技術に基づくロングリードが得られるシーケンサのことです。
エラー率(error rate; \(p\))
シーケンスエラーとなる確率のことです。たとえば、100塩基のベースコール中、95個の塩基を正しく決定できたなら、エラー率5% (\(p\) \(= 0.05\))です。
Continuous Long Read(CLR)
パックバイオから出力される、アダプターやインサートを複数コピー含みうる塩基配列のことです。ポリメラーゼリードともよばれます。
Circular Consensus Sequence(CCS)
パックバイオから出力されたポリメラーゼリード(CLR)から、アダプター配列を除去して得られた複数のサブリードのアラインメントをとってコンセンサス配列にしたもののことです。
シーケンス(sequence)
この場合は、塩基配列を決定することです。
インサート(insert)
ライブラリ調製後のDNA断片のことです。
パス(pass)
パックバイオでのシーケンスの際に、インサート部分を通過する回数のことです。
パックバイオの総説：Rhoads and Au, Genomics Proteomics Bioinformatics., 2015
Eid et al., Science, 2009
パックバイオ技術の原著論文です。オープンアクセスではありません。
多数決(majority decision)
ある集団において意思決定を図る際に、多数派の意見を採用する方法のことです。
被覆率(カバレッジ; coverage)
リンク先は「Coverage (genetics)」です。コンセンサス配列を構築する際に、コンセンサス配列の長さの何倍の総塩基数を用いたかという情報です。コンセンサス配列よりも総塩基数が少ない情報だと、コンセンサス配列を作ることがそもそもできません。コンセンサス配列が100塩基だとすると、それを構築する際に用いた元の総塩基数が500塩基だとすると、被覆率は5倍といった具合で計算します。一見すると「卵が先かニワトリが先かという議論なのでは？」という印象を受けるかもしれませんが、たとえばゲノム配列決定の場面などではゲノムサイズを推定する方法が存在しますので、そのゲノム配列を決定したい場合にどの程度の総塩基数のデータであればどの程度確からしいゲノム配列が得られるかもわかるのです。被覆率と同じ意味で深度(depth)という言葉も用いられますので、たとえば低い被覆率(low coverage)と浅い深度(shallow depth)は同じ意味です。
パックバイオ社(Pacific Biosciences)
一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術を利用したロングリードデータを提供するシーケンサのメーカーです。
HiFiシーケンシング技術
パックバイオが2019年に発表した、CCS戦略を発展させたシーケンシング技術のことです。HiFiはHigh Fidelityの略です。
Wenger et al., Nat Biotechnol., 2019
パックバイオは、2019年にCCS戦略を発展させたHiFi(High Fidelityの略)シーケンシング技術を発表しています。これは、28倍の被覆率(28-fold coverage)で精度99.8 %の平均13.5 Kbの長さのHiFiリードをヒトサンプルで得ることに成功したという論文です。
Lang et al., Gigascience, 2020
イネ(rice)のデータでも同様の性能が報告されている論文例です。

page015

Lang et al., Gigascience, 2020
イネ(rice)のデータでも同様の性能が報告されている論文例です。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
HiFiリード
パックバイオが2019年に発表した、CCS戦略を発展させたシーケンシング技術によって得られたリードのことです。HiFiはHigh Fidelityの略です。
インサート(insert)
ライブラリ調製後のDNA断片のことです。
ライブラリ(library)
この場合は、ライブラリ調製(試料をNGS機器にかけられる状態にする作業)後のDNA断片の集合を指します。
CCSモード
精度は高いが比較的短いHiFiリードを得る目的で、比較的短いインサート(～20 Kb)のライブラリを用いて行う、パックバイオのシーケンスオプションです。Circular Consensus Sequenceの略です。
サブリード(subread)
パックバイオから出力された塩基配列(ポリメラーゼリードまたはCLR)の中から、アダプターをトリムして得られたサンプル由来塩基配列のことです。
CLRモード
精度はそれほど気にせず長いサブリードを得る目的で、比較的長いインサート(30 Kb程度)のライブラリを用いて行う、パックバイオのシーケンスオプションです。Continuous Long Readの略です。
Logsdon et al., Nat Rev Genet., 2020
Fig. 3aがCLRとCSSの違いがよくわかる図です。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
インプットDNA量(input)
この場合は、サンプル調製キットに供する際にあらかじめ用意しておくべきDNA量のことです。
イルミナ(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
Liang et al., Front Genet., 2020
「必要なDNA量がマイクログラムオーダーであること」は、In brief, 2 μg of genomic DNA was used to construct each library.を根拠としています。
PCR増幅(PCR amplification)
リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万～数十億倍に増幅させるPCR技術を用いてDNA量を増幅させることです。
GCバイアス(GC bias)
適度なGC含量の断片は増幅されるが、それよりも高くても低くても増幅されにくくなるという偏りのことです。
Castaño et al., New Phytol., 2020
「PCR増幅に起因するGCバイアスの度合いが非常に低い」は、 Summary部分に書かれているNo significant biases related to GC content were observed.を根拠しています。
ステレオタイプ(stereotype)
多くの人に浸透している先入観、思い込み、認識、固定観念、レッテル、偏見、差別などの類型化された観念を指す用語です。
少量のインプットDNAによる結果の論文例
以下の2つを挙げておきます。
- Schneider et al., Gigascience, 2021
- Russo et al., Front Plant Sci., 2022

1.5.3 ファイル形式(SAM/BAM)

イルミナ(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
FASTQ
テキストベースの形式で、DNAなどの塩基配列とそのクオリティスコアを1つのファイルに一緒に保存する際に用いられます。塩基配列とクオリティスコアは各1文字のASCII文字で表され、これにより塩基とクオリティの対応関係が分かりやすくなっています。拡張子は.fastqや.fqです。NGS解析分野の業界標準の形式です。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
SAM/BAM形式
リンク先は「Binary Alignment Map」です。パックバイオの出力ファイル形式は、BAM (Binary Alignment/Map)です。 BAMは、SAM (Sequence Alignment/Map)とよばれるテキスト形式ファイルのバイナリ版です。
バイナリ(binary)
本来は二進法のことですが、この場合や情報技術においては、コンピュータが直接的に処理するために2進数で表現されるデータ(バイナリデータ)のことを指します。対義語はテキストデータです。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
マッピング(mapping)
リードデータがゲノム配列上のどこに由来するかを調べる作業のことですが、実質的にはアラインメントと同じです。
アラインメント(alignment)
リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
第2世代シーケンサ(second-generation sequencer)
イルミナ社が製造しているような「大量のショートリードを出力するシーケンサのこと」です。かつて次世代シーケンサ(NGS)とよばれていたジャンルの、何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。
Li et al., Bioinformatics, 2009
SAM/BAM形式についての原著論文です。
SAM/BAM形式
リンク先は「Binary Alignment Map」です。パックバイオの出力ファイル形式は、BAM (Binary Alignment/Map)です。 BAMは、SAM (Sequence Alignment/Map)とよばれるテキスト形式ファイルのバイナリ版です。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
マッピング(mapping)
リードデータがゲノム配列上のどこに由来するかを調べる作業のことですが、実質的にはアラインメントと同じです。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
Amarasinghe et al., Genome Biol., 2020
unaligned BAM fileなどと記述される例として示した論文です。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
パックバイオの出力ファイルは2種類
- サブリードのみからなるsubreads files
- Continuous Long Read(CLR)中に含まれるバーコードやアダプター配列の情報も含んだscraps files
サブリード(subread)
パックバイオから出力された塩基配列(ポリメラーゼリードまたはCLR)の中から、アダプターをトリムして得られたサンプル由来塩基配列のことです。
CLR
Continuous Long Readの略です。パックバイオから出力される、アダプターやインサートを複数コピー含みうる塩基配列のことです。ポリメラーゼリードともよばれます。
バーコード(barcode)
同一DNA断片由来配列であることの確認などを目的とした識別目的のオリゴヌクレオチドのことです。「インデックス(index)」の説明内容と基本的に同じです。
アダプター(adapter)
シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
SAM/BAM形式
リンク先は「Binary Alignment Map」です。パックバイオの出力ファイル形式は、BAM (Binary Alignment/Map)です。 BAMは、SAM (Sequence Alignment/Map)とよばれるテキスト形式ファイルのバイナリ版です。
QC
クオリティコントロール(quality control)の略です。「品質管理」のことです。QCの枠組みに、クオリティチェックや前処理が含まれます。
リード(read)
この場合は、パックバイオから出力された塩基配列(ポリメラーゼリードまたはCLR)の中から、アダプターをトリムして得られたサンプル由来塩基配列のことを指しています。
塩基(base)
リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
中央値(median)
データや集合の代表値の1つで、順位が中央である値のことです。たとえば偶数個の要素からなる数値データ(2, 9, 25, 74)の中央値は、真ん中の2つの平均値として計算し、\((9 + 25)/2\) \(= 17\)となります。また、奇数個の(2, 9, 25, 74, 88)の中央値は、25です。
イルミナ(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。

page016

1.5.4 パックバイオのQC

QC
クオリティコントロール(quality control)の略です。「品質管理」のことです。QCの枠組みに、クオリティチェックや前処理が含まれます。この場合は、QCをクオリティチェックの略だと解釈しても差し支えありません。理由は、本文中で述べているのは実質的にクオリティチェックに関する事柄のみだからです。この場合のクオリティチェックは、パックバイオの出力であるBAMファイル中の全体的な品質を概観する(チェックする)ことです。
CLRモード
精度はそれほど気にせず長いサブリードを得る目的で、比較的長いインサート(30 Kb程度)のライブラリを用いて行う、パックバイオのシーケンスオプションです。Continuous Long Readの略です。
CLR
Continuous Long Readの略です。パックバイオから出力される、アダプターやインサートを複数コピー含みうる塩基配列のことです。ポリメラーゼリードともよばれます。
サブリード(subread)
パックバイオから出力された塩基配列(ポリメラーゼリードまたはCLR)の中から、アダプターをトリムして得られたサンプル由来塩基配列のことです。
ライブラリ調製(library preparation)
典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。したがって、ライブラリ調製とは、配列決定したい試料をNGS機器にかけられる状態にする作業のことを指します。
CCSモード
精度は高いが比較的短いHiFiリードを得る目的で、比較的短いインサート(～20 Kb)のライブラリを用いて行う、パックバイオのシーケンスオプションです。Circular Consensus Sequenceの略です。
HiFiリード
パックバイオが2019年に発表した、CCS戦略を発展させたシーケンシング技術によって得られたリードのことです。HiFiはHigh Fidelityの略です。
SequelTools：Hufnagel et al., BMC Bioinformatics, 2020
パックバイオの生データを取り扱うプログラムです。
Polymerase-to-Subread Ratio (PSR)
CLR内にどれだけ有効な最長サブリードが含まれるかの指標です。
式(1.2)
\[ {\rm PSR} = \frac{\rm CLRごとに得られる最も長いサブリードの総塩基数}{全サブリードの総塩基数} \tag{1.2} \]
Polymerase-to-Subread Ratio (PSR)
CLR内にどれだけ有効な最長サブリードが含まれるかの指標です。
CLRモード
精度はそれほど気にせず長いサブリードを得る目的で、比較的長いインサート(30 Kb程度)のライブラリを用いて行う、パックバイオのシーケンスオプションです。Continuous Long Readの略です。
サブリード(subread)
パックバイオから出力された塩基配列(ポリメラーゼリードまたはCLR)の中から、アダプターをトリムして得られたサンプル由来塩基配列のことです。
ライブラリ調製(library preparation)
典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。したがって、ライブラリ調製とは、配列決定したい試料をNGS機器にかけられる状態にする作業のことを指します。
CCSモード
精度は高いが比較的短いHiFiリードを得る目的で、比較的短いインサート(～20 Kb)のライブラリを用いて行う、パックバイオのシーケンスオプションです。Circular Consensus Sequenceの略です。
HiFiリード
パックバイオが2019年に発表した、CCS戦略を発展させたシーケンシング技術によって得られたリードのことです。HiFiはHigh Fidelityの略です。
図1.12
パックバイオデータのイメージとQC指標です。
ポリメラーゼリード(polymerase read)
CLRモードで得られるリードです。Continuous Long Read (CLR)の別称です。

page017

CLRモード
精度はそれほど気にせず長いサブリードを得る目的で、比較的長いインサート(30 Kb程度)のライブラリを用いて行う、パックバイオのシーケンスオプションです。Continuous Long Readの略です。
ロングインサート(long insert)
30 Kb程度の長いインサート(ライブラリ調製後のDNA断片)のことです。
ロングリード(long read)
数千～数万塩基程度の長さをもつリードのことです。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
サブリード(subread)
パックバイオから出力された塩基配列(ポリメラーゼリードまたはCLR)の中から、アダプターをトリムして得られたサンプル由来塩基配列のことです。
デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
N50やL50
リンク先は「N50, L50, and related statistics」です。デノボアセンブリが行われた後にどれだけ長いコンティグが得られたかを評価する指標です。SequelToolsでは、N50以外にL50も示されています。この他にも、デノボアセンブリ結果の性能評価を行うAssemblathon(Bradnam et al., Gigascience, 2013)という取り組みで提案されたNG50(長いコンティグから並べて推定ゲノムサイズの50%に達したときのコンティグ長)や、NGA50(リファレンスゲノムにマップされなかったコンティグを除外した上で得たNG50)といった指標なども存在します。
図1.12
パックバイオデータのイメージとQC指標です。
SequelTools：Hufnagel et al., BMC Bioinformatics, 2020
パックバイオの生データを取り扱うプログラムです。
L50
リンク先は「N50, L50, and related statistics」です。デノボアセンブリが行われた後にどれだけ長いコンティグが得られたかを評価する指標です。L50は、「長いサブリードから順に足していって，全サブリードの総塩基数の50％に達するのに要したサブリード数」です。数値が小さいほどよいと判断します。この他にも、デノボアセンブリ結果の性能評価を行うAssemblathon(Bradnam et al., Gigascience, 2013)という取り組みで提案されたNG50(長いコンティグから並べて推定ゲノムサイズの50%に達したときのコンティグ長)や、NGA50(リファレンスゲノムにマップされなかったコンティグを除外した上で得たNG50)といった指標なども存在します。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
QC指標
得られたシーケンスデータの質を評価する指標という解釈でよいです。
ZMW Occupancy Ratio (ZOR)
SMRTセル上にあるウェル(ZMW)内にちゃんと1分子のDNAテンプレートが入っているかを評価する指標です。
Youtube動画：Introduction to PacBio Highly Accurate Long-Read Sequencing
SMRTの原理の動画です。すべてのウェル(ZMW)にまんべんなく1分子のDNAテンプレートが入り込んでシーケンスが行われているような印象を受けるのは、開始2分後(2:00)あたりです。
ウェル(well)
小さな穴とか「くぼみ」という理解でよいです。
ライブラリ(library)
この場合は、ライブラリ調製(試料をNGS機器にかけられる状態にする作業)後のDNA断片の集合を指します。
subedCLR
サブリードを含むCLRのことです。
Continuous Long Read(CLR)
パックバイオから出力される、アダプターやインサートを複数コピー含みうる塩基配列のことです。ポリメラーゼリードともよばれます。
Hufnagel et al., BMC Bioinformatics, 2020
SequelToolsの原著論文です。「ZORが85%程度」の根拠は、Table S7の一番右側の列の値として、最小で0.835、最大で0.873となっていることを根拠としました。これらの値自体は、Table S1中のnumReadsSubread列を分母、numReadsSubedCLR列を分子として割り算しても得られます。
式(1.3)
\[ {\rm ZOR} = \frac{\rm サブリードを含むCLR数}{サブリード数} \tag{1.3} \]
PSR
Polymerase-to-Subread Ratioの略です。CLR内にどれだけ有効な最長サブリードが含まれるかの指標です。
ZOR
ZMW Occupancy Ratioの略です。SMRTセル上にあるウェル(ZMW)内にちゃんと1分子のDNAテンプレートが入っているかを評価する指標です。
パックバイオ社(Pacific Biosciences)
一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術を利用したロングリードデータを提供するシーケンサのメーカーです。
CLRモード
精度はそれほど気にせず長いサブリードを得る目的で、比較的長いインサート(30 Kb程度)のライブラリを用いて行う、パックバイオのシーケンスオプションです。Continuous Long Readの略です。
QC指標
得られたシーケンスデータの質を評価する指標という解釈でよいです。
SequelTools：Hufnagel et al., BMC Bioinformatics, 2020
パックバイオの生データを取り扱うプログラムの一例です。
ZMW
Zero-Mode Waveguideの略です。パックバイオシーケンサが用いているデバイス(つまりSMRTセル)の表面にある小さな穴(ウェル)のことです。1つ1つのウェル内に、シーケンスされる1本鎖DNAがある状態でシーケンス反応が行われます。シーケンスされる場という理解でよいです。
テンプレート(template)
この場合は、シーケンスされる1本鎖DNAのことです。
サブリード(subread)
パックバイオから出力された塩基配列(ポリメラーゼリードまたはCLR)の中から、アダプターをトリムして得られたサンプル由来塩基配列のことです。
SMRT Link
パックバイオが提供している解析ソフトウェアです。

1.6 ロングリード技術(ナノポア)

第3世代シーケンサ(third-generation sequencer)
パックバイオ社の一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術や、ナノポア社の技術に基づくロングリードが得られるシーケンサのことです。
ナノポア社(Oxford Nanopore Technologies; ONT)
分析対象である1本鎖DNA分子がナノポア内を通過すると、塩基の種類に応じて特徴的な電流の変化(ionic current fluctuation)が観測されるのを利用してロングリードデータを得るシーケンサのメーカーです。
シーケンス(sequence)
この場合は、塩基配列を決定することです。
深層学習(deep learninig)
リンク先は「ディープラーニング」です。対象の全体像から細部までの各々の粒度の概念を階層構造として関連させて学習する手法のことです。機械学習(Machine Learning)の1つです。
ベースコール(base call)
リンク先は「Base calling」です。1人がポジションごとに得られるA・C・G・Tそれぞれのシグナル強度の波形を読み取り、ポジションごとに最もシグナル強度が高い塩基(base)をコール(call)し、もう1人がそれを記録するという作業が昔行われていました。ベースコールという言葉はその名残です。

page018

1.6.1 ナノポアシーケンシングの原理

ロングリード(long read)
数千～数万塩基程度の長さをもつリードのことです。
ナノポア社(Oxford Nanopore Technologies; ONT)
分析対象である1本鎖DNA分子がナノポア内を通過すると、塩基の種類に応じて特徴的な電流の変化(ionic current fluctuation)が観測されるのを利用してロングリードデータを得るシーケンサのメーカーです。
ナノポア(Nanopore)
一般名詞としては、ナノスケールの細孔のことです。文脈によって、「分析対象である1本鎖DNA分子がナノポア内を通過すると、塩基の種類に応じて特徴的な電流の変化(ionic current fluctuation)が観測されるのを利用してロングリードデータを得るシーケンス技術」、「その技術を利用したシーケンサ」、そして「そのメーカー」のことを指します。
定常状態(steady state)
時間的に一定して変わらない状態を意味し、自然科学の各分野で用いられる概念です。
Deamer et al., Nat Biotechnol., 2016
ナノポアの総説です。Figure 1bが、「横軸が時間、縦軸が電流の強さ(current intensity)の生データの例」です。これがsquiggle plotとよばれるものです。
1本鎖DNA分子
シーケンスされる「テンプレート(鋳型鎖)」と読み替えてもよいです。
塩基(base)
リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
ポリメラーゼ(polymerase)
リンク先は「DNAポリメラーゼ」です。1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
従来のポリメラーゼを利用したシーケンス技術
1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素であるポリメラーゼの特徴を利用して塩基配列を決定するシーケンス技術のことです。
サンガー法(Sanger method)
リンク先は「DNAシークエンシング」内の「酵素法」です。サンガー法は、酵素法やジデオキシ法ともよばれています。4種類の蛍光色素で横軸が時間、縦軸がシグナル強度の図の例としては、Seroussi E., Genes(Basel), 2021のFigure 1があげられます。
イルミナ(Illumina)
この場合は、出力する塩基あたりのコストや量の点で大きなシェアをもつイルミナ社が提供するシーケンス技術のことです。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
ナノポア(Nanopore)
この場合は、ナノポア社が提供する「分析対象である1本鎖DNA分子がナノポア内を通過すると、塩基の種類に応じて特徴的な電流の変化(ionic current fluctuation)が観測されるのを利用してロングリードデータを得るシーケンス技術」のことです。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
CLR
Continuous Long Readの略です。パックバイオから出力される、アダプターやインサートを複数コピー含みうる塩基配列のことです。ポリメラーゼリードともよばれます。
ポリメラーゼ(polymerase)
リンク先は「DNAポリメラーゼ」です。1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素(DNA合成酵素)の総称です。一部のウイルスを除くすべての生物に幅広く存在します。DNAを鋳型としてDNAを合成する DNA依存性 DNAポリメラーゼ(EC 2.7.7.7)と、RNAを鋳型としてDNAを合成するRNA依存性DNAポリメラーゼ(EC 2.7.7.49)の2つのタイプに分けられます。
インプットDNA(input DNA)
シーケンスされるDNA分子のことです。
ポア(pore)
一般名詞の意味でのナノポア(ナノスケールの細孔)のことです。
Amarasinghe et al., Genome Biol., 2020
ロングリードデータ解析の総説です。「ナノポアのリード長は高分子量のインプットDNAをポア(pore)に送達する部分が関係している」は、 Read length in nanopore sequencing is mostly limited by the ability to deliver very high-molecular weight DNA to the pore … を根拠としています。
Dumschott et al., J Exp Bot., 2020
植物ゲノム解析分野のナノポアの総説です。「理論上DNA分子の通過が終了するか、あるいはポアが物理的にブロックされるまでシーケンスは続く」は、 Theoretically, sequencing continues until the end of the DNA fragment or until the pore becomes physically blocked, … を根拠としています。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
CLR
Continuous Long Readの略です。パックバイオから出力される、アダプターやインサートを複数コピー含みうる塩基配列のことです。ポリメラーゼリードともよばれます。
ナノポア(Nanopore)
この場合は、ナノポア社が提供する「分析対象である1本鎖DNA分子がナノポア内を通過すると、塩基の種類に応じて特徴的な電流の変化(ionic current fluctuation)が観測されるのを利用してロングリードデータを得るシーケンス技術」のことです。
チャンピオンデータ(champion data)
めったに得られないような素晴らしいデータのことです。
アンフェア(unfair)
公平性を欠いた、不公平な、という意味です。
デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
Lang et al., Gigascience, 2020
パックバイオとナノポアの比較論文です。「パックバイオとの比較においても、配列決定精度は下回るものの、得られるコンティグ長の点で上回る」は、 Abstractに書かれているONT ultralong reads delivered higher contiguity, producing a total of 18 contigs of which 10 were assembled into a single chromosome compared to 394 contigs and 3 chromosome-level contigs for the PacBio assembly. を根拠としています。
ゲノムサイズ(genome size)
(正確にはハプロイドゲノムだと思いますが)ある生物種がもつゲノムの総塩基数という理解でよいです。
植物(plant)
草や木などのように、根があって場所が固定されて生きているような生物のことです。対義語は動物です。
HiFiリード
パックバイオが2019年に発表した、CCS戦略を発展させたシーケンシング技術によって得られたリードのことです。HiFiはHigh Fidelityの略です。
バクテリア(bacteria)
リンク先は「細菌」です。正確には真正細菌です。古細菌・真正細菌・真核生物という分類学上の3つのドメインの1つ、あるいはそこに含まれる生物のことです。
生物種(species)
リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
トランスクリプトーム(transcriptome)
特定の状況下において細胞中に存在するすべてのRNA(または一次転写産物; transcript)の総体のことです。ここでは、NGS機器を用いてすべてのRNA(実際にはmRNAのみだったりするので網羅的ではありません)の配列を決定することという意味で、RNAシーケンシング(RNA sequencing)の略称であるRNA-seqが用いられることが多いです。

1.6.2 ファイル形式(HDF5/FAST5)

ナノポア(Nanopore)
この場合は、ナノポア社が提供する「分析対象である1本鎖DNA分子がナノポア内を通過すると、塩基の種類に応じて特徴的な電流の変化(ionic current fluctuation)が観測されるのを利用してロングリードデータを得るシーケンス技術」のことです。
これまで述べてきたシーケンス技術
従来のポリメラーゼを利用したシーケンス技術のことです。つまり、1本鎖の核酸を鋳型として、それに相補的な塩基配列を持つDNA鎖を合成する酵素であるポリメラーゼの特徴を利用して塩基配列を決定するシーケンス技術のことです。
FAST5
ナノポアで得られるシーケンス結果ファイルの形式です。拡張子は.fast5です。
HDF5
リンク先は「Hierarchical Data Format」です。日本語だと「階層的データ形式」のようです。HDF4が旧バージョンで、HDF5が現行バージョンのようです。
Loman and Quinlan, Bioinformatics, 2014
Poretoolsというナノポア用のツールキット(複数のプログラムをまとめて提供したもの)の原著論文です。Abstractに、FAST5はan application of the HDF5 standardだと説明されています。
SAM/BAM形式
リンク先は「Binary Alignment Map」です。パックバイオの出力ファイル形式は、BAM (Binary Alignment/Map)です。 BAMは、SAM (Sequence Alignment/Map)とよばれるテキスト形式ファイルのバイナリ版です。
アラインメント(alignment)
リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
マッピング(mapping)
リードデータがゲノム配列上のどこに由来するかを調べる作業のことですが、実質的にはアラインメントと同じです。
HDF
リンク先は「Hierarchical Data Format」です。Hierarchical Data Formatの略です。日本語だと「階層的データ形式」のようです。HDF4が旧バージョンで、HDF5が現行バージョンのようです。
株価(share pricesまたはstock prices)
当該の株式に関して、株式市場において実際に約定があった価格のことです。が、ここではそこがメインではなく、株価の時系列的な変化(トレンド)のことです。
準拠
あるものをよりどころとしてそれに従うことです。
Poretools：Loman and Quinlan, Bioinformatics, 2014
ナノポア用のツールキット(複数のプログラムをまとめて提供したもの)です。
FASTQ
テキストベースの形式で、DNAなどの塩基配列とそのクオリティスコアを1つのファイルに一緒に保存する際に用いられます。塩基配列とクオリティスコアは各1文字のASCII文字で表され、これにより塩基とクオリティの対応関係が分かりやすくなっています。拡張子は.fastqや.fqです。NGS解析分野の業界標準の形式です。
MinKNOW
ナノポア社提供の解析ソフトウェアです。

page019

1.6.3 ベースコールと深層学習

FASTQ
テキストベースの形式で、DNAなどの塩基配列とそのクオリティスコアを1つのファイルに一緒に保存する際に用いられます。塩基配列とクオリティスコアは各1文字のASCII文字で表され、これにより塩基とクオリティの対応関係が分かりやすくなっています。拡張子は.fastqや.fqです。NGS解析分野の業界標準の形式です。
ベースコール(base call)
リンク先は「Base calling」です。1人がポジションごとに得られるA・C・G・Tそれぞれのシグナル強度の波形を読み取り、ポジションごとに最もシグナル強度が高い塩基(base)をコール(call)し、もう1人がそれを記録するという作業が昔行われていました。ベースコールという言葉はその名残です。
ニューラルネットワーク(neural network)
「入力を線形変換する処理単位」がネットワーク状に結合した数理モデルです。入力の線形変換を含む処理単位において、これらユニットの入出力が結合しネットワークを構成している数理モデルがニューラルネットワークです。各ユニットは入力の線形変換を必ず含み、多くの場合それに後続する非線形変換を含みます。ユニットの構成やネットワークの構造は自在に設計できますので、様々なモデルが提唱されています。人工ニューラルネットワーク(artificial neural network)ともよばれます。
アルゴリズム(algorithm)
「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
Amarasinghe et al., Genome Biol., 2020
ロングリードデータ解析の総説です。「ベースコール技術自体が完全には確立されておらず、ニューラルネットワーク（neural network）に基づくアルゴリズムを中心に開発が進められている」は、Basecalling of nanopore reads is an area of active research, where algorithms are quickly evolving (neural networks have supplanted HMMs, and various neural networks structures are being tested.を根拠としています。
FAST5
ナノポアで得られるシーケンス結果ファイルの形式です。拡張子は.fast5です。
可視化(visualization)
人間が直接「見る」ことのできない現象・事象・関係性を「見る」ことのできるもの(画像・グラフ・図・表など)にすることです。
バイオインフォ(bioinfo)
バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
BulkVis：Payne et al., Bioinformatics, 2019
FAST5形式のファイルを読み込んで可視化するツールです。squiggle plot(横軸が時間、縦軸が電流の強さ)を描画します。リファレンスゲノムも読み込んで、リードのマップ状況を調べることもできます。
MinKNOW
ナノポア社提供の解析ソフトウェアです。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
squiggle plot
ナノポアの出力結果を「横軸が時間、縦軸が電流の強さ(current intensity)」として表したものです。
マッピング(mapping)
リードデータがゲノム配列上のどこに由来するかを調べる作業のことですが、実質的にはアラインメントと同じです。
リファレンス配列(reference sequence)
この場合は、マッピング対象のゲノム配列のことです。
BulkVis：Payne et al., Bioinformatics, 2019
FAST5形式のファイルを読み込んで可視化するツールです。squiggle plot(横軸が時間、縦軸が電流の強さ)を描画します。リファレンスゲノムも読み込んで、リードのマップ状況を調べることもできます。
ポア(pore)
一般名詞の意味でのナノポア(ナノスケールの細孔)のことです。
DNA配列(DNA sequences)
リンク先は「塩基配列」です。核酸の一種であるDNAにおいて、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
MinKNOW
ナノポア社提供の解析ソフトウェアです。
ナノポア(Nanopore)
この場合は、ナノポア社が提供する「分析対象である1本鎖DNA分子がナノポア内を通過すると、塩基の種類に応じて特徴的な電流の変化(ionic current fluctuation)が観測されるのを利用してロングリードデータを得るシーケンス技術」のことです。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
アダプター(adapter)
シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
squiggle plot
ナノポアの出力結果を「横軸が時間、縦軸が電流の強さ(current intensity)」として表したものです。
傍証(ぼうしょう)
直接の証拠ではないが、その証明力を増す間接の証拠のことです。
ロングリード(long read)
数千～数万塩基程度の長さをもつリードのことです。
デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
BulkVis論文中で、minimap2/miniasmと記載されているプログラムの原著論文
- minimap and miniasm：Li H., Bioinformatics, 2016
- minimap2：Li H., Bioinformatics, 2018
N50
リンク先は「N50, L50, and related statistics」です。N50は「全コンティグの総塩基数が50%に達したときのコンティグの長さ」です。SequelToolsでは、N50以外にL50も示されています。この他にも、デノボアセンブリ結果の性能評価を行うAssemblathon(Bradnam et al., Gigascience, 2013)という取り組みで提案されたNG50(長いコンティグから並べて推定ゲノムサイズの50%に達したときのコンティグ長)や、NGA50(リファレンスゲノムにマップされなかったコンティグを除外した上で得たNG50)といった指標なども存在します。
Li H., Bioinformatics, 2018
minimap2の原著論文です。
ベースコーラー(base caller)
塩基配列を決定するプログラムのことです。
この報告
BulkVis論文(Payne et al., Bioinformatics, 2019)のことです。
Halcyon：Konishi et al., Bioinformatics, 2020
ナノポア用ベースコールプログラムです。
DeepNano-blitz：Boža et al., Bioinformatics, 2020
ナノポア用ベースコールプログラムです。
URnano：Zhang et al., BMC Bioinformatics, 2020
ナノポア用ベースコールプログラムです。ベースコールを電流が時間変化しない領域ごとに分割するインスタンスセグメンテーション(instance segmentation)問題として考えるアルゴリズムが実装されています。
- Fig. 4
ベースコール(base call)
リンク先は「Base calling」です。1人がポジションごとに得られるA・C・G・Tそれぞれのシグナル強度の波形を読み取り、ポジションごとに最もシグナル強度が高い塩基(base)をコール(call)し、もう1人がそれを記録するという作業が昔行われていました。ベースコールという言葉はその名残です。
インスタンスセグメンテーション(instance segmentation)
リンク先は「Image segmentation」です。この場合は、ナノポアの出力結果を「横軸が時間、縦軸が電流の強さ(current intensity)」として表したものがsquiggle plotですが、この中で塩基が変わるところでうまく分割していくことです。一般的な説明としては、たとえば画像の中から顔(これがインスタンスに相当)の部分をうまく検出する(これがセグメンテーションに相当)ようなことだと理解すればよいです。
アルゴリズム(algorithm)
「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
Zhang et al., BMC Bioinformatics, 2020
ナノポア用ベースコールプログラム(URnano)の原著論文です。Fig. 4がsquiggle plotとベースコール結果の関係性が理解しやすいです。
深層学習(deep learninig)
リンク先は「ディープラーニング」です。対象の全体像から細部までの各々の粒度の概念を階層構造として関連させて学習する手法のことです。機械学習(Machine Learning)の1つです。

page020

1.7 ロングリード技術(その他)

第2世代シーケンサ(second-generation sequencer)
イルミナ社が製造しているような「大量のショートリードを出力するシーケンサのこと」です。かつて次世代シーケンサ(NGS)とよばれていたジャンルの、何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。
ロングリード(long read)
数千～数万塩基程度の長さをもつリードのことです。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
マルチプレックス解析(multiplex sequence analysis)
一度のランで多数の異なるサンプルを同時にシーケンスすることです。マルチプレックスシーケンス(multiplex sequence)ともいいます。
インサートサイズ(insert size)
ライブラリ中のインサート部分の長さのことです。
ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。

1.7.1 第2世代シーケンサ(ショートリード技術)の活用

第2世代シーケンサ(second-generation sequencer)
イルミナ社が製造しているような「大量のショートリードを出力するシーケンサのこと」です。かつて次世代シーケンサ(NGS)とよばれていたジャンルの、何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。
第3世代シーケンサ(third-generation sequencer)
パックバイオ社の一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術や、ナノポア社の技術に基づくロングリードが得られるシーケンサのことです。
ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
クローナルバーコーディング
コストの安い第2世代のショートリード技術をうまく活用して、第3世代並みのコンティグ長を得ることを目的とした技術の総称です。具体的には、以下の2つがあげられます。
- 合成ロングリード(synthetic long read; SLR)：比較的断片長が短いもの(～10 Kb程度)
- リンクドリード(linked-read)：比較的長いもの(50 Kb程度)
Chen et al., Genome Res., 2020
a single-tube Transposase Enzyme Linked Long-read Sequencing (TELL-seq) technologyの論文です。合成ロングリード(synthetic long read; SLR)やリンクドリード(linked-read)をクローナルバーコーディング(clonal-barcording)と総称しているのは、clonal-barcoding methods (e.g., synthetic long reads and and linked-reads…を根拠としています。ただし、実際の本文中には引用文献などが間に挟まっているので文章そのもので検索しても引っ掛かりません。「clonal-barcoding methods」で検索すると一意に場所が定まります。
共通する基本的なコンセプトは, …の文章について
この中で言及されている「小さなサブ断片」の長さが、通常ショートリードで取り扱われるインサートサイズに相当します。
バーコード(barcode)
同一DNA断片由来配列であることの確認などを目的とした識別目的のオリゴヌクレオチドのことです。「インデックス(index)」の説明内容と基本的に同じです。
ライブラリ(library)
この場合は、ライブラリ調製(試料をNGS機器にかけられる状態にする作業)後のDNA断片の集合を指します。
マルチプレックス解析(multiplex sequence analysis)
一度のランで多数の異なるサンプルを同時にシーケンスすることです。マルチプレックスシーケンス(multiplex sequence)ともいいます。
第2世代シーケンサ(second-generation sequencer)
イルミナ社が製造しているような「大量のショートリードを出力するシーケンサのこと」です。かつて次世代シーケンサ(NGS)とよばれていたジャンルの、何千万から何億といったオーダーのDNA分子の塩基配列を同時に決定する機器のことです。いわゆる第3世代シーケンサの技術や機器が出始めた頃に、第3世代との差別化という意味で、これまでNGSとよばれていた技術や機器が第2世代という位置づけになりました。
バーコード(barcode)
同一DNA断片由来配列であることの確認などを目的とした識別目的のオリゴヌクレオチドのことです。「インデックス(index)」の説明内容と基本的に同じです。
de-multiplexing
マルチプレックスシーケンスで得られた異なるサンプル由来のリードを、由来サンプルごとに振り分ける作業のことです。
デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
SLR
合成ロングリード(synthetic long read)のことです。
ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
アルゴリズム(algorithm)
「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
\(k\)-mer
1塩基ずつずらして得られる塩基数が\(k\)の部分配列のことです。たとえばGCCTTAというリードの配列に対して\(k\) \(= 3\)で\(k\)-merを得ると、GCCとCCTとCTTとTTAという計4種類の3-merが得られます。
グラフ理論(graph theory)
頂点(node)の集合と辺(edge)の集合で構成されるグラフに関する数学の理論のことです。頂点(node)と辺(edge)もこのリンク先です。頂点はノード、辺はエッジとも表現されます。たとえば駅の路線図の場合は、駅が頂点、路線が辺としてグラフで表すことができます。このように、「つながり方」に着目して抽象化された「点とそれらをむすぶ線」の概念がグラフであり、グラフがもつ様々な性質を探求するのがグラフ理論です。

1.7.2 デノボアセンブリ

図1.13
ショートリードを入力とした\(k\)-merに基づくデノボアセンブリのイメージです。
デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
\(k\)-mer
1塩基ずつずらして得られる塩基数が\(k\)の部分配列のことです。たとえばGCCTTAというリードの配列に対して\(k\) \(= 3\)で\(k\)-merを得ると、GCCとCCTとCTTとTTAという計4種類の3-merが得られます。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
イルミナ(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
アダプター(adapter)
シーケンスしたいDNA断片の両端につける、数十塩基程度の長さのオリゴヌクレオチドです。「アダプター配列」も「アダプター」も実質的に同じ意味です。
低クオリティ領域
リード中のPhredクオリティスコアが低い塩基の領域のことです。
QC
クオリティコントロール(quality control)の略です。リードファイルを入力として、アダプター配列や配列決定精度が低い領域とトリムして、その後の解析に支障をきたさないようにする作業のことです。「品質管理」のことです。QCの枠組みに、クオリティチェックや前処理が含まれます。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
グラフ構造(graph structure)
リンク先は「グラフ (データ構造)」です。この場合は、リード中の各k-merを頂点(node)、そして頂点間をその方向性にしたがって向きのある辺(edge)で結んだ構造のことです。
有向グラフ(directed graph)
リンク先は「グラフ理論」です。頂点間に方向性がある場合に、矢印を用いてその方向も示したグラフ構造のことです。

page021

図1.13
ショートリードを入力とした\(k\)-merに基づくデノボアセンブリのイメージです。
一筆書き(one stroke)
広義では「筆記具を平面から一度も離さず線図形を描く」ことです。狭義では、「筆記具を平面から一度も離さずに、同じ線を二度なぞらない（点で交差するのはかまわない）で平面から一度も離さず線図形を描く」ことです。
ハミルトンパス(Hamiltonian path)
リンク先は「ハミルトン路」です。すべての頂点を1回だけ通る経路のことです。
オイラーパス(Eulerian path)
リンク先は「オイラー路」です。すべての辺を1回だけ通る経路のことです。
長田直樹(著), 進化で読み解くバイオインフォマティクス入門, 森北出版
147～150ページ目あたりに記載があります。
\(k\)-mer
1塩基ずつずらして得られる塩基数が\(k\)の部分配列のことです。たとえばGCCTTAというリードの配列に対して\(k\) \(= 3\)で\(k\)-merを得ると、GCCとCCTとCTTとTTAという計4種類の3-merが得られます。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
のりしろ
一般的な説明としては、「紙などをはりあわせるとき、のりをつける部分」のことです。この場合は、異なるリードどうしを連結させていく際に考慮する一致塩基領域に相当します。
図1.13d
ショートリードを入力とした\(k\)-merに基づくデノボアセンブリのイメージです。(d)はデノボアセンブリによって得られるコンティグのイメージです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。

page022

図1.7
プライマーの特異性が低い場合の例です。
プライマー (primer)
アダプター配列のうち、インサートに隣接する部分です。片方をフォワードプライマー(forward primer)、そしてもう片方をリバースプライマー(reverse primer)といいます。シーケンス用プライマー(sequencing primer)とも表現されます。
バーコード(barcode)
同一DNA断片由来配列であることの確認などを目的とした識別目的のオリゴヌクレオチドのことです。「インデックス(index)」の説明内容と基本的に同じです。
SLR
合成ロングリード(synthetic long read)のことです。
キメラコンティグ(chimera contig)
リンク先は「キメラ」です。本来連結させるべきではない塩基配列どうしを連結させてできてしまったコンティグのことです。
ミスアセンブリ(mis-assembly)
デノボアセンブリの結果として、キメラコンティグを生成してしまうことです。
ヒトゲノム(human genome)
ヒトの全ゲノム配列のことです。
染色体(chromosome)
遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン（H2A, H2B, H3, H4）が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
イルミナ(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
TSLR
イルミナ社の製品(TruSeq)の枠組みでSLRの生データを得る手段です。TruSeq synthetic long readの略だと理解すればよいです。

1.7.3 リンクドリード技術

ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
ロングリード(long read)
数千～数万塩基程度の長さをもつリードのことです。
リンクドリード(linked read)
ショートリード技術を活用してロングリードを得る手段(技術)のことです。
リンクドリードは具体的な名称が様々(なので混乱しないように注意が必要)
- Bishara et al., Genome Res., 2015
  リードクラウド(read cloud)とよんでいる論文です。
- Chen et al., Genome Res., 2020
  リンクドリード(linked-read)またはスパースSLR(sparse SLR)とよんでいるTELL-seqの論文です。
TSLR
イルミナ社の製品(TruSeq)の枠組みでSLRの生データを得る手段です。TruSeq synthetic long readの略だと理解すればよいです。
10x Genomics
リンクドリードの技術で有名な、配列決定技術を設計および製造するアメリカのバイオテクノロジー企業です。
イルミナ(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
被覆率(カバレッジ; coverage)
リンク先は「Coverage (genetics)」です。コンセンサス配列を構築する際に、コンセンサス配列の長さの何倍の総塩基数を用いたかという情報です。コンセンサス配列よりも総塩基数が少ない情報だと、コンセンサス配列を作ることがそもそもできません。コンセンサス配列が100塩基だとすると、それを構築する際に用いた元の総塩基数が500塩基だとすると、被覆率は5倍といった具合で計算します。一見すると「卵が先かニワトリが先かという議論なのでは？」という印象を受けるかもしれませんが、たとえばゲノム配列決定の場面などではゲノムサイズを推定する方法が存在しますので、そのゲノム配列を決定したい場合にどの程度の総塩基数のデータであればどの程度確からしいゲノム配列が得られるかもわかるのです。被覆率と同じ意味で深度(depth)という言葉も用いられますので、たとえば低い被覆率(low coverage)と浅い深度(shallow depth)は同じ意味です。
被覆率(カバレッジ; coverage)
リンク先は「Coverage (genetics)」です。コンセンサス配列を構築する際に、コンセンサス配列の長さの何倍の総塩基数を用いたかという情報です。コンセンサス配列よりも総塩基数が少ない情報だと、コンセンサス配列を作ることがそもそもできません。コンセンサス配列が100塩基だとすると、それを構築する際に用いた元の総塩基数が500塩基だとすると、被覆率は5倍といった具合で計算します。一見すると「卵が先かニワトリが先かという議論なのでは？」という印象を受けるかもしれませんが、たとえばゲノム配列決定の場面などではゲノムサイズを推定する方法が存在しますので、そのゲノム配列を決定したい場合にどの程度の総塩基数のデータであればどの程度確からしいゲノム配列が得られるかもわかるのです。被覆率と同じ意味で深度(depth)という言葉も用いられますので、たとえば低い被覆率(low coverage)と浅い深度(shallow depth)は同じ意味です。
リンクドリード(linked read)
ショートリード技術を活用してロングリードを得る手段(技術)のことです。リンクドリードは具体的な名称が様々(なので混乱しないように注意が必要)です。
- Bishara et al., Genome Res., 2015
  リードクラウド(read could)とよんでいる論文です。
- Chen et al., Genome Res., 2020
  リンクドリード(linked-read)またはスパースSLR(sparse SLR)とよんでいるTELL-seqの論文です。
SLR
合成ロングリード(synthetic long reads)のことです。
リンクドリード(SSLR)と合成ロングリード(SLR)の違いの具体的なイメージ
リードクラウド論文(Bishara et al., Genome Res., 2015)のFig. 1です。前者(リンクドリード)が比較的断片長が長いもので、後者(合成ロングリード)が比較的短いものであることがよくわかります。
第1世代のリードデータ
第1世代シーケンサ(つまりサンガー法)で得られたリードデータのことです。
デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
オイラーパス(Eulerian path)
リンク先は「オイラー路」です。すべての辺を1回だけ通る経路のことです。
Pevznerらのグループの論文
- SPAdes：Bankevich et al., J Comput Biol., 2012
  第2世代のショートリード用のデノボアセンブリプログラムです。
- TruSPAdes：Bankevich and Pevzner, Nat Methods, 2016
  TruSPAdesのリンク先もSPAdesと同じです。SPAdes ver. 3.15.2が来訪時の最新版ですが、ver. 3.15以降からtruSPAdesは削除された(deprecated)ようですね。
- cloudSPAdes：Tolstoganov et al., Bioinformatics, 2019
  cloudSPAdesのリンク先もSPAdesと同じです。「cloudSPAdes is a module of the SPAdes assembler.」だそうです。cloudSPAdes中のcloudは、SPAdesをクラウド解析環境で行うという意味ではなく、リードクラウド用のSPAdesという意味です。
リンクドリード(linked read)
ショートリード技術を活用してロングリードを得る手段(技術)のことです。リンクドリードは具体的な名称が様々(なので混乱しないように注意が必要)です。
- Bishara et al., Genome Res., 2015
  リードクラウド(read could)とよんでいる論文です。
- Chen et al., Genome Res., 2020
  リンクドリード(linked-read)またはスパースSLR(sparse SLR)とよんでいるTELL-seqの論文です。
SSLR
スパースSLR(sparse synthetic long read)の略です。リンクドリードの別名という理解でよいです。
10x Genomics
- Next GEM技術
  10x Genomics社が提供する、おそらく最も有名なリンクドリード(SSLR用のライブラリ)技術です。
- Youtube動画：01 シングルセルへようこそ
Universal Sequencing Technology (UST)社
以下のTELL-seqという、広範囲にわたるサイズのゲノムのライブラリ調製を低コストかつ短時間で行える技術を提供する会社です。
TELL-seq：Chen et al., Genome Res., 2020
ライブラリ調製(library preparation)
典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合はシーケンシングライブラリとよばれ、これを配列決定することでリードの集合が生成されます。したがって、ライブラリ調製とは、配列決定したい試料をNGS機器にかけられる状態にする作業のことを指します。
バーコード(barcode)
同一DNA断片由来配列であることの確認などを目的とした識別目的のオリゴヌクレオチドのことです。「インデックス(index)」の説明内容と基本的に同じです。
cloudSPAdes：Tolstoganov et al., Bioinformatics, 2019
cloudSPAdesのリンク先もSPAdesと同じです。「cloudSPAdes is a module of the SPAdes assembler.」だそうです。cloudSPAdes中のcloudは、SPAdesをクラウド解析環境で行うという意味ではなく、リードクラウド用のSPAdesという意味です。

page023

1.8 ゲノム配列としての完成度を高める作業

デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
スカッフォールディング(scaffolding)
リンク先は「コンティグ」です。コンティグどうしの位置関係を定める作業のことです。
近接ライゲーション(proximity ligation)
空間上で近い場所に位置するゲノムの領域を固定化して同定する技術です。
光学マッピング(optical mapping)
直線状にしたDNA分子を制限酵素で断片化処理し、DNA分子ごとに断片化されたフラグメントの並びと長さの情報を光学顕微鏡で観測した結果を用いてスカッフォールディングに利用する技術です。
バイオインフォ(bioinfo)
バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。

1.8.1 スカッフォールディング(コンティグどうしの位置関係の決定)

リンクドリード(linked read)
ショートリード技術を活用してロングリードを得る手段(技術)のことです。
デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
TSLR
イルミナ社の製品(TruSeq)の枠組みでSLRの生データを得る手段です。TruSeq synthetic long readの略だと理解すればよいです。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
CCSモード
精度は高いが比較的短いHiFiリードを得る目的で、比較的短いインサート(～20 Kb)のライブラリを用いて行う、パックバイオのシーケンスオプションです。Circular Consensus Sequenceの略です。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
スカッフォールディング(scaffolding)
リンク先は「コンティグ」です。コンティグどうしの位置関係を定める作業のことです。
Tolstoganov et al., Bioinformatics, 2019
cloudSPAdes(リードクラウド用のデノボアセンブリプログラム)の論文です。
リファレンス配列(reference sequence)
この場合は、マッピング対象のゲノム配列のことです。
マッピング(mapping)
リードデータがゲノム配列上のどこに由来するかを調べる作業のことですが、実質的にはアラインメントと同じです。
図1.14
リンクドリードを用いたスカッフォールディング(scaffolding)のイメージです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
リンクドリード(linked read)
ショートリード技術を活用してロングリードを得る手段(技術)のことです。

page024

コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
スカッフォールド(scaffold)
コンティグどうしの位置関係を定めた結果として得られた、Nを多く含む配列の単位のことです。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
スカッフォールド(scaffold)
コンティグどうしの位置関係を定めた結果として得られた、Nを多く含む配列の単位のことです。
染色体(chromosome)
遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン（H2A, H2B, H3, H4）が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
生物種(species)
リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
生物(organism)
生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
リファレンスゲノム配列
研究対象生物種を代表する基準となるゲノム配列のことです。

1.8.2 バイオインフォの役割(高速化)

バイオインフォ(bioinfo)
バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
メモリ(memory)
リンク先は「主記憶装置」です。データを記憶する部品のことです。コンピュータが計算を実行する際に利用する、データを一時的に記憶する場所のことです。場所が大きいものほど「メモリが大きい」などと表現します。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
リファレンス配列(reference sequence)
この場合は、マッピング対象の塩基配列のことです。
シード(seed)
この場合は、リード中の部分配列のことです。感覚的には、k-merと似たようなものです。
ブロックソート(block sorting)
リンク先は「ブロックソート」です。Burrows-Wheeler変換(BWT)ともいいます。可逆変換の方式で、データ圧縮の前処理に応用されるアルゴリズムです。bzip2圧縮に実装されています。原理としては、長さnのデータを巡回シフトし、得られるすべての文字列を辞書順にソートします。このようにしてできたn×n行列の第n列を取り出したものが、BWT系列です。このBWT系列と、元(もと)の文字列がソートされた時行列の第何番目になったかを記憶しておくと、これから元(もと)の文字列を復号することができるのです。
BWT
Burrows-Wheeler変換の略です。ブロックソートと同じで、データ圧縮の前処理に応用されるアルゴリズムです。簡単に言えばマッピングを高速にする(文字列検索を高速にする)手段です。
アルゴリズム(algorithm)
「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
Ferragina-Manziniインデックス(FM-index)
リンク先は「FM-index」です。BWTに基づくリファレンス配列側の部分文字列インデックスです。接尾辞配列が分かるヒトは、それと似たようなアルゴリズムだという理解でよいです。
アラインメント(alignment)
リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
HISAT：Kim et al., Nat Methods, 2015
プログラムのリンク先はHISAT2です。HISAT2の原著論文はKim et al., Nat Biotechnol. 2019です。
スカッフォールディング(scaffolding)
リンク先は「コンティグ」です。コンティグどうしの位置関係を定める作業のことです。
リンクドリード(linked read)
ショートリード技術を活用してロングリードを得る手段(技術)のことです。
リファレンス(reference)
この場合は、マッピング対象の塩基配列のことです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
アラインメントフリー(alignment-free)
アラインメントを行わない、という意味です。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
Coombe et al., BMC Bioinformatics, 2018
スカッフォールディングを行うプログラム(scaffolderといいます)のうち、アラインメントを行わない(アラインメントフリーの)カテゴリに属するプログラムARKSの論文です。
\(k\)-mer
1塩基ずつずらして得られる塩基数が\(k\)の部分配列のことです。たとえばGCCTTAというリードの配列に対して\(k\) \(= 3\)で\(k\)-merを得ると、GCCとCCTとCTTとTTAという計4種類の3-merが得られます。
リードを\(k\)-mer化(“kmerization”)して取り扱う戦略の応用例
- Yagi et al., DNA Res., 2014
  ゲノムサイズ推定に利用しています。
- minimap and miniasm：Li H., Bioinformatics, 2016
  デノボアセンブリの前処理に利用しています。
マッピング(mapping)
リードデータがゲノム配列上のどこに由来するかを調べる作業のことですが、実質的にはアラインメントと同じです。
ARCS：Yeo et al., Bioinformatics, 2018
上記ARKS論文のグループが以前に開発した\(k\)-merベースでないscaffolderです。

1.8.3 近接ライゲーション

生物種(species)
リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
ゲノムサイズ(genome size)
(正確にはハプロイドゲノムだと思いますが)ある生物種がもつゲノムの総塩基数という理解でよいです。
バクテリア(bacteria)
リンク先は「細菌」です。正確には真正細菌です。古細菌・真正細菌・真核生物という分類学上の3つのドメインの1つ、あるいはそこに含まれる生物のことです。
パックバイオ(PacBio)
この場合は、パックバイオ社が提供する一分子リアルタイム(Single Molecule Real-Time; SMRT)シーケンス技術のことです。
ナノポア(Nanopore)
この場合は、ナノポア社が提供する「分析対象である1本鎖DNA分子がナノポア内を通過すると、塩基の種類に応じて特徴的な電流の変化(ionic current fluctuation)が観測されるのを利用してロングリードデータを得るシーケンス技術」のことです。
染色体レベル(chromosome level)
染色体一本まるまるつながるくらい長い、という意味です。ほぼ対義語はコンティグレベルであり、さらにぶちぶち断片化されたものがアセンブリ結果として得られるというイメージを持てばよいです。
リンクドリード(linked read)
ショートリード技術を活用してロングリードを得る手段(技術)のことです。
スカッフォールディング(scaffolding)
リンク先は「コンティグ」です。コンティグどうしの位置関係を定める作業のことです。
近接ライゲーション(proximity ligation)
空間上で近い場所に位置するゲノムの領域を固定化して同定する技術です。
光学マッピング(optical mapping)
直線状にしたDNA分子を制限酵素で断片化処理し、DNA分子ごとに断片化されたフラグメントの並びと長さの情報を光学顕微鏡で観測した結果を用いてスカッフォールディングに利用する技術です。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。

page025

DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
核(nuclear)
リンク先は「細胞核」です。真核生物の細胞を構成する細胞小器官の1つです。細胞の遺伝情報の保存と伝達を行い、ほぼすべての細胞に存在します。通常は単に核ということが多いです。細胞核は細胞の遺伝物質の大部分を含んでおり、複数の長い直鎖状のDNA分子が様々な種類のタンパク質(ヒストンなど)と複合体を形成することで、染色体が形成されています。
Putnam et al., Genome Res., 2016
スカッフォールディングに利用されている主な実験技術であるChicago法の論文です。
Hi-C法：Lieberman-Aiden et al., Science, 2009
近接ライゲーションの1つで、数メガベースという低い解像度で近接する領域を同定可能な実験技術です。
Chicago法：Putnam et al., Genome Res., 2016
近接ライゲーションの1つで、数百キロベースという高い解像度で近接する領域を同定可能な実験技術です。
ライブラリ(library)
典型的なシーケンシング実験では、ゲノムなどの試料は数百万の分子に断片化されてから、サイズ選択およびアダプターとのライゲーションが行われます。この断片の集合のことをシーケンシングライブラリまたは単にライブラリとよびます。したがってライブラリとは、NGS機器にかけられる状態にされた試料中のDNA断片のことです。
Chicago法：Putnam et al., Genome Res., 2016
近接ライゲーションの1つで、数百キロベースという高い解像度で近接する領域を同定可能な実験技術です。Figure 1Bが、「近接DNA領域が固定化された状況」を表しています。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
クロマチン(chromatin)
真核細胞内に存在するDNAとタンパク質の複合体のことです。ヒト2倍体細胞に納められているDNAの総延長はおよそ2 mに達します。これを直径約10 μmの核に収納するための構造がクロマチンです。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソーム(nucleosome)です。クロマチンは凝集の度合いによりヘテロクロマチン(heterochromatin)とユークロマチン(euchromatin)に分類されます。遺伝子密度が低い領域や遺伝子発現が抑制されている領域は、強く折りたたまれてヘテロクロマチンを形成する傾向にあります。一方、遺伝子の転写が活発な領域のクロマチンは比較的緩んでおり、ユークロマチンとよばれます。
塩基(base)
リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
制限酵素(restriction enzyme)
制限部位として知られるDNAの特定の配列部位の内部、あるいはその近くでDNAを特異的に切断する酵素の一種です。具体的には、エンドヌクレアーゼ(endonuclease)の一種です。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
キメラ(chimera)
この場合は、本来ゲノム配列上は隣り合っていないものの、空間的に近い位置にある領域どうしが連結された状態のものを指します。
ヌクレオソーム(nucleosome)
真核生物におけるDNAのパッケージングの基本的単位です。ヌクレオソームの構造は8つのヒストンタンパク質に巻き付いたDNA断片から構成され、概念的には糸巻きに巻き付いた糸に類似しています。クロマチンを構築するうえで最も基本となる構造が、ヌクレオソームです。各ヌクレオソームの8つのヒストンタンパク質はヒストン8量体とよばれ、その周囲には約1.65ターンのDNAが巻きついています。ヒストン8量体はヒストンH2A、H2B、H3、H4各2コピーずつから構成されます。
ライブラリ(library)
この場合は、ライブラリ調製(試料をNGS機器にかけられる状態にする作業)後のDNA断片の集合を指します。
スカッフォールディング(scaffolding)
リンク先は「コンティグ」です。コンティグどうしの位置関係を定める作業のことです。
イルミナ(Illumina)
出力する塩基あたりのコストや量の点で大きなシェアをもつNGSメーカーです。
PE
ペア―ドエンド(paired-end)の略で、イルミナのライブラリの両端からシーケンスを行うモードのことです。
図1.9
イルミナのペア―ドエンドシーケンスの概念図です。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
マップ(map)
マッピングのことです。
リードペア(read pair)
DNA断片の両端からシーケンスを行うペア―ドエンド(paired-end; PE)とよばれる塩基配列決定手段で得られた、同一DNA断片由来のリードのペアのことです。
Chicago論文(Putnam et al., Genome Res., 2016)
「おおむね全リードの70%弱がマップされ、異なるコンティグ上にマップされた有用なリードはそのうちの約35%である」は、We found that 68.1% of read pairs mapped such that…や、Of these read pairs, 35.4% had forward and reverse reads that mapped to different contigs…を根拠としています。なお、本文中の「実際に使えるのは20%強程度しかない」というのは、0.681×0.354 = 0.241という結果に基づきます。　
マッピング(mapping)
リードデータがゲノム配列上のどこに由来するかを調べる作業のことですが、実質的にはアラインメントと同じです。
制限酵素(restriction enzyme)
制限部位として知られるDNAの特定の配列部位の内部、あるいはその近くでDNAを特異的に切断する酵素の一種です。具体的には、エンドヌクレアーゼ(endonuclease)の一種です。
バイオインフォ(bioinfo)
バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
Chicago法：Putnam et al., Genome Res., 2016
近接ライゲーションの1つで、数百キロベースという高い解像度で近接する領域を同定可能な実験技術です。
Hi-C法：Lieberman-Aiden et al., Science, 2009
近接ライゲーションの1つで、数メガベースという低い解像度で近接する領域を同定可能な実験技術です。
制限酵素(restriction enzyme)
制限部位として知られるDNAの特定の配列部位の内部、あるいはその近くでDNAを特異的に切断する酵素の一種です。具体的には、エンドヌクレアーゼ(endonuclease)の一種です。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
認識配列
制限酵素が認識する配列のことです。たとえばMspIはCCGGという4塩基を、そしてMseIはTTAAという4塩基を認識します。
Dovetail Genomics社
Chicago法(Putnam et al., Genome Res., 2016)を開発した会社です。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
エンドヌクレアーゼ(endonuclease)
リンク先は「ヌクレアーゼ」です。核酸配列の内部(endo-)で核酸を切断する酵素(核酸分解酵素)で、糸を途中で切るように核酸を切断します。制限酵素は代表的なエンドヌクレアーゼです。
Omni-C
Chicago法の改良版という位置づけの実験手法です。DNAの断片化手段としてエンドヌクレアーゼ(endonuclease)という核酸分解酵素を採用しているので、制限酵素に起因するバイアスがないという特徴があります。
リード(read)
ある単一のDNA断片の全体または一部に対応する塩基対(または塩基対の確率)の推定配列のことです。ざっくりいえば、シーケンサから得られた塩基配列のことです。
ベンチマーク(benchmark)
その性能を基準として良し悪しを比較する対象という意味で用いています。
Hi-C法：Lieberman-Aiden et al., Science, 2009
近接ライゲーションの1つで、数メガベースという低い解像度で近接する領域を同定可能な実験技術です。
染色体(chromosome)
遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン（H2A, H2B, H3, H4）が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
スカッフォールディング(scaffolding)
リンク先は「コンティグ」です。コンティグどうしの位置関係を定める作業のことです。
リンクドリード(linked read)
ショートリード技術を活用してロングリードを得る手段(技術)のことです。
反復配列(repetitive sequence)
リピート配列またはリピート(repeat)ともよばれます。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。たとえば、「CACACA…のような数塩基からなる同じ配列が延々と繰り返す長い領域」のことです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
オリエンテーション(orientation)
この場合は、「コンティグの位置関係」のことです。たとえば、3つのコンティグAとBとCがあった場合に、A-B-Cという並びなのか、A-C-Bという並びなのか、はたまたB-A-Cという並びなのかといったことです。スカッフォールディングで得た結果に相当します。
制限酵素(restriction enzyme)
制限部位として知られるDNAの特定の配列部位の内部、あるいはその近くでDNAを特異的に切断する酵素の一種です。具体的には、エンドヌクレアーゼ(endonuclease)の一種です。
PCR増幅(PCR amplification)
リンク先は「ポリメラーゼ連鎖反応」です。DNAサンプルの特定領域を数百万〜数十億倍に増幅させるPCR技術を用いてDNA量を増幅させることです。
PCR増幅に起因する偏り
この場合は、GCバイアス(適度なGC含量の断片は増幅されるが、それよりも高くても低くても増幅されにくくなるという偏りのこと)を念頭においています。
ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。
HiC-Hiker：Nakabayashi and Morishita, Bioinformatics, 2020
Hi-Cデータを用いてスカッフォールディングを行うプログラムです。
Bichhart et al., Nat Genet., 2017
「スカッフォールディング結果には一定の割合でミスアセンブリが含まれる」の根拠として挙げたヤギゲノム解読論論文です。100%うまくいったと書かれていない限り成立するロジックではありますが、論文中のScaffolding technology comparisonsという節を見れば、相場観がわかると思います。

page026

バイオインフォ(bioinfo)
バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
近接ライゲーション(proximity ligation)
空間上で近い場所に位置するゲノムの領域を固定化して同定する技術です。
FAN-C：Kruse et al., Genome Biol., 2020
Hi-C用の可視化ツールです。
アセンブリ結果
この場合は、デノボアセンブリによってコンティグを得るというよりも、よりよいスカッフォールディング結果を得るという意味合いのほうが濃いです。

1.8.4 光学マッピング

光学マッピング(optical mapping)
直線状にしたDNA分子を制限酵素で断片化処理し、DNA分子ごとに断片化されたフラグメントの並びと長さの情報を光学顕微鏡で観測した結果を用いてスカッフォールディングに利用する技術です。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
Schwartz et al., Science, 1993
光学マッピング(optical mapping)の原著論文です。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
プレート(plate)
この場合は「まな板」のようなものをイメージすればよいです。
制限酵素(restriction enzyme)
制限部位として知られるDNAの特定の配列部位の内部、あるいはその近くでDNAを特異的に切断する酵素の一種です。具体的には、エンドヌクレアーゼ(endonuclease)の一種です。
フラグメント(fragment)
フラグメント自体は、断片という意味です。この場合は、断片化されたDNAのことです。
光学顕微鏡(optical microscope)
可視光線および近傍の波長域の光を利用する、顕微鏡の一種です。単に顕微鏡という場合、これを指します。
光学マップ(optical map)
DNA分子ごとに断片化されたフラグメントの並びと長さの情報を光学顕微鏡で観測したものです。
ベクトル(vector)
集合を構成する個々の数学的対象のことを数学の世界では「元(げん)」といいます。ベクトルは、この元(element)からなる集まりの成す数学的構造です。厳密に説明するとかえってややこしいですが、たとえば空間上のある位置を表現したいときは、\(x\)軸・\(y\)軸・\(z\)軸という\(3\)つ組の数値を提示せねばならないと考えればよいです。これは\((x, y, z)\)のように表現できますが、これがベクトルです。
光学マップ(optical map)
DNA分子ごとに断片化されたフラグメントの並びと長さの情報を光学顕微鏡で観測したものです。
図1.15
光学マップ計算例とその情報を利用したスカッフォールディング(scaffolding)例です。7つの制限酵素認識部位は、ベクトルの要素が8個なので1を引いた結果として得られます。60塩基長は、ベクトルの要素の総和として得られます。
制限酵素(restriction enzyme)
制限部位として知られるDNAの特定の配列部位の内部、あるいはその近くでDNAを特異的に切断する酵素の一種です。具体的には、エンドヌクレアーゼ(endonuclease)の一種です。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
ベクトル(vector)
集合を構成する個々の数学的対象のことを数学の世界では「元(げん)」といいます。ベクトルは、この元(element)からなる集まりの成す数学的構造です。厳密に説明するとかえってややこしいですが、たとえば空間上のある位置を表現したいときは、\(x\)軸・\(y\)軸・\(z\)軸という\(3\)つ組の数値を提示せねばならないと考えればよいです。これは\((x, y, z)\)のように表現できますが、これがベクトルです。
認識配列
制限酵素が認識する配列のことです。たとえばMspIはCCGGという4塩基を、そしてMseIはTTAAという4塩基を認識します。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
スカッフォールディング(scaffolding)
リンク先は「コンティグ」です。コンティグどうしの位置関係を定める作業のことです。
in silico（インシリコと読む）に関連した話
生命科学分野では、「試験管内で」をin vitro、そして「生体内で」をin vivoと表現します。
in silico digestion
既知の塩基配列をコンピュータ内で制限酵素処理する作業のことです。実際の作業は、塩基配列を入力として与え、制限酵素認識配列で文字列検索し、ヒットした箇所で分割するようなイメージです。
Leinonen and Salmela, BMC Bioinformatics, 2020
光学マップ(optical map)情報を用いたデノボアセンブリ(正確にはコンティグのスカッフォールディング)を行うプログラムOPTICALKERMITの論文です。(本稿は2020年末～2021年初頭にかけて仕上げたものなので2020年の論文が多いですが)より新しいものとしてはHGGA(Walve and Salmela, BMC Bioinformatics, 2022)などがあげられます。私はこの論文で初めて知ったのですが、アセンブリ結果の評価指標として、NGA50(リファレンスゲノムにマップされなかったコンティグを除外した上で得たNG50)というものがあるようです。NG50はN50やL50のリンク先でも紹介されていますが、長いコンティグから並べて推定ゲノムサイズの50%に達したときのコンティグ長です。デノボアセンブリ結果の性能評価を行うAssemblathon(Bradnam et al., Gigascience, 2013)という取り組みで提案された指標のようです。
スカッフォールディング(scaffolding)
リンク先は「コンティグ」です。コンティグどうしの位置関係を定める作業のことです。
光学マップ(optical map)
DNA分子ごとに断片化されたフラグメントの並びと長さの情報を光学顕微鏡で観測したものです。
リファレンス(reference)
この場合は、マッピング対象の塩基配列のことです。
ベクトル(vector)
集合を構成する個々の数学的対象のことを数学の世界では「元(げん)」といいます。ベクトルは、この元(element)からなる集まりの成す数学的構造です。厳密に説明するとかえってややこしいですが、たとえば空間上のある位置を表現したいときは、\(x\)軸・\(y\)軸・\(z\)軸という\(3\)つ組の数値を提示せねばならないと考えればよいです。これは\((x, y, z)\)のように表現できますが、これがベクトルです。
マップ(map)
マッピングのことです。
アラインメント(alignment)
リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
前処理(preprocessing)
この場合は、正しくマッピングできるようにデータの一部をトリムする作業のことを指します。コンティグの両端が常に当該の制限酵素認識部位であるとは限らない(むしろそうでないと考えねばなりません)ので、得られた数値ベクトルの中でアラインメント(つまり数値ベクトルどうしの比較)可能なのは、コンティグ内で当該の制限酵素認識部位をギリギリ含む最左端から最右端なのです。数値ベクトルの最初と最後の要素を除くというのは、その具体的な作業ということになります。
光学マッピング(optical mapping)
直線状にしたDNA分子を制限酵素で断片化処理し、DNA分子ごとに断片化されたフラグメントの並びと長さの情報を光学顕微鏡で観測した結果を用いてスカッフォールディングに利用する技術です。
ロングリード(long read)
数千～数万塩基程度の長さをもつリードのことです。
Yuan et al., Comput Struct Biotechnol J., 2020
光学マップのゲノム解析への適用に関する総説です。この論文ではBionano Genomics社の光学マッピング技術であるDLSのことをDirect Label and Strainとしていますが、これはスペルミスです。正確にはDirect Label and Stainです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
ロングリード(long read)
数千～数万塩基程度の長さをもつリードのことです。
光学マップ(optical map)
DNA分子ごとに断片化されたフラグメントの並びと長さの情報を光学顕微鏡で観測したものです。
アラインメント(alignment)
リンク先は「シーケンスアラインメント」です。手元に複数の塩基配列(またはアミノ酸配列)があったときに、類似した領域を特定できるように並べたもの(または並べること)です。
アルゴリズム(algorithm)
「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
光学マッピング(optical mapping)
直線状にしたDNA分子を制限酵素で断片化処理し、DNA分子ごとに断片化されたフラグメントの並びと長さの情報を光学顕微鏡で観測した結果を用いてスカッフォールディングに利用する技術です。
Bionano Genomics社
Direct Label and Stain(DLS)という光学マッピング技術を提供しています。
解像度(resolution)
ビットマップ画像における画素の密度を示す数値のことです。画像を表現する格子の細かさを解像度と呼び、一般に1インチをいくつに分けるかという分割数で表します。

page027

図1.15
光学マップ計算例とその情報を利用したスカッフォールディング(scaffolding)例です。7つの制限酵素認識部位は、ベクトルの要素が8個なので1を引いた結果として得られます。60塩基長は、ベクトルの要素の総和として得られます。
HD-Mapping技術：Passera et al., Microbiol Res., 2021
Nabsys社の技術です。
Hi-C法：Lieberman-Aiden et al., Science, 2009
近接ライゲーションの1つで、数メガベースという低い解像度で近接する領域を同定可能な実験技術です。
Giani et al., Comput Struct Biotechnol J., 2019
ゲノムアセンブリの総説です。Fig. 3がスカッフォールディングを行う全体的なイメージ図としてわかりやすいです。
例題1.1
1ページ目が問題、2ページ目以降が解答例です。Rでのやり方は、左記目次の下部にある付録のR1.080とR1.090で解説してます。

page028

1.9 アセンブリ結果の評価

ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
ゲノムアセンブリ(genome assembly)
デノボアセンブリなどの手段を用いてゲノム配列決定を行うことです。
相同性(ホモロジー; homology)
リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例：ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
オーソログ(ortholog)
オーソロガスな遺伝子そのもののことで、名詞です。
コピー数(copy number)
ざっくりいうと、ゲノム中に同一遺伝子がいくつ存在するかという数のことです。

1.9.1 配列の相同性

リファレンスゲノム配列
研究対象生物種を代表する基準となるゲノム配列のことです。
ゲノムサイズ(genome size)
(正確にはハプロイドゲノムだと思いますが)ある生物種がもつゲノムの総塩基数という理解でよいです。
植物(plant)
草や木などのように、根があって場所が固定されて生きているような生物のことです。対義語は動物です。
Staňková et al., Plant Biotechnol J., 2016
光学マッピングを用いた植物ゲノムアセンブリの論文です。
N50
リンク先は「N50, L50, and related statistics」です。N50は「全コンティグの総塩基数が50%に達したときのコンティグの長さ」です。SequelToolsでは、N50以外にL50も示されています。この他にも、デノボアセンブリ結果の性能評価を行うAssemblathon(Bradnam et al., Gigascience, 2013)という取り組みで提案されたNG50(長いコンティグから並べて推定ゲノムサイズの50%に達したときのコンティグ長)や、NGA50(リファレンスゲノムにマップされなかったコンティグを除外した上で得たNG50)といった指標なども存在します。
デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
近縁(closely related)
生物で分類上非常に近い関係にあることです。一般には「界/門/綱/目/科/属/種」という分類体系で同じ属のものを指します。似た言葉に類縁がありますが、これは近縁よりも対象がより広がっているイメージをもつとよいと思います。つまり、近縁は類縁の部分集合です(近縁\(\subset\)類縁)。
生物種(species)
リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
比較ゲノム(comparative genomics)
リンク先は「比較ゲノミクス」です。異なる生物の間でゲノムの構造を比較することにより、それらの進化上の関係、および進化の過程を推定する研究のことです。
遺伝子(gene)
大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
Simão et al., Bioinformatics, 2015
Benchmarking Universal Single-Copy Orthologs (BUSCO)プログラムの論文です。生物種によらず必須の機能をもつ遺伝子の配列は、新規に決定されたゲノム配列中でも完全な形で含まれているはずだという考えに立脚したアセンブリ結果の評価体系です。
血液(blood)
動物の体内を巡る主要な体液で、全身の細胞に栄養分や酸素を運搬し、二酸化炭素や老廃物を運び出すための媒体です。
動物(animal)
生物学における生物の分類群の1つです。かつて生物は、感覚と運動能力によって植物と動物に大別されていましたが、動物はヘッケルによって多細胞性の後生動物と単細胞性の原生動物に分けられました。ホイッタカーによる五界説では、この後生動物のみを動物界(Animalia)として扱い、これを「動物」として扱うことが一般的です。
肺(lung)
脊椎動物の器官の1つであり、肺臓ともよばれます。空気中から得た酸素を体内に取り込んだり、老廃物である二酸化炭素を空気中に排出したりする役割をもちます。
酸素(oxygen)
原子番号8の元素です。元素記号はO、原子量は16.00です。この場合は酸素分子O₂の文脈で用いています。これは、常温常圧では無色無臭で助燃性をもつ気体として存在します。
タンパク質(protein)
20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
ヘモグロビン(hemoglobin; Hb)
ヒトを含むすべての脊椎動物や一部のその他の動物の血液中に見られる赤血球の中に存在するタンパク質です。1960年頃にはアミノ酸配列が決定されています。
トラ(tiger)
哺乳綱食肉目ネコ科ヒョウ属に分類される食肉類です。
柴犬(shiba inu)
日本原産の日本犬の一種です。「しばいぬ」や「しばけん」とよばれます。
共通祖先(common descent)
全生物種の系統樹を描いたときに、一番根っこ部分にある生物種のことだという理解でよいと思います。
相同性(ホモロジー; homology)
リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例：ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
相同遺伝子(homolog)
共通祖先に由来する遺伝子どうしのことです。

1.9.2 オーソログとパラログ

共通祖先(common descent)
全生物種の系統樹を描いたときに、一番根っこ部分にある生物種のことだという理解でよいと思います。
遺伝子(gene)
大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
相同性(ホモロジー; homology)
リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例：ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
オーソロジー(orthology)
生物種間の相同性のことです。名詞です。
パラロジー(paralogy)
生物種内の相同性のことです。名詞です。
相同遺伝子(homolog)
共通祖先に由来する遺伝子どうしのことです。
種分化(speciation)
新しい生物学的種が誕生する進化プロセスの1つであり、種形成ともいいます。
オーソロガス(orthologous)
生物種間で相同性がある遺伝子どうしの様子のことで、形容詞です。
オーソログ(ortholog)
オーソロガスな遺伝子そのもののことで、名詞です。
生物種(species)
リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
遺伝子重複(gene duplication)
遺伝子を含むDNAのある領域が重複する現象のことです。遺伝子重複によって生じた2つの遺伝子はパラログ(paralog)とよばれます。異なる生物に存在する相同な機能を持った遺伝子群であるオーソログ(ortholog)もこのリンク先になります。
DNA
デオキシリボ核酸(deoxyribonucleic acid)のことです。デオキシリボース(五炭糖)とリン酸、塩基から構成される核酸です。地球上の多くの生物において、遺伝情報の継承と発現を担う高分子生体物質です。2-デオキシリボースの1’位に塩基が結合したものをデオキシヌクレオシド、このデオキシヌクレオシドの2-デオキシリボースの5’位にリン酸が結合したものをデオキシヌクレオチドといいます。ヌクレオチドは核酸の最小単位(モノマー)であり、DNAはデオキシヌクレオチドのポリマーです。
染色体(chromosome)
遺伝情報の発現と伝達を担う生体物質です。塩基性の色素でよく染色されることから、1888年にヴィルヘルム・フォン・ヴァルデヤーによってChromosomeと名付けられました。染色体の最も基本な構成要素は、DNAとヒストンです。分裂期の染色体は一対の姉妹染色分体から構成され、それぞれの染色分体には長いDNA1分子が含まれています。DNAは酸性であり、塩基性タンパク質のヒストンとの親和性が高いです。DNAとヒストンの重量比は、ほぼ1:1です。染色体の最も基本的な構造はヌクレオソームです。4種のコアヒストン（H2A, H2B, H3, H4）が2つずつ集まってヒストン8量体を形成し、146 bpの2重鎖DNAを左巻きに巻きつけています。
パラロガス(paralogous)
生物種内で相同性がある遺伝子どうしの様子のことで、形容詞です。
パラログ(paralog)
パラロガスな遺伝子そのもののことで、名詞です。
図1.16
オーソログとパラログの図です。
ヘモグロビン(hemoglobin; Hb)
ヒトを含むすべての脊椎動物や一部のその他の動物の血液中に見られる赤血球の中に存在するタンパク質です。1960年頃にはアミノ酸配列が決定されています。
サブユニット(subunit)
他のタンパク質と会合して多量体タンパク質やオリゴマータンパク質を形成する単一のタンパク質分子のことです。
パラログ(paralog)
パラロガスな遺伝子そのもののことで、名詞です。
遺伝子重複(gene duplication)
遺伝子を含むDNAのある領域が重複する現象のことです。遺伝子重複によって生じた2つの遺伝子はパラログ(paralog)とよばれます。異なる生物に存在する相同な機能を持った遺伝子群であるオーソログ(ortholog)もこのリンク先になります。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
ゲノム重複(genome duplication)
ゲノム全体が重複するようなイベントのことです。遺伝子重複の大規模版という理解でよいです。
DePamphilis ML., Curr Top Dev Biol., 2016
ゲノム重複に関する総説です。
バイオインフォ(bioinfo)
バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
Lallemand et al., Genes, 2020
重複遺伝子を発見するツールの総説です。
DB
データベースのことです。
OrthoDB：Waterhouse et al., Nucleic Acids Res., 2013
オーソログの情報を収集したデータベースOrthoDBの論文です。

page029

図1.16
オーソログとパラログの図です。
ゲノムアセンブリ(genome assembly)
デノボアセンブリなどの手段を用いてゲノム配列決定を行うことです。
OrthoDB：Waterhouse et al., Nucleic Acids Res., 2013
オーソログの情報を収集したデータベースOrthoDBの論文です。
生物種(species)
リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
オーソログ(ortholog)
生物種間で相同性がある遺伝子どうしのことです。
BUSCO：Simão et al., Bioinformatics, 2015
BUSCO (Benchmarking Universal Single-Copy Orthologs)は、OrthoDBが提供している様々な生物種のゲノム中で1か所にしか存在しない単一コピーのオーソログ(single-copy ortholog)情報を用いて、それらがどれだけ完全な形で含まれているかを調べる枠組みです。もちろん生物は脊椎動物(vertebrate)・節足動物(arthropod)・菌類(fungi)などの総称であるため、共通の祖先から進化した系統群(clade)ごとにオーソログを分けて考える必要があります。
生物(organism)
生命現象を示す自然物のことです。動物・菌類・植物・原生生物・古細菌・細菌などの総称です。多くの場合ウイルスを含めませんが、立場によっては含めることもあります。
脊椎動物(Vertebrata)
動物の分類のひとつで、後口動物の脊索動物門に属する単系統群です。哺乳類、鳥類、爬虫類、両生類、魚類からなる系統群です。
節足動物(Arthropod)
昆虫類・甲殻類・クモ類・ムカデ類など、外骨格と関節を持つ動物を含んだ分類群です。分類学上は節足動物門とされています。動物界最大かつ多様性の最も高い動物門であり、現生種は全動物種の85%以上を占め、約110万種が記載されています。
菌類(fungi)
広義には細菌類、卵菌類、変形菌類および真菌類をまとめて指す用語です。狭義には真菌類を指します。
進化(evolution)
生物の形質が世代を経る中で変化していく現象のことです。
系統群(clade)
リンク先は「分岐群」です。ある共通の祖先から進化した生物すべてを含む生物群のこと。分岐分類学における単系統群(monophyletic group)、進化分類学における完系統群(holophyletic group)と同じです。
系統(lineage)
進化してきた道筋が同じ生物種の集まりという理解でよいです。
Rotenberg et al., BMC Biol., 2020
論文自体は、作物害虫(crop pest)であるアザミウマ(thrips)という昆虫に関するものです。BUSCOを利用している論文例として挙げています。

1.10 ゲノムアノテーション(構造アノテーション)

遺伝子(gene)
大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
プロモータ(promoter)
遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
DB
データベースのことです。
スカッフォールディング(scaffolding)
リンク先は「コンティグ」です。コンティグどうしの位置関係を定める作業のことです。
反復配列(repetitive sequence)
リピート配列またはリピート(repeat)ともよばれます。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。たとえば、「CACACA…のような数塩基からなる同じ配列が延々と繰り返す長い領域」のことです。

1.10.1 様々な役割を果たすゲノム中の領域

ゲノム解析(genome analysis)
ゲノムの塩基配列に基づく解析全般を指す言葉です。ゲノム配列決定や比較ゲノムなどもすべてゲノム解析の部分集合といえます。
アノテーション(annotation)
この場合は、塩基配列に対して生物学的意味を注釈付けすることです。
- 構造アノテーション(structural annotation)
  塩基配列から遺伝子領域を見つける作業です。
- 機能アノテーション(functional annotation)
  遺伝子領域が果たす役割に関する情報を付加する作業です。
谷澤ら, 日本乳酸菌学会誌, 28:3-11, 2017
NGS連載第9回です。
BUSCO：Simão et al., Bioinformatics, 2015
生物種によらず必須の機能をもつ遺伝子の配列は、新規に決定されたゲノム配列中でも完全な形で含まれているはずだという考えに立脚したアセンブリ結果の評価体系(プログラム)です。
オーソログ(ortholog)
生物種間で相同性がある遺伝子どうしのことです。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
遺伝子(gene)
大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
タンパク質(protein)
20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
RNA
リボ核酸(ribonucleic acid)のことです。リボースを糖成分とする核酸です。リボヌクレオチドが多数重合したもので、1本鎖をなし、アデニン(A)、グアニン(G)、シトシン(C)、ウラシル(U)の4種の塩基を含みます。一般にDNA(デオキシリボ核酸)を鋳型として合成され、その遺伝情報の伝達やタンパク質の合成を行います。
アミノ酸(amino acid)
広義には、アミノ基とカルボキシ基の両方の官能基を持つ有機化合物の総称です。狭義には、生体のタンパク質の構成ユニットとなる「α-アミノ酸」のことを指します。α-アミノ酸は、カルボキシ基が結合している炭素(α炭素)にアミノ基も結合しているアミノ酸であり、RCH(NH₂)COOH という構造をもちます。このうちRに相当する部分は側鎖とよばれます。
翻訳(translation)
mRNAの情報に基づいて、タンパク質を合成する反応のことです。
protein-coding gene
タンパク質に翻訳されるほうの遺伝子です。「coding sequence (CDS)」、「コード領域」、「コーディング領域」ともよばれます。
noncoding gene
翻訳されずにRNAのままで機能する遺伝子です。「ノンコーディングRNA (ncRNA)」とよばれます。
翻訳(translation)
mRNAの情報に基づいて、タンパク質を合成する反応のことです。
ノンコーディングRNA(non-coding RNA; ncRNA)
翻訳されずにRNAのままで機能する遺伝子です。
非翻訳領域(untranslated region; UTR)
転写はされるがタンパク質に翻訳されない領域のことです。タンパク質に翻訳される領域(coding sequence; CDS)の上流側（5’側）のUTRを5’UTRといい、下流側を3’UTRといいます。

page030

非翻訳領域(untranslated region; UTR)
転写はされるがタンパク質に翻訳されない領域のことです。タンパク質に翻訳される領域(coding sequence; CDS)の上流側（5’側）のUTRを5’UTRといい、下流側を3’UTRといいます。
ncRNA
ノンコーディングRNA(non-coding RNA)のことです。翻訳されずにRNAのままで機能する遺伝子です。
タンパク質(protein)
20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
テンプレート(template)
この場合は、タンパク質を合成する際に必要な鋳型という意味です。
成熟mRNA(mature mRNA)
リンク先は「伝令RNA」です。蛋白質に翻訳され得る塩基配列情報と構造を持ったRNAのことです。イントロンを持たない、いわゆる通常のmRNAのことです。mRNA前駆体(mRNA precursor)は、スプライシングなどの様々な加工を受けて成熟した mRNA になる前のRNA分子を指します。
CDS
リンク先は「コーディング領域」です。coding sequenceの略です。タンパク質に翻訳される領域のことです。
転写(transcription)
一般に染色体またはオルガネラのDNAの塩基配列(遺伝子)を元に、RNAが合成されることです。
5’UTR
TSSから翻訳開始点(CDSの5’端)の直前までの領域のことです。UTRは、untranslated regionの略です。
TSS
リンク先は「転写 (生物学)」です。転写開始点(transcription start site)の略です。RNAの転写が開始される部位のことであり、転写されたRNAの1番目の塩基の位置に相当します。
開始コドン(start codon)
mRNA上でタンパク質の合成開始を指定するコドンのことです。
シャイン・ダルガノ配列(SD配列)
原核生物のmRNAにおいて、開始コドンの上流に見られる共通配列です。SD配列ともいいます。AGGAGG-のようにプリン塩基(アデニン・グアニン)に富んだ3ないし9塩基(平均4.8塩基)の長さの配列となっています。
コザック配列(Kozak sequence)
真核生物のmRNAに出現する共通配列であり、主に翻訳の開始に関与しています。ただし厳密な共通配列ではなく、不一致のあることも非常に多いです。
mRNA前駆体
スプライシングなどの様々な加工を受けて成熟したmRNAになる前のRNA分子のことです。
エクソン(exon)
デオキシリボ核酸(DNA)またはリボ核酸(RNA)の塩基配列中で成熟mRNAに残る部分です。
イントロン(intron)
転写はされるが最終的に機能する転写産物からスプライシングによって除去される塩基配列のことです。
スプライシング(splicing)
ある直鎖状ポリマーから一部分を取り除き、残りの部分を結合することです。
非翻訳領域(untranslated region; UTR)
転写はされるがタンパク質に翻訳されない領域のことです。タンパク質に翻訳される領域(coding sequence; CDS)の上流側（5’側）のUTRを5’UTRといい、下流側を3’UTRといいます。
構造アノテーション(structural annotation)
塩基配列から遺伝子領域を見つける作業です。
遺伝子(gene)
大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
プロモータ(promoter)
遺伝子の転写制御を行う領域(regulatory region)です。プロモータに基本転写因子が結合して転写が始まります。
トランスポゾン(transposon)または転移因子(transposable element; TE)
ゲノム上の位置を転移(transposition)することができる領域です。
偽遺伝子(pseudogene)
通常の遺伝子領域と塩基配列は類似しているが機能をもたない領域です。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
Ejigu and Jung, Biology, 2020
ゲノムアノテーションの総説です。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
ヘモグロビン(hemoglobin; Hb)
ヒトを含むすべての脊椎動物や一部のその他の動物の血液中に見られる赤血球の中に存在するタンパク質です。1960年頃にはアミノ酸配列が決定されています。
エクソン(exon)
デオキシリボ核酸(DNA)またはリボ核酸(RNA)の塩基配列中で成熟mRNAに残る部分です。
イントロン(intron)
転写はされるが最終的に機能する転写産物からスプライシングによって除去される塩基配列のことです。
ncRNA
ノンコーディングRNA(non-coding RNA)のことです。翻訳されずにRNAのままで機能する遺伝子です。
- リボソームRNA(ribosomal RNA; rRNA)
- 転移RNA(transfer RNA; tRNA)
- …
ゲノムアノテーション(genome annotation)
ゲノム配列に対してアノテーションを行うことです。ゲノム解析系の分野では、「アノテーション」で通じます。
フィーチャ(feature)
アノテーションがつけられるゲノム上の各領域のことを指す用語です。
アノテーション(annotation)
この場合は、塩基配列に対して生物学的意味を注釈付けすることです。
偽遺伝子(pseudogene)
通常の遺伝子領域と塩基配列は類似しているが機能をもたない領域です。
パラログ(paralog)
生物種内で相同性がある遺伝子どうしのことです。
遺伝子(gene)
大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
機能遺伝子(functional gene)
偽遺伝子とかではなく、何らかの機能を果たしているほうの遺伝子のことです。たとえばタンパク質コード遺伝子があげられます。
Pei et al., Genome Biol., 2012
GENCODEの偽遺伝子の総説です。ある領域が偽遺伝子だったとすると、通常は「それと類似した配列をもつ機能をもった遺伝子領域」がパラログとして存在します。この機能しているほうの遺伝子は、機能遺伝子(functional gene)、「偽遺伝子の機能しているほうのパラログ(functional paralog of pseudogene)」、「親遺伝子(parent gene)」などと表現されます。
バイオインフォ(bioinfo)
バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
表記の揺れに関してバイオインフォ側もそれなりの知識を得ておかねばならない例
たとえば、ゲノム上の「特定の領域」を指す言葉として、他に「location」や「Genomic loci (またはlocus)」や「遺伝子座(locus)」や「ローカス」などが存在することなどをあらかじめ知っておけば、利用したいアノテーションプログラムのマニュアルも解読しやすいでしょう。

1.10.2 アノテーションの入出力と参照DBの役割

アノテーション(annotation)
この場合は、塩基配列に対して生物学的意味を注釈付けすることです。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
FASTA形式(FASTA format)
リンク先は「FASTA format」です。シーケンスデータの代表的な記述形式です。1つのシーケンスのデータは、“>”で始まる1行のヘッダ行と、2行目以降の実際のシーケンス文字列で構成されます。複数の遺伝子配列情報が1つのファイルに格納されているのでmulti-FASTAとよばれることもあります。しかし、今の時代は1つの配列情報のみからなるsingle-FASTAファイルとして取り扱う局面のほうがむしろ稀であるため、事実上同一視して差し支えありません。
図1.17
FASTA形式の例です。
GFF3
リンク先は「General feature format」です。アノテーション結果を格納する代表的な形式です。テキストファイルです。GFF ver. 3がGFF3です。
業界標準(de facto standard)
「事実上の標準」を指す用語です。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
DB
データベースのことです。
パイプライン(pipeline)
リンク先は「パイプライン処理」です。コンピュータ等において、処理要素を直列に連結し、ある要素の出力が次の要素の入力となるようにして、並行(必ずしも並列とは限りません)に処理させる利用技術です。
ゲノム配列(genome sequence)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
GenBank：Sayers et al., Nucleic Acids Res., 2021
NCBIが提供する塩基配列DBです。
DDBJ：Fukuda et al., Nucleic Acids Res., 2021
DDBJが提供する塩基配列DBです。
UniProt：UniProt Consortium, Nucleic Acids Res., 2021
タンパク質配列DBです。
InterPro：Blum et al., Nucleic Acids Res., 2021
PROSITEやPfamなどのデータベース(DB)を統合し、それらを横断的に検索できるようにしたDBです。
miRBase：Kozomara et al., Nucleic Acids Res., 2019
RNAcentral (RNAcentral Consortium, Nucleic Acids Res., 2021) というmiRBaseを含むncRNAの様々なデータベース(DB)を統合したものもあります。
NONCODE：Zhao et al., Nucleic Acids Res., 2021
ncRNA DBです。

page031

図1.17
FASTA形式の例です。
Dfam：Storer et al., Mob DNA, 2021
反復配列DBです。
Repbase：Bao et al., Mob DNA, 2015
反復配列DBです。

1.10.3 ゲノム中の反復配列

構造アノテーション(structural annotation)
塩基配列から遺伝子領域を見つける作業です。
リピートマスク(repeat mask)
反復配列DBなどに蓄積されている既知情報と合致するゲノム中の領域を同定し、それらの領域中の塩基をNで置換した結果を返す作業です。
反復配列(repetitive sequence)
リピート配列またはリピート(repeat)ともよばれます。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。たとえば、「CACACA…のような数塩基からなる同じ配列が延々と繰り返す長い領域」のことです。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
真核生物(eukaryote)
動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
Paço et al., Genes, 2019
リピート配列系の総説です。
ヒトゲノム(human genome)
ヒトの全ゲノム配列のことです。
de Koning et al., PLoS Genet., 2011
リピート配列はヒトゲノムの2/3を占めるかもという論文です。
原核生物(prokaryote)
細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
Treangen et al., FEMS Microbiol Rev., 2009
「原核生物のゲノム(prokaryotic genome)においても、真核生物ほどではないが0から40%以上を占めるものまで存在する」は、この論文のFigure 4を根拠としています。
リピート(repeat)
リンク先は「反復配列」です。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。ゲノム上での存在様式の違いによって大きく以下の2つのクラスに分類されます。
- 縦列反復配列またはタンデムリピート(tandem repeat)
  同じ配列が同じ向きで隣り合って存在するリピートのことです。
- 散在反復配列(dispersed repeat)
  同じ単位配列が隣接せずに散在しているリピートのことです。
縦列反復配列多型(variable number of tandem repeat; VNTR)
縦列反復配列(同じ配列が同じ向きで隣り合って存在するリピート)の反復回数は個体ごとに異なりますが、その個体間の違いのことです。
DNA鑑定
デオキシリボ核酸(DNA)の多型部位を検査することで個人を識別するために行う鑑定のことです。縦列反復配列多型(variable number of tandem repeat; VNTR)の性質を利用しています。
タンデムリピート(tandem repeat)
縦列反復配列のことです。サテライトDNA(satDNA)あるいは単にサテライト(satellite)ともよばれます。
ミニサテライト(minisatellite)
「単位配列の長さ」が数十 bp程度のタンデムリピートのことです。
マイクロサテライト(microsatellite)
「単位配列の長さ」が数 bp程度のタンデムリピートのことです。short tandem repeat(STR)やsimple sequence repeat(SSR)ともよばれます。
CAリピート：Sharma et al., BMC Genomics, 2005
「CACACA…」というマイクロサテライトの例です。2 bpの(CA/TG)_nのように表現できます。
相補鎖または相補配列(complementary sequence)
リンク先は「相補性 (分子生物学)」です。鋳型の1本鎖DNAと塩基対を形成できるような、対応するもう片方の(鋳型鎖とは逆向きの)1本鎖DNAのことを指します。鋳型鎖から合成された相補鎖を娘鎖(daughter strand)といいます。
テロメア(telomere)
真核生物の染色体の末端部にある構造であり、染色体末端を保護する役目をもちます。テロメアは特徴的な繰り返し配列をもつDNAと、様々なタンパク質からなる構造です。DNAは5’末端から3’末端に向かって複製されます。したがって、鋳型DNAの片方はDNA2本鎖がほどけると同時に複製されますが、もう片方は何度もDNAポリメラーゼ(DNAを複製)が働くこととなり、どうしても複製できない部分が残ってしまいます。それを補うために無意味な繰り返し配列=テロメアがあると考えられています。
Paço et al., Genes, 2019
マイクロサテライトの他の例として提示した(TTAGGG/CCCTAA)_nの論文です。Figure 2が参考になります。
ショートリード(short read)
イルミナに代表される第2世代のシーケンサから得られた1本1本が短いリードのことです。

page032

デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
コンティグ(contiguous sequence; contig)
DNA配列断片群を重ね合わせ(シーケンスアラインメント)てできるコンセンサス配列や、それを構成する配列断片群のことです。
藤博幸編, よくわかるバイオインフォマティクス入門, 講談社
「コンティグが分断される具体的なイメージ図」は、74ページ目あたりに記載があります。
リピート(repeat)
リンク先は「反復配列」です。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。ゲノム上での存在様式の違いによって大きく以下の2つのクラスに分類されます。
- 縦列反復配列またはタンデムリピート(tandem repeat)
  同じ配列が同じ向きで隣り合って存在するリピートのことです。
- 散在反復配列(dispersed repeat)
  同じ単位配列が隣接せずに散在しているリピートのことです。
長鎖散在反復配列(LINE)
同じ単位配列が隣接せずに散在しているリピート(散在反復配列)のうち、単位配列が長いリピートのことです。LINEは、long interspersed elementまたはlong interspersed repetitive sequenceの略です。数千 bpの長さをもち、タンパク質に翻訳される成熟mRNAに由来する配列です。
短鎖散在反復配列(SINE)
同じ単位配列が隣接せずに散在しているリピート(散在反復配列)のうち、単位配列が短いリピートのことです。SINEは、short interspersed elementまたはshort interspersed repetitive sequenceの略です。数百 bpの長さをもち、tRNA・rRNA・snRNAなどのncRNAに由来する配列です。
タンパク質(protein)
20種類のアミノ酸が鎖状に多数連結(重合)してできた高分子化合物であり、生物の重要な構成成分の1つです。連結したアミノ酸の個数が少ない場合にはペプチドといい、これが直線状に連なったものはポリペプチドとよばれます。
翻訳(translation)
mRNAの情報に基づいて、タンパク質を合成する反応のことです。
成熟mRNA(mature mRNA)
リンク先は「伝令RNA」です。蛋白質に翻訳され得る塩基配列情報と構造を持ったRNAのことです。イントロンを持たない、いわゆる通常のmRNAのことです。mRNA前駆体(mRNA precursor)は、スプライシングなどの様々な加工を受けて成熟した mRNA になる前のRNA分子を指します。
Kojima KK., Mob DNA, 2020
SINEはncRNAに由来することが書かれています。
ヒトゲノム(human genome)
ヒトの全ゲノム配列のことです。
L1エレメント(LINE-1またはL1)
ヒトゲノムで多く見られるLINEの一種です。
Aluエレメント(Alu要素, Alu配列, Alu element)
リンク先は「Alu要素」です。「高いO/E値とGC含量をもつ約280 bpの短鎖散在反復配列(SINE)の一種」です。ヒトゲノムで多く見られます。SINEは、同じ単位配列が隣接せずに散在しているリピート(散在反復配列)のうち、単位配列が短いリピートのことです。数百 bpの長さをもち、tRNA・rRNA・snRNAなどのncRNAに由来する配列です。
制限酵素(restriction enzyme)
制限部位として知られるDNAの特定の配列部位の内部、あるいはその近くでDNAを特異的に切断する酵素の一種です。具体的には、エンドヌクレアーゼ(endonuclease)の一種です。
AluI
制限酵素の1つであり、AGCTという配列を認識します。制限酵素の認識部位情報は、制限酵素の「制限酵素の例」にもあります。
トランスポゾン(transposon)または転移因子(transposable element; TE)
ゲノム上の位置を転移(transposition)することができる領域です。
Kazazian Jr and Moran, N Engl J Med., 2017
トランスポゾンに関する総説です。トランスポゾンは「動く遺伝子(jumping gene)」ともよばれていると書かれています。
DNA型のトランスポゾン
狭義のトランスポゾンは、DNA断片のままで転移するDNA型のことを指します。
RNA型のトランスポゾン
- 一旦転写されてRNAになったのち、逆転写酵素によってもう一度逆転写されて相補的なDNA(complementary DNA; cDNA)になった状態で転移するものです。
- レトロトランスポゾン(retrotransposon)またはレトロエレメント(retroelement)ともよばれます。
- 両末端に長いリピート(long terminal repeats)をもつLTR型と、それを持たない非LTR(non-LTR)型に大別されます。
Konkel and Batzer, Semin Cancer Biol., 2010
非LTR型のカテゴリに含まれるRNA型のトランスポゾンがLINE・SINE・VNTRだと書かれている論文です。
偽遺伝子(pseudogene)
通常の遺伝子領域と塩基配列は類似しているが機能をもたない領域です。
LINE
長鎖散在反復配列のことです。同じ単位配列が隣接せずに散在しているリピート(散在反復配列)のうち、単位配列が長いリピートのことです。LINEは、long interspersed elementまたはlong interspersed repetitive sequenceの略です。数千 bpの長さをもち、タンパク質に翻訳される成熟mRNAに由来する配列です。
Esnault et al., Nat Genet., 2000
一部の偽遺伝子はLINEによって生成されると書かれている論文です。
機能遺伝子(functional gene)
偽遺伝子とかではなく、何らかの機能を果たしているほうの遺伝子のことです。たとえばタンパク質コード遺伝子があげられます。
構造アノテーション(structural annotation)
塩基配列から遺伝子領域を見つける作業です。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
リピート(repeat)
リンク先は「反復配列」です。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。
リピートマスク(repeat mask)
反復配列DBなどに蓄積されている既知情報と合致するゲノム中の領域を同定し、それらの領域中の塩基をNで置換した結果を返す作業です。
反復配列(repetitive sequence)
リピート配列またはリピート(repeat)ともよばれます。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。たとえば、「CACACA…のような数塩基からなる同じ配列が延々と繰り返す長い領域」のことです。
DB
データベースのことです。
塩基(base)
リンク先は「核酸塩基」です。ヌクレオシドを形成する窒素含有生体分子で、窒素塩基としても知られています。多くの場合、単に塩基(base)とよばれます。ヌクレオシドはヌクレオチドの構成要素であり、ヌクレオチドは核酸の基本的な構成単位です。塩基対を形成し、互いに積み重なる(スタッキング)核酸塩基の性質は、リボ核酸(RNA)やデオキシリボ核酸(DNA)などの長鎖らせん構造をもたらします。DNAを構成する塩基は、プリン塩基であるアデニン(A)とグアニン(G)、ピリミジン塩基であるシトシン(C)とチミン(T)の4種類があります。
リピートマスクを行うプログラム
- RepeatMasker
- P-clouds：de Koning et al., PLoS Genet., 2011
- HDRSM：Suvorova et al., BMC Bioinformatics, 2021
原核生物(prokaryote)
細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
サテライト(satellite)
同じ配列が同じ向きで隣り合って存在するリピートのことです。タンデムリピート(tandem repeat)、縦列反復配列、サテライトDNA(satDNA)ともよばれます。
バクテリア(bacteria)
リンク先は「細菌」です。正確には真正細菌です。古細菌・真正細菌・真核生物という分類学上の3つのドメインの1つ、あるいはそこに含まれる生物のことです。
Subirana and Messenguer, J Bacteriol., 2020
10万以上のサテライト(タンデムリピート)をバクテリアで発見したという論文です。
真核生物(eukaryote)
動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
リピート配列(repetitive sequences)
リンク先は「反復配列」です。単にリピート(repeat)ともよばれます。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。

1.10.4 遺伝子予測

遺伝子予測(gene prediction)
リンク先は「Gene prediction」です。ゲノム配列などを入力として、その中に存在する遺伝子領域を予測することです。gene findingともよばれます。
リピートマスク(repeat mask)
反復配列DBなどに蓄積されている既知情報と合致するゲノム中の領域を同定し、それらの領域中の塩基をNで置換した結果を返す作業です。
ゲノム配列(genome sequence)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
構造アノテーション(structural annotation)
塩基配列から遺伝子領域を見つける作業です。この場合は、塩基配列に対して生物学的意味を注釈付けすることです。遺伝子予測は、構造アノテーションのカテゴリに含まれます。
イントロン(intron)
転写はされるが最終的に機能する転写産物からスプライシングによって除去される塩基配列のことです。
マルチエクソン遺伝子(multi-exon gene)
エクソンを2つ以上もつ遺伝子のことです。
真核生物(eukaryote)
動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
シングルエクソン遺伝子(single-exon gene)
エクソンを1つしかもたない遺伝子のことです。
原核生物(prokaryote)
細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
Jung et al., PLoS Comput Biol., 2020
ゲノムアセンブリ系の総説です。「1つ以上のイントロンによって分断されているマルチエクソン遺伝子(multi-exon geneまたはmultiexonic gene)がほとんどを占める真核生物のゲノムのほうが、イントロンを持たないシングルエクソン遺伝子(single-exon gene)がほとんどを占める原核生物のゲノムよりも圧倒的に難しい」は、the gene-finding problem in eukaryotes is far more difficult than that in prokaryotes such as bacteria.を根拠としています。
遺伝子予測法は以下の3つのカテゴリに分類可能。
- ①第一原理に基づく方法(ab initio method)
- ②相同性に基づく方法(homology-based method)
- ③それらを組み合わせた方法(combined method)
第一原理(first principle)
自然科学での第一原理は、近似や経験的なパラメータ等を含まない最も根本となる基本法則をさし、そのことを前提にすると自然現象を説明することができるというものです。第一原理には、運動量の保存や物質の二重性など様々なものがあります。理論計算の分野における第一原理の解釈は人により様々で、「既存の実験結果(事実)を含めて経験的パラメーター等を一切用いない」という強いものから、「実験結果に依らない」とする比較的緩い解釈まであります。
相同性(ホモロジー; homology)
リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例：ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
第一原理(first principle)
自然科学での第一原理は、近似や経験的なパラメータ等を含まない最も根本となる基本法則をさし、そのことを前提にすると自然現象を説明することができるというものです。第一原理には、運動量の保存や物質の二重性など様々なものがあります。理論計算の分野における第一原理の解釈は人により様々で、「既存の実験結果(事実)を含めて経験的パラメーター等を一切用いない」という強いものから、「実験結果に依らない」とする比較的緩い解釈まであります。
イントロン(intron)
転写はされるが最終的に機能する転写産物からスプライシングによって除去される塩基配列のことです。
GT-AG則(GT/AG rule)
リンク先は「イントロン」です。ほぼすべてのイントロンがGTで始まりAGで終わるという経験則です。
Yamaki et al., J Biol Chem., 1990
本文中にはありませんが、GT/AG ruleと明記されている論文例です。ヒトやマウスの成熟mRNAを逆転写して得られるcDNA塩基配列の決定とゲノム配列の決定が平行して進められていた1990年代には、GT-AG則などの予測を行う上で重要ないくつかの経験則が確認されていました。
隠れマルコフモデル(Hidden Markov Model; HMM)
確率モデルのひとつであり、観測されない(隠れた)状態をもつマルコフ過程(マルコフ性をもつ確率過程のこと)です。
統計モデル(statistical model)
サンプルデータの生成に関する一連の統計的仮定を具体化した数理モデルのことです。
CDS
リンク先は「コーディング領域」です。coding sequenceの略です。タンパク質に翻訳される領域のことです。
ncRNA
ノンコーディングRNA(non-coding RNA)のことです。翻訳されずにRNAのままで機能する遺伝子です。
プロモータ(promoter)
遺伝子の転写制御を行う領域(regulatory regions)です。プロモータに基本転写因子が結合して転写が始まります。
フィーチャ(feature)
アノテーションがつけられるゲノム上の各領域のことを指す用語です。

page033

相同性(ホモロジー; homology)
リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例：ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
cDNA
リンク先は「相補的DNA」です。mRNAから逆転写酵素を用いた逆転写反応によって合成された2本鎖DNAのことです。
ncRNA
ノンコーディングRNA(non-coding RNA)のことです。翻訳されずにRNAのままで機能する遺伝子です。
フィーチャ(feature)
アノテーションがつけられるゲノム上の各領域のことを指す用語です。
ゲノム配列(genome sequence)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
Ejigu and Jung, Biology, 2020
ゲノムアノテーションの総説です。Table 1が参考になると思います。

1.11 ゲノムアノテーション(機能アノテーション)

ゲノム(genome)
ある生物がもつ全遺伝情報(具体的には全塩基配列情報)のことです。
遺伝子オントロジー(Gene Ontology; GO)
生物学的概念を記述するための、共通の語彙を策定しようとするプロジェクトです。異なる生物種間で明確に統一されていなかった遺伝子機能に関する標準語をGOタームとして定め、できるだけそれらを用いて表現しようという取り組みです。統一された語彙を用いることで、異なった機関によって作成されたデータベース、更に異なった生物種のデータベース間で、データの結合や、横断比較を行うことが可能になります。略してGO (「じーおー」と読む)とよばれることが多いです。
KEGG：Kanehisa and Goto, Nucleic Acids Res., 2000
遺伝子の機能情報を中心にまとめたGENESや、代謝やシグナル伝達などの細胞プロセスをグラフィカルに表現したPATHWAYなど計18個の個別のDBをまとめたものです。
DB
データベースのことです。
アノテーション(annotation)
この場合は、塩基配列に対して生物学的意味を注釈付けすることです。

1.11.1 遺伝子オントロジー(GO)とKEGG

機能アノテーション(functional annotation)
遺伝子領域が果たす役割に関する情報を付加する作業です。
構造アノテーション(structural annotation)
塩基配列から遺伝子領域を見つける作業です。
フィーチャ(feature)
アノテーションがつけられるゲノム上の各領域のことを指す用語です。
ヒト(human)
広義にはヒト亜族(Hominina)に属する動物の総称であり、狭義には現生人類(Homo sapiens)のことです。
マウス(mouse)
リンク先は「ハツカネズミ」です。ネズミ目(齧歯目)ネズミ科ハツカネズミ属の1種です。学名はMus musculusです。
遺伝子(gene)
大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
塩基配列(nucleotide sequence)
DNA、RNAなどの核酸において、それを構成しているヌクレオチドの結合順を、ヌクレオチドの一部をなす有機塩基類の種類に注目して記述する方法、あるいは記述したもののことです。単にシークエンスあるいはシーケンスとよぶことも多いです。
cDNA
リンク先は「相補的DNA」です。mRNAから逆転写酵素を用いた逆転写反応によって合成された2本鎖DNAのことです。
cDNAプロジェクト(cDNA project)
ヒトやマウスの様々な組織内で働いている全遺伝子の塩基配列をcDNAの形で得るプロジェクトのことです。理研のFANTOMプロジェクトなどが有名です。
サンガー法(Sanger method)
リンク先は「DNAシークエンシング」内の「酵素法」です。サンガー法は、酵素法やジデオキシ法ともよばれています。
遺伝子(gene)
大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
語彙(vocabulary)
ある特定の範囲(たとえば生命科学分野)において使われる単語の総体のことです。
遺伝子オントロジー(Gene Ontology; GO)
生物学的概念を記述するための、共通の語彙を策定しようとするプロジェクトです。異なる生物種間で明確に統一されていなかった遺伝子機能に関する標準語をGOタームとして定め、できるだけそれらを用いて表現しようという取り組みです。統一された語彙を用いることで、異なった機関によって作成されたデータベース、更に異なった生物種のデータベース間で、データの結合や、横断比較を行うことが可能になります。略してGO (「じーおー」と読む)とよばれることが多いです。
コンソーシアム(consortium)
2つ以上の個人、企業、団体、政府(あるいはこれらの任意の組み合わせ)から成る団体のことです。共同で何らかの目的に沿った活動を行ったり、共通の目標に向かって資源を蓄える目的で結成されます。
Ashburner et al., Nat Genet., 2000
GO Consortiumの論文です。
知識ベース(knowledgebase)
知識を集約したデータベース(DB)という理解でよいと思います。
GO
遺伝子オントロジー(Gene Ontology)のことです。GOは、生物学的概念を記述するための、共通の語彙を策定しようとするプロジェクトです。異なる生物種間で明確に統一されていなかった遺伝子機能に関する標準語をGOタームとして定め、できるだけそれらを用いて表現しようという取り組みです。
アノテーション(annotation)
この場合は、塩基配列に対して生物学的意味を注釈付けすることです。
業界標準(de facto standard)
「事実上の標準」を指す用語です。
生物種(species)
リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
GOターム(GO term)
遺伝子機能に関する標準語のことです。
GO
遺伝子オントロジー(Gene Ontology)のことです。GOは、生物学的概念を記述するための、共通の語彙を策定しようとするプロジェクトです。異なる生物種間で明確に統一されていなかった遺伝子機能に関する標準語をGOタームとして定め、できるだけそれらを用いて表現しようという取り組みです。
遺伝子(gene)
大まかには「ゲノム上のタンパク質配列に対応する領域」です。より正確には「生体中で機能する産物を作り出すのに必要なDNA中の配列領域」という理解でよいと思います。
Gene Ontology overviewのページ
- 生物学的プロセス(Biological Process; BP)
  例：GO:0006915 (apoptotic process)
- 分子機能(Molecular Function; MF)
  例：GO:0002039 (p53 binding)
- 細胞の構成要素(Cellular Component; CC)
  例：GO:0005794 (Golgi apparatus)
生物学的プロセス(Biological Process; BP)
GOは3つの観点で遺伝子の機能分類を行っています。その中の1つの「生物学的なプロセスのどの事柄に寄与するのか」という観点です。BPと略されます。
細胞増殖(cell proliferation)
リンク先は「細胞分裂」です。1つの細胞が2個以上の娘細胞に分かれる生命現象です。単細胞生物では、細胞分裂が個体の増殖となります。多細胞生物では、受精卵以後の発生に伴う細胞分裂によって細胞数が増えます。
シグナル伝達(signal transduction)
暑さや寒さや痛さといった周辺環境からの刺激(これをシグナルといいます)が皮膚から脳に伝わっていくようなことを指しますす。「この刺激(シグナル)であれば、このタンパク質が感知して、それが生体内のこの経路で情報が伝達される」といった具合で、定まった経路で情報が伝達されていくことで環境に適応しています。そのようなシステム全体のことを指す言葉がシグナル伝達です。具体的には、細胞間シグナル伝達とか細胞内シグナル伝達などがあり、たとえばそれを簡潔に示しているのがKEGG PATHWAY Databaseです。
翻訳(translation)
mRNAの情報に基づいて、タンパク質を合成する反応のことです。
cAMP
リンク先は「環状アデノシン一リン酸」です。cAMP（さいくりっくえーえむぴー、と読みます）。アデノシン三リン酸(ATP)から合成され、リボースの3’および5’位とリン酸基が環状になっている分子です。グルカゴンやアドレナリンといったホルモン伝達の際の細胞内シグナル伝達においてセカンドメッセンジャーとして働きます。
分子機能(Molecular Function; MF)
GOは3つの観点で遺伝子の機能分類を行っています。その中の1つの「分子レベルでどのような生化学的な活性をもっているか」という観点です。MFと略されます。
酵素(enzyme)
生体内外で起こる化学反応に対して触媒として機能する分子のことです。
リガンド(ligand)
標的タンパク質上の結合部位に結合することでシグナルを生成する分子のことです。
アデニル酸シクラーゼ(adenylate cyclase)
ATPを3’,5’-環状AMP(cAMP)とピロリン酸へ変換する反応を触媒する酵素(リアーゼ)です。なお、リアーゼ(lyase)とはEC第4群に属する酵素で、脱離反応により二重結合を生成したり、逆反応の付加反応により二重結合部位に置換基を導入する反応を触媒する酵素です。
Toll様受容体リガンド(Toll-like receptor ligand)
リンク先は「Toll様受容体」です。Toll様受容体(Toll-like receptor; TLR)は、動物の細胞表面にある受容体タンパク質で、種々の病原体を感知して自然免疫(獲得免疫と異なり、一般の病原体を排除する非特異的な免疫作用)を作動させる機能があります。Toll様受容体リガンドは、この受容体に結合する分子のことです。
細胞の構成要素(Cellular Component; CC)
GOは3つの観点で遺伝子の機能分類を行っています。その中の1つの「細胞内のどの場所で活性があるか」という観点です。CCと略されます。
リボソーム(ribosome)
あらゆる生物の細胞内に存在する構造であり、粗面小胞体 (rER) に付着している膜結合リボソームと細胞質中に存在する遊離リボソームがあります。mRNAの遺伝情報を読み取ってタンパク質へと変換する機構である翻訳が行われる場です。大小2つのサブユニットからなり、これらはタンパク質(リボソームタンパク; ribosomal protein)とRNA(リボソームRNA：rRNA)の複合体です。
プロテアソーム(proteasome)
タンパク質の分解を行う巨大な酵素複合体です。真核生物の細胞において細胞質および核内のいずれにも分布しています。ユビキチンにより標識されたタンパク質をプロテアソームで分解する系はユビキチン-プロテアソームシステムとよばれ、細胞周期制御、免疫応答、シグナル伝達といった細胞中の様々な働きに関わる機構です。
核膜(nuclear membraneまたはnuclear envelope)
真核生物の核を細胞質から隔てている生体膜であり、遺伝物質を内包しています。内膜と外膜からなる二重の脂質二重層構造をとり、外膜は小胞体とつながっています。
ゴルジ体(Golgi body)
真核生物の細胞にみられる細胞小器官の1つです。へん平な袋状の膜構造が重なっており、細胞外へ分泌されるタンパク質の糖鎖修飾や、リボソームを構成するタンパク質のプロセシングに機能します。
アポトーシス(apoptosis)
多細胞生物の体を構成する細胞の死に方の一種で、個体をより良い状態に保つために積極的に引き起こされます。管理・調節された細胞の自殺すなわちプログラムされた細胞死のことです。対義語はネクローシス(necrosis)です。
GO:0006915 (apoptotic process)
「アポトーシス」のGOタームです。生物学的プロセス(Biological Process; BP)の例です。
GO:0012501 (programmed cell death)
「プログラムされた細胞死」のGOタームです。生物学的プロセス(Biological Process; BP)の例です。細胞死の原因は様々だと解釈すればよいです。
GO:0008219 (cell death)
「細胞死」のGOタームです。生物学的プロセス(Biological Process; BP)の例です。
GO:0009987 (cellular process)
「細胞プロセス」のGOタームです。生物学的プロセス(Biological Process; BP)の例です。
GO:0008150 (biological process)
「Biological Process」のGOタームです。生物学的プロセス(Biological Process; BP)そのものです。
GOターム(GO term)
遺伝子機能に関する標準語のことです。
GO
遺伝子オントロジー(Gene Ontology)のことです。GOは、生物学的概念を記述するための、共通の語彙を策定しようとするプロジェクトです。異なる生物種間で明確に統一されていなかった遺伝子機能に関する標準語をGOタームとして定め、できるだけそれらを用いて表現しようという取り組みです。
GO
遺伝子オントロジー(Gene Ontology)のことです。GOは、生物学的概念を記述するための、共通の語彙を策定しようとするプロジェクトです。異なる生物種間で明確に統一されていなかった遺伝子機能に関する標準語をGOタームとして定め、できるだけそれらを用いて表現しようという取り組みです。
エビデンスコード(evidence code)
情報源の確からしさを表す指標のようなものです。実際には数値ではなく言葉で表現されています。
Gene Ontology evidence codeのページ
エビデンスコード(evidence code)のページです。Inferred from Experiment(EXP)やNon-traceable Author Statement(NAS)など様々です。

page034

アノテーションツール(annotation tool)
この場合は、塩基配列に対して生物学的意味を注釈付けするツール(プログラム)のことです。
GO-CAM：Thomas et al., Nat Genet., 2019
GO Causal Activity Modeling (GO-CAM)の略です。これまでの単一のGOアノテーションでは表現しきれなかった複数のカテゴリ間の関係性を明示的に表現できるようにする枠組みです。
例題1.2
1ページ目が問題、2ページ目以降が解答例です。
- QuickGO：Binns et al., Bioinformatics, 2009
- GO:0006915のAncestor Chartを眺めればよいです。
例題1.3
1ページ目が問題、2ページ目以降が解答例です。
- QuickGO：Binns et al., Bioinformatics, 2009
- GO:0006915のChild Termsを眺めればよいです。
- Relations in the Gene Ontology
  GOターム間の関係性について記述されています。私が知る限り”is_a”, “part_of”, “regulates”, “positively_regulates”, “negatively_regulates”, “occurs_in”, “capable_of”, “capable_of_part_of”の8つです。
機能アノテーション(functional annotation)
遺伝子領域が果たす役割に関する情報を付加する作業です。
DB
データベースのことです。
KEGG：Kanehisa and Goto, Nucleic Acids Res., 2000
遺伝子の機能情報を中心にまとめたGENESや、代謝やシグナル伝達などの細胞プロセスをグラフィカルに表現したPATHWAYなど計18個の個別のDBをまとめたものです。
Reactome：Jassal et al., Nucleic Acids Res., 2020
パスウェイDBです。
KEGG GENES Database
遺伝子の機能情報を中心にまとめたDBです。KEGGの一部です。
KEGG PATHWAY Database
代謝やシグナル伝達などの細胞プロセスをグラフィカルに表現したDBです。KEGGの一部です。
KO (KEGG ORTHOLOGY) Database：Okuda et al., Nucleic Acids Res., 2008
KEGG内の情報は、KEGG Orthology(KO)とよばれる独自の識別子(ID)で紐づけられてます。
識別子(identifier)
ある実体の集合の中で、特定の元(げん、と読みますがこの場合は要素という理解でよいです)を他の元(げん、要素という理解でよいです)から曖昧さ無く区別することを可能とする、その実体に関連する属性の集合のことです。「ID」ともいいます。
フィーチャ(feature)
アノテーションがつけられるゲノム上の各領域のことを指す用語です。
KO
KEGG Orthologyの略です。KEGG内の情報は、KOのIDで紐づけられています。
Ejigu and Jung, Biology, 2020
ゲノムアノテーションの総説です。「遺伝子の変異(variation)に関する評価も機能アノテーションに含めることができる」は、Functional annotation is also employed to assess the variation in genes.を根拠としています。
変異アノテーション(variant annotation)
どのような変異が遺伝子機能に影響を与えるかという情報を付与することです。
Karczewski et al., Nature, 2020
変異アノテーション(variant annotation)という言葉は、Abstractに出現しています。バリアントアノテーションと表現されることもあります。
VCF
Variant Call Formatの略です。変異解析の出力結果を格納するファイル形式です。
VCFtools：Danecek et al., Bioinformatics, 2011
本文中では明記していませんが、VCF形式の原著論文です。VCFの仕様はこちらです。
GFF3
リンク先は「General feature format」です。アノテーション結果を格納する代表的な形式です。テキストファイルです。GFF ver. 3がGFF3です。

1.11.2 アノテーションの自動化とエラー

機能アノテーション(functional annotation)
遺伝子領域が果たす役割に関する情報を付加する作業です。
アルゴリズム(algorithm)
「計算可能」なことを計算する、形式的な(formalな)手続きのこと、あるいはそれを形式的に表現したものです。
相同性検索(homology search)
リンク先は「相同性」です。あるfeature(この場合は塩基配列)が共通の祖先に由来するかどうかを調べることです。ホモロジー検索ともよばれます。
フィーチャ(feature)
アノテーションがつけられるゲノム上の各領域のことを指す用語です。
相同性(ホモロジー; homology)
リンク先は「相同」です。ある形態や遺伝子が共通の祖先に由来することです。大まかには、異なる生物種間で同じ名前の遺伝子(例：ヘモグロビン)どうしのことを指すという理解でよいです。正確には、おそらくそれらが共通祖先の時代から存在しているという前提が必要であり、そのような場合に「相同性(ホモロジー)がある」とか「相同(ホモロガス)である」といった表現をします。
KO
KEGG Orthologyの略です。KEGG内の情報は、KOのIDで紐づけられています。
KO (KEGG ORTHOLOGY) Database：Okuda et al., Nucleic Acids Res., 2008
KEGG ORTHOLOGY (KO)のidentifier (ID)などが各フィーチャに相同性検索結果として割り当てられます。
識別子(identifier)
ある実体の集合の中で、特定の元(げん、と読みますがこの場合は要素という理解でよいです)を他の元(げん、要素という理解でよいです)から曖昧さ無く区別することを可能とする、その実体に関連する属性の集合のことです。「ID」ともいいます。
BWT
リンク先は「ブロックソート」です。Burrows-Wheeler変換の略です。可逆変換の方式で、データ圧縮の前処理に応用されるアルゴリズムです。bzip2圧縮に実装されています。原理としては、長さ\(n\)のデータを巡回シフトし、得られるすべての文字列を辞書順にソートします。このようにしてできた\(n \times n\)行列の第\(n\)列を取り出したものが、BWT系列です。このBWT系列と、元(もと)の文字列がソートされた時行列の第何番目になったかを記憶しておくと、これから元(もと)の文字列を復号することができるのです。
FM-index
Ferragina-Manziniインデックスの略です。BWTに基づくリファレンス配列側の部分文字列インデックスです。接尾辞配列が分かるヒトは、それと似たようなアルゴリズムだという理解でよいです。
接尾辞配列(suffix array)
文字列の接尾辞(開始位置を異にし終端位置を元の文字列と同じくする部分文字列)の文字列中の開始位置を要素とする配列を、接尾辞に関して辞書順に並べ替えて得られる配列のことです。主に文字列探索、全文検索などに利用されます。
Suzuki et al., PLoS One, 2014
GHOSTXという、接尾辞配列(suffix array)を内部的に用いた相同性検索プログラムの論文です。
中央演算処理装置(Central Processing Unit; CPU)
コンピュータにおける中心的な処理装置(プロセッサ)のことです。コンピュータの頭脳や心臓部に例えられることが多いです。
グラフィックス演算処理装置(Graphics Processing Unit; GPU)
コンピュータゲームに代表されるリアルタイム画像処理に特化した演算装置あるいはプロセッサです。コンピュータが画面に表示する映像を描画するための処理を行うICから発展したものです。
Margelevičius M., Bioinformatics, 2020
COMER2という、GPUベースの相同性検索プログラムです。
機能アノテーション(functional annotation)
遺伝子領域が果たす役割に関する情報を付加する作業です。
KofamKOALA：Aramaki et al., Bioinformatics, 2020
タンパク質配列(これが問い合わせ配列)に対して相同性検索を行い、KO IDを割り当てるWebサーバです。

page035

タンパク質コード遺伝子(protein-coding gene)
リンク先は「コドン」です。基本的にcoding sequence (CDS)のことだという理解でよいです。1970-80年代頃に行われていたアミノ酸配列比較の流れをくんでいるので、その当時の遺伝子の定義をイメージすることが重要です。
GO
遺伝子オントロジー(Gene Ontology)のことです。GOは、生物学的概念を記述するための、共通の語彙を策定しようとするプロジェクトです。異なる生物種間で明確に統一されていなかった遺伝子機能に関する標準語をGOタームとして定め、できるだけそれらを用いて表現しようという取り組みです。
パイプライン(pipeline)
リンク先は「パイプライン処理」です。コンピュータ等において、処理要素を直列に連結し、ある要素の出力が次の要素の入力となるようにして、並行(必ずしも並列とは限りません)に処理させる利用技術です。
構造アノテーション(structural annotation)
塩基配列から遺伝子領域を見つける作業です。
アノテーション(annotation)
この場合は、塩基配列に対して生物学的意味を注釈付けすることです。
Makrodimitris et al., Genes, 2020
自動アノテーションの総説です。Automatic Function Prediction (AFP)に関する総説です。
アノテーション結果の公共DBへの登録までサポートされているもの(原核生物用)
- PGAP：Tatusova et al., Nucleic Acids Res., 2016
- DFAST：Tanizawa et al., Bioinformatics, 2018
シングルエクソン遺伝子(single-exon gene)
エクソンを1つしかもたない遺伝子のことです。
原核生物(prokaryote)
細胞内にDNAを包む核(細胞核)を持たない生物のことです。すべて単細胞生物です。真核生物と対をなす分類で、性質の異なる細菌(バクテリア)と古細菌(アーキア)の2つの生物を含んでいます。
谷澤ら, 日本乳酸菌学会誌, 28:94-100, 2017b(NGS連載第10回)
2018年のDFAST論文の前のバージョンのもので書かれた解説記事です。
真核生物(eukaryote)
動物、植物、菌類、原生生物など、身体を構成する細胞の中に細胞核とよばれる細胞小器官を有する生物のことです。真核細胞で構成される生物という理解でもよいと思います。
NCBI：Sayers et al., Nucleic Acids Res., 2021
バイオテクノロジーや分子生物学に関連する一連のデータベースの構築および運営、そして研究に用いられるソフトウェアの開発を行っており、バイオインフォマティクスにおける重要なリソースとなっています。GenBank、PubMed、dbSNPなど、生命科学分野の主要なリソースを提供する大元締め的なところです。
Ensembl：Cunningham et al., Nucleic Acids Res., 2022
書籍に記載している原著論文からアップデートしています。
パイプライン(pipeline)
リンク先は「パイプライン処理」です。コンピュータ等において、処理要素を直列に連結し、ある要素の出力が次の要素の入力となるようにして、並行(必ずしも並列とは限りません)に処理させる利用技術です。
反復配列(repetitive sequence)
リピート配列またはリピート(repeat)ともよばれます。同じ配列が2回以上ゲノム中に存在する場合にそれらを指す総称です。たとえば、「CACACA…のような数塩基からなる同じ配列が延々と繰り返す長い領域」のことです。
ncRNA
ノンコーディングRNA(non-coding RNA)のことです。翻訳されずにRNAのままで機能する遺伝子です。
デノボアセンブリ(de novo assembly)
リンク先は「De novo sequence assemblers」です。大量のリードのみを入力として、ゲノムなど元の長い塩基配列を再構築する作業のことです。
アノテーション(annotation)
この場合は、塩基配列に対して生物学的意味を注釈付けすることです。
Jung et al., PLoS Comput Biol., 2020
ゲノムアセンブリ系の総説です。「精度の低いアセンブリ結果に起因する構造・機能両面でのアノテーションエラー」は、 errors in assembly can cause errors in the annotation (structural and functional)を根拠としています。
Cho et al., Nat Commun., 2013
トラゲノム解読論文です。
進化(evolution)
生物の形質が世代を経る中で変化していく現象のことです。
Mittal et al., Sci Rep., 2019
ネコ科ゲノム比較系論文です。上記のトラゲノム配列中に約百万個のエラー(1塩基置換, single nucleotide substitution)が含まれていたことを報告しています。
オペレーティングシステム(operating system; OS)
コンピュータのオペレーション（操作・運用・運転）を司るシステムソフトウェアです。
Linux
狭義にはUnix系オペレーティングシステムカーネルであるLinuxカーネルを指し、広義にはそれをカーネルとして周辺を整備したシステム全体のことです。ざっくりいうと、WindowsのOSやMacのOSと並ぶ、玄人向けのOSです(正確にはMacはLinux OSです)。
Dominguez Del Angel et al., F1000Reseach, 2018
ELIXIR-EXCELERATE活動の一環として、ゲノムアセンブリやアノテーションを行うための10ステップについて述べています。同じバージョンのツールを使っていたとしても、オペレーティングシステム(OS)の違いや、同じLinux OS内の違いによってプログラムの不安定性が生じうることを述べています。Findable, Accessible, Interoperable, and Reusable (FAIR)にも触れています。
バイオインフォ(bioinfo)
バイオインフォマティクス(bioinformatics)の略です。生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico解析)ことを目的とした学問分野です。
再現性(reproducibility)
同一の特性が同一の手法により発現するとき、その結果の一致の近さのことです。実験条件を同じにすれば，同じ現象や同じ実験が同一の結果を与える場合，再現性があるといいます。
オープンデータ(Open Data)
特定のデータが、一切の著作権、特許などの制御メカニズムの制限なしで、すべての人が望むように利用・再掲載できるような形で入手できるべきであるというアイデアです。
FAIR原則
FAIRは、Findable, Accessible, Interoperable, and Reusableの略です。科学技術振興機構(JST)の下部組織であるバイオサイエンスデータベースセンター(NBDC)にもFAIR原則についてまとめたページがあります。
生物種(species)
リンク先は「種 (分類学)」です。生物分類上の基本単位です。「階級 (生物学)」にも書かれていますが、「界・門・綱・目・科・属・種」という分類階級の最下層に位置します。
コミュニティアノテーション(community annotation)
興味ある生物種の特徴や性質を理解した研究者のコミュニティで、継続的なアップデートや修正を行うことです。
アノテーション用プラットフォーム(platforms)
アノテーションを行うための環境というイメージで捉えるとよいと思います。
- ORCAE：Sterck et al., Nat Methods, 2012
- JBrowse：Buels et al., Genome Biol., 2016
- G-OnRamp：Sargent et al., PLoS Comput Biol., 2020

Web連携テキスト バイオインフォマティクス

最終更新: 2023/05/24

page001

第1章 ゲノム情報解析(基礎編)

1.1 生物基礎

1.1.1 核酸と塩基

page002

page003

1.1.2 真核生物と原核生物

page004

1.1.3 染色体構造と遺伝子発現

page005

1.2 塩基配列決定の基礎

1.2.1 サンガー法の原理

page006

page007

1.2.2 塩基配列決定精度

1.2.3 PCR増幅とその周辺

page008

page009

1.3 次世代型の塩基配列決定技術(NGS)

1.3.1 イルミナのショートリード

page010

1.3.2 ライブラリ調製

page011

1.3.3 シーケンスモードとファイル形式(FASTQ)

page012

1.4 クオリティコントロール(QC)

page013

1.5 ロングリード技術(パックバイオ)

1.5.1 SMRTシーケンシングの原理

page014

1.5.2 リードの特徴とシーケンスモード

page015

1.5.3 ファイル形式(SAM/BAM)

page016

1.5.4 パックバイオのQC

page017

1.6 ロングリード技術(ナノポア)

page018

1.6.1 ナノポアシーケンシングの原理

1.6.2 ファイル形式(HDF5/FAST5)

page019

1.6.3 ベースコールと深層学習

page020

1.7 ロングリード技術(その他)

1.7.1 第2世代シーケンサ(ショートリード技術)の活用

1.7.2 デノボアセンブリ

page021

page022

1.7.3 リンクドリード技術

page023

1.8 ゲノム配列としての完成度を高める作業

1.8.1 スカッフォールディング(コンティグどうしの位置関係の決定)

page024

1.8.2 バイオインフォの役割(高速化)

1.8.3 近接ライゲーション

page025

page026

1.8.4 光学マッピング

page027

page028

1.9 アセンブリ結果の評価

1.9.1 配列の相同性

1.9.2 オーソログとパラログ

page029

1.10 ゲノムアノテーション(構造アノテーション)

1.10.1 様々な役割を果たすゲノム中の領域

page030

1.10.2 アノテーションの入出力と参照DBの役割

page031

1.10.3 ゲノム中の反復配列

page032

1.10.4 遺伝子予測

page033

1.11 ゲノムアノテーション(機能アノテーション)

1.11.1 遺伝子オントロジー(GO)とKEGG

page034

1.11.2 アノテーションの自動化とエラー

page035

Web連携テキストバイオインフォマティクス

第1章ゲノム情報解析(基礎編)