研究概要:次世代シーケンサを用いたデータ駆動型ゲノム解析
ゲノム (genome) は「世代を超えて受け継がれる生命の設計図」です。生命活動を維持するための全ての遺伝子はゲノム上に存在します。皮膚や脳,消化管,骨などの臓器を構成する様々な細胞種はその組織に必要な遺伝子群を適切に発現させていますが、その発現を制御するための機能領域(エンハンサーなど)もやはりゲノム上に存在しています。この機能領域のゲノム修飾状態(エピゲノム; epigenome)が変化することが遺伝子発現の「スイッチ」の役割を果たします。ゲノム配列は全身の細胞で同一ですが、エピゲノムは組織ごとに異なるパターンを示し、それぞれの組織が正しく機能するために重要な役割を果たします。データ量にしてDVD1枚分にも満たないヒトゲノム配列の中に、生命のあらゆる情報が詰め込まれているのです。
ゲノム配列には個人差があり、その違いによって、お酒の強さが変わったり、目の色や髪の色が変わったりします。
また、ゲノムが正常に機能しなくなるような問題のあるゲノム変異やエピゲノムの異常が起きると、
がんをはじめとするさまざまな疾患を引き起こしうることがこれまでの研究でわかってきました。
ゲノム上のどこに生命活動に重要な領域があり、どこにどのような変異が入るとどのような影響があるのか、という具体的なメカニズムを知るための学問を「ゲノム学 (genomics)」また「エピゲノム学 (epigenomics)」と呼びます。ゲノム学では、疾患に重要な遺伝子やゲノム領域を見つけ出し、新薬開発などに結び付ける研究(ゲノム創薬)や、より多収量で病害に強い作物への品種改良などの研究、生命の本質的な理解につながる新発見が期待されています。
我々の研究室はゲノム学、特にエピゲノム学をテーマにしています。
次世代シーケンサ(Next Generation Sequencer; NGS, 上図)を利用した種々の解析技術の発展により、遺伝子の転写レベルや、タンパク-DNA結合、DNAメチル化、ゲノム複製、ゲノム立体構造など、さまざまなゲノム・エピゲノム情報を全ゲノム的にとらえることが可能になりました。NGS解析を用いることで、たとえば疾患患者と健常者の細胞を比較して「疾患に重要な遺伝子やゲノム領域」を同定したり、皮膚・脳・筋肉など様々な組織のゲノム情報を網羅的に比較することで「組織ごとに異なる(組織特異的と呼びます)エピゲノム情報とその重要性」を推定することができます。
特に近年は、利用可能なゲノム・エピゲノムデータが急速に増大していることに伴い、大量のNGSデータを一挙に解析し、これまでの常識を覆すような大きな発見をする「データ駆動型大規模NGS解析」の期待が急速に高まっています。
既存知識に基づき立てられた作業仮説を実験で検証する「仮説検証型解析」に対し、データ駆動型解析は既存知識に頼ることなく、データそのものに含まれる特徴を利用して新しい発見をする方法です。大量のデータを横断的・網羅的に解析することで、たとえば「あるタンパク質が特定の組織で予想外のタンパク質と相互作用しており、その相互作用が失われることである種の疾患が発症する」というような複雑かつ予想外なメカニズムを明らかにできる可能性があります。
NGS解析の一覧
- ChIP-seq: タンパク質-DNA結合およびヒストン修飾
- DNase-seq, ATAC-seq: オープンクロマチン
- Bisulfite-seq: DNAメチル化
- RNA-seq: 遺伝子発現変動および新規転写物同定
- Hi-C (Micro-C): ゲノム立体構造
- ChIA-PET, Hi-ChIP: タンパク質を介したクロマチンループ
- Exome-seq: 遺伝子変異
- 1細胞解析 (scRNA-seq, scATAC-seq): 細胞不均一性、細胞分化軌道
それでは、大量のNGSデータから生物学的に重要な情報を得るにはどうすればよいのでしょうか?NGSデータは1サンプルでも既に全ゲノムレベルの情報量を持っており、それが数百、数千サンプルとなるとそれこそ途方もないデータ量になります。また、得られるデータの構造やデータの特性は実験法ごとにばらばらですし、技術的に難しい実験のデータは品質に大きなばらつきが生じます。「ゲノムのどこに着目すればよいのか」が未知であることが多いため、深層学習を用いた画像認識のような教師あり学習を用いることも困難です。
玉石混交のビッグデータから信頼性高く重要な知見を得ることは現在でも非常に難しく、大きな需要があるにも関わらず、大変高いスキルを持った一部の研究者しかそのような解析ができないという現状があります。
レストランに例えるなら、様々な食材(データ)は充実してきたけれど、料理するための下ごしらえ(データ整形)は全くされておらず、料理するための器具(ツール)や、料理できるシェフ(解析者)が足りてない、というような状況です。
この問題を克服すべく、我々の研究室では「データ駆動型大規模NGS解析」を実現するための技術開発に取り組んでいます。
現在我々は特にエピゲノム状態(ChIP-seq)、ゲノム立体構造(Hi-C, Micro-C)と遺伝子発現状態(RNA-seq)の関係性に興味を持っており、それらが疾患や細胞分化過程においてどのように変動するのかについて知りたいと考えています。生命系、物理系、数学系など他分野の先生方とも議論しながら、未だ明らかになっていないゲノムの謎に迫ります。
現在の研究プロジェクト
頑健なデータ駆動型エピゲノム解析システムの構築
AMED-PRIME「早期ライフステージ」において、多細胞種・多サンプルを同時入力可能なエピゲノム比較解析システムを開発しています。本プロジェクトでは、ChIP-seq, RNA-seq, Hi-CなどさまざまなNGSアッセイを複数の細胞種(または細胞状態)から取得した大規模データを横断的に解析し、半教師あり学習を用いてクロマチン状態を詳細に注釈づけ(アノテーション)する手法を開発します。また、機械学習によるデータ補完技術を用いたエピゲノムデータの再構築手法を実現し、低品質・欠損データを含む大規模データから信頼性高く情報を抽出するための仕組みを構築します。本システムが完成すれば、大規模解析のためのデータ生成コスト、解析コスト両面を大きく低減することが可能となり、生命系・医療系研究の飛躍的な推進が期待できます。ひいては、エピゲノム解析そのものの価値を飛躍的に高めることになります。
・AMED「健康・医療の向上に向けた早期ライフステージにおける生命現象の解明」
・頑健なデータ駆動形エピゲノム解析を実現する情報解析システムの構築
図: データ駆動形エピゲノム解析システムの概要
Hi-Cデータから多種多様な一次元特徴情報を効率的に抽出可能な新規手法 “HiC1Dmetrics”を開発しました。本手法ではHi-C解析において用いられる種々の既存指標を統一的に計算できるほか、これまで同定が難しかった特殊な立体構造(クロマチンハブ等)を定量的に抽出できる新規指標を提案しました。
図: HiC1Dmetricsの概要
IHEC プロジェクト
また、本プロジェクトの一貫として国際ヒトエピゲノムコンソーシアム (IHEC)にも参加しており、世界各国の情報解析の専門家と交流・議論しながら、大規模データ統合解析のためのアプローチを模索していきます。
・国際ヒトエピゲノムコンソーシアム (IHEC)
・IHEC 日本チーム
マルチオミクスデータを用いたコヒーシンの機能解析
生物学的な側面では、我々は遺伝子発現とゲノム立体構造制御に重要なタンパク複合体であるコヒーシン (cohesin) に興味を持っています。
コヒーシンはエンハンサー・プロモーターループの媒介 (mediation)・あるいは絶縁 (insulation)、ゲノム立体構造のまとまり(TADと呼ばれる)の形成・維持 (loop extrusion)、RNAポリメラーゼIIの伸長 (elongation) 促進など、様々な機能を介して遺伝子制御に関与していると言われています(下図)。
コヒーシン(またはコヒーシンローダー)の変異は先天性の発達症候群である「コルネリア・デ・ランゲ症候群(CdLS)」の要因となることが知られていますが、具体的にコヒーシンのどの機能がCdLSに関与しているのか、そもそも何故コヒーシンはゲノム上でそのように多岐に渡る機能を同時に果たせるのか、数多くの研究にも関わらず依然として謎に包まれています。
図: コヒーシンの機能のモデル
我々は、ゲノム中で数万箇所におよぶコヒーシン結合部位の中から、遺伝子の転写活性化に伴い結合が失われる、すなわち「転写活性と負の相関を示す」ごく少数の遺伝子内コヒーシン結合部位およびクロマチンループを見出し、これを "Decreased intragenic cohesin sites (DICs)"と名付けました。DICの特徴を明らかにするため、ChIP-seq, RNA-seq, Hi-C, ChIA-PETなどから成る計100サンプル以上のゲノムデータを用いた大規模なマルチオミクス解析を実施しました。これにより、コヒーシンの転写制御機構としてこれまで報告されていたエンハンサー・プロモーター相互作用やRNAポリメラーゼ2(Pol2)の伸長などに加えて、Pol2の結合または伸長の阻害という転写を負に制御する機構を持つらしいこと、その機能がコヒーシン病患者でも変動しているらしいことなどを発見しました。
図: A: 遺伝子内領域 (intragenic regions)に存在するコヒーシン結合サイトのうち、転写活性化と共に結合が失われるコヒーシン結合部位をDICsと定義しました。B: 大規模なゲノムデータセットと機械学習を組み合わせた解析により、DICsに関連する多数の特徴を抽出しました。
また我々は、コヒーシンとその関連因子の機能別の役割を網羅的に明らかにすべく、コヒーシン関連因子をノックダウンした多数の細胞株からHi-C、RNA-seq、ChIP-seqデータから成るマルチオミクスデータを生成し、大規模なマルチオミクス比較解析を実施しました。この解析のため、新規の立体構造データ解析手法CustardPyを開発しました。これにより、TADの境界部分は異なるコヒーシン関連因子によって制御される複数のパターンがあること、コヒーシンの機能喪失によりTAD間の立体相互作用がエピゲノム依存的に変動すること、コンパートメントA領域とB領域ではコヒーシンのゲノム上の存在量が大きく異なることなどを明らかにしました。
図: 左:立体構造に関わる因子をノックダウンした株を多数作成し、マルチオミクスデータを生成しました。右:クラスタリングによって得られた重要なゲノム領域の例。上:Hi-Cデータの可視化。転写因子及びヒストン修飾の分布。下: Hi-Cデータから計算したMulti-scale insulation score。赤い部分がTADの境界を示す。
シングルセル解析を用いた様々な解析
ゲノム情報を1細胞レベルで観測するシングルセル解析は、生体組織や腫瘍組織に内在する細胞不均一性 (heteregeneity) や、細胞分化における状態遷移 (trajectory) 、確率的な遺伝子発現ゆらぎ (stochasticity) を推定する目的において用いられます。我々は主にシングルセル遺伝子発現量データ(scRNA-seq)を用いて、以下のようなプロジェクトに取り組んでいます。
・肝細胞線維化の発症・治癒までを捉えた時系列解析(図A)
・遺伝子共発現ネットワークを用いたネットワーク解析(図B)
・幹細胞分化系とシングルセル解析を組み合わせた細胞分化軌道解析による細胞運命制御の調査(図C)
図: A: マウス肝細胞の時系列scRNA-seq解析。B: 遺伝子共発現ネットワークの概念図。C: 幹細胞分化系を用いた細胞分化軌道解析。
これまでの成果
我々は新学術領域「細胞ダイバース」において、シングルセル解析を柔軟かつ多面的に解析可能な1細胞解析プラットフォーム ShortCakeを構築しました(図5)。ShortCakeはDockerという技術を用いて解析環境そのものを「イメージ」としてダウンロード・共有可能なシステムであり、多くの研究者にとって最初の大きな障壁となるツールインストールのコストを大幅に削減できる仕組みとなっています。
細胞ダイバースの中で本ツールを利用して開催した1細胞解析技術講習会は好評を博しました。本講習のために作成した講習会資料は以下のWebサイトで公開しています。
・1細胞解析技術講習会資料
図: 1細胞解析プラットフォームShortCakeの概要
更に我々は、疎なscRNA-seqデータから遺伝子共発現ネットワークを頑健に推定する手法"EEISP"を開発しました。遺伝子単位ではなくネットワーク単位でサンプルを比較することにより、従来の遺伝子発現変動解析では得られなかった新規のマーカー遺伝子候補を同定することが可能になります。本手法をヒト膠芽腫幹細胞データに適用し、幹細胞・非幹細胞間で遺伝子ネットワークの比較解析を実施した結果、新規の膠芽腫幹細胞マーカー遺伝子候補を複数同定しました。
図: 疎なscRNA-seqデータからの遺伝子ネットワーク推定およびネットワーク比較
ヒト血管内皮エピゲノムデータベースプロジェクト
国際ヒトエピゲノムコンソーシアムプロジェクト (IHEC) の一環として、
国内外の多数の研究者との連携のもと、心臓・肺など9つの部位の血管内皮細胞を対象にエピゲノムデータ・遺伝子発現データを収集し、5テラバイトを超える大規模なエピゲノムデータベースを構築しました。
・ ヒト血管内皮エピゲノムデータベース
図: 全身をめぐる血管系の模式図
この大規模データセットから信頼度高く情報を抽出するため、個人差や技術的な要因によるデータ内ノイズを除去する様々な工夫や正規化手法を取り入れ、ノイズに対して頑健な解析ワークフローを構築しました。その結果、血管内皮細胞だけに存在する重要なゲノム機能部位(エンハンサーなど)を多数同定しました。さらなる解析により、血管内皮の性質は上半身と下半身で大きく分かれること、その多様性には特に遺伝子の転写制御に働くホメオボックス遺伝子群が強く寄与していること、これらの遺伝子群の発現制御にはゲノムの立体構造の変化が関わっていることなどが明らかになりました。
・ 東京大学プレスリリース
図: 左: 9部位の血管でのホメオボックス遺伝子の発現量を色の明るさで示したもの。部位ごとに発現量が大きく異なっていることがわかる。右: HOXDクラスター周辺のエンハンサーマーカーH3K27acの分布。赤い弧はChIA-PET解析で得られたクロマチンループ。
ChIP-seq解析はRNA-seqなどの他のオミクス情報とは異なり、ひとつのサンプルから複数のデータを生成する必要があるため(複数のヒストン修飾情報など)、サンプル数がしばしば多量になり、解析が煩雑になります。我々はそのような多数のChIP-seqデータを効率的に比較解析するためのパイプラインツール DROMPAplus を開発しました。DROMPAplusは種々の品質評価、フラグメント長推定、PCRバイアスのフィルタ、正規化、ピーク抽出、可視化やその他の解析に用いることができ、わかりやすいPDF形式で結果を出力します。
図: DROMPAplusの概要
大規模なNGS解析においては入力サンプルの品質が極めて重要です。多数のサンプルを自動的・客観的に品質評価するため、様々な指標がこれまで提案されています。しかし上記の血管内皮エピゲノムプロジェクトにおいて、推奨されているすべての品質評価基準を用いても除去しきれないある種の低品質サンプルがあることが明らかになりました。
そこで我々はChIP-seq解析のための新しい品質評価ツールSSPを開発しました。SSPは、鋭いピーク (point-source) 、広域に薄く分布するピーク (broad-source) 両方について、定量的で感度の高いS/N比を検出可能です。さらに、SSPは「得られたピークの信頼性」を評価する新しいスコアも提供しています。これにより、従来の品質評価基準で検出できなかった低品質サンプルを検出できるようになりました。これらのスコアは細胞種やリード数に依存しないため、様々な細胞種(または生物種)を含む多数サンプルの同時比較を可能にしています。
図: SSPの概要