Japanese | English



研究概要 | 研究プロジェクト | これまでの成果

研究概要:次世代シーケンサを用いたデータ駆動型ゲノム解析

ゲノム (genome) は「世代を超えて受け継がれる生命の設計図」です。生命活動を維持するための全ての遺伝子はゲノム上に存在します。骨、神経、血液など身体中のあらゆる組織ではその組織に必要な遺伝子群を適切に発現させていますが、その発現を制御するための機能領域(エンハンサーなど)もやはりゲノム上に存在しています。データ量にしてDVD1枚分にも満たないヒトゲノム配列の中に、生命のあらゆる情報が詰め込まれているのです。

ゲノム配列には個人差があり、その違いによって、お酒の強さが変わったり、目の色や髪の色が変わったりします。 また、ゲノムが正常に機能しなくなるような問題のあるゲノム変異やゲノム修飾状態(エピゲノム)の異常が起きると、 がんをはじめとするさまざまな疾患を引き起こしうることがこれまでの研究でわかってきました。 ゲノム上のどこに生命活動に重要な領域があり、どこにどのような変異が入るとどのような影響があるのか、という具体的なメカニズムを知るための学問を「ゲノム学 (genomics)」と呼びます。ゲノム学では、疾患に重要な遺伝子やゲノム領域を見つけ出し、新薬開発などに結び付ける研究(ゲノム創薬)や、より多収量で病害に強い作物への品種改良などの研究、生命の本質的な理解につながる新発見が期待されています。 我々の研究室はゲノム学、特にエピゲノム解析をテーマにしています。


様々なNGSアッセイ

次世代シーケンサ(NGS, 上図)を利用した種々の解析技術の発展により、遺伝子の転写レベルや、タンパク−DNA結合、DNAメチル化、ゲノム複製、ゲノム立体構造など、さまざまなゲノム・エピゲノム情報を全ゲノム的にとらえることが可能になりました。NGS解析を用いることで、たとえば疾患患者と健常者の細胞を比較して「疾患に重要な遺伝子やゲノム領域」を同定したり、皮膚・脳・血管など様々な組織のゲノム情報を網羅的に比較することで「組織ごとに異なる(組織特異的と呼びます)ゲノム情報とその重要性」を推定することができます。 特に近年は、利用可能なゲノム・エピゲノムデータが急速に増大していることに伴い、大量のNGSデータを一挙に解析し、これまでの常識を覆すような大きな発見をする「データ駆動型大規模NGS解析」の期待が急速に高まっています。

既存知識に基づき立てられた作業仮説を実験で検証する「仮説検証型解析」に対し、データ駆動型解析は既存知識に頼ることなく、データそのものに含まれる特徴を利用して新しい発見をする方法です。大量のデータを横断的・網羅的に解析することで、たとえば「あるタンパク質が特定の組織で予想外のタンパク質と相互作用しており、その相互作用が失われることである種の疾患が発症する」というような複雑かつ予想外なメカニズムを明らかにできる可能性があります。

NGS解析の一覧

  • ChIP-seq: タンパク質-DNA結合およびヒストン修飾
  • DNase-seq, ATAC-seq: オープンクロマチン
  • Bisulfite-seq: DNAメチル化
  • RNA-seq: 遺伝子発現変動および新規転写物同定
  • Hi-C (Micro-C): ゲノム立体構造
  • ChIA-PET, Hi-ChIP: タンパク質を介したクロマチンループ
  • Exome-seq: 遺伝子変異
  • 1細胞解析 (scRNA-seq, scATAC-seq): 細胞不均一性、細胞分化軌道

それでは、大量のNGSデータから生物学的に重要な情報を得るにはどうすればよいのでしょうか?NGSデータは1サンプルでも既に全ゲノムレベルの情報量を持っており、それが数百、数千サンプルとなるとそれこそ途方もないデータ量になります。また、得られるデータの構造やデータの特性は実験法ごとにばらばらですし、技術的に難しい実験のデータは品質に大きなばらつきが生じます。「ゲノムのどこに着目すればよいのか」が未知であることが多いため、ディープラーニングによる画像認識のような教師あり学習を用いることも困難です。 玉石混交のビッグデータから信頼性高く重要な知見を得ることは現在でも非常に難しく、大きな需要があるにも関わらず、大変高いスキルを持った一部の研究者しかそのような解析ができないという現状があります。 レストランに例えるなら、様々な食材(データ)は充実してきたけれど、料理するための下ごしらえ(データ整形)は全くされておらず、料理するための器具(ツール)や、料理できるシェフ(解析者)が足りてない、というような状況です。

この問題を克服すべく、我々の研究室では「データ駆動型大規模NGS解析」を実現するための技術開発に取り組んでいます。 現在我々は特にエピゲノム状態(ChIP-seq)、ゲノム立体構造(Hi-C, Micro-C)と遺伝子発現状態(RNA-seq)の関係性に興味を持っており、それらが疾患や細胞分化過程においてどのように変動するのかについて知りたいと考えています。生命系、物理系、数学系など他分野の先生方とも議論しながら、未だ明らかになっていないゲノムの謎に迫ります。

現在の研究テーマ

  • 複数のNGSアッセイ(エピゲノム・遺伝子発現・立体構造など)を入力とした統合解析手法の開発
  • 多種多様なエピゲノムデータ(ヒストン修飾など)を入力としたゲノムアノテーションによる新規の機能性制御領域の同定
  • 立体構造データ(Hi-C、Micro-Cなど)をより詳細に解析するための新規手法開発
  • エピゲノムデータを入力としたエンハンサー・プロモーター相互作用推定
  • ゲノム立体構造制御および転写制御に重要なタンパクであるコヒーシン・CTCFの機能解析
  • 1細胞データを入力とした軌道解析による細胞運命制御の調査
  • 1細胞データを入力とした遺伝子ネットワークの構築と比較解析

現在の研究プロジェクト

頑健なデータ駆動型エピゲノム解析システムの構築

AMED-PRIME「早期ライフステージ」において、多細胞種・多サンプルを同時入力可能なエピゲノム比較解析システムを開発しています(図1)。本プロジェクトでは、ChIP-seq, RNA-seq, Hi-CなどさまざまなNGSアッセイを複数の細胞種(または細胞状態)から取得した大規模データを横断的に解析し、半教師あり学習を用いてクロマチン状態を詳細に注釈づけ(アノテーション)する手法を開発します。また、機械学習によるデータ補完技術を用いたエピゲノムデータの再構築手法を実現し、低品質・欠損データを含む大規模データから信頼性高く情報を抽出するための仕組みを構築します。 本システムが完成すれば、大規模解析のためのデータ生成コスト、解析コスト両面を大きく低減することが可能となり、生命系・医療系研究の飛躍的な推進が期待できます。ひいては、エピゲノム解析そのものの価値を飛躍的に高めることになります。

開発するシステムを用いてAMED内共同研究を積極的に推進し、早期ライフステージに関する知見獲得に貢献します。また、本プロジェクトの一貫として国際ヒトエピゲノムコンソーシアム (IHEC) にも参加しており、世界各国の情報解析の専門家と交流・議論しながら、大規模データ統合解析のためのアプローチを模索していきます。

参考:
AMED「健康・医療の向上に向けた早期ライフステージにおける生命現象の解明」
頑健なデータ駆動形エピゲノム解析を実現する情報解析システムの構築
国際ヒトエピゲノムコンソーシアム(IHEC)日本チーム

Figure: AMED-PRIME

図1: データ駆動形エピゲノム解析システムの概要

立体構造データを用いたコヒーシンの機能解析

生物学的な側面では、我々は遺伝子発現とゲノム立体構造制御に重要なタンパク複合体であるコヒーシン (cohesin) に興味を持っています。 コヒーシンはエンハンサー・プロモーターループの媒介 (mediation)・あるいは絶縁 (insulation)、ゲノム立体構造のまとまり(TADと呼ばれる)の形成・維持 (loop extrusion)、RNAポリメラーゼIIの伸長 (elongation) を介して遺伝子制御に関与していると言われています(図2)。 コヒーシン(またはコヒーシンローダー)の変異は先天性の発達症候群である「コルネリア・デ・ランゲ症候群(CdLS)」の要因となることが知られていますが、具体的にコヒーシンのどの機能がCdLSに関与しているのか、そもそも何故コヒーシンはゲノム上でそのように多岐に渡る機能を同時に果たせるのか、数多くの研究にも関わらず依然として謎に包まれています。

cohesin functions

図2: コヒーシンの機能のモデル

我々はコヒーシンとその関連因子の機能別の役割を網羅的に明らかにすべく、コヒーシン関連因子をノックダウンした細胞からHi-C、RNA-seq、ChIP-seqデータを生成し、大規模な比較解析を行っています(図3)。これにより、TADの境界部分は異なるコヒーシン関連因子によって制御される複数のパターンがあること、コヒーシンの機能喪失によりTAD間の立体相互作用がエピゲノム依存的に変動すること、コンパートメントA領域とB領域ではコヒーシンのゲノム上の存在量が大きく異なることなどを明らかにしました [Nakato et al., bioRxiv, 2022]。

Figure: Hi-C

図3: 左:ゲノムの階層的な立体構造と、複数のHi-Cサンプルを用いたクラスタリング。 右:クラスタリングによって得られた重要なゲノム領域。上: 遺伝子アノテーションとコンパートメント情報。中央: ChIP-seq のリード分布。下: Hi-Cデータから計算したMulti-scale insulation score。赤い部分がTADの境界を示す。

これまでの成果

シングルセル解析パイプライン

ゲノム情報を1細胞レベルで観測するシングルセル解析は、生体組織や腫瘍組織に内在する細胞不均一性 (heteregeneity) や、細胞分化における状態遷移 (trajectory) 、確率的な遺伝子発現ゆらぎ (stochasticity) を推定する目的において用いられます。我々は新学術領域「細胞ダイバース」において、シングルセル解析をより柔軟かつ多面的に統合解析・可視化できるシステムを構築しています(図4)。これまでに、様々な解析ツールをインストール済のDockerイメージを1細胞解析プラットフォームとして構築・公開し、多くの研究者にとって最初の大きな障壁となるツールインストールのコストを大幅に削減できる仕組みを構築しました。

更に我々は、疎なシングルセル遺伝子発現量データ (scRNA-seq) から遺伝子共発現ネットワークを頑健に推定する手法を開発しました [Nakajima et al., NAR, 2021]。遺伝子コミュニティ単位でサンプルを比較することにより、従来の遺伝子発現変動解析では得られなかった新規のマーカー遺伝子候補を同定することが可能になりました(図5)。

これらの技術を用いて「細胞ダイバース」領域内でのシングルセル解析を支援している他、実データに対する解析の知見や苦労を共有知とし、世界最先端に伍するべく、本プラットフォームを起点とした領域内解析コミュニティの創出にも取り組んでいます。

参考:
文部科学省 新学術領域研究「細胞社会ダイバーシティーの統合的解明と制御」
1細胞解析技術講習会資料

Figure: scRNAseq 1

図4: シングルセル解析パイプラインの構築と、細胞不均一性の調査

Figure: scRNAseq 1

図5: 疎なscRNA-seqデータからの遺伝子ネットワーク推定およびネットワーク比較

ヒト血管内皮エピゲノムデータベースプロジェクト

国際ヒトエピゲノムコンソーシアムプロジェクト (IHEC) の一環として、 国内外の多数の研究者との連携のもと、心臓・肺など9つの部位の血管内皮細胞(図6)を対象にエピゲノムデータ・遺伝子発現データを収集し、5テラバイトを超える大規模なエピゲノムデータベースを構築しました。このデータベースはオンラインで公開されています(データベースサイト)。

この大規模データセットから信頼度高く情報を抽出するため、個人差や技術的な要因によるデータ内ノイズを除去する様々な工夫や正規化手法を取り入れ、ノイズに対して頑健な解析ワークフローを構築しました。その結果、血管内皮細胞だけに存在する重要なゲノム機能部位(エンハンサーなど)を多数同定しました。さらなる解析により、血管内皮の性質は上半身と下半身で大きく分かれること、その多様性には特に遺伝子の転写制御に働くホメオボックス遺伝子群が強く寄与していること、これらの遺伝子群の発現制御にはゲノムの立体構造の変化が関わっていることなどが明らかになりました(図7)。

論文: Nakato et al., Epigenetics & Chromatin, 2019
東京大学プレスリリース

EC types

図6: 全身をめぐる血管系の模式図

EC annotation

図7: 左: 9部位の血管でのホメオボックス遺伝子の発現量を色の明るさで示したもの。部位ごとに発現量が大きく異なっていることがわかる。右: HOXDクラスター周辺のエンハンサーマーカーH3K27acの分布。赤い弧はChIA-PET解析で得られたクロマチンループ。

エピゲノム解析パイプラインDROMPA

ChIP-seq解析のためのパイプラインツールDROMPAを長年開発しています(現在の最新版はDROMPAplusとして公開されています)。 DROMPAは種々の品質評価、フラグメント長推定、PCRバイアスのフィルタ、正規化、ピーク抽出、可視化やその他の解析に用いることができ、わかりやすいpdf形式で結果を出力してくれます(図8)。

論文: Nakato et al., Methods, 2020

エピゲノム解析パイプラインDROMPA

図8: DROMPAの概要

SSP: ChIP-seqの品質評価ツール

大規模なNGS解析においては入力サンプルの品質が極めて重要です。多数のサンプルを自動的・客観的に品質評価するため、様々な指標がこれまで提案されています。しかし上記の血管内皮エピゲノムプロジェクトにおいて、推奨されているすべての品質評価基準を用いても除去しきれないある種の低品質サンプルがあることが明らかになりました。

そこで我々はChIP-seq解析のための新しい品質評価ツールSSPを開発しました(図9)。SSPは、鋭いピーク(point-source)、広域に薄く分布するピーク(broad-source)両方について、定量的で感度の高いS/N比を検出可能です。さらに、SSPは「得られたピークの信頼性」を評価する新しいスコアも提供しています。これにより、従来の品質評価基準で検出できなかった低品質サンプルを検出できるようになりました。これらのスコアは細胞種やリード数に依存しないため、様々な細胞種(または生物種)を含む多数サンプルの同時比較を可能にしています。

論文: Nakato et al., Bioinformatics, 2018

Figure: SSP

図9: SSPの概要


Copyright © 2019-2023 Nakato Laboratory All Rights Reserved.