研究内容

概要

遺伝子配列の解析は、DNAシーケンサーの発展とともに計算機による解析をますます必要とする時代になっています。ゲノム・メタゲノムだけでなく、トランスクリプトーム、プロテオーム、メタボロームなど様々な切り口でオミクス解析が行われています。それらを、バイオインフォマティクスの手法を駆使して有機的につなげて解析することが、今後、益々重要になるはずです。当研究室では、これを実現するためにも以下の２つの点を重視して研究を進めています。

（１）実際のデータを取り扱うウェットの実験研究者との密な連携

（２）より幅広いバイオインフォマティクスの知見を駆使した技術開発・解析

現在ウェット実験の研究者とも、ゲノム、プロテオミクスなどのオミクスデータの解析やデータベース作成で協力・連携しています。医学分野を含め、幅広い分野の実験研究者との協力関係を広げていくことによって、医学・生物学全般にわたって意義のある知識抽出が可能なバイオインフォマティクスを展開できるようにしていきたいと考えています。

これらの様々なタイプのオミクスデータを組み合わせ俯瞰した時に、自然環境から腸内細菌、さらにはヒトの細胞内に至るまで、様々な物質の流れが繋がって見えるようになるはずです。これからますます規模が大きくなるオミクス解析を加速させ、点と点を繋ぐのがバイオインフォマティクスの役割であり、それを実現することを究極の目標として研究に励みたいと思っています。

当研究室のテーマは、①オミクスデータの機能解析、②データベース構築、③データの可視化技術の開発、という3つに大別できます。

主な研究プロジェクト

統合化推進プログラム、「異分野融合を志向した糖鎖科学ポータルのデータ拡充と品質向上」、主たる共同研究者、2022-2026
AMED-CREST 「全ライフコース」研究領域、「加齢に伴う老化細胞蓄積メカニズムとその病的老化形質に対する関与の解明」、研究開発分担者、2019-2024
JST-CREST「情報計測」研究領域、「質量分析と統計解析の融合によるメタプロテオミクス」、主たる共同研究者、2018ー2023
統合化推進プログラム、「プロテオームデータベースの機能深化と連携基盤強化」、主たる共同研究者、2018ー2022
科学研究費補助金・基盤研究(A)、「がんゲノム医療実現に向けた高次元データ解析基盤構築」、代表研究者、2018ー2020
統合化推進プログラム、「糖鎖ポータルの構築」、主たる共同研究者、2017ー2021
統合化推進プログラム、「プロテオーム統合データベースの構築」、主たる共同研究者、2015ー2017
統合化推進プログラム、「糖鎖統合データベースおよび国際糖鎖構造リポジトリの開発」、主たる共同研究者、2014ー2016

ゲノミクス・メタゲノミクス・がんゲノミクス

がんゲノム解析

がん治療の主流である手術や化学療法などとは異なり、原因となる遺伝子の異常に注目する新たな手法が始まろうとしています。がん細胞から得れれるDNA配列を直接調べることで、どの遺伝子のどの部位にどういう変異が起きているかがわかります。これにより発症しているがんの直接の原因を究明できるため、その原因分子を直接制御するための分子標的薬による治療を選択することができるようになります。このがんゲノム分野において、計算機を駆使するバイオインフォマティクス分野は非常に重要な役割を担っています。

日本人がんゲノミクス

新潟大学では、日本人を対象としたがんゲノム解析を実施しています。最初に大腸がん患者201人のDNAを使って、約400遺伝子のターゲットシーケンス解析を実施しました。ターゲットシーケンス解析とは、がんに関連があるとされる遺伝子のみを深くシーケンスする手法です。各個人の変異の持ち方を互いに比べることで、同じ変異パターンを示す人たちをグループにまとめることができました。今回の解析では、変異を持つ遺伝子のパターンに注目しグループ化したことで各グループに効果を発揮する可能性の高い分子標的薬が存在しうることを示しました(論文)。今後さらに多くの解析結果を積み上げることで、より精確な判断が可能なPrecision medicineを実現する必要があります。

メタゲノム

ゲノムはある生物種が持つ遺伝子すべてであるのに対して、メタゲノムという言葉は、ある環境中に棲む生物種が持つ遺伝子全てという意味になります。動物の腸内環境や皮膚、あるいは海や土壌といった自然環境中にいる微生物がどのような生物種で構成されていて、どのような機能を持っているか、という疑問は昔から謎な部分が多くありました。DNAシーケンサーが現在ほど高速ではなかった時代に、微生物生態学の分野では16S rRNAの配列を同定し、その相同性から種を推定するという手法が主に用いられていました。しかし、環境中の微生物の機能・活性を解析するためのメタゲノム解析が、次世代シーケンサーの普及によって現在急速に進んでいます。ある環境中の微生物が全体として保つ機能を遺伝子レベルで解析できることから、メタゲノム解析は非常に重要な役目を担っています。

腸内細菌マイクロバイオーム

人の腸の中には、100兆個とも言われている微生物が生息しています。この微生物群の活動やその状態によっては、健康に悪影響が出る可能性が指摘されています。実際、肥満の人の腸内細菌は、痩せた人とは全く組成が異なっていて、肥満の原因になっていると言われています。この腸内細菌に関して、2型糖尿病患者の腸内細菌と健康な人の腸内細菌とをメタゲノムで比較するという研究が実施されました。2型糖尿病は近年の食習慣などの影響もあり非常に患者数が増えている病気です。この研究で利用した解析手法は、遺伝子変異に着目して病気との関連を解析するゲノムワイド関連解析（GWAS）にならって、メタゲノムワイド関連解析（MGWAS）と呼んでいます。この手法を使うことで、2型の糖尿病に特有の腸内細菌の生物種・遺伝子を同定することに成功しました。これらのマーカー遺伝子を基にして、腸内細菌のメタゲノムデータから2型糖尿病を分別するための診断指標が作成され、実際のデータに試した結果、非常に効率よく糖尿病患者を分別することに成功しました。この成果は国際的な共同研究として、非常に権威のある科学雑誌であるNature誌に論文が掲載されています(論文)。

バーチャルメタゲノム

このようにメタゲノム解析は、環境微生物とそれに関与する病気との関連を解析するのに非常に強力なツールです。しかしながら、大量の遺伝子配列情報が必要なことから、金銭的なコストの問題があるので、簡単に実験することは未だに難しい状況です。そこで、高価な次世代シーケンサーを利用しなくても、メタゲノムのような解析を行う手法の開発に取り組みました。先程も書きましたが、生物種の同定には16S rRNAの配列がよく利用されます。では、その16Sの配列がゲノム配列が決まっている生物種の16Sと非常に相同性が高い場合、知りたい生物種のゲノム配列は、その相同性の高い生物種のものと似ていると言えるでしょうか。ある程度の基準（進化距離が非常に近いことが条件）を満たすと、その相同性の高い生物種のゲノムと組成が非常によく似ていると言えることがわかりました。そこで、ゲノム配列が公開されている生物種の16S配列からユニバーサルな系統樹を作成し、それにゲノムが知りたい16S の配列をマッピングして、進化的に近いゲノムとその近縁種で目的のゲノム構造を近似するという手法を考えました。同一サンプル内の複数の16Sの配列を用いてゲノム再構築を行い、その結果を一つにまとめると、擬似的にメタゲノムを構築することができるというわけです。この手法は仮想的にメタゲノムを作成することから、バーチャルメタゲノムと名づけました。実際に環境中のバイオフィルム形成過程の細菌の16Sの配列をこの手法に適応することで、時系列のバイオフィルム形成過程を遺伝子レベルで解析することができました(論文)。この手法は16S rRNA配列を決めるだけで良いため、虫歯・医療器具などの細菌バイオフィルムや腸内を含む人間全身の細菌叢、あるいは、土壌や海といった自然環境中の微生物叢全般で利用できます。また、16S rRNA配列による種の多様性の解析は、様々な微生物生態学分野の研究者によって過去に行われてきているので、そのデータを取得した時点では種の構成しか議論できなかったデータであっても、その配列にこのバーチャルメタゲノムの手法を応用することによって、遺伝子レベルでの再解析できることになります。そのためのデータベースを構築しています(以下参照)。

データベース

jPOST: Japan Proteome Standard Repository/Database

jPOST(Japan Proteome Standard Repository/Database)は、京都大学を中心としたオールジャパン体制で開発が進められているプロテオーム統合データベースです。その中で開発されているデータベースの一つがjPOSTリポジトリです(論文)。このシステムは、アジア・オセアニア地域における初めての国際標準プロテオームデータリポジトリで、2016年には国際標準のデータリポジトリシステムを提供するProteomeXchangeコンソーシアム(論文)の正式メンバーとして承認されました。今後、アジアを中心に世界中のプロテオームデータがjPOSTリポジトリに登録されることになります。

ODB: Operon DataBase
ゲノムの機能を予想する上で、遺伝子の機能アノテーションが正確であることが重要です。原核生物ではオペロンという転写システムがあり、ゲノム上の遺伝子の並び方がその機能に関係していることが知られています。そこで、文献から様々な生物種の既知オペロンを収集し、データベース化することは、遺伝子機能の推定にとって非常に役に立ちます。結果として、世界で最大の既知オペロンデータベースを開発することが出来ました(論文)。現在でもRNA シークエンスなどの大規模データも取り込みデータベースを更新しています(論文)。また、このデータベースを利用した比較ゲノム解析として、ODBで収集された枯草菌と大腸菌のオペロンに焦点を当て、そのオペロン構造の比較を行った結果、同じ転写因子上の共発現遺伝子群は、他の遺伝子に比べて、進化的に良く保存されていることを発見しました(論文)。また、オペロンを構成する遺伝子間の共発現のレベルと、遺伝子の機能・進化に相関があることも発見しました(論文)。とりわけ、外部環境因子に応答する遺伝子は、オペロンの境界領域でよく保存される傾向を持つことを明らかにしました。進化の過程で外部環境に適応するために得た遺伝子は関連の有るオペロンと繋がることで、より効率的な遺伝子機能の発現に寄与しているのかもしれません。

GlycoEpitope
立命館大学糖鎖工学センター・川嵜敏祐教授と共にGlycoEpitopeというデータベースの開発・運用を行なっています。GlycoEpitopeは、糖鎖抗体の認識部位であるエピトープとその抗体についての詳細な情報が格納されたデータベースです。糖鎖の実験を行う際に抗体について調べるときなどに、GlycoEpitopeの情報は非常に役に立ちます。このGlycoEpitopeは糖鎖統合データベース(JCGGDB)の一部として開発が進められています。糖鎖オントロジーの整備や糖鎖構造のデータフォーマットの標準化を目指して(論文)、開発が進められています。統合データベースプロジェクトの一環で行われているバイオハッカソンという生命科学DB開発者が集まり、相互連携や新規機能に必要な開発をその場で連携して行う会議(論文)にも参加し、これらの標準化に必要な開発を行っている。

データ可視化・ウェブツール

大量のデータをより使いやすくかつ見やすくすることによって、オミクス研究は飛躍的に促進できます。そのためには、データの可視化が重要です。京都大学化学研究所では、KEGG (Kyoto Encyclopedia for Genes and Genomes)というデータベースが開発・運用されています。KEGGはゲノムやパスウェイのデータベースとして世界的にも非常に有名です。KEGGが開発しているパスウェイマップは、代謝系の意味毎に分類されていましたが、これをひとつにまとめて代謝系全体を俯瞰することができるパスウェイマップの開発が望まれていました。KEGGデータベースにおける1次代謝のパスウェイマップを統合し、1つの巨大なグローバルマップの開発に携わりました(論文)。さらに、この代謝系のグローバルマップをGoogle Mapのように自由自在に操ることができるようにしたシステムであるKEGG Atlasの開発も行いました(論文)。大量の遺伝子情報が得られるオミクスデータをこのパスウェイにマッピングすることで、どの系の発現が高いか低いかといったことが一目でわかるようになりました。また、ドイツEMBLの研究者との共同研究として、このグローバルマップの可視化のためのツールiPath2.0というツールの開発も行いました(論文)。こちらのiPathでは、マッピングの詳細をよりカスタマイズして、ユーザーの思ったように色づけしたり、線の太さを変えたり出来るような仕組みになっています。

Medical AI Center / Bioinformatics Laboratory

Niigata University School of Medicine / Niigata University Graduate School of Medical and Dental Sciences