殺シ屋鬼司令II

世界一物騒な題名の育児ブログです。読書と研究について書いてきました。このあいだまで万年筆で書く快感にひたっていました。当ブログでは、Amazonアフィリエイトに参加してリンクを貼っています。

MENU

タンパク質構造予測・検索は生物学史に新たな章を開いた、かつてのBLASTのように

「構造生物学なんもわからん」生物学者でもさわれるのが大事

AlphaFoldの吐く構造をわからんなりにぐりぐりしててわかってきたのは、生物学は完全に新しい章に入った。

thinkeroid.hateblo.jp

いきなり大風呂敷広げるやんけ、と思うかもしれないが、こういう状況を私は密かに予見していたというわけではないけど、構造を予測し比較して検索する一連のラインが個人的に欲しい、と思っていた。それがAlphaFoldとその後にでたツールで実現したということだと考えている。

なぜそんなことを考えていたのか? それは最近、2020年頃までに立て続けに、「配列的な類似性は低い(有意な類似性が見い出せない)が、構造はどう考えても似ている(そして機能的にも非常に似ている)」という研究発表が近い分野で続出したからである。

例えば典型的な例としては2017年にScience誌に掲載された研究だ。

Holliday junction resolvases mediate chloroplast nucleoid segregation - Science

first.lifesciencedb.jp

AlphaFold以前のものだが、SWISS-MODELを使っているようだ。特に論文サプリメントFig S6がそれにあたる。そこではシロイヌナズナ葉緑体ホリデイジャンクション解離酵素と、大腸菌のRuvC酵素を比較している。アミノ酸配列としてはあまりにも一致が少なく似ていると考えるのは難しいが、立体構造上は重要な残基において類似した配向をとる、という。

また同時期に、植物の精細胞が受精するときにメスの卵細胞と「融合」を行うときに使う膜タンパク質GCS1/HAP2の立体構造が決定され、それが驚くべきことに線虫の(体細胞同士の)細胞融合に使われるEFF-1、さらには重症熱性血小板減少症候群ウイルスが感染するために必要な膜タンパク質とも(アミノ酸配列ではなく)立体構造的に酷似する、という研究があった。

rupress.org

こうした研究が短期間にあったので、どうしても「いや、それ他にも絶対あるよね」と思わざるを得なかった。SWISS-MODELも使ってみたがやっぱりよくわからなかったし、実際に立体構造を決めてみるというのは一般の生物学者にとってはおいそれと手を出せる話ではなかった。

それがいまや、AlphaFoldとその後の様々なツールの到来で、おうちで簡単タンパク質立体構造予測・比較・検索・表示セラピーが可能になっている。

「予測・比較・検索・表示」にどういうツールを使うか

まず予測のアルゴリズムがAlphaFoldだ。Googleクラウド環境であるGoogle Colaboratoryで誰でも稼働できるように公開されている。基本的にはタンパク質配列を放り込んで走らせる(Run all runtime)ことで数十分ほど待てば手元に予測構造5つがダウンロードされる。信じられないぐらい簡単である。注意点は配列が長すぎると時間がかかる。200残基ぐらいだと爆速でトイレに行って帰ってくるともうできている。ドメインっぽい構造ごとに放り込んだらいい。

さらにすごいのはこれ、配列をコロン(:)で区切って並べると、ダイマーまで予測してくれる。タンパク質の多くは他のタンパク質と相互作用して機能している。そうしたこともコンピュータ上でわかってしまうということだ。

AlphaFold2 on Google Colaboratory
colab.research.google.com

基本はAlphaFoldを走らせることだが、Uniprotのデータベースに入っていて、およそ1,000残基程度以下のタンパク質は、既にAlphaFoldがブン回してある。自炊しなくてもコンビニに行けば出来合いのご飯を食べるような感覚だ。

AlphaFold Protein Structure Database
www.alphafold.ebi.ac.uk

もしくは、元サイトであるUniprotを見たほうが他の情報とアグリゲートしたカタログになっているのでいい。発現や、局在情報とも見比べることができたりする。

www.uniprot.org

予測した配列のPDBファイル(.pdb)をアップロードすると、似た構造のタンパク質を検索してくれるFoldSeekもある。Google ColaboratoryのAlphaFoldを構築したチームが開発したものらしい。PDBファイルでなくても200残基程度のアミノ酸配列を放り込むとこの上で爆速で構造を予測してくれたりするので簡便にはこっちつかってみたこともある。

Foldseek
search.foldseek.com

この構造類似度の指標として「TM-score」という値が出てくるが、TM=0.2だと全然一致してないということ、TM=0.5だと「同じフォールディングだ」ということらしい。

Foldseekでは1対1だが、さらにいくつもの構造をオーバーラップさせて構造が一致するかどうか見るためにはRCSBのアラインメントプログラムを利用することができる。
RCSB alignment
www.rcsb.org

RCSB PDBというのはResearch Collaboratory for Structural Bioinformatics Protein Data Bankの略ですね。

手持ちのPDBファイルをアップロードしたり、PDBというデータバンクにアップロードされている構造のIDを入力することでアラインメントをとる。注意しなくてはいけないのは"Chain ID"に"A"とか入れてやらないと動かない。また、全体構造をアラインするより、類似したドメインごとにアラインしたほうがきれいかなと思う。その方法は、アミノ酸配列の開始・終了位置を指定すればいい。

こうしたサービスが生成したPDBファイルやmmCIBファイルが立体構造のファイルになる。中身はテキストファイルだが、専用の立体構造表示プログラムが必要である。インターネット上の構造生物学者が最も使っているのはPyMOLらしい雰囲気を感じるけど、有料っぽいので、無料のUCSB ChimeraXを使っている。Unipro UGENEで見られないこともないけどちゃんと使ってないのであまりオススメできない。

UCSB ChimeraX
www.rbvi.ucsf.edu

RCSB alignmentで吐かれたファイルをそのまま食わせるのが、そのまま同じ位置に似た構造を置いてくれるので幸せである。野良のPDBを幾つも食わせることは出来るけど、それぞれをグリグリ動かして同じところに持ってくるのは辛い。

これが「構造生物学なんもわからん」生物学者であるわたしが最近やっている「なんもわからん構造生物学」である。本職の構造生物学者が見たら、わたしが2歳児のおままごとを見ているのと同じようにみえるのかもしれないのだが、40歳を超えたポスドクはもうこわいものがない。来年、いや明日研究をしているかどうかすら「なんもわからん」のである。そんな状況で、後ろ指を差されることを恐れるのは、端的に滑稽でしかない。

つまり、おじさんになったのである。

生物学史におけるAlphaFoldの位置づけ

題名にも書いたがAlphaFoldとそれに続くツール群は、個人的にはBLASTと同じだといえる。BLASTはNCBIのプログラムでだれでもおうちで簡単生物配列検索セラピーができるプログラムであり、ペアワイズアラインメント(2つの配列を並べる)でも事実上のスタンダードといっていい。それ以後もBLAST超えを標榜するソフトウェアは無数に出たがみんな大好きBLASTを使っている。

例えば、なにかやたらと謎めいた評価を得がちな「エボデボ」つまり進化発生学という分野があるが、これも私の意見ではアミノ酸配列の類似性を計算することをベースに発展した。言うまでもなくエボデボというアイデアが現在の生物学者の知る形になったのは、昆虫のホメオティック遺伝子と相同な遺伝子が脊椎動物にもある、という発見がもとになっている。

いまここで「相同な」と言った。これは大学学部の生物学の講義では「同じ祖先から受け継がれた遺伝子」と説明している。生物学者が「ああ、相同だね」というときに何を意味しているかと言えば、似ているということである。BLASTに放り込んでE-valueが0.0000000001(10のマイナス10乗、英語だと"E, negative ten"ということもある)以下になったことだということもある(実際よくある)けど、結局はプログラムで計算できるようになったからみんなそれをやることができるようになったし、生物学者のプラクティスとして根付いた。

昆虫のホメオティック遺伝子と脊椎動物の遺伝子が似ているということを突き止めたGehringチームの1994年の論文で引用されているのは1988年に発表された配列比較プログラムであるFASTA(ファスト・エーと読む)プログラムである。いま我々が生物配列を保存する形式として使うFASTA形式の、その由来になっているプログラムである。なおBLASTのAltschulらの論文は1990年に発表されている。しかし、一番大事なのはそのBLASTがNCBIで誰でも遊べるようになったことだ。それまでは計算するのにスパコンが必要だったりした。

いまわたしたちが目にしているのはそれと同じ時期の現象だと考えることはむずかしくない。構造生物学は強力な分野で障壁が高かった。生物学者の大半は構造生物学に明るくない。生物学者の強みは、実際の生物現象に精通していることだ。その生物学者が、誰でもおうちで簡単タンパク質立体構造セラピーすることができるようになった。立体構造はとっつきにくい分野かもしれないが、自分でどんどんさわることでイメージが湧くようになる。実際に自分の手で動かしてみることで勉強も捗る。その上で構造生物学者とコラボレーションすることで、実りの多い研究が期待できる。

新しい生物学の時代が始まるとわたしがいうのはおよそそういった意味である。こういう状況で大事なのは「どういうバイオロジーを持っているか」だと思う。また一段と生物学を深く掘ることができるようになったということで、また一段と面白い時代が来る。