無料のDNA配列整列・連結(アセンブリ)ソフトGeneStudio

研究室で学生から

PCR断片配列を両側からシーケンスしたのを、ひとつに合わせたいんですけど……」

という質問を受けることが時々ありました。

この質問は暗黙の了解として「(フリーソフトGUIで……)」というのを含んでいます*1。サンガーシーケンスで読んだ少数(数個)の配列リードを、ちょいちょいっと繋ぐようなフリーソフトがあればいいということです。

【重要】【追記 2015/06/27】Macユーザは迷わずApEを使いましょう。

ApEでシーケンスアライメント - ニュートラルな研究者のメモ

GeneStudioというWindows用ソフトをおととい知りました。上の質問に対する回答だと思ったので紹介します。
http://genestudio.com

このソフトウェアに含まれているContig Editorという機能は、ABIのサンガーシーケンスで産出されたAB1ファイルを読み込み、クオリティに従って5’/3’末端をトリムし、アセンブルしてくれます。

アセンブルされた配列グループ(コンティグという)の画面には、各配列リードの横の矢印をクリックすると、波形データが表示されます。この、コンティグの中に配列リードが表示されるという機能は非常に有益です。

配列エラーの編集はきわめて直感的で、塩基配列文字列の編集したいところをクリックすると、まさにエディタやワープロのように、置換・挿入・削除ができるのです*2。各リードも、コンセンサス配列(つながった全体の配列)もこの操作ができます。

端っこをさらにトリムしたいという時は、波形の段の末端をクリック・ドラッグすることで可能です。

ambiguity finderという機能で、ミスマッチ部分の検出もバッチリです。

私にとっての最大の問題はなによりもMac版がないということです。

【重要】【追記 2015/06/27】Macユーザは迷わずApEを使いましょう。

ApEでシーケンスアライメント - ニュートラルな研究者のメモ

余談としては、なぜか「Professional」というのがソフトの名前に入っているのに気がついて疑問に思いました。というのもそうしたのは、無料の機能限定版があって、そのフル機能版としてProfessional版が有償で提供されるというのが多いからです。

検索をしていると、このGeneStudioは現在バージョン2.2で、2011年にリリースされています。過去を遡ると、バージョン1が2003年にリリースされており、このときは有償だったようです。見積もり依頼、というようなことも書いてあります。ですから、どういうわけかありがたいことにその後無償での提供に移行したようです。

*1:じつは私自身もあれば知りたいと思いながら、Serial clonerのペアワイズ整列のコンセンサス出力でお茶を濁していた。有料であればいくらでもある。最も凶悪なのはsequencherの何十万円で、確かにユーザインタフェースの面からいいという。私は使っていたことはない。私自身が使っていたのはCodoncode Alignerである。これはインタフェースもOKで値段も720ドル(7万円)とお値打ちになっている。ただそれもBACクローンのショットガン配列決定で数百kbの領域を数万のリードから決定するからと導入したものである。また、別の選択肢ではCLC DNA workbenchは、関東大震災後にCLC社が日本の研究者にライセンスを何ヶ月か無償で配布していたので、その機会に得たひともあるかもしれない。UNIXが自由に使える学術機関の人間であればPhred/Phrap/Consedが無料であろうけれど、その水準を要求するのは時に酷である。WindowsからUNIX環境を利用するのも含めて。

*2:以前、Bioeditなどを、アセンブリではありませんが、サンガーリー度の編集に使用していたときはこのテの操作がかなり面倒(というか特殊?)だった気がしますから、比較したときにとてもいいといえます。