RNA-seq解析のpythonを使った実装

今回は、「先進ゲノム支援 2018年度情報解析中級者講習会」の配布資料を参考にRNA-seq解析をpythonで実装しました。実装したものはgithubに公開しています。githubのREADMEにも記載していますが、書籍「独習 Pythonバイオ情報解析」の7章「RNA-Seqカウントデータの処理」は上記講習会の処理後のデータ解析を行っています。この書籍で勉強する前にRNA-seqの勉強をするために使用していただくなどして頂ければ幸いです。

実行方法

簡単に公開したRNA-seqの使い方を紹介したいと思います。

前提条件としてOSはUbuntuとなっています。講習会ではOSをCentOSとして講習を行っていたみたいなので、ここの不一致は申し訳ないですが私の開発環境がUbuntuでしたので、Ubuntuで実装しています。(とはいえsratoolkitをCentOS用のものにすればCentOSでも動きそうですが)

sudo apt install g++ \
                 make \
                 unzip \
                 wget \
                 default-jdk \
                 libz-dev  \
                 libpthread-stubs0-dev \
                 libncurses5-dev \
                 ncurses-devel \
                 libbz2-dev \
                 liblzma-dev

最初に必要なパッケージのインストールを行います。

conda create -n env_name python=3.6
conda activate env_name

次にpython環境の構築を行います。使用しているpythonのバージョンは3.6です。ここは講習会の内容に合わせています。READMEにはconda環境を使用する方法を記載していますが、他の方法でも大丈夫だと思います。

pip install bcbio-gff

続いてpythonライブラリのインストールを行います。講習会で一つだけpythonライブラリを使用していまして、それがbcbio-gffになります。これをインストールすれば準備は完了です。

python rnaseq.py setup

setupを指定することでRNA-seqを行うための各種セットアップが行われます。具体的には使用するデータのダウンロードおよびソフトウェアのダウンロードが行われます。

なお、使用したソフトウェアは以下のようなものになります。

sudo chmod 777 tools/FastQC/fastqc

ダウンロードしたソフトウェアのうちFastQCについては権限の変更を行う必要がありました。setupとrunを分けているのも、この権限編集が必要だったからです。この操作も一連の処理に組み込むことはできましたが、そうするとすべての処理をrootで行うことになってしまうので分けることにしました。

python rnaseq.py run

runを実行するとRNA-seqパイプラインが実行されます。