RNA-seq解析のpythonを使った実装
今回は、「先進ゲノム支援 2018年度情報解析中級者講習会」の配布資料を参考にRNA-seq解析をpythonで実装しました。実装したものはgithubに公開しています。githubのREADMEにも記載していますが、書籍「独習 Pythonバイオ情報解析」の7章「RNA-Seqカウントデータの処理」は上記講習会の処理後のデータ解析を行っています。この書籍で勉強する前にRNA-seqの勉強をするために使用していただくなどして頂ければ幸いです。
実行方法
簡単に公開したRNA-seqの使い方を紹介したいと思います。
前提条件としてOSはUbuntuとなっています。講習会ではOSをCentOSとして講習を行っていたみたいなので、ここの不一致は申し訳ないですが私の開発環境がUbuntuでしたので、Ubuntuで実装しています。(とはいえsratoolkitをCentOS用のものにすればCentOSでも動きそうですが)
sudo apt install g++ \
make \
unzip \
wget \
default-jdk \
libz-dev \
libpthread-stubs0-dev \
libncurses5-dev \
ncurses-devel \
libbz2-dev \
liblzma-dev
最初に必要なパッケージのインストールを行います。
conda create -n env_name python=3.6
conda activate env_name
次にpython環境の構築を行います。使用しているpythonのバージョンは3.6です。ここは講習会の内容に合わせています。READMEにはconda環境を使用する方法を記載していますが、他の方法でも大丈夫だと思います。
pip install bcbio-gff
続いてpythonライブラリのインストールを行います。講習会で一つだけpythonライブラリを使用していまして、それがbcbio-gffになります。これをインストールすれば準備は完了です。
python rnaseq.py setup
setupを指定することでRNA-seqを行うための各種セットアップが行われます。具体的には使用するデータのダウンロードおよびソフトウェアのダウンロードが行われます。
なお、使用したソフトウェアは以下のようなものになります。
- fastq-dump
- FastQC
- Trimmomatic
- HISAT2
- featureCounts
sudo chmod 777 tools/FastQC/fastqc
ダウンロードしたソフトウェアのうちFastQCについては権限の変更を行う必要がありました。setupとrunを分けているのも、この権限編集が必要だったからです。この操作も一連の処理に組み込むことはできましたが、そうするとすべての処理をrootで行うことになってしまうので分けることにしました。
python rnaseq.py run
runを実行するとRNA-seqパイプラインが実行されます。