標準分析環境建置


Doc_ID: A13-0001
Editor: Mira
Reviewer: Lucas

Goal

Genome Analyst(GA)分析環境可以在大部份的 Linux系統的伺服器環境建置,系統內檔案分別放在工作區 (User_Work)跟資源區(User_home/GA_bundle)放在不同位置,工作區用來存放分析資料,每個專案在分析時會建立標準分析專案目錄存放資料檔及分析過程建立的程式碼。資源區則是存放常用的分析模組、軟體及相關資料(例如Reference genome),資源區檔案放在個人的家目錄,除非系統改版否則是不會改變的。若您是使用國網中心的台灣杉三號主機 (Taiwania III),使用者的工作區會根據不同的計畫申請而位在不同的工作目錄下;使用者家目錄則位在使用者群組目錄下(/home/uN/UserName) 。

在檔案的權限設定上,使用者在自己的工作區目錄區,可以自由創建、刪改檔案目錄,別人無法看到目錄內的內容。如果使用者要分享私有區的資料,則可以使用 ACL 的機制分享。若您是使用自己的伺服器來建置系統,可自行建立工作區目錄及資源區目錄來管理分析環境。在本文中將說明如何在台灣杉三號主機 (Taiwania III)下建置 GA分析環境,建立分析專案及使用分析模組。您也可以由”GA01 GA標準分析環境建置” 了解實際上的操作的過程。

生醫服務入口平台:http://lions.nchc.org.tw/biodb.jsp
Linux/Mac作業系統連線說明:https://man.twcc.ai/@TWCC-III-manual/…
(For Windows) MobaXterm下載位置:https://mobaxterm.mobatek.net/downloa…
台灣杉三號相關說明 台灣杉三號生醫節點位址:t3-c4.nchc.org.tw
台灣杉三號主機介紹:https://www.nchc.org.tw/Page?itemid=2…
台灣杉三號使用說明:https://man.twcc.ai/@TWCC-III-manual/…
Miniconda下載:https://docs.conda.io/en/latest/minic…

0:00 前言
1:18 註冊/申請台灣杉三號HPC帳號
4:55 連線登入台灣杉三號(安裝MobaXterm)
8:36 建置標準分析環境


Step 1: Install Conda management program

我們使用 Conda程式建立及管理分析環境及軟體,所以登入後第一步需先安裝 Conda程式,再由Conda 安裝軟體環境,目前我們使用的miniconda 4.10.3版本,請參照以下步驟進行安裝。

Hint:
#如果你不確定是否已安裝過miniconda,請執行
conda env list
#若已安裝過miniconda,會顯示目前已建立的虛擬環境

在家目錄安裝 miniconda 

#移動到使用者家目錄
cd ~

#下載最新版 miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

#安裝minicoda
bash Miniconda3-latest-Linux-x86_64.sh

#讀取環境設定檔
source ~/.bashrc

# (optional step)關閉自動顯示環境
# conda config –set auto_activate_base False

#確認已正確安裝conda
conda env list

#至少會顯示一個base conda environment:
#
#base                  *  /home/XXXX(主機帳號)/miniconda3



Step 2: Create GA_bundle soft link

GA_bundle內含近 100Gb的資料,資料夾包含Demodata、installer及後續分析需使用到的App、Modules、Reference及相關套件資料, 可利用soft link在家目錄建立GA_bundle資料夾的連結 。

#建立GA_bundle資料夾連線
ln -s /staging/reserve/GAResoure/GA_bundle GA_bundle

#檢視GA_bundle資料夾

ls GA_bundle


Step 3: Create GApp standard analysis environment

接著利用conda 安裝我們發佈的程式環境集及其所需相依套件,使用者可以從模組清單文件中,確認您使用的模組對應到那一個應用程式集請(參考本站程式環境集列表),建立使用者安裝程序的連結,我們會利用GA_bundle資料夾內的GApp_env_installer.sh創建一個名為"GApp"的程式集環境為例。

#移動到使用者家目錄
cd ~

#利用GA_bundle資料夾內GApp_env_installer.sh創建GApp程式集環境

bash GA_bundle/Installer/GApp_env_installer.sh

# To activate this environment, use
conda activate GApp



Step 4:Create Project folder

當上述的環境設置及軟體模組都準備完成,就可以使用GA bundle 下Module裡的 CreateProject 模組,在工作區自動創建專案目錄,並且建立模組(modules)、程式(apps)及reference genome(refs) 的捷徑。接著將要分析的資料傳入raw folder 就可以開始進行分析流程了。

#移動到工作區

cd /User_Work

#創建專案目錄
bash ~/GA_bundle/Module/CreateProject.sh Project_Name