Standardized computing system of genome analyst


Doc_ID: EGA-0004CT
Editor:  Lucas

基因分析者系統利用標準化分析架構,讓分析流程撰寫可以有規則可循,讓程式碼可以重複使用,並能在社群間橫向交流,這套標準化架構包括了幾個向面,以下分項介紹:

標準專案目錄結構(Project standardized folder structure)

標準專案目錄結構,把每個分析專案的檔案以標準化的目錄結構檔案路徑,因些所有的分析流程的程式碼的相對檔案路徑都相同,例如:fastq檔永遠都在 raw\ 的目錄下,這個程式碼未來就能應用於重複任何同型的專案下使用,使用者可以依定義找到檔案的位置。有關這些規範的細節可以請參閱技術開發文件,會有詳細的說明(標準分析專案目錄文件)。


標準模組框架 (Standard Module Framework )

遵循標準專案目錄結構的程式碼都能具備重複利用性,這個特性使標準分析模組的想法可行,我們依功能把分析流程拆分成數段步驟,把每段的程碼封裝成分析模組,分析者未來要進行新分析專案時,只需將既有模組串連稍微更動參數就能組裝完成。所有模組的開發都依照標準分析模組框架設計,除了檔案路徑的統一外,模組框架統一了參數設定、日誌格式、查核機制及檔案輸入\輸出的位置,方便不同開發者模組間能彼此串連,也使用者操作各模組時也能有一致的使用規則。


標準軟體環境 (Standardized software environment)

多數的基因體分析軟體工具只能在Linux 作業系統中運行,標準分析模組框架以Linux作業系統為設計基礎,以Bash shell script 格式實作 。目前測試過的linux 版本包括 Centos 及 Debian,軟體版本控制的部份,我們利用conda 套件管理軟體安裝,我們團隊會針分析流程常用的軟體進行相容測試,確定軟體彼此間不發生套件版本衝突,最後把測試過的所有軟體封裝在一個軟體環境,稱為程式環境集,目前公開的程式環境集在Application Collection頁面會有詳細資料。使用者可以我們提供的程式環境集安裝工序以Conda軟體在使用者的家目錄建立跟我們一模一樣的軟體環境,確保所有的分析模組中軟體可以正確的執行。

一般計算伺服器多為多人使用系統,為避免運算量超過機器負荷,會使用排程管理系統,分配資源及工作排程,即便個人使用,排程管理也可以幫助有效利用系統計算資源。基因體分析者標準分析模組框架是基於排程管理系統作設計,在台灣杉三號己經有SLURM作為管理系統。有關SLURM的基本操作,請參閱說明文件: 國網中心台灣杉官方說明) .

Notice:
標準分析模組框架支援排程但設計上也能直接執行 ,若您的伺服器上沒有排程管理系統,可以在控制台(console)以工序Script 直接逐一執行。

基因體分析的資料量極大,解決儲存空間及效率是重要的問題。基因體分析者系統目前使用雲端儲存(Google drive) 作為中介,Rclone 作為雲端與Linux 伺服器的同步工具,Google Stream drive 作為 Window/Mac OSX 的同步工具,更詳細的說明請參閱說明文件: Cloud Storage of GA System