Standardized computing system of genome analyst

Doc_ID: EGA-0004CT
Editor: Lucas

基因分析者系統利用標準化分析架構，讓分析流程撰寫可以有規則可循，讓程式碼可以重複使用，並能在社群間橫向交流，這套標準化架構包括了幾個向面，以下分項介紹：

標準專案目錄結構（Project standardized folder structure）

標準專案目錄結構，把每個分析專案的檔案以標準化的目錄結構檔案路徑，因些所有的分析流程的程式碼的相對檔案路徑都相同，例如：fastq檔永遠都在 raw\ 的目錄下，這個程式碼未來就能應用於重複任何同型的專案下使用，使用者可以依定義找到檔案的位置。有關這些規範的細節可以請參閱技術開發文件，會有詳細的說明（標準分析專案目錄文件）。

標準模組框架 (Standard Module Framework )

遵循標準專案目錄結構的程式碼都能具備重複利用性，這個特性使標準分析模組的想法可行，我們依功能把分析流程拆分成數段步驟，把每段的程碼封裝成分析模組，分析者未來要進行新分析專案時，只需將既有模組串連稍微更動參數就能組裝完成。所有模組的開發都依照標準分析模組框架設計，除了檔案路徑的統一外，模組框架統一了參數設定、日誌格式、查核機制及檔案輸入\輸出的位置，方便不同開發者模組間能彼此串連，也使用者操作各模組時也能有一致的使用規則。

標準軟體環境 (Standardized software environment)

多數的基因體分析軟體工具只能在Linux 作業系統中運行，標準分析模組框架以Linux作業系統為設計基礎，以Bash shell script 格式實作。目前測試過的linux 版本包括 Centos 及 Debian，軟體版本控制的部份，我們利用conda 套件管理軟體安裝，我們團隊會針分析流程常用的軟體進行相容測試，確定軟體彼此間不發生套件版本衝突，最後把測試過的所有軟體封裝在一個軟體環境，稱為程式環境集，目前公開的程式環境集在Application Collection頁面會有詳細資料。使用者可以我們提供的程式環境集安裝工序以Conda軟體在使用者的家目錄建立跟我們一模一樣的軟體環境，確保所有的分析模組中軟體可以正確的執行。

一般計算伺服器多為多人使用系統，為避免運算量超過機器負荷，會使用排程管理系統，分配資源及工作排程，即便個人使用，排程管理也可以幫助有效利用系統計算資源。基因體分析者標準分析模組框架是基於排程管理系統作設計，在台灣杉三號己經有SLURM作為管理系統。有關SLURM的基本操作，請參閱說明文件: 國網中心台灣杉官方說明) ．

Notice:
標準分析模組框架支援排程但設計上也能直接執行，若您的伺服器上沒有排程管理系統，可以在控制台(console)以工序Script 直接逐一執行。

基因體分析的資料量極大，解決儲存空間及效率是重要的問題。基因體分析者系統目前使用雲端儲存(Google drive) 作為中介，Rclone 作為雲端與Linux 伺服器的同步工具，Google Stream drive 作為 Window/Mac OSX 的同步工具，更詳細的說明請參閱說明文件: Cloud Storage of GA System

基因體研究的全方位解決對策

基因體研究的全方位解決對策

標準專案目錄結構（Project standardized folder structure）

標準模組框架 (Standard Module Framework )

標準軟體環境 (Standardized software environment)