基因分析者系統


Doc_ID: EGA-0001
Editor: Lucas


在過去十五年中,基因體中心生物資訊團隊因應內部分析工作累積的各式軟體模組、計算環境建置各方面的經驗,形成了一個小型的分析生態系,我們開始將這些資源整合封裝成為基因體分析者系統(Genome Analyst Operation System),在與基因體研究人員及相關產業合作時,我們發現這個系統可以協助分析單位,很快的建立自己的分析流程,大幅降低分析者學習的門檻及系統建置的成本,所以建立這個網頁開始推廣這個系統。


核心概念

基因體分析者系統的核心是一系列經過相容測試的標準流程,我們發現過去生物資訊分析流程難以整合的原因在於分析軟體環境歧異。每個分析單位使用的計算作業系統環境不同,軟體安裝時相容性就成為第一道高牆,然後使用者分析檔案位置不同,路徑及權限成為第二個問題,又因為軟體撰寫的習慣,參數設定成為除錯的重頭戲,在跨過層層的障礙之後,這些努力隨著分析案結束之後成了堆在角落無法重複使用程式碼,生資人員就會像左圖那樣,日復一日復刻已寫過的程式碼及除錯。

在長期與程式碼奮戰的經驗中,我們發現透過約定的標準規則,可以解決這些問題,所以訂立標準分析專案檔案目錄結構,統一程式引用資料的路徑,如此程式碼在未來任何同型的專案下可以重複使用,再來我們統一所有分析模組參數設定的格式,程式模組化了,組裝流程變得簡易且標準化,以這個設計精神我們逐漸標準化了軟體環境、作業系統最後產生了基因體分析者系統。有關系統的詳細介紹,您可以參考"Standardized computing system of genome analyst"中有詳細的說明。


基因體分析者系統架構

基因體分析者系統架構包括標準分析軟體環境(GApp)及分析檔案資源(GA_bundle),以下分別介紹:

標準分析軟體環境(GApp)

基因體分析者軟體環境主要在Linux CentOS 作業系統運行,軟體要能正常運作仍需在正確Linux系統版本及相容的相依程式資源庫,由我們長期分析經驗累積, 逐一解決了這些版本衝突的問題,找到一個能正常執行各基因體分析流程的應用軟體組合,您可以想像是一套給基因體分析者的OFFICE系統,我們用 Conda 系統管理軟體作成了一個安裝套件,我們稱作GApp 套件,有關GApp 套件的詳細資料,您可以參考(Genomic analysis Appication) 

分析檔案資源 (GA bundle)

基因體分析者除了軟體系統環境外,還需要很多輔助的資源,在我們的系統中也包括了這些資料。我們將這個資料集稱為Genome Analyst bundle (GA bundle) , 裡面包括以下列資源,您可以在我們提供的Module中選擇需要的模組來進行分析 ,並且根據實驗內容選取相對應的genome reference ,此外 , 手上沒有data的人也可以使用Data Set中的檔案開始生資分析

  • Genome Analyst Modules:
    由團隊針對常見分析需求建置的軟體分析模組,所有分析模組設計與GA系統規範相容,並且在GA相容計算環境中,以GA data set 測試過,分析人員可以參考基因體分析知識庫中範本,使用這些模組組裝自己的分析專案。
     
  • Genome Analyst Data Set:
    軟體模組發佈前會以固定的資料檔案測試,這些測試資料可由GA_bundle中取得。
     
  • Genome Analyst Genome references:
    基因體分析工具常需要參考基因體序列(Genome references)及資料庫,目前已將常用的基因體序列庫建置在台灣杉伺服器,部份基因體序列需要額外的註解及引索,本中心將負責後續的維護。



開啟基因體分析者探索之旅

看到這裡你也許會覺得有點複雜,這些東西跟你現在要解決的問題好像沒什麼關後,也不知道從何下手。所以我們準備了一個學習地圖,讓您從零開始,由系統安裝建置一路作到進階分析,準備好了嗎?打開我們的<<學習地圖>>,開啟您的基因體分析探索之旅吧!



>>使用入門