DOC_ID : T15-0002
GATK_GVCF module :
DOC_ID : M08-3000
Editor : Anita
Reviewer :Angela
Function :
GenotypeGVCFs generate genotype calling with GVCF files produced from the HaplotypeCaller. For multifple sample, GVCF files can be combined by CombineGVCFs.
This module can be divided into 2 steps :
- CombineGVCFs :
- GVCF files for a single sample; files that combine GVCF files for multiple samples by the CombineGVCFs module
- .g.vcf ⇒ _combined.g.vcf and _combined.g.vcf.idx
- GVCF files for a single sample; files that combine GVCF files for multiple samples by the CombineGVCFs module
- GenotypeGVCFs :
- GenotypeGVCFs generate genotype calling with GVCF files
- _combined.g.vcf ⇒ _combined.vcf and _combined.vcf.idx
- GenotypeGVCFs generate genotype calling with GVCF files
Ref : http://www.genomicdataanalysis.com/genotypegvcfs/
Installation :
All software are included in GA environment.
Note :
►執行分析前請先利用CreateProject.2.0.sh創建一個專案資料夾,請參閱Project standard folder structure文件。
►執行模組需確認所屬計算節點(–partition) : 一般節點的使用者建議使用ct56 ; 生醫節點的使用者建議使用ngs48G註1。
►欲了解模組使用的方式,請執行模組的 -h 指令
#註1 : 欲確認使用者身分,請登入國網中心iService後,選取會員中心/計畫管理/我的計畫,若計畫名稱為”國家生醫數位資料與分析運算雲端服務平台III”即為生醫節點使用者
Description :
Tested environment | GApp0.0.0.2 |
Software version | gatk4=4.1.8.1 |
Usage(Slurm) | Command in Slurm (Taiwania III)sbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,refGenome=hg38,inFiles=Sample01.g.vcf&&Sample02.g.vcf&&Sample03.g.vcf,output=Exp01' modules/GATK_GVCF.sh |
Usage(Linux console) | Command in linux consolebash modules/GATK_GVCF.sh -p $(pwd) -r hg38 -i Sample01.g.vcf&&Sample02.g.vcf&&Sample03.g.vcf -o Exp01 |
#For Slurm operation, please refer to “Basic operation of Taiwania III“ |
Usage :
The following explains the usage of module parameters :
Parameter | Description | Remark |
GATK_GVCF.sh | Module of generate genotype calling | 分析的模組需存放在[modules]資料夾中 |
projDir | 分析專案的資料夾路徑(專案資料夾結構說明) | Script需在分析專案的資料夾執行, $(pwd) 會傳回使用者現在所在的路徑 |
refGenome | 在執行分析時選用的基因參考資料庫 | 目前支援GATK-hg38, GATK-b37及GATK-hg19 基因資料庫 |
inFiles | 欲執行合併文件的檔案名稱資料格式 : *.g.vcf資料路徑 : processed/►若要合併多個 .g.vcf 可以用 “&&” 連結. | 例如: inFiles=Sample01.g.vcf&&Sample02.g.vcf 會在 processed/資料夾讀取: 1. Sample01.g.vcf 2. Sample02.g.vcf |
output | 合併後輸出的檔案名稱 資料格式 : *_combined.vcf 及 *_combined.vcf.idx 及 *_combined.g.vcf 及 *_combined.g.vcf.idx資料路徑 : processed/ | 例如:output=Exp01 則會 processed/資料夾生成 :1. Exp01_combined.vcf 2. Exp01_combined.vcf.idx 3. Exp01_combined.g.vcf 4. Exp01_combined.g.vcf.idx |