Module-GATK_VC



DOC_ID : T15-0002
 

GATK_VC module : 

DOC_ID : M07-3000
Editor : Anita
Reviewer :Angela

Function : 

  The moduel detect SNPs and indels by using GATK HaplotypeCaller. Reads with variant are re-de novo assembly to artificial haplotype, Read are then mapped to artifical haplotype.  alternative allelle are counting (AD) for variant calling.  The result of the module is GVCF format (.g.vcf) instead common VCF format. GVCF format contain information in variant-free region. This information is important for following  joint genotype calling(GVCF module). 

Output file : _bqsr.bam ⇒ .g.vcf and .g.vcf.idx

Ref : https://gatk.broadinstitute.org/hc/en-us/articles/360035535932-Germline-short-variant-discovery-SNPs-Indels-

Installation :

All software are included in GA environment

Note :

►執行分析前請先利用CreateProject.sh創建一個專案資料夾,請參閱Project standard folder structure文件。

►執行模組需確認所屬計算節點(–partition) : 一般節點的使用者建議使用ct56 ; 生醫節點的使用者建議使用ngs48G註1

►欲了解模組使用的方式,請執行模組的 -h 指令
 

#註1 : 欲確認使用者身分,請登入國網中心iService後,選取會員中心/計畫管理/我的計畫,若計畫名稱為”國家生醫數位資料與分析運算雲端服務平台III”即為生醫節點使用者

Description :

Tested environmentGApp0.0.0.2
Software versiongatk4=4.1.8.1
Usage(Slurm)Command in Slurm (Taiwania III)Split by chromosome :
sbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,refGenome=hg38,sampleName=Sample01' modules/GATK_VC.sh
Use custom intevals :
sbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,refGenome=hg38,sampleName=Sample01,intervals=WES.bed' modules/GATK_VC.sh
Usage(Linux console)Command in linux consoleSplit by chromosome :
bash modules/GATK_VC.sh -p $(pwd) -r hg38 -s Sample01 
Use custom intevals :
bash modules/GATK_VC.3.X.Y.sh -p $(pwd) -r hg38 -s Sample01 -i WES.bed
#For Slurm operation, please refer to “Basic operation of Taiwania III

Usage :

The following explains the usage of module parameters :

Parameter DescriptionRemark
GATK_VC.shModule of genome variants calling分析的模組需存放在[modules]資料夾中
projDir分析專案的資料夾路徑(專案資料夾構說明Script需在分析專案的資料夾執行,$(pwd) 會傳回使用者現在所在的路徑
refGenome在執行分析時選用的基因參考資料庫目前支援GATK-hg38, GATK-b37及GATK-hg19 基因資料庫
sampleName欲執行分析及輸出的檔案名稱資料格式(輸入) : *.bam資料格式(輸出) : *.g.vcf 及 *.g.vcf.idx資料路徑 : processed/例如: sampleName=Sample01 會在processed/資料夾內讀取 Sample01_bqsr.bam會在 processed/ 生成 Sample01.g.vcf 及 Sample01.g.vcf.idx
intervals在執行分析時,視需求加入interval條件 (Ref)全基因組分析:不需要間隔,但設定 interval file 有助避開消除“difficult”區域,從而加快分析速度
 外顯子組分析和其他目標測序:您必須提供目標列表,以排除目標外的雜訊。這還將加快分析速度並啟用並行性。
GATK支持多種類型的間隔列表格式: (Ref)e.g.Picard-style .interval_listGATK-style .listBED files with extension .bedVCF files

Leave a comment