DOC_ID : T15-0002  QC_Fastp module :  DOC_ID : M27-3000Editor : Anita/MiraReviewer : Angela Function : 1.Fastp 軟體功能 進行分析質量曲線,基本含量、KMER、Q20 / Q30、GC Ratio、duplication、adapter contents…來比較過濾前與過濾後的品質。 過濾掉不良reads(質量太低..)去除品質較差的部分並比Trimmomatic速度更快。 選取前端與後端去除的bp長度與切除adapters部分。 對質量進行校正對於重疊部分配對。 對帶分子標籤(UMI)的數據進行預處理,不管UMI在插入片段還是在index上。 產生JSON與HTML格式檔案。 2.Fastp 模組功能 可以取得隨機片段進行分析 去除品質較差與adapters的部分 可以分析 Paired-End/Single-End 兩種格式的DATA Ref:https://github.com/OpenGene/fastp Installation : All software are included in GA environment.  Note : ►執行分析前請先利用CreateProject.sh創建一個專案資料夾,請參閱Project standard folder structure文件。 ►執行模組需確認所屬計算節點(–partition) : 一般節點的使用者建議使用ct56 ; 生醫節點的使用者建議使用ngs7G註1。 ►欲了解模組使用的方式,請執行模組的 -h 指令  #註1 : 欲確認使用者身分,請登入國網中心iService後,選取會員中心/計畫管理/我的計畫,若計畫名稱為”國家生醫數位資料與分析運算雲端服務平台III”即為生醫節點使用者 Description : Tested environment GApp0.0.0.2 Software version fastp=0.20.1 Usage(Slurm) Command in Slurm (Taiwania III)Rapid Quality Analysis (partial reads) Paired-Endsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=PE,inFile=Sample01,sampleName=Sample01,reads_to_process=1000000' modules/QC_Fastp.shSingle-Endsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=SE,inFile=Sample01,sampleName=Sample01,reads_to_process=1000000' modules/QC_Fastp.sh Analyze quality and read clean-upPaired-Endsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=PE,inFile=Sample01,sampleName=Sample01,out=cleanup' modules/QC_Fastp.shSingle-Endsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=SE,inFile=Sample01,sampleName=Sample01,out=cleanup' modules/QC_Fastp.sh Analyze quality and trimming readPaired-Endsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=PE,inFile=Sample01,sampleName=Sample01,adapter=path/XXXX,trim_front1=number,trim_front2=number,trim_tail1=number,trim_tail2=number,out=trim' modules/QC_Fastp.shSingle-Endsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=SE,inFile=Sample01,sampleName=Sample01,adapter=path/XXXX,trim_front1=number,trim_tail1=number,out=trim' modules/QC_Fastp.sh Usage(Linux console) Command in linux consoleRapid Quality Analysis (partial reads)Paired-Endbash modules/QC_Fastp.sh -p $(pwd) -t PE -i Sample01 -s Sample01 -R 1000000 Single-Endbash  modules/QC_Fastp.sh -p $(pwd) -t SE -i Sample01 -s Sample01 -R 1000000Analyze […]

Module-QC_Fastp


DOC_ID : T15-0002 GATK_GMP module :  DOC_ID : M05-3000Editor : AnitaReviewer :Angela Function : Map raw reads to the reference genome and create bam file for small indel variant calling or structural variants analysis. This module will remove duplicates and adapters for reducing biases from library preparation. The base quality score will also be recalibrated according to GATK’s algorithm : Map to Reference genome and sorting : The first step is performed per-read group and consists of mapping each individual read pair to the reference genome which is a synthetic single-stranded representation of common genome sequence that is intended to provide a common coordinate framework for all genomic analysis.  Convert paired raw read file( […]

Module-GATK_GMP


DOC_ID : T15-0002  QC_dnaBamQC module :  DOC_ID : M54-3000Editor : AnitaReviewer :Angela Function :   對輸入文件進行計算每種FLAG類型的比對次數,並將統計信息打印到stdout。主要根據FLAG字段中的位標誌提供13個類別中每個類別的計數。有關標誌含義的信息在SAM規範文檔< https://samtools.github.io/hts-specs/SAMv1.pdf >中提供。 Ref : http://www.htslib.org/doc/samtools-flagstat.html Installation : All software are included in GA environment.  Note : ►執行分析前請先利用CreateProject.sh創建一個專案資料夾,請參閱Project standard folder structure文件。 ►執行模組需確認所屬計算節點(–partition) : 一般節點的使用者建議使用ct56 ; 生醫節點的使用者建議使用ngs24G註1。 ►欲了解模組使用的方式,請執行模組的 -h 指令  #註1 : 欲確認使用者身分,請登入國網中心iService後,選取會員中心/計畫管理/我的計畫,若計畫名稱為”國家生醫數位資料與分析運算雲端服務平台III”即為生醫節點使用者 Description : Tested environment GApp0.0.0.2 Software version samtools=1.10 Usage(Slurm) Command in Slurm (Taiwania III)sbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,sampleName=Sample01' modules/QC_dnaBamQC.sh Usage(Linux console) Command in linux consolebash modules/QC_dnaBamQC.sh -p $(pwd) -s Sample01 #For Slurm operation, please refer to “Basic operation of Taiwania III“ Usage : The following explains the usage of module parameters : Parameter  Description Remark QC_dnaBamQC.sh module of check bam file quality 分析的模組需存放在[modules]資料夾中 projDir 分析專案的資料夾路徑(專案資料夾結構說明) Script需在分析專案的資料夾執行, $(pwd) 會傳回使用者現在所在的路徑 sampleName 欲執行分析及輸出 QC 報告的檔案名稱 :資料格式 (輸入): […]

Module-QC_dnaBamQC


DOC_ID : T15-0002  GATK_VC module :  DOC_ID : M07-3000Editor : AnitaReviewer :Angela Function :    The moduel detect SNPs and indels by using GATK HaplotypeCaller. Reads with variant are re-de novo assembly to artificial haplotype, Read are then mapped to artifical haplotype.  alternative allelle are counting (AD) for variant calling.  The result of the module is GVCF format (.g.vcf) instead common VCF format. GVCF format contain information in variant-free region. This information is important for following  joint genotype calling(GVCF module).  Output file : _bqsr.bam ⇒ .g.vcf and .g.vcf.idx Ref : https://gatk.broadinstitute.org/hc/en-us/articles/360035535932-Germline-short-variant-discovery-SNPs-Indels- Installation : All software are included in GA environment.  Note : ►執行分析前請先利用CreateProject.sh創建一個專案資料夾,請參閱Project standard folder structure文件。 ►執行模組需確認所屬計算節點(–partition) : 一般節點的使用者建議使用ct56 ; 生醫節點的使用者建議使用ngs48G註1。 ►欲了解模組使用的方式,請執行模組的 -h […]

Module-GATK_VC



DOC_ID : T15-0002  GATK_MU2V module :  DOC_ID : M09-3000Editor : AnitaReviewer :Angela Function : This workflow requires a paired BAM files ( tumor and normal sample). the BAM format follow  the GATK Best Practices for data pre-processing  document. The SM parameter should be set as sample name. Module GATK_GMP module is suggested to generate formated BAM files. The module execute 4 step for somatic variants calling: Call candidate variants :When Mutect2 encounters a candidate region of somatic variation, it  reassembles the reads in candidate region and  generate atificial haplotypes. As HaplotypeCaller algorithm, Mutect2 aligns each read to each haplotype via the Pair-HMM algorithm to obtain a matrix of likelihoods.  […]

Module-GATK_MU2V


DOC_ID : T15-0002  GATK_GVCF module  :  DOC_ID : M08-3000Editor : AnitaReviewer :Angela Function :   GenotypeGVCFs generate genotype calling with GVCF files produced from the HaplotypeCaller. For multifple sample, GVCF files can be  combined by CombineGVCFs.  This module can be divided into 2 steps : CombineGVCFs : GVCF files for a single sample; files that combine GVCF files for multiple samples by the CombineGVCFs module .g.vcf ⇒ _combined.g.vcf and _combined.g.vcf.idx GenotypeGVCFs : GenotypeGVCFs generate genotype calling with GVCF files _combined.g.vcf ⇒ _combined.vcf and _combined.vcf.idx   Ref : http://www.genomicdataanalysis.com/genotypegvcfs/ Installation : All software are included in GA environment.  Note : ►執行分析前請先利用CreateProject.2.0.sh創建一個專案資料夾,請參閱Project standard folder structure文件。 ►執行模組需確認所屬計算節點(–partition) : 一般節點的使用者建議使用ct56 ; 生醫節點的使用者建議使用ngs48G註1。 ►欲了解模組使用的方式,請執行模組的 -h 指令  #註1 : 欲確認使用者身分,請登入國網中心iService後,選取會員中心/計畫管理/我的計畫,若計畫名稱為”國家生醫數位資料與分析運算雲端服務平台III”即為生醫節點使用者 Description : Tested environment GApp0.0.0.2 Software version gatk4=4.1.8.1 Usage(Slurm) Command […]

Module-GATK_GVCF


DOC_ID : T15-0002  AN_SnpEff module :  DOC_ID : M53-3000Editor : AnitaReviewer :Angela Function :   SnpEff is a variant annotation and effect prediction tool. It annotates and predicts the effects of genetic variants (such as amino acid changes).   SnpEff Summary :   A typical SnpEff use case would be: Input: The inputs are predicted variants (SNPs, insertions, deletions and MNPs). The input file is usually obtained as a result of a sequencing experiment, and it is usually in variant call format (VCF). Output: SnpEff analyzes the input variants. It annotates the variants and calculates the effects they produce on known genes (e.g. amino acid […]

Module-AN_SnpEff


DOC_ID : T15-0002  AN_SnpSift module :  DOC_ID : M59-3000Editor : AnitaReviewer :Angela Function : SnpSift is a toolbox that allows you to filter and manipulate annotated files. Once your genomic variants have been annotated, you need to filter them out in order to find the “interesting / relevant variants”. Given the large data files, this is not a trivial task (e.g. you cannot load all the variants into XLS spreadsheet). SnpSift helps to perform this VCF file manipulation and filtering required at this stage in data processing pipelines. SnpSift utilities SnpSift is a collection of tools to manipulate VCF (variant call format) […]

Module-AN_SnpSift