DOC_ID : T15-0002  QC_Fastp module :  DOC_ID : M27-3000Editor : Anita/MiraReviewer : Angela Function : 1.Fastp 軟體功能 進行分析質量曲線,基本含量、KMER、Q20 / Q30、GC Ratio、duplication、adapter contents…來比較過濾前與過濾後的品質。 過濾掉不良reads(質量太低..)去除品質較差的部分並比Trimmomatic速度更快。 選取前端與後端去除的bp長度與切除adapters部分。 對質量進行校正對於重疊部分配對。 對帶分子標籤(UMI)的數據進行預處理,不管UMI在插入片段還是在index上。 產生JSON與HTML格式檔案。 2.Fastp 模組功能 可以取得隨機片段進行分析 去除品質較差與adapters的部分 可以分析 Paired-End/Single-End 兩種格式的DATA Ref:https://github.com/OpenGene/fastp Installation : All software are included in GA environment.  Note : ►執行分析前請先利用CreateProject.sh創建一個專案資料夾,請參閱Project standard folder structure文件。 ►執行模組需確認所屬計算節點(–partition) : 一般節點的使用者建議使用ct56 ; 生醫節點的使用者建議使用ngs7G註1。 ►欲了解模組使用的方式,請執行模組的 -h 指令  #註1 : 欲確認使用者身分,請登入國網中心iService後,選取會員中心/計畫管理/我的計畫,若計畫名稱為”國家生醫數位資料與分析運算雲端服務平台III”即為生醫節點使用者 Description : Tested environment GApp0.0.0.2 Software version fastp=0.20.1 Usage(Slurm) Command in Slurm (Taiwania III)Rapid Quality Analysis (partial reads) Paired-Endsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=PE,inFile=Sample01,sampleName=Sample01,reads_to_process=1000000' modules/QC_Fastp.shSingle-Endsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=SE,inFile=Sample01,sampleName=Sample01,reads_to_process=1000000' modules/QC_Fastp.sh Analyze quality and read clean-upPaired-Endsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=PE,inFile=Sample01,sampleName=Sample01,out=cleanup' modules/QC_Fastp.shSingle-Endsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=SE,inFile=Sample01,sampleName=Sample01,out=cleanup' modules/QC_Fastp.sh Analyze quality and trimming readPaired-Endsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=PE,inFile=Sample01,sampleName=Sample01,adapter=path/XXXX,trim_front1=number,trim_front2=number,trim_tail1=number,trim_tail2=number,out=trim' modules/QC_Fastp.shSingle-Endsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=SE,inFile=Sample01,sampleName=Sample01,adapter=path/XXXX,trim_front1=number,trim_tail1=number,out=trim' modules/QC_Fastp.sh Usage(Linux console) Command in linux consoleRapid Quality Analysis (partial reads)Paired-Endbash modules/QC_Fastp.sh -p $(pwd) -t PE -i Sample01 -s Sample01 -R 1000000 Single-Endbash  modules/QC_Fastp.sh -p $(pwd) -t SE -i Sample01 -s Sample01 -R 1000000Analyze […]

Module-QC_Fastp


DOC_ID : T15-0002 RNA_TMP module :  DOC_ID : M30-3000Editor : MiraReviewer : Angela Function :    Spliced Transcripts Alignment to a Reference (STAR) is a fast RNA-seq read mapper, with support for splice-junction and fusion read detection.   STAR is shown to have high accuracy and outperforms other aligners by more than a factor of 50 in mapping speed, but it is memory intensive. The algorithm achieves this highly efficient mapping by performing a two-step process : Seed searching Clustering, stitching, and scoring Seed searchingFor every read that STAR aligns, STAR will search for the longest sequence that exactly matches one or more […]

Module-RNA_TMP


DOC_ID : T15-0002 RNA_QUA module :  DOC_ID : M31-3000Editor : AnitaReviewer : Angela Function :     RSEM is a software package for estimating gene and isoform expression levels from RNA-Seq data. The RSEM package provides an user-friendly interface, supports threads for parallel computation of the EM algorithm, single-end and paired-end read data, quality scores, variable-length reads and RSPD estimation. In addition, it provides posterior mean and 95% credibility interval estimates for expression levels. For visualization, It can generate BAM and Wiggle files in both transcript-coordinate and genomic-coordinate.     There are many usages of RSEM, here we can use it to calculate Expression Values.To […]

Module-RNA_QUA


DOC_ID : T15-0002 QC_rnaBamQC module :  DOC_ID : M49-3000Editor : MiraReview : Angela Function : Picard-CollectRnaSeqMetrics為一個java工具程式,可以計算RNA seq 的bam檔裡reads分佈的情形,包括RIBOSOMAL_BASES, CODING_BASES, UTR_BASES, INTRONIC_BASES, INTERGENIC_BASES以及5PRIME_TO_3PRIME_BIAS等等。這些計算需要提供基因位置以及rRNA位置的訊息,分別是ref_flat file以及 ribosomal intervals file,相關檔案建立方式可參考HowTo。 To perform RNA-seq QC analysis use the following command : java -jar picard.jar CollectRnaSeqMetrics \ I=input.bam \ O=output.RNA_Metrics \ REF_FLAT=ref_flat.txt \ STRAND=SECOND_READ_TRANSCRIPTION_STRAND \ RIBOSOMAL_INTERVALS=ribosomal.interval_list Installation : All software are included in GA environment.  Note : ►執行分析前請先利用CreateProject.sh創建一個專案資料夾,請參閱Project standard folder structure文件。 ►執行模組需確認所屬計算節點(–partition) : 一般節點的使用者建議使用ct56 ; 生醫節點的使用者建議使用ngs48G註1。 ►欲了解模組使用的方式,請執行模組的 -h 指令  #註1 : 欲確認使用者身分,請登入國網中心iService後,選取會員中心/計畫管理/我的計畫,若計畫名稱為”國家生醫數位資料與分析運算雲端服務平台III”即為生醫節點使用者 Description : Tested environment GApp0.0.0.2 software version picard=2.23.4 Usage(Slurm) Command in Slurmsbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,sampleName=Sample1,gtfName=refs/Homo_sapiens/GRCh38en104Star2.7.5a/Homo_sapiens.GRCh38.104.gtf,refs=refs/Homo_sapiens/GRCh38en104Star2.7.5a/Homo_sapiens.GRCh38.dna.primary_assembly.fa' modules/QC_rnaBamQC.sh Usage(Linux console) Command in linux consolebash modules/QC_rnaBamQC.sh -p $(pwd) -s Sample1 -g refs/Homo_sapiens/GRCh38en104Star2.7.5a/Homo_sapiens.GRCh38.104.gtf -r refs/Homo_sapiens/GRCh38en104Star2.7.5a/Homo_sapiens.GRCh38.dna.primary_assembly.fa #For Slurm operation , please refer to “Basic […]

Module-RNA_bamQC



DOC_ID : T15-0002 RNA_MERGE module :  DOC_ID : M33-3000Editor : MiraReviewer : Angela Function : Use java program to merge contents of all the files in a directory.We are given a directory/folder in which n number of files are stored(We dont know the number of files) and we want to merge the contents of all the files into a single file lets say output.txt. Following are the steps : Create instance of directory. Create a PrintWriter object for “output.txt”. Get list of all the files in form of String Array. Loop for reading the contents of all the files in the […]

Module-RNA_MERGE


DOC_ID : T15-0002  QC_Multiqc module : DOC_ID : M02-3000Editor : MiraReviewer : Anita Function :     彙整常見生物資訊分析工具的分析結果,及其分析過程紀錄檔,輸出輸出可獨立存取之HTML客製化報告檔案。可以根據使用者的整體分析工作流程,放置於任何一個步驟進行使用。 Ref : https://multiqc.info/docs/ Installation : All software are included in GA environment.  Note : ►執行分析前請先利用CreateProject.2.0.sh創建一個專案資料夾,請參閱Project standard folder structure文件。 ►執行模組需確認所屬計算節點(–partition) : 一般節點的使用者建議使用ct56 ; 生醫節點的使用者建議使用ngs24G註1。 ►欲了解模組使用的方式,請執行模組的 -h 指令  #註1 : 欲確認使用者身分,請登入國網中心iService後,選取會員中心/計畫管理/我的計畫,若計畫名稱為”國家生醫數位資料與分析運算雲端服務平台III”即為生醫節點使用者 Description : Tested environment GApp0.0.0.2 Software version multiqc=1.9 Usage(Slurm) Command in Slurm (Taiwania III)sbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,qcDir=QC/,rptDir=report/,rptName=Case1' modules/QC_Multiqc.sh Usage(Linux console) Command in linux consolebash modules/QC_Multiqc.sh -p $(pwd) -f QC/ -o report/ -s Case1 #For Slurm operation, please refer to “Basic operation of Taiwania III“ Usage : The following explains the usage of module parameters : Parameter  Description Remark QC_Multiqc.sh MultiQC searches a given directory for analysis logs and compiles a HTML report. It’s […]

Module-QC_Multiqc