DOC_ID : T15-0002
QC_Fastp module :
DOC_ID : M27-3000
Editor : Anita/Mira
Reviewer : Angela
Function :
1.Fastp 軟體功能
- 進行分析質量曲線,基本含量、KMER、Q20 / Q30、GC Ratio、duplication、adapter contents…來比較過濾前與過濾後的品質。
- 過濾掉不良reads(質量太低..)去除品質較差的部分並比Trimmomatic速度更快。
- 選取前端與後端去除的bp長度與切除adapters部分。
- 對質量進行校正對於重疊部分配對。
- 對帶分子標籤(UMI)的數據進行預處理,不管UMI在插入片段還是在index上。
- 產生JSON與HTML格式檔案。
2.Fastp 模組功能
- 可以取得隨機片段進行分析
- 去除品質較差與adapters的部分
- 可以分析 Paired-End/Single-End 兩種格式的DATA
Ref:https://github.com/OpenGene/fastp
Installation :
All software are included in GA environment.
Note :
►執行分析前請先利用CreateProject.sh創建一個專案資料夾,請參閱Project standard folder structure文件。
►執行模組需確認所屬計算節點(–partition) : 一般節點的使用者建議使用ct56 ; 生醫節點的使用者建議使用ngs7G註1。
►欲了解模組使用的方式,請執行模組的 -h 指令
#註1 : 欲確認使用者身分,請登入國網中心iService後,選取會員中心/計畫管理/我的計畫,若計畫名稱為”國家生醫數位資料與分析運算雲端服務平台III”即為生醫節點使用者
Description :
Tested environment | GApp0.0.0.2 |
Software version | fastp=0.20.1 |
Usage(Slurm) | Command in Slurm (Taiwania III)Rapid Quality Analysis (partial reads) Paired-End sbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=PE,inFile=Sample01,sampleName=Sample01,reads_to_process=1000000' modules/QC_Fastp.sh Single-End sbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=SE,inFile=Sample01,sampleName=Sample01,reads_to_process=1000000' modules/QC_Fastp.sh Analyze quality and read clean-up Paired-End sbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=PE,inFile=Sample01,sampleName=Sample01,out=cleanup' modules/QC_Fastp.sh Single-End sbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=SE,inFile=Sample01,sampleName=Sample01,out=cleanup' modules/QC_Fastp.sh Analyze quality and trimming read Paired-End sbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=PE,inFile=Sample01,sampleName=Sample01,adapter=path/XXXX,trim_front1=number,trim_front2=number,trim_tail1=number,trim_tail2=number,out=trim' modules/QC_Fastp.sh Single-End sbatch -A $projectID --mail-user=$email --export='projDir='$(pwd)'/,seqType=SE,inFile=Sample01,sampleName=Sample01,adapter=path/XXXX,trim_front1=number,trim_tail1=number,out=trim' modules/QC_Fastp.sh |
Usage(Linux console) | Command in linux consoleRapid Quality Analysis (partial reads) Paired-End bash modules/QC_Fastp.sh -p $(pwd) -t PE -i Sample01 -s Sample01 -R 1000000 Single-End bash modules/QC_Fastp.sh -p $(pwd) -t SE -i Sample01 -s Sample01 -R 1000000 Analyze quality and read clean-up Paired-End bash modules/QC_Fastp.sh -p $(pwd) -t PE -i Sample01 -s Sample01 -o cleanup Single-End bash modules/QC_Fastp.sh -p $(pwd) -t SE -i Sample01 -s Sample01 -o cleanup Analyze quality and read trimming read Paired-End bash modules/QC_Fastp.sh -p $(pwd) -t PE -i Sample01 -s Sample01 -f number -F number -l number -L number -o trim Single-End bash modules/QC_Fastp.sh -p $(pwd) -t SE -i Sample01 -s Sample01 -f number -l number -o trim |
#For Slurm operation, please refer to “Basic operation of Taiwania III“ |
Usage :
The following explains the usage of module parameters :
Parameter | Description | Remark |
QC_Fastp.sh | Module of genome Quality Control | 分析的模組需存放在[modules]資料夾中 |
projDir | 分析專案的資料夾路徑(專案資料夾結構說明) | Script需在分析專案的資料夾執行, $(pwd) 會傳回使用者現在所在的路徑 |
seqType | 定序方式 | 1.當定序方式為Single-End,給予SE。 2.當定序方式為Paired-End,給予PE。 |
inFile | 欲執行分析的樣品名稱資料格式 : *.fastq 或 *.fastq.gz資料路徑 : raw/ | 例如: inFile = Sample01 且seqType = PE 會提取存放在raw/資料夾裡的序列檔 :1. Sample01_R1.fastq.gz 2. Sample01_R2.fastq.gz |
sampleName | 輸出的樣品名稱資料格式 : *.fastq 或 *.fastq.gz資料路徑 : processed/ 和 QC/ | 此步驟若要進行序列修剪,則需給予”out”參數,生成的檔案名稱為 sampleName + out例如: sampleName = Sample01及out = trim 且seqType = PE 會在 processed/資料夾生成1. Sample01-trim_R1.fastq.gz 2. Sample01-trim_R2.fastq.gz 3. Sample01-trim_unpaired_R1.fastq.gz 4. Sample01-trim_unpaired_R2.fastq.gz 品質分析報告的結果則會輸出在QC/資料夾內 :1. Sample01.fastp.html 2. Sample01.fastp.json |
out | 進行序列修剪時,於輸出樣品名稱加上附加檔名 | 1. 如果未設定 out 參數,模組僅作品質分析,不會啟動清除功能,也不會另外輸出序列檔案。2. 設定 out 參數,例如: sampleName=Sample01,out=trim 且seqType = PE,則會在 processed/資料夾裡生成Sample01-trim_R1.fastq.gz Sample01-trim_R2.fastq.gzSample01-trim_unpaired_R1.fastq.gzSample01-trim_unpaired_R2.fastq.gz |
trim_front1 | 從5’端開始修剪序列檔案的鹼基長度 Default: 0 | 例如: sampleName=Sample01,trim_front1=10 則會從Sample01_R1.fastq.gz之5’端開始修剪10個鹼基長度的序列 |
trim_front2 | 從5’端開始修剪序列檔案的鹼基長度 Default: 0(Only for PE sample) | 例如: sampleName=Sample01,trim_front2=10 則會從Sample01_R2.fastq.gz之5’端開始修剪10個鹼基長度的序列 |
trim_tail1 | 從3’端開始修剪序列檔案的鹼基長度 Default: 0 | 例如: sampleName=Sample01,trim_tail1=10 則會從Sample01_R1.fastq.gz之3’端開始修剪10個鹼基長度的序列 |
trim_tail2 | 從3’端開始修剪序列檔案的鹼基長度 Default: 0(Only for PE sample) | 例如: sampleName=Sample01,trim_tail2=10 則會從Sample01_R2.fastq.gz之3’端開始修剪10個鹼基長度的序列 |
adapter | 修剪序列檔案中的轉接子序列 | 提供一份adapter的 FASTA file範例 :>Illumina TruSeq Adapter Read 1 AGATCGGAAGAGCACACGTCTGAACTCCAGTCA >Illumina TruSeq Adapter Read 2 AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT >polyA AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFASTA file ( adapter.txt)Default: 0 |
reads_to_process | 抽樣分析之reads 數 | 從 “*.fastq.gz” 檔案中提取欲進行分析的 reads 數量(e.g. reads_to_process=1000000會從*.fastq.gz檔案內抽取 1,000,000 reads 作分析),若未給予此參數則會讀取全長 |