2016년 10월 5일 수요일

GATK 로 variant calling 하기..

설명해 놓은 홈페이지..

https://software.broadinstitute.org/gatk/guide/tooldocs/org_broadinstitute_gatk_tools_walkers_haplotypecaller_HaplotypeCaller.php


GVCF 와 variant-only 인데 GVCF 가 자기들이 새로 개발했는데 좋다는 듯.. ㅡ_ㅡ..

java -jar GenomeAnalysisTK.jar -R refence.fasta -T HaplotypeCaller -I input.bam --emitRefConfidence GVCF --dbsnp known.vcf  -o output.snps.indels.g.vcf -variant_index_type LINEAR -variant_index_parameter 128000

* -variant_index_type LINEAR -variant_index_parameter 128000 : 위의 웹에는 설명되어 있지 않지만 5.6 버전 이후라서 그런가.. 이거 없다고 에러 뜬다.
* .g.vcf : 이게 확장자란다. 없다고 큰일 나는 건 아니지만 GATKVCFUtils 가 안된다고 warning 뜬다.

HaplotypeCaller 말고도 UnifiedGenotyper 라고 있는데 HaplotypeCaller 대비 성능이 좀 떨어진다는 듯..

variant-only calling on DNAseq 방법..
java -jar GenomeAnalysisTK.jar -R refence.fasta -T HaplotypeCaller -I input.bam --dbsnp known.vcf  -stand_call_conf 30 -stand_emit_conf 10 -o output.raw.snps.indels.vcf

snpEffector 를 사용하기 위해서는 variant-only 방법을 사용해야 한다.

추가1) GATK 3.8 버전에서는 -stand_emit_conf 옵션을 빼라는 에러가 뜬다.