2016년 11월 18일 금요일

fasta 를 genbank 로 바꾸기..

일하다 보니 정말 이것저것 포멧 바꿔야 될 일이 많다.

fasta file 은 첫 줄이 '>' 로 시작하고 이 부분은 document 로 처리된다. 그 이후 줄부터는 문자만 허용된다. 흔히 DNA 나 protein sequence 를 저장하기 위해 많이 사용된다.

하나의 file 에 하나의 fasta 만 존재할 경우 .ffn 혹은 .fsa 확장자를 사용하고 여러 개가 하나의 파일에 있을 경우, .fna 확장자를 사용하지만 거의 지켜지지 않는다. 확장자가 .fa 일 경우 protein sequence 인 경우이지만 역시나 거의 지켜지지 않는다.

genbank 파일은 NCBI 에서 주로 보여지는 형태로 확장자는 .gb 혹은 .gbk 를 사용한다. 저자, 논문, accession number 등 매우 많은 정보를 같이 저장할 수 있다.

GFF 포멧도 있다. 위의 genbank 포멧에는 종속 관계(?) 를 표시할 수 없다는 단점이 있어서 새롭게 제안된 포멧이라고 한다. 기존 gff 를 거쳐 gff2, gff3 로 발전 중이다. 흔히 gff2 는 fasta file 과 같이 존재해야 되며 gff3 는 gff2 의 뒤에 '###', '###FASTA' 를 더해준 뒤 sequence 를 덧붙여 준 형태이다.

이외에도 embl 포멧도 있지만 난 사용할 줄 모르는 관계로 패스..

emboss 의 seqret 를 사용해 fasta 를 gbk 로 바꿔보자.

seqret -sequence fasta.file -fopenfile1 fasta -outseq output.file -osformat2 gb

-fopenfile1 과 -osformat2 는 각각 input 과 output 할 포멧을 결정해주는 옵션이다. 없으면 fasta 가 디폴트인 듯하다.
gff3 --> gff
gff2 --> gff2
embl --> em
genbank --> gb, refseq
ddbj --> ddbj
refseqp --> refseqp
pir --> nbrf
swissprot --> swiss, sw

로 표기하는 듯 하다.