Skip to content

파이썬 라이브러리 PyVCF #
Find similar titles

Structured data

Category
Programming

PyVCF #

vcf 형식의 파일을 읽고 쓸수 있는 파이썬 라이브러리로서, 생물정보분야의 SNP, INDEL, CNV 등 유전자변이 연구에 쓰이는 VCF 형식의 파일을 다루기 유용한 모듈이다.

Install #

다음은 설치 과정이다. 파이썬의 PIP 기능을 이용해서 설치하면 간단하게 설치할 수 있다.

pip install pyvcf

VCF 파일 다루기 #

기본적으로 BioPython 과 유사한 형식으로 사용한다. 즉 팩키지 및 모듈 임포트(import) 형태로 사용하면 된다.

파일 읽기 #

vcf.Reader에 파일 핸들을 입력하여 reader 객체를 얻을 수 있다. reader 객체에는 VCF 파일 첫부분의 정보가 담겨있으며 reader.next()를 통해 각 vcf record를 얻을 수 있다.

>>> import vcf
>>> vcf_reader = vcf.Reader(open('vcf/test/example-4.0.vcf', 'r'))
>>> for record in vcf_reader:
...     print record
Record(CHROM=20, POS=14370, REF=G, ALT=[A])
Record(CHROM=20, POS=17330, REF=T, ALT=[A])
Record(CHROM=20, POS=1110696, REF=A, ALT=[G, T])
Record(CHROM=20, POS=1230237, REF=T, ALT=[None])
Record(CHROM=20, POS=1234567, REF=GTCT, ALT=[G, GTACT])

이렇게 추출되어진 정보는 파이썬을 이용하여 데이터를 정제하고 필터링하는 등 연구자의 목적에 맞게 변환하여 사용하면 된다. 각 레코드의 속성 값은 dir(record) 형태로 확인하면 내부적으로 정의되어 있는 객체 속성 값을 이용하여 확인할 수 있다.

Suggested Pages #

0.0.1_20140628_0