Table of Contents
BLAST #
BLAST #
BLAST는 Basic Local Alignment Search Tool의 약자로 생물정보학(Bioinformatics)의 연구에서 가장 많이 사용되고 있는 분석 방법이다. 관심 있거나 내가 알고자 하는 핵산(DNA or RNA) 서열 또는 단백질 서열인 Query Sequence 대한 정보를 알고 싶을 때 서열 데이터베이스(sequence database)에 비교하여 유사한 것들을 찾아주는 알고리즘이다. 간단하게 BLAST를 이용하여 알고자 하는 염기서열과 유사성이 높은 유전자 또는 유전체 구간을 검색해 보도록 하자.
NCBI BLAST 사용법 #
BLAST의 데이터베이스를 어디에서 어떤 것으로 사용할지에 따라서 결과는 당연히 달라진다. 미국 국립보건원(NIH)에서 운영하는 NCBI는 전 세계 염기서열의 데이터베이스 '유전자 은행'등을 통하여 생명정보들을 제공하며, 데이터를 다운받는 경우만 아니라 BLAST에서 가장 많이 사용하는 데이터베이스도 NCBI이다.
NCBI BLAST에 대해서 살펴보면, 먼저 사이트 URL은 http://blast.ncbi.nlm.nih.gov/Blast.cgi 이다. URL을 통해 나타난 블라스트 홈페이지 UI는 굉장히 User Friendly하게 직관적인 그래픽으로 최근에 업데이트 되었음을 볼 수 있다.
알려준 URL을 통해서 바로 들어갈 수도 있지만 먼저 NCBI 홈페이지에서 오른쪽 탭 BLAST라고 되어있는 것을 클릭함으로써 같은 페이지에 접근이 가능하다.
이 곳에서 웹을 통해서 BLAST 검색을 할 수 있고, 여러가지 BLAST 타입(blastn, blastp, blastx, tblastn, tblastx) 중 연구자가 가지고 있는 서열 및 비교하고자 하는 데이터베이스에 따라 입맛에 맞게 선택하여 BLAST를 진행할 수 있다.
하지만 분석하고자 하는 서열들의 수가 아주 많을 때는 BLAST 를 개인(또는 연구실) 컴퓨터에 설치하여 검색하는 것이 훨씬 효율적이다.
예로 Nucleotide서열에서 Nucleotide서열을 검색하는 WEB BLAST 내의 Nucleotide BLAST(blastn)아이콘을 클릭하면 하단과 같은 사이트로 이동한다.
BLAST 상세 사이트에서 빨간색으로 표시되어 있는 큰 5가지 단계를 통하여 BLAST를 진행할 수 있다.
먼저 1단계는 아까 블라스트에서 상세 블라스트페이지로 들어오기 전과 상세 블라스트페이지 상단 탭에 있는 블라스트 타입을 선택하는 것이다.
다음 2단계는 연구자가 찾고자 하는 염기서열을 넣을 수 있는 큰 텍스트 박스가 존재한다.
Query Sequence를 Copy & Paste로 붙인 후 3단계에서 BLAST Database(DB)를 선택한다.
입력한 서열을 어디를 대상으로 비교할 것인지 즉 어떤 데이터베이스에서 비교를 진행할 것인지 설정해야 한다. Genome(유전체,DNA)으로 진행할 것인지 EST(Expressed Sequence Tag) 는 유전자 발현에 의한 시퀀스 데이터베이스, 그 외에도 여러가지 데이터베이스들이 있다.
4단계에서 서로 서열을 비교할 때 어느 정도의 엄격함과 알고리즘으로 진행할지 선택하는 부분이다. 여기까지 블라스트 알고리즘 프로그램까지 선택하고 나서 하단에 BLAST 박스를 선택하면 블라스트가 진행된다.
결과 화면은 다음과 같다.
References #
1. http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs
2. Altschul, SF., Madden, TL., Schäffer, AA., Zhang, J., Zhang, Z. et al., Gapped BLAST and PSI-BLAST:
a new generation of protein database search programs., Nucleic Acids Res. 1997, 25, 3389-402