Skip to content

N50 #
Find similar titles

Structured data

Category
Statistics

N50유전체 어셈블리의 품질을 설명하는 대표적인 통계량이다.

N50 #

N50이란? #

De novo assembly의 결과 수치 중에서 연구자가 가장 민감하게 생각하는 것은 contig의 길이에 관한 것이다. N50은 이러한 de novo assembly의 품질을 정의할 때 사용되는 수치를 말한다. 즉, 주어진 assembly의 contig의 set들의 길이를 모두 합쳤을 때 절반 길이를 구하고 가장 긴 contig 서열부터 차례차례 합산된 누적값이 이들의 절반 길이에 해당하는 contig 길이를 N50 값이라고 말한다. de novo assembly에서 N50 값이 중요하게 작용하는 이유는 reference assembly같은 경우, assembly가 잘 되었는지 판단할 수 있는 척도 (reference)가 존재하게 된다. 그래서 reference와 비교하여 assembly가 잘 되었는지를 판단할 수 있다. 하지만 de novo assembly같은 경우에는 비교할 refernece가 없기 때문에, N50, L50, Total length등을 이용하여 assembly가 잘 되었는지를 판단하는 것이다 (N50 값이 높을수록 assembly가 잘 되었다고 판단할 수 있다). 또한, 평균 값 (Mean)과 중간 값 (median)을 대신해 N50 값을 대신 사용하는 이유는 표준편차에 의한 값의 오류를 줄이기 위함이라고 볼 수 있다. 특히 NGS data를 가지고 진행할 때는 엄청나게 긴 contig와 정말 짧은 contig들이 존재하기 때문에 N50 값 같은 통계적인 수치를 이용하는 것이다.

N50 계산법 #

서열들을 크기 순으로 오름차순 정렬을 한다. 가장 큰 contig를 시발점으로 하여 큰 contig들의 길이를 전부 더했을 때, total length의 50%와 같거나 넘는 순간 바로 그 contig의 길이를 N50이라 정의한다. N50 값은 평균 값과는 달리 매우 현실적인 숫자이다. 1 kb와 11 kb의 서열이 하나씩 있을 때, 평균 값은 6 kb가 된다. 그러나 우리의 서열 모음에는 6 kb짜리 서열은 없다. 이에 반하여 N50 값은 서열 모음 내에 있는 특정 서열의 길이가 된다.

Image

위 그림을 예로 들면, 위 그림에서의 평균 값은 (100+70+60+50+50+40+30) / 2 = 200이 된다. 하지만 N50 값은 가장 큰 contig부터 순차적으로 더하였을 때 값이 200이거나 200을 넘는 값이 된다. 즉, 위 그림에서의 N50 값은 60이 되는 것이다.

Reference #

Incoming Links #

Related People #

Suggested Pages #

0.0.1_20140628_0