Skip to content

N50 #
Find similar titles

Structured data

Category
Statistics

N50유전체 어셈블리의 품질을 설명하는 대표적인 통계량이다.

N50에 대한 보충설명 #

  • 주어진 assembly의 contig의 set들의 길이를 모두 합쳤을 때 절반 길이를 구하고 가장 긴 contig 서열부터 차례차례 합산된 누적값이 이들의 절반 길이에 해당하는 contig 길이를 N50 값이라고 말한다.

  • 참고 자료 중 위키피디아에서 설명한 N50 값에 대한 예제를 살펴보면 L = {2, 2, 2, 3, 3, 4, 8, 8}일 때 N50 값을 구하는데, L list의 합은 32, 이들의 절반은 16으로 누적 합이 16 이상인 경우는 8 + 8이므로 N50은 8이 된다. 이 list에서 mean 값은 4, median 값은 3이다. 결국, 이 list에서 N50 값은 가장 긴 contig의 길이가 된다.

  • Mean과 median 값을 대신해 N50 값을 대신 사용하는 이유는 표준편차에 의한 값의 오류를 줄이기 위함이라고 볼 수 있다. 특히 NGS data를 가지고 진행할 때는 엄청나게 긴 contig와 정말 짧은 contig들이 존재하기 때문에 N50 값 같은 통계적인 수치를 이용하는 것이다.

참고자료 #

  1. http://www.nature.com/nrg/journal/v13/n5/box/nrg3174_BX1.html
  2. http://www.acgt.me/blog/2013/7/8/why-is-n50-used-as-an-assembly-metric.html
  3. https://en.wikipedia.org/wiki/N50,_L50,_and_related_statistics

Incoming Links #

Related People #

Suggested Pages #

0.0.1_20140628_0