Skip to content

Metagenomics Binning #
Find similar titles

Structured data

Category
Algorithm

개요 #

메타게노믹스에서, 비닝 (binning)은 리드 또는 컨티그를 그룹화하여 운영 분류 단위에 할당하는 프로세스이다. 비닝 방법은 구성 특징 또는 정렬(유사성) 또는 둘 다를 기반으로 할 수 있다.

Metagenomic 샘플은 많은 생물체로부터의 리드들을 포함할 수 있다. 예를 들어, 1그램의 토양에서는 생물 다양성이 18,000가지가 될 수 있으며 생물체마다 자체 게놈정보가 있다. Metagenomic 연구는 전체 커뮤니티로부터 DNA를 샘플링하여 일정 길이의 뉴클레오타이드 서열로 데이터를 얻는다. 대부분은 얻은 서열의 불완전성으로 인해 개별 유전자를 모으기가 어렵고 각 생물체의 전체 게놈을 회수하는 것이 훨씬 적다. 따라서 binning 기술은 OTU (Operational Taxonomic Unit)로 지정된 특정 생물군과의 리드 또는 컨티그를 식별하는 "최선의 노력"이다.

여러 유기체로부터 DNA를 추출한 최초의 연구는 각 시료의 다양성과 기원을 평가하기 위해 특정 유전자를 사용했다. 이러한 마커 유전자는 알려진 유기체의 클론 (clonal) 배양하여 이미 시퀀싱 되어 왔으므로 그러한 유전자 중 하나가 읽은 메타 데이터 샘플의 읽기 또는 컨티그가 알려진 종 또는 그 종의 OTU에 할당될 수 있을 때마다 나타난다. 이 방법의 문제점은 대부분 데이터가 할당되지 않은 상태로 남아있는 시퀀스의 아주 작은 부분만 마커 유전자를 가지고 있다는 것이다.

최신 비닝 기법은 샘플과 독립적인 이전에 사용 가능한 정보와 샘플에 있는 고유 정보를 모두 사용한다. 표본의 다양성과 복잡성에 따라 성공의 정도는 다양하며 때에 따라 개별 종까지의 서열을 분석할 수 있는 반면에, 다른 서열에서는 매우 광범위한 분류 학적 그룹으로 서열을 식별할 수 있다.

최신 비닝 알고리즘 #

TETRA #

TETRA는 게놈 조각에서 tetra nucleotide 사용 패턴을 사용하는 통계학적 분류자이다. DNA에는 4개의 가능한 뉴클레오타이드가 존재하므로, 4개의 연속적인 뉴클레오타이드의 4개의 상이한 단편이 존재할 수있다. 이 파편들은 테트라머라 불린다. 테트라는 주어진 시퀀스에 대한 각 사량체의 빈도를 표로 정리하여 작동한다. 이 주파수들로부터 z-스코어가 계산되어, 테트라머가 개인의 뉴클레오티드 조성을 관찰함으로써 기대되는 것과 반대되는 방식을 과소 또는 과소 표현하는 방법을 나타낸다. 각각의 사량체에 대한 z-스코어는 벡터로 조립되고, 상이한 서열에 상응하는 벡터는 쌍으로 비교되어, 표본과 얼마나 유사한 서열이 있는지를 측정한다. 가장 유사한 서열이 동일한 OTU의 유기체에 속할 것으로 예상된다.

MEGAN #

DIAMOND+MEGAN 접근법에서, 모든 판독은 우선 NCBI-nr과 같은 단백질 참조 데이터베이스에 대해 정렬되고, 그 결과 정렬은 LCA 알고리즘을 사용하여 분석된다. 리드가 중요한 정렬을 가진 모든 분류군 위에 놓이는 NCBI taxonomy 분류 학적 노드에서 비트 정렬이 주어진 임곗값 (읽기 길이에 따라 다름)보다 높고 읽기에 대해 가장 좋은 점수의 10% 이내이면 정렬은 대개 "중요"하다고 간주된다. DNA 참조 시퀀스가 아닌 단백질 참조 시퀀스를 사용하는 이유는 현재의 DNA 참조 데이터베이스가 환경에 존재하는 게놈의 진정한 다양성 중 일부만을 차지한다는 점 때문이다.

PHYLOPYTHIA #

Phylopythia는 IBM 연구실의 연구원이 개발한 감독식 분류자 중 하나이며 기본적으로 알려진 시퀀스의 DNA-kmers로 교육된 지원 벡터 시스템이다.

SOT-ITEMS #

SOT-ITEMS는 인도의 Tata Consultancy Services (TCS) Ltd.의 Innovations Lab에서 개발한 정렬 기반 비닝 알고리즘이다. 사용자는 BLASTx 검색을 사용하여 nr 단백질 데이터베이스에 대한 입력 메타 게놈 서열의 유사성 검색을 수행하여야 한다. 생성된 blastx 출력은 SO-ITEMS 프로그램에 의해 입력으로 사용된다. 이 방법은 BLAST 정렬 매개 변수 임곗값의 범위를 사용하여 판독이 할당될 수있는 적합한 분류학적 수준(또는 등급)을 먼저 식별한다. 그런 다음 메타 데이터 읽기의 최종 할당을 위해 직교 기반 접근 방식을 채택한다.

Suggested Pages #

0.0.1_20140628_0