CD-HIT
#
Find similar titles
Structured data
- Category
- Software
Table of Contents
소개 #
CD-HIT은 aligment를 통해 NonRedundancy dataset을 만들어주는 프로그램이다. 즉 주어진 input 데이터에 일정정도의 similarity를 기준으로 유사한 서열끼리 clustering을 수행하여 각 cluster의 대표 서열, 가장 긴 서열 하나씩을 주어 준다. 이때 각 cluster의 member 서열 정보도 함께 주어지기 때문에 isoform 분석 및 clustering에 매우 유용하다. 뿐만 아니라 Next-generation_sequencing 영역까지 사용 범위가 확대 되었다.
2001년 처음으로 릴리즈가 되었으며, 현재 v4.6이 가장 최신이다. 또한 현재 CD-HIT은 많은 패키지 프로그램을 가지고 있다. 패키지 프로그램은 다음과 같다.
- CD-HIT (CD-HIT-EST) : 설정해준 similarity 기준으로 단백질 혹은 뉴클레오타이드 서열을 비교할때 사용
- CD-HIT-2D (CD-HIT-EST-2D) : 1차 만들어진 dataset1과 다른 dataset2를 비교 할때 사용
- CD-HIT-454 : pyrosequencing reads의 duplicate를 제거할때 사용
- CD-HIT-OTU : rRNA 분석
- CD-HIT-DUP : single 혹은 paired Illumina reads의 duplicate 제거
- CD-HIT-LAP : overlapping reads 확인 할때 사용
설치 #
CD-HIT은 C++로 개발되었으며 프로그램 다운로드 및 설치는 다음과 같이 수행한다.
$ wget https://cdhit.googlecode.com/files/cd-hit-v4.6.1-2012-08-27.tgz
$ tar xvf cd-hit-v4.6.1-2012-08-27.tgz
$ cd cd-hit-v4.6.1-2012-08-27
$ make
$ make openmp=yes
설치후 make를 이용해서 컴파일을 하면 해당폴더에 cd-hit, cd-hit-2d, cd-hit-454, cd-hit-div, cd-hit-est, cd-hit-est-2d가 생성되어 있다. 그리고 cd-hit를 실행시키면 사용법을 볼수 있다.