Skip to content

CD-HIT #
Find similar titles

Structured data

Category
Software

소개 #

CD-HIT은 aligment를 통해 NonRedundancy dataset을 만들어주는 프로그램이다. 즉 주어진 input 데이터에 일정정도의 similarity를 기준으로 유사한 서열끼리 clustering을 수행하여 각 cluster의 대표 서열, 가장 긴 서열 하나씩을 주어 준다. 이때 각 cluster의 member 서열 정보도 함께 주어지기 때문에 isoform 분석 및 clustering에 매우 유용하다. 뿐만 아니라 Next-generation_sequencing 영역까지 사용 범위가 확대 되었다.

2001년 처음으로 릴리즈가 되었으며, 현재 v4.6이 가장 최신이다. 또한 현재 CD-HIT은 많은 패키지 프로그램을 가지고 있다. 패키지 프로그램은 다음과 같다.

  • CD-HIT (CD-HIT-EST) : 설정해준 similarity 기준으로 단백질 혹은 뉴클레오타이드 서열을 비교할때 사용
  • CD-HIT-2D (CD-HIT-EST-2D) : 1차 만들어진 dataset1과 다른 dataset2를 비교 할때 사용
  • CD-HIT-454 : pyrosequencing reads의 duplicate를 제거할때 사용
  • CD-HIT-OTU : rRNA 분석
  • CD-HIT-DUP : single 혹은 paired Illumina reads의 duplicate 제거
  • CD-HIT-LAP : overlapping reads 확인 할때 사용

설치 #

CD-HIT은 C++로 개발되었으며 프로그램 다운로드 및 설치는 다음과 같이 수행한다.

$ wget https://cdhit.googlecode.com/files/cd-hit-v4.6.1-2012-08-27.tgz
$ tar xvf cd-hit-v4.6.1-2012-08-27.tgz
$ cd cd-hit-v4.6.1-2012-08-27
$ make
$ make openmp=yes

설치후 make를 이용해서 컴파일을 하면 해당폴더에 cd-hit, cd-hit-2d, cd-hit-454, cd-hit-div, cd-hit-est, cd-hit-est-2d가 생성되어 있다. 그리고 cd-hit를 실행시키면 사용법을 볼수 있다.

참고 #

Incoming Links #

Related Bioinformaticses #

0.0.1_20210630_7_v33