Skip to content

Repeat library 구축 #

Find similar titles

2회 업데이트 됨.

Edit

Structured data

Category
Analysis

Non-model organism의 Repeat library 구축시 주로 사용되는 프로그램은 RepeatModelerRepARK이다.

최근 다시마 유전체 분석에서는 두 프로그램을 모두 활용하여 다시마 종 특이적인 repeat library를 구축하여 분석하였다.

  1. RepeatModeler 이용 repeat library 구축
  2. RepARK 이용 repeat library 구축
    • RepARK의 경우 sequencing read를 대상으로 velvet 등 assembler를 이용하여 de novo assembly를 수행을 통해 repeat contents를 획득하다 보니 짧은 길이의 false positive sequence가 많이 존재할 수 있다. 이에 sequence length가 150bp 미만은 필터링 후 다음 단계를 수행한다.
  3. CAP3 이용 repeat library merging
    • 두 프로그램을 통해 얻어진 repeat 서열의 redundancy를 제거하고 full-length TE 서열을 획득하기 위해서 CAP3 프로그램을 이용한다. 이때 적용한 파라미터는 '-o 20, -i 30 -p 80 -s 400 -j 31'이다.
    • 최종 서열에서 RepARK로 예측된 서열 중 800bp 미만은 필터링한다.
  4. RepeatClassifier 이용 repeat classification
    • RepeatClassifier는 RepeatModeler의 악세사리 툴 중 하나로 검색된 repeat candidate를 Repbase와 비교 (blast 수행)하여 annotation을 달아준다.

레퍼런스 #

  • Ye, Naihao, et al. "Saccharina genomes provide novel insight into kelp biology." Nature communications 6 (2015).
0.0.1_20231010_1_v71