Repeat library 구축
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Analysis
Non-model organism의 Repeat library 구축시 주로 사용되는 프로그램은 RepeatModeler와 RepARK이다.
최근 다시마 유전체 분석에서는 두 프로그램을 모두 활용하여 다시마 종 특이적인 repeat library를 구축하여 분석하였다.
- RepeatModeler 이용 repeat library 구축
- RepARK 이용 repeat library 구축
- RepARK의 경우 sequencing read를 대상으로 velvet 등 assembler를 이용하여 de novo assembly를 수행을 통해 repeat contents를 획득하다 보니 짧은 길이의 false positive sequence가 많이 존재할 수 있다. 이에 sequence length가 150bp 미만은 필터링 후 다음 단계를 수행한다.
- CAP3 이용 repeat library merging
- 두 프로그램을 통해 얻어진 repeat 서열의 redundancy를 제거하고 full-length TE 서열을 획득하기 위해서 CAP3 프로그램을 이용한다. 이때 적용한 파라미터는 '-o 20, -i 30 -p 80 -s 400 -j 31'이다.
- 최종 서열에서 RepARK로 예측된 서열 중 800bp 미만은 필터링한다.
- RepeatClassifier 이용 repeat classification
- RepeatClassifier는 RepeatModeler의 악세사리 툴 중 하나로 검색된 repeat candidate를 Repbase와 비교 (blast 수행)하여 annotation을 달아준다.
레퍼런스 #
- Ye, Naihao, et al. "Saccharina genomes provide novel insight into kelp biology." Nature communications 6 (2015).