Skip to content

artifact TCGA #

Find similar titles

5회 업데이트 됨.

Edit
  • 최초 작성자
    홍성의
  • 최근 업데이트
    SeungjuLee

Structured data

Category
Analysis

Monitoring of Technical Variation in Quantitative High-Throughput Datasets #

Cancer Inform. 2013 23:193-201

Introduction #

• 대용량 데이터를 분석함에 있어 데이터 간 분산 상이성이 종종 발생하며 이를 보정해주는 작업이 필요하다.

• 이를 보정하기 위한 대표적인 툴로는 ComBat, DWD, SVA, XPN 등이 있다.

• TCGA 데이터 내에도 이러한 데이터간 분산 상이성이 존재하므로 이를 모니터링하고 보정할 필요가 있다.

• 이를 위해 R package의 swamp이 개발되었다.

개발 workflow #

Image

TCGA 데이터 내의 바이어스 존재 #

• 몇 종의 암유전자 발현 정보를 PCA 분석을 한 후 산출되는 PC와 실험 정보 * (예, batch, tissue source site, plate id 등)를 linear regression을 수행한 뒤 얻어지는 p-value를 –log10을 취해 스코어링했다.

• 이를 heatmap으로 모니터링한 결과는 아래 그림과 같다.

• 그림에서 보여지는 바와 같이 PC정보와 batch, plate id 등의 정보가 현저하게 비슷한 패턴을 보이며 이는 유전자 발현 정보가 batch나 plate id 등에 bias 되어 있음을 나타낸다.

Image

TCGA내 결장암 (colon cancer) 데이터의 바이어스 분석 #

Linear regression 결과를 가시화한 그림 A의 경우 date_of_shipment, plate_id, tissue_source_site, batch 등이 서로 밀접한 관계 즉, 바이어스가 존재함을 알 수 있다.

• 또한 MSI_status, methylation_subtype, MLH1 _silencing, hypermutated 등이 서로 밀접한 관계성을 보인다.

• PC와 실험 정보 간의 관계성을 가시화한 그림 B의 경우 PC1, 3이 date_of_shipment, plate_id, tissue_source_site등과 밀접한 관계를 이루며 바이어스를 형성하고 있음을 알 수 있었고 그림 C의 경우 특정 batch가 서로 모여있는 바이어스를 확인할 수 있다.

• PC1, 3을 제거한 후 새롭게 얻어진 PC와 실험 정보간의 관계성에는 batch effect가 사라진 것을 알 수 있으며 PC1, 2와 MSI_status, methylation_subtype, MLH1_silenced, hypermutated등의 관계성은 여전히 존재함을 알 수 있다.

• PC1, 3을 제거한 후에는 그림 C에서 보이던 batch effect가 사라짐을 확인하였으며 (그림 E) Myc와 타 유전자와의 발현 유사성을 pearson’s correlation coefficient(PCC)로 분석한 경우 유사성이 증가함을 확인하였다. (그림 F)

Image

동일 개체 샘플에 대한 실험적 바이어스 #

• 동일 개체 샘플에 대한 실험적 바이어스를 분석하기 위해 ReCount 데이터베이스에서 얻어진 두 개의 데이터를 사용하였으며 해당 데이터는 동일 B-lymphocyte cell line을 대상으로 두 개의 실험실에 독립적으로 생산한 데이터이므로 동일한 정보를 가져야 한다.

• 하지만 그림에서 알 수 있듯이 PC1이 두 개의 서로 다른 실험실 간의 바이어스가 존재함을 나타내며 PC1을 제거하고 새롭게 얻어진 PC에는 이러한 바이어스가 사라진 것을 알 수 있다.

• 동일한 샘플이므로 두 데이터간의 상관성이 positive로 존재해야 함에도 불구하고 PC1을 제거하기 이전에는 오히려 negative 상관성이 존재함을 알 수 있었으며 (그림) PC1을 제거한 후에는 상관성이 크게 증가함을 알 수 있었다.

Image

0.0.1_20230725_7_v68