Table of Contents
상관분석이란? #
상관관계는 2개 변수가 어떤 선형적 관계를 맺는지 분석하는 통계적 측도이며 상관 계수를 통해 두 변수 간의 선형관계 정도를 측정합니다. 상관관계는 비교를 원하는 2가지 변수만 고려하여 관계를 측정하기 때문에 그 외의 변수들은 고려하지 않습니다.
상관계수 수식 및 해석 #
상관계수(r)는 독립변수 X 와 종속변수 Y 가 함께 변하는 정도를 독립변수 X 와 종속변수 Y 가 각각 변하는 정도로 나눈 값입니다. 따라서, r 값이 1이 된다면 독립변수 X와 종속변수 Y 가 완전하게 같은 것이며, -1이 된다면 서로 값이 반대 부호로 완전히 같다고 보시면 됩니다. r의 값이 0이라면 두 변수간에 선형의 상관관계가 없다라고 표현하는 것이 맞는 표현입니다. 왜냐하면, 두 변수 간의 관계를 보려고 해도 두 변수의 관계가 곡선 관계라고 했을 시에는 상관분석으로는 설명이 불가하기 때문입니다.
상관분석 종류 #
Pearson(피어슨 상관계수) #
상관분석에서 가장 흔히 사용되는 상관계수이며, 연속형 변수와 연속형 변수 간의 선형관계를 확인할 때 사용됩니다. 피어슨 상관계수를 진행할 때, 두 변수 모두 정규성을 따른다는 가정이 꼭 필요합니다. 따라서, 피어슨 상관계수는 모수적 방법이라고 지칭할 수 있습니다. 피어슨 상관계수 값의 범위 또한 마찬가지로, -1에서 1 사이이며 해석도 앞서 설명해 드렸듯이 똑같이 진행하시면 됩니다.
Spearman Rank (스피어만 순위 상관계수) #
두 변수가 정규성을 따르지 않을 때 피어슨 상관계수를 사용할 수 없기에 스피어만 순위 상관계수 방법을 이용합니다. 스피어만 순위 상관계수는 순위를 이용하기 때문에 비모수적 방법이며 연속형 변수뿐만 아니라 순위형 변수에도 적용 가능하다는 장점이 있습니다.
Kendall Tau (켄달 Tau) #
켄달의 타우는 스피어만 순위 상관계수와 거의 비슷한 개념으로 단조성을 판단하기 위해 사용됩니다. 즉, 두 연속형 변수 간의 순위를 비교하여 연관성을 계산하는 방법입니다. 켄달 Tau 계수랑 스피어만 상관계수 모두 피어슨 상관계수와는 달리 상관관계에 대한 값을 추출합니다. 주로 샘플 사이즈가 작거나 데이터의 동률이 높을 때 유용합니다.
점 양분 상관계수(Point-biserial) #
점 양분 상관계수 방법은 하나의 변수가 이분형 변수(Yes/No)이고 다른 변수가 연속형이면 사용하는 상관계수 측정 방식입니다. 상관계수 값(r)의 범위는 -1에서 1 사이의 값이며 단위는 존재하지 않습니다. r이 0에 근접할수록 두 변수 사이의 선형관계는 약해지며 1에 근접할수록 양의 상관관계를 가지고 -1에 근접할수록 음의 상관관계를 가집니다.
파이 계수(Phi) #
파이 상관계수는 독립변수와 종속변수가 모두 이분형 변수일 때 두 변수의 상관관계 정도를 파악하기 위하여 쓰이는 계수입니다. 변수들의 비교 대상 개수 또한 명목형일 때 중요합니다. 파이 계수 같은 경우 비교 대상 범주 대상이 2개인 경우입니다. 비교 대상 범주 대상이 3개 이상이면 Cramer's V이라는 방법을 사용할 것을 권장합니다.