기계학습
선형회귀분석
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Statistics
Table of Contents
선형회귀분석(Linear Regression analysis) #
가장 간단한 형태의 기계학습으로 분석/통계 모델에서 이미 널리 알려진 선형회귀분석 있다. 회귀분석은 두 개의 변수로 구성된 값들로부터 적절한 모델을 구하여 데이터 추이를 파악하는 방법으로, 계산된 모델을 기준으로 데이터의 추세를 정의하거나, 새로운 입력값이 들어올 때 값의 범위를 유추할 수 있다.
그중에서도 선형회귀분석은 단어 그대로 모델이 Linear(선형)한 경우, 즉 y = ax + b 형태의 모델을 이용하여 예측 및 분석하는 방법이다. 선형 모델이기 때문에 복잡한 추세를 가지는 데이터일수록 오차가 크지만, 비교적 간단하게 계산할 수 있고, 대략적인 상관관계 및 그 정도를 유추할 수 있어 기본적인 분석방법으로 많이 사용된다.
선형회귀분석 구현 방법 #
선형회귀분석은 일반적으로 Least square method(최소제곱법)를 이용하여 구한다. 최소 제곱법은 데이터들을 좌표평면상에 표현하였을 때 각 점들로부터 가장 가까운 1차 함수를 구하는 방법이다.
단순 선형회귀분석 #
단순 선형회귀분석 #
단순 회귀분석은, 어떤 하나의 독립변수가 다른 변수와 종속적인 관계에 있다고 추정하는것에서 시작한다. 즉 다시 말해서 두 변수 x, y가 있다고 가정할 때 x라는 변수값이 y와 유의미한 관계가 있다는 가정을 내린후, 이를 회귀 분석을 통해서 분석해 나간다. 이 중 단순 선형회귀 분석은 x라는 변수가 y라는 변수에 종속적인 값을 가진다고 가정하였을때, 이 두 변수간의 관계가 선형적인 관계를 가질 것이라 추정하는것을 말한다.
단순 선형회귀분석의 추정 #
단순 선형회귀분석은, 앞에서 말한바와 같이 x, y 간의 관계가 선형일것으로 추정하므로 추정모델은 다음과 같이 정의 할 수 있다.
$$ y= \beta_0 + \beta_1 x + \epsilon $$
여기서 \(\beta_0\), \(\beta_1\) 는 각각 y절편과, 기울기를 의미하며, \(\epsilon\) 은 각 점들의 오차를 의미한다. 선형회귀분석은 가장 적합한 \(\beta_0\), \(\beta_1\)를 찾는 과정이며, 이를 찾는 과정으로 앞에서 언급한 Least square method(최소제곱법) 방법을 많이 사용한다.
우리가 정의한 선형 모델에는 추정된 선형된 모델에 대한 추정된 예측값(predicted value)이 존재하며, 우리가 추정한 예측값과 실제 결과값에서 오차 \(\epsilon\) 가 존재하는데 이를 잔차(residual)라고 부른다. Least square method(최소제곱법)은 선형회귀모델로부터 나온 예측값과 실제값의 차, 즉 잔차들을 제곱하여 합하였을때 이를 최소값이 되도록 찾아나가는 방법으로 잔차의 합을
$$ \sum{(\epsilon_i)^2 } = \sum (\beta_0 + \beta_1 x - y)^2 $$
과 같이 나타낼 때 이를 \(\beta_0\), \(\beta_1\) 로 각각 편미분 하여 \(\beta_0\) 과 \(\beta_1\)을 계산한다.
단순 선형회귀분석의 검정 #
회귀 분석의 검정은 주로 T검정을 이용한다. T검정 방법은 이론_및_T검정 을 참고한다