Skip to content

최소제곱법 #

Find similar titles

19회 업데이트 됨.

Edit

최소제곱법(Least squares method) #

관측치(observed value)와 예측치(predicted value) 간의 오차 제곱의 합을 최소화하여 최적의 예측치를 산출하는 방법.

일반적으로 최소제곱법은 함수관계에 있는 임의의 변수 \(x\)와 \(y\)의 최적 선형 모형을 구축할 때 이용된다. 예를 들어 \(y = ax + b\)의 함수 관계에 있는 변수 \(x\), \(y\)가 존재 할때 실제 관측치인 \(y\)와 함수에 의한 예측치인 \(y^*\)에서 \(\sum_{}^{}{(y - y^*)^2}\) 이 0이되는 \(a\)와 \(b\)의 값을 구할 때 이용된다.

최소제곱법의 예시 #

앞서 언급한 바와 같이 최소제곱법은 선형 모형의 구축에 대표적으로 이용된다.

\(y=β_0+β_1x+ϵ\)

위의 함수 관계에 있는 임의의 자료 \(x\)가 (4,2,6,7)의 변숫값을 갖고, \(y\)가 (5,1,4,7)의 변숫값을 가질 때 선형함수의 \(y\) 절편과 기울기를 의미하는 \(β_0\) 및 \(β_1\)을 최소제곱법을 이용하여 유도하였다.

Image

그림 1. 임의의 변수 \(x\)와 \(y\)에 대한 산점도

이때, \(ϵ\)는 관측치와 예측치 간의 차이인 잔차(residual)를 의미하며 이는 아래와 같은 방식으로 유도 할 수 있다.

$$ y=β_0+β_1x+ϵ \\ y -(β_0+β_1x) = ϵ \\ y - y^* = ϵ $$

Image

그림 2. 관측치 \(y\)와 예측치 \(y^*\)를 통한 잔차 \(ϵ\) 확인

잔차의 경우 분산(variance)을 구할 때처럼 잔차의 총합은 0으로 떨어지기 때문에 잔차의 최솟값을 구하기 위해서는 잔차의 제곱의 합을 최소화하는 방향으로 식을 유도해야 한다.

$$ \sum_{i=1}^{n}{(y - y^*)^2}=0\\ \sum_{i=1}^{n}{(y - (β_0+β_1x))^2}=0 \\ \sum_{i=1}^{n}{(y -β_0-β_1x)^2}=0 \\ \sum_{i=1}^{n}{(y^2-2β_0y-2β_1xy+β_0^2+2β_0β_1x+β_1^2x^2)}=0 \\ $$

본 식의 목표 변수인 \(β_0\) 및 \(β_1\)를 도출하기 위해 각각의 변수를 이용하여 편미분을 유도한다.

  • \(β_0\) 편미분 $$ \sum_{i=1}^{n}{(y^2-2β_0y-2β_1xy+β_0^2+2β_0β_1x+β_1^2x^2)}=0 \\ \sum_{i=1}^{n}{y^2}-2\sum_{i=1}^{n}{β_0y}-\sum_{i=1}^{n}{2β_1xy}+nβ_0^2+2\sum_{i=1}^{n}{β_0β_1x}+\sum_{i=1}^{n}{β_1^2x^2}=0 \\ -\sum_{i=1}^{n}{y}+nβ_0+\sum_{i=1}^{n}{β_1x}=0 \\ nβ_0=\sum_{i=1}^{n}{y}-\sum_{i=1}^{n}{β_1x}\\ β_0=(\sum_{i=1}^{n}{y}-\sum_{i=1}^{n}{β_1x})/n $$

  • \(β_1\) 편미분 $$ \sum_{i=1}^{n}{(y^2-2β_0y-2β_1xy+β_0^2+2β_0β_1x+β_1^2x^2)}=0 \\ \sum_{i=1}^{n}{y^2}-2\sum_{i=1}^{n}{β_0y}-\sum_{i=1}^{n}{2β_1xy}+nβ_0^2+2\sum_{i=1}^{n}{β_0β_1x}+\sum_{i=1}^{n}{β_1^2x^2}=0 \\ -2\sum_{i=1}^{n}{xy}+2\sum_{i=1}^{n}{β_0x}+2\sum_{i=1}^{n}{β_1x^2}=0\\ \sum_{i=1}^{n}{β_1x^2}=\sum_{i=1}^{n}{xy}-\sum_{i=1}^{n}{β_0x}\\ β_1=(\sum_{i=1}^{n}{xy}-\sum_{i=1}^{n}{β_0x})/(\sum_{i=1}^{n}{x^2}) $$

각각의 \(β_0\) 및 \(β_1\)로 편미분 한 결괏값을 연립하여 \(β_0\) 및 \(β_1\) 도출

  • 연립방정식 계산 $$ β_0=(\sum_{i=1}^{n}{y}-\sum_{i=1}^{n}{β_1x})/n \\ β_1=(\sum_{i=1}^{n}{xy}-\sum_{i=1}^{n}{β_0x})/(\sum_{i=1}^{n}{x^2}) \\ β_1\sum_{i=1}^{n}{x^2}=\sum_{i=1}^{n}{xy}-\sum_{i=1}^{n}{x}((\sum_{i=1}^{n}{y}-\sum_{i=1}^{n}{β_1x})/n) \\ nβ_1\sum_{i=1}^{n}{x^2}-nβ_1\sum_{i=1}^{n}{x}\sum_{i=1}^{n}{x}=n\sum_{i=1}^{n}{xy}-\sum_{i=1}^{n}{x}\sum_{i=1}^{n}{y} \\ β_1=(n\sum_{i=1}^{n}{xy}-\sum_{i=1}^{n}{x}\sum_{i=1}^{n}{y})/(n\sum_{i=1}^{n}{x^2}-\sum_{i=1}^{n}{x}\sum_{i=1}^{n}{x}) $$

  • 기존 방정식 \(y=β_0+β_1x+ϵ\)에 적용 $$ y=(n\sum_{i=1}^{n}{xy}-\sum_{i=1}^{n}{x}\sum_{i=1}^{n}{y})/(n\sum_{i=1}^{n}{x^2}-\sum_{i=1}^{n}{x}\sum_{i=1}^{n}{x})x+β_0 $$

이때, \(x\)가 (4,2,6,7)의 변숫값을 갖고, \(y\)가 (5,1,4,7)의 변수값을 갖기 때문에 아래의 값을 적용할 수 있다.

Image

그림 3. 임의의 변수 \(x\)와 \(y\)에 대한 각각의 변수값

$$ \sum_{i=1}^{n}{x}=(4+2+6+7)=19 \\ \sum_{i=1}^{n}{y}=(5+1+4+7)=17 \\ \sum_{i=1}^{n}{xy}=(20+2+24+49)=95 \\ \sum_{i=1}^{n}{x^2}=(16+4+36+49)=105 \\ n = 4 $$

  • \(β_0\) 및 \(β_1\) 도출 $$ y=(n\sum_{i=1}^{n}{xy}-\sum_{i=1}^{n}{x}\sum_{i=1}^{n}{y})/(n\sum_{i=1}^{n}{x^2}-\sum_{i=1}^{n}{x}\sum_{i=1}^{n}{x})x+β_0 \\ y=(4*95-19*17)/(4*105-19*19)+β_0 \\ y=57/59x+β_0 \\ y=0.9661x+β_0 $$ \(x\)와 \(y\)의 평균값을 적용하여 \(β_0\) 도출 $$ y=0.9661x+β_0 \\ 4.25=0.9661*4.75+β_0 \\ β_0 = -0.3389 \\ $$

\(y = 0.9661x -0.3389\)

Image

그림 4. 최소제곱법을 적용하여 획득한 최적의 함수 모델

Incoming Links #

Related Data Sciences #

Related Bioinformaticses #

0.0.1_20231010_1_v71