Skip to content

Lasso regression #
Find similar titles

Structured data

Category
Statistics

Lasso regression #

  • Lasso regression(The least absolute shrinkage and selection operator)는 통계학과 머신러닝분야에서 회귀분석의 한 방법이다. 단순 선형회귀에서 y값은 y = f(x) = ax + b 로 구해지는데, 선형모델과 실제 데이터와의 차이를 나타내는 residual error가 최소가 되는 error를 구하는 것이 일반적인 선형회귀 모델의 목표라 할 수 있다. 하지만 실제로 회귀모델을 만드는 경우에, 단일변수로 회귀모델링을 하는 것보다 다중회귀모델을 만드는 경우가 훨씬 흔하다. 다중회귀모델을 만드는 경우에는 lasso regression을 활용하는게 feature selection하는 관점에서 더 유용하게 활용할 수 있다. Lasso regression 수식은 아래와 같다. img

    그림 1. Lasso regression 수식

Lasso regression 에서 shrinkage method #

  • 예를 들어 커피숍에서 오늘의 아이스커피 판매량을 예측한다고 가정하였을 때, 그에 따른 독립변수는 다양하다. 날씨, 온도, 요일, 계절, TV 프로그램등 다양한 독립변수가 존재한다. 여기서 중요한 변수를 선정하는 과정이 필요한데 이를 feature selection이라고 할 수 있다. Feature selection 방법은 다양한데 임의로 선정할 경우, 자신이 선택한 feature에 대한 확신이 안선다. Lasso regression에서는 shrinkage방식을 통해 feature를 selection 할 수 있으며, 이는 수학 모델을 통해 중요하지 변수의 coefficient값을 0으로 보내버림으로써 별도의 feature selection 없이 회귀분석을 수행할 수 있다. Coefficent값을 0으로 보내게 되면 아래의 그림과 같이 중요한 변수들은 selection되게 된다.

    img

    그림 2. Lasso regression의 shrinkage 방식

  • 사용방법은 R package중 glmnet에 잘 설명되어져 있다.

Reference #

0.0.1_20140628_0