Skip to content

R (프로그래밍 언어) glmnet package #
Find similar titles

Structured data

Category
Statistics

Introduction #

Glmnet은 제롬 프리드먼(Jerome Friedman), 트레버 해이스티(Trevor Hastie), 로버트 팁시라니(Rob Tibshirani) 그리고 노아 시몬(Noah Simon)에 의해 개발된 R 패키지이다. Glmnet은 패널티 최대 우도(penalized maximum likelihood)를 통해 일반화 선형 모델(generalized linear model)을 적합하는 패키지이다. 패키지를 통해 선형, 로지스틱, 다항, 포아송, COX 회귀 모델을 적합할 수 있다.

Shrinkage methods #

하나의 예로 설명하면, 커피숍에서 오늘의 아이스커피가 판매될 양(종속변수)를 구한다고 가정하면 그에 따른 독립변수는 다양하다. 날씨, 기온, 요일, 계절부터 시작해서 오늘 TV 프로그램이 어떤 것을 하는지, 하다못해 오늘의 커피숍 알바생이 누구인지 까지 정말 다양한 독립변수를 둘 수 있다. 여기서 중요하지 않은 변수를 걸려내고 싶을 때, 쓸 수 있는 통계기법이 shrinkage methods이며, 이는 중요하지 않은 변수에 해당하는 coefficient의 절대값을 낮추는 방식을 취한다. Shrinkage method는 두 가지가 있는데, ridge와 lasso가 있다. ridge는 coefficient값을 0으로 보내는 데 실제로 0으로 가깝게는 가지만 0이 되지 못해 실제 중요한 변수가 무엇인지 확인하기가 모호하다. 이를 보완하기 위해 lasso가 나왔으며, ridge와 shrinkage penalty 방식이 다르고 coefficient값을 0으로 보낸다.

Install #

R에서 install.package를 통해 glmnet을 설치하고 라이브러리를 호출한다.

> install.package("glmnet")
> library(glmnet)

Golub data를 활용한 ridge regression #

Golub data는 72개 leukemia tumor mRNA 샘플의 7,129개 유전자 발현 데이터셋이다.

Suggested Pages #

0.0.1_20140628_0