Skip to content

R활용 poisson Regression #
Find similar titles

Structured data

Category
Statistics

포아송 회귀(Poisson Regression) #

포아송 회귀의 정의 #

포아송 회귀이란 종속변수(dependent variable)가 포아송 분포를 따른다고 가정하고, 일반화 선형모형의 회귀분석을 수행한다. 특히 종속변수가 가산자료(count data)일때 주로 사용된다.

포아송 분포 #

포아송 분포(poisson distribution)이란 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률 분포로 구간에서 발생하는 사건의 횟수를 추정하는데 매우 유용하다.

Image

이미지 출처 : 포아송 분포란 무엇일까(http://ssacstat.tistory.com/366)

포아송의 전제 조건 #

1. 동일한 길이의 어떤 두 구간에서 사건발생의 확률은 동일하다.
2. 어떤 구간의 사건발생이나 사건 불발은 다른 구간에서의 사건 발생, 불발과는 무관하다.
3. 매우 짧은 시간이나 매우 작은 공간에 두 개 이상의 결과가 동시에 발생할 확률은 0이다.

포아송 회귀분석의 예제 #

포아송 회귀분석의 예제는 미국 플로리다 주에서 1946년부터 1999년까지 매년 상어에 의한 공격 사건을 저장해놓은 데이터를 이용하도록 한다. 데이터명은 "sharkattacks"이다.
데이터 링크 : http://people.stern.nyu.edu/jsimonof/AnalCatData/
데이터를 자세히 살펴보면, 각 연도에 따른 플로리다 인구, 상어 공격의 횟수, 상어 공격에 대한 비율 등으로 데이터가 구성되어 있다.

Image

이미지 출처 : Poisson Regression example(https://www.stat.ubc.ca/~rollin/teach/538A/PoissonReg.html)

해당 데이터가 포아송 모델을 통해 상어 공격에 대한 사건이 드물게 발생하는 것인지 확인하기 위하여 시간에 따른 발생 비율에 해당하는 포아송 평균값을 연결하여 포아송 모델을 적용한다.

poisRegFit <- glm( Attacks ~ offset(log(Pop100Thou)) + Year, family=poisson, data=sharks)
plot(sharks$Year,sharks$Rate,xlab="Year", ylab="Rate")
predRate <- predict(poisRegFit,type="response")/(sharks$Pop100Thou)
lines(sharks$Year,predRate,col=2)

Image

## Call:
## glm(formula = Attacks ~ offset(log(Pop100Thou)) + Year, family = poisson, data = sharks)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -3.1470  -1.2001  -0.3177   0.7281   3.4856  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -64.279344   8.658221  -7.424 1.14e-13 ***
## Year          0.031174   0.004361   7.148 8.80e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 176.93  on 53  degrees of freedom
## Residual deviance: 119.11  on 52  degrees of freedom
## AIC: 288.76
## 
## Number of Fisher Scoring iterations: 5

확인결과, 상어 공격에 대한 빈도는 포아송 모델을 적용했을 때, 매년 꾸준하게 3%씩 증가함을 확인할 수 있었다.

참고 #

REx 분석, 포아송회귀분석(http://rexsoft.org/?page_id=362)
포아송 예제(https://www.stat.ubc.ca/~rollin/teach/538A/PoissonReg.html)

0.0.1_20140628_0