Skip to content

기술통계학 #

Find similar titles

3회 업데이트 됨.

Edit
  • 최초 작성자
  • 최근 업데이트

Structured data

Category
Statistics

기술통계학(Descriptive statistics) #

기술통계학이란 #

통계학은 크게 기술(Descriptive) 통계와 추리(inferential) 통계 두 부분으로 나누어진다.

  • 기술 통계: 분석해야 할 데이터의 간결한 요약 정보로서 관측을 통해 얻은 데이터에서 그 데이터의 특징을 규명하기 위한 통계적 기법으로 수치로 또는 그래픽적으로 데이터를 요약할 수 있음.
  • 추리 통계: 수집된 데이터를 기반으로 모집단의 특성을 추론하고 예측하는 데 사용하는 통계적 기법으로 전체 모집단의 모든 맴버를 하나하나 다 조사하기 어려울 때 유용함.

다시 말해, 기술 통계학은 측정이나 실험에서 수집한 데이터의 정리, 표현, 요약, 해석 등을 통해 데이터의 특성을 규명하는 통계적 분야이다. 주로 수집된 데이터의 평균이나 분산 등의 통계량이나 도표를 통해 데이터의 특징을 파악한다. 예시로는 1인당 국민소득, 전국 수학능력 평가시험 성적과 백분위 등이 있다.`

기술통계의 종류 #

1. 중앙화 경향(central tendency) #

중앙화 경향은 수집한 자료 전체를 대표하는 값이 무엇인지 또는 어떤 값에 집중되어 있는지 나타내는 통계를 나타낸다. 대표적으로 기술 통계에서 가장 많이 보는 값은 평균, 최빈값, 중앙값입니다. 평균에도 여러 가지 평균 (산술평균, 조화평균, 기하평균)이 있지만, 주로 많은 사람은 산술평균(모든 데이터의 값을 다 더해 자료의 개수로 나눈 값)의 값을 확인합니다. 중앙값은 자료를 크기순으로 나열했을 때, 가운데 값을 의미합니다.
ex) 평균(mean), 중앙값(median), 최빈값(mode) 등

2. 분산도(variation) #

분산도는 수집한 데이터가 어떻게 퍼져 있는지를 설명하는 통계치를 말합니다. 분산도를 나타내는 통계치는 다양하지만, 표준편차를 가장 기본적으로 많이 사용하며 아래 그림처럼 박스플롯으로 사분위 수와 데이터 전체의 범위 등을 눈으로 잘 확인합니다. 범위는 수집한 데이터의 최댓값에서 최솟값의 차이를 뜻하며, 사분편차는 자료를 크기순 정렬 후 자료 분포의 중앙부에서 전 자료의 50%를 포함한 범위의 반이라고 보입니다. 박스플롯에서는 사분위 수를 쉽게 확인할 수 있습니다.

ex) 범위, 표준편차(standard deviation), 사분위수(quantile)

Image

이미지 출처 : https://school.coding-x.com/lesson/128

3. 분포(distribution) #

변인의 전체 모양을 살펴 데이터가 정상분포 곡선에서 얼마나 벗어나는지를 나타낸다. 다시 말해, 데이터 분포의 형태와 대칭성을 설명할 수 있는 통계량이라고 보시면 된다. 대표적으로, 왜도, 첨도 통계량을 통해 정규분포와 비교해 설명한다. 왜냐하면 정규분포는 첨도와 왜도 통계량이 모두 0이기 때문입니다.
ex) 왜도(데이터의 분포가 좌우로 치우친 정도), 첨도(데이터의 분포가 위아래로 치우친 정도) 아래 그림처럼 왜도통계량 기호가 양수이면 데이터 분포가 오른쪽, 기호가 음수이면 왼쪽으로 꼬리가 길어짐.

Image

이미지 출처 : https://www.oppadu.com/%EC%97%91%EC%85%80-skew-%ED%95%A8%EC%88%98/

아래 그림처럼 첨도 통계량이 0보다 크면 정규분포 보다 뾰족하고, 0보다 작으면 정규분포보다 평평한 분포를 가짐.(정규분포 첨도 통계량은 0임).

Image

이미지 출처 : https://m.blog.naver.com/moses3650/220880815585

4. 빈도(frequency)와 백분율(percent) #

각 값에 속한 사례의 수와 전체 사례 중 해당 값이 차지하는 비율을 나타낸다.
ex) 빈도, 빈도분포, 백분위

5. 표준오차(standard error) #

표준 오차란 표본 통계량의 표준 오차라는 의미입니다. 좀 더 쉽게 설명하면 여러 표본의 평균값의 표준 편차라고 설명할 수 있는데 그 이유는 표본이 매번 추출될 때마다 값이 매번 바뀌기 때문에 표본 통계량에도 매번 오차가 존재합니다.

통계에 대한 분석을 진행하다 보면 표준 오차와 표준 편차를 헷갈리는 경우가 종종 생긴다. 표준 편차는 모집단의 분포가 얼마나 퍼져있느냐는 걸 설명하는 지표이고, 표준 오차는 평균의 추청치에 대한 불확실도 (오차)를 수치화하여 나타내는 지표입니다.

Reference #

0.0.1_20240214_1_v81