상세 컨텐츠

본문 제목

분산분석(ANOVA)과 회귀분석

통계학과 계량경제학

by Blue Dot 2023. 12. 5. 21:05

본문

 

1. 두 변수(종속변수와 독립변수[설명변수])와의 관계를 분석하는 것은 두 변수의 성질에 따라 다음과 같이 나눌 수 있다.

 

종속변수 = α + β × 독립변수 + 오차항

 

  ① 종속변수와 독립변수 모두 연속형(양적 변수) : 회귀분석*

* 물론 다중회귀분석시 가변수(dummy variables)라는 질적 변수를 포함하여 분석할 수도 있다.

 

  ② 종속변수는 연속형, 독립변수는 범주형(categorical: 질적 변수) : 분산분석

 

  ③ 종속변수는 범주형, 독립변수는 연속형 : 판별분석(로짓모형, 프로빗모형 등)*

* 예를 들면, y = α + β1 X1 + β2 X2 + u 에서 y는 부도 또는 생존, X1는 BIS비율, X2는 부실채권비율 등으로 부도 여부(질적 변수)를 분석하는 경우 등이다.

 

  ④ 종속변수와 독립변수 모두 범주형 : 범주형 자료분석(적합도 검정, 동일성 검정, 독립성 검정*, 동질성 검정 등)

* 안전벨트 착용/미착용에 따른 부상정도의 도수가 표로 제시되어 있을 때, 안전벨트 착용여부가 부상정도와 관련이 있는지 여부를 분석하는 것이다.

 

2. 분산분석 : 2개 이상의 집단에 평균값의 차이가 유의미할 정도로 있는지를 집단 간의 분산의 차이를 이용하여 분석하는 것으로, 분산을 이용해서 명칭이 “분산분석”이지 그 목적은 “평균”의 차이 여부를 분석하는 것이다.

 

  - 2개 집단을 분석하는 경우, 귀무가설이 μ1 = μ2이므로 t-검정을 실시하고, 3개 이상의 집단을 분석하는 경우, 귀무가설이 μ1 = μ2 = ··· = μn이므로 F-검정을 실시한다.

 

  - 독립변수가 하나일 경우, “일원분산분석”*, 독립변수가 둘 이상인 경우, “다원분산분석”**이라고 한다.***

* “수학과외를 한 그룹과 안한 그룹간의 수학성적에 차이가 있는가?, 거래소 및 코스닥시장의 수익률의 차이가 있는가(즉, 거래소 시장인 그룹과 그렇지 않은 그룹[코스닥시장]간의 수익률 차이)?”(t-검정), “가족유형에 따른 아동의 사회성의 차이를 분석하는 것으로 가족유형을 양부 모가정, 편부모가정, 조손가정, 다문화가정 아동의 사회성에 차이가 있는가?”(F-검정)
** 예를 들면, “거래소 및 코스닥시장 각각의 대기업, 중기업, 소기업의 수익률 자료를 통해 기업 규모를 고려한 시장간 수익률 차이가 있는가? 이 경우 결과는 시장유형에 따른 수익률 차이는 있(없)으나, 기업규모에 따른 수익률 차이는 없(있)다 등으로 나온다. 물론 이경우는 “반복이 없는 이원분산분석”이며 만약 시장형태와 기업규모간의 상호관계(교호작용)까지 있다고 생각되면, “반복이 있는 이원분산분석”을 실시하여야 한다.
*** 한편, 종속변수가 2개 이상인 경우를 “다변량분산분석(MANOVA)"라고 한다.

 

3. 분산분석의 기본적인 개념은 “총분산(TSS) = 그룹간분산(SST)* + 그룹내분산 (SSE)으로 이루어지며 만약 SST/SSE이 클수록 각 그룹간 평균은 차이가 난다고 할 수 있다.

* 앞의 결정계수에서 살펴본 전체변동합(TSS)이 총분산이고, 설명된 변동합(ESS)가 그룹간 분산이며 잔차변동합(RSS)가 그룹내분산이다.

 

   - 그룹이 k개 있고 그룹내 표본이 n개 있다고 할 때, i그룹의 j번째 관측치 yij와 전체평균 y의 차이는 “yiji그룹의 평균 yi의 차이”와 “yiy의 차이의 합으로 나눌 수 있다. 즉,

 

 

    - 귀무가설 H0 : μ1 = μ2 = ··· = μk를 검정하기 위하여, SST를 자유도 (k-1)로 나눈 것을 MST라하고 SSE를 자유도 k(n-1)로 나눈 것을 MSE라고 하면, MST/MSE는 자유도가 (k-1), k(n-1)인 F분포를 따른다. 즉,

 

 

    - 통상, 통계패키지(엑셀도 가능)을 이용하면 다음과 같은 분산분석표가 생성된다.

 

 

3. 한편, 2개 집단을 대상으로 하는 일원분산분석은 하나의 가변수로만 되어있는 단순 회귀분석에서 가변수의 계수에 대하여 t-검정을 하는 것과 동일하다.

 

 

    - 또한, 4개의 집단을 대상으로 분석하는 경우 세 개의 가변수로 되어있는 다중회 귀분석에서 모형에 대하여 F-검정을 하는 것과 동일하다.

 

 

관련글 더보기