[SPSS#16] 일원배치분산분석(one-way ANOVA)과 사후검정에 관한 자세한 소개

방법론, 공부노트, TIP

[SPSS#16] 일원배치분산분석(one-way ANOVA)과 사후검정에 관한 자세한 소개

나눔의시작 2023. 5. 3. 01:00

728x90

16. GO-STAT 일원배치분산분석(hourlywagedata.sav).sav

지난번에는 2개 집단 간의 평균의 차이를 검정하는 독립표본t-검정을 진행했다. 그렇다면, 3개 이상 집단의 평균 차이를 검정하고 싶을 때는 어떻게 해야 할까? 알다시피 성별이라는 변수는 ① 남성 ② 여성으로 구분된다. 성별에 따른 평균의 차이를 보고싶을 때에는 독립표본t-검정을 하면 된다. 반면, 학급이라는 변수가 있다면 이는 ① 새싹반, ② 별빛반, ③ 푸른반, ④ 초록반 등의 세 개 이상 범주로 구분될 수 있다. 이러한 학급들 간의 평균 만족도를 보고 싶다면 일원배치분산분석(one-way ANOVA)을 적극 활용해 볼 수 있다.

오늘 사용한 예제 파일은 ‘hourlywagedata.sav’이다. 이름에서도 알 수 있듯, 시간당 임금(받는 급여)을 표시한 데이터라고 보면 된다.

파일을 열어보면 심플하게 세 개의 변수로 구성된 것을 알 수 있다. 먼저 [agecat]은 연령 범주를 나타내는 것으로 ‘1=18~30세’, ‘2=31~45세’, ‘3=46~65세’로 코딩되어 있다. [agecat]은 세 개의 범주로 구성되어 있으므로 일원배치분산분석(one-way ANOVA)을 할 수 있는 조건을 갖추었다(범주가 3개 이상일 때 사용므로). [yrs]는 근속 연수를 나타내는 변수로 ‘1=5년 이하 근무’, ‘2=6~10년 근무’, ‘3=11~15년 근무’, ‘4=16~20년 근무’, ‘5=21~35년 근무’, ‘6=36년 이상 근무’로 해석하면 된다. 마지막으로 [wage]는 근로자가 받는 시간당 급여이다. [agecat]과 [yrs]는 3개 이상의 집단으로 구성된 명목척도이며, [wage]는 연속형 자료로 구성된 비율척도라는 것을 기억하고 다음으로 넘어가자.

[agecat] : 1=18~30세, 2=31~45세, 3=46~65세
[yrs] : 1=5년 이하 근무, 2=6~10년 근무, 3=11~15년 근무, 4=16~20년 근무, 5=21~35년 근무, 6=36년 이상 근무

분석을 위해 다음과 같이 가설을 세웠다.

H1 : 연령[agecat]에 따라 받는 시간당 급여[wage]에는 차이가 있을 것이다.

이 가설을 검증하려면 ‘일원배치분산분석(one-way ANOVA)’을 해야 한다. 순서는 다음과 같다. [분석 → 평균 비교(M) → 일원배치 분산분석(O)]

독립변수에 해당하는 ‘연령[agecat]’ 변수를 ‘요인(F)’ 칸에 넣어주고, 종속변수에 해당하는 ‘시간당 급여[wage]’를 ‘종속변수(E)’ 칸에 넣어준다. 중요한 건, ‘요인(F)’에 들어가는 변수는 3개 이상의 집단으로 구성된 범주형 자료여야 한다. 반면, ‘종속변수(E)’ 칸에는 등간 또는 비율 척도로 구성된 연속형 자료 변수를 넣어주면 된다.

‘확인’을 누르기 전에 일원배치분산분석(one-way ANOVA)에서는 몇 가지 체크해야 할 옵션이 있다. 먼저, ‘대비(N)’는 크게 건드릴 부분이 없다. 반면, ‘사후분석(H)’은 거의 반드시 체크하는 편이다. 사후분석 옵션을 체크하면 그에 따른 결과를 확인할 수 있기 때문이다. 사후분석은 쉽게 말해 이런 것이다. 분산분석만 진행할 시 단순하게 결과의 유의성만 알 수 있다. 즉, 3개 이상 집단 간의 평균의 차이가 유의한 지 or 유의하지 않은지만 알 수 있는데, 사후분석(또는 ‘사후검정’이라고 함)을 진행하게 되면 어떤 집단이 통계적으로 높고 낮은 지 비교할 수 있는 것이다. 비교하는 방법은 아래의 포스팅에서 자세히 설명하였다.

‘사후분석(H)’은 크게 ① 등분산을 가정함과 ② 등분산을 가정하지 않을 경우에 따라 선택할 수 있는 항목이 다른데, 내가 가진 자료가 ‘등분산을 가정함’에 충족하는지 위배되는지 알기 어렵다면 일단 ‘사후분석(H)’은 빈칸으로 남겨두고 ‘옵션(O)’에 들어가 준다.

‘옵션(O)’에서 ☑ 기술통계(D)와 ☑분산 동질성 검정(H)에 체크하고 ‘계속’을 누른다. 이어서 ‘확인’을 누르면 분석 결과창이 표시된다.

먼저 ‘기술통계’ 표에서 ⓐ 부분을 보자. ⓐ 부분에는 연령[agecat] 별로 표본의 수(N), 평균, 표준편차, 최소/최댓값이 나와있다. 연령은 총 세 범주로 구분되어 있는데, 각각의 샘플 수가 ‘1=18~30세(n=468명)’, ‘2=31~45세(n=1,582명)’, ‘3=46~65세(n=861명)’으로 범주마다 샘플의 수가 동일하지 않았다. 이 부분을 왜 언급했냐 하면 샘플(표본)의 수가 동일할 때 사용할 수 있는 사후분석이 있고 샘플의 수가 동일하지 않아도 사용할 수 있는 사후분석이 있기 때문이다. 일단, 이 정도까지만 알고 다음으로 넘어가자.

▶분산의 동질성 검정 결과, 유의확률 (p값) > 0.05 일 때 분산의 동질성이 만족됨
▶ANOVA 결과, 유의확률 (p값) < 0.05 일 때 집단 간 차이가 유의하다고 해석

사실 중요한 건 ⓑ 부분이다. 분산의 동질성이 만족된 상태에서 일원배치분산분석(one-way ANOVA)의 유의성을 보는 것이 정확하기 때문이다. 분산의 동질성이 만족된 상태라 함은 ⓑ p>0.05일 때를 의미한다. 즉, 분산의 동질성 검정에서 p값(유의확률로 표시된 부분)이 0.05보다 크면(p>0.05) 분산의 동질성이 만족된다는 의미이고, 반대로 분산의 동질성 검정에서 p값(유의확률로 표시된 부분)이 0.05보다 작으면(p <0.05) 분산이 동질성이 위배된다는 뜻이다. 이해가 잘 되지 않을 수 있지만 분산의 동질성 검정 결과로 p(유의확률)값이 0.05가 넘을 때 결과해석에 유리하다는 것을 기억하면 된다.

ⓑ 부분이 p>0.05로 나타났다면, 이어서 ⓒ 부분을 보면 된다. 이 부분은 일원배치분산분석(one-way ANOVA) 결과의 유의성을 단번에 알 수 있는 부분이다. 여기서는 p(유의확률로 표시된 부분) 값이 0.000인데, 이는 실제로 0이 아니라 0에 수렴할 정도로 작은 숫자이기 때문에 이와 같이 표시되는 것이다. 어쨓든 p< 0.05 이므로 분산결과가 유의한 것으로 나타났다. 즉, ⓒ 부분을 해석하면 연령[agecat]에 따라 받는 시간당 급여[wage]에는 차이가 있다는 것을 의미한다.

H1 : 연령[agecat]에 따라 받는 시간당 급여[wage]에는 차이가 있을 것이다. → 채택(o)

여기까지 따라왔다면 가설의 채택 여부를 알기에는 어렵지 않았을 것이다. 하지만, 일원배치분산분석(one-way ANOVA)의 단점은 어떤 독립변수의 범주 평균이 더 높고 낮은지 대소 비교를 할 수 없다는 것에 있다. 이를 보완하려면 사후분석을 진행해야 한다. 조금 전에 열었던 분석 창에서 ‘사후분석(H)’을 추가로 눌러보자.

참고로 나는 등분산을 가정하고 표본(샘플)의 수가 동일하지 않은 경우에 사용할 수 있는 ‘Scheffe’ 방법을 통해 사후분석을 진행했다.

사후검정에 대한 결과는 아래에서 확인할 수 있다.

※ 분산분석에서 선택할 수 있는 사후분석의 특징은 이 페이지 하단에 자세하게 정리했다.

① 18-30세, ② 31-45세, ③ 46-65세 간의 [wage] 시간당 급여 수준을 비교한 결과는 다음과 같다. 노란색으로 표시한 부분을 보면 총 3개의 그룹으로 나뉜 것을 알 수 있으며, 각각 시간당 급여가 ① 18-30세($18.9171), ② 31-45세($19.9494), ③ 46-65세($20.7353)로 나타났다. 연령이 높은 그룹일수록 시간당 급여 또한 높았으며, 그 차이가 통계적으로 유의하였다(F=32.440, p< 0.05). 분산분석 결과에 의거하여 평균의 차이를 대소관계로 표현하면 ‘18-30세($18.9171) ＜ 31-45세($19.9494)＜46-65세($20.7353)’로 나타낼 수 있다.

Q. 그러면, 근속연수에 따라서 시간당 급여에도 차이가 있지 않을까? 이를 검정하기 위해 다음과 같은 가설을 세웠다.

H2 : 근속 연수[yrs]에 따라 받는 시간당 급여[wage]에는 차이가 있을 것이다.

일원배치분산분석(one-way ANOVA)의 순서는 조금 전 진행했던 방식과 동일하다. [분석 → 평균 비교(M) → 일원배치 분산분석(O)]

‘근속 연수[yrs]’ 를 ‘요인(F)’ 칸에 넣어주고, 종속변수에 해당하는 ‘시간당 급여[wage]’를 ‘종속변수(E)’ 칸에 넣어주었다. 아까와 동일하게 ‘대비(N)’는 건드리지 않고, ‘사후분석(H)’은 ☑ Scheffe를, ‘옵션(O)’에서 ☑ 기술통계(D)와 ☑분산 동질성 검정(H)에 체크했으면 ‘계속’을 눌러준다. 이어서 ‘확인’을 누르면 분석 결과를 확인할 수 있다.

ⓐ 부분에서 근속 연수[yrs] 별로 표본의 수(N), 평균, 표준편차, 최소/최댓값 등에 대한 기술통계치를 확인할 수 있다.

ⓑ 부분에서는 눈을 잘 뜨고 분산의 동질성이 충족되었는지 점검해야 한다. 이 부분을 제대로 점검하지 않고 분산분석에 대한 결과만 제시하는 연구도 있지만 사실 바람직한 방법이 아니다. 언급한 대로 분산의 동질성이 충족된 상태는 ⓑ p>0.05일 때를 의미한다. 이 경우 평균을 기준으로 분산의 동질성을 검정한 결과, p값이 0.235로 0.05 보다 크므로 분산의 동질성이 충족되었다.

★기억하자!

분산의 동질성 검정에서 p값(유의확률로 표시된 부분)이 0.05보다 크면(p>0.05) 분산이 동질성을 만족한다는 의미이고,

반대로 분산의 동질성 검정에서 p값(유의확률로 표시된 부분)이 0.05보다 작으면(p <0.05) 분산이 동질성이 위배된다는 뜻이다.

분산의 동질성이 충족되었으므로 ⓒ 부분을 바로 해석해도 된다. 이 부분은 일원배치분산분석(one-way ANOVA)의 결과의 유의성을 알 수 있는 부분이다. 여기서는 p(유의확률로 표시된 부분) 값이 0.000(실제로는 0이 아니라 0에 수렴할 정도로 작은 숫자이기 때문에 이와 같이 표시됨)이므로 0.05 미만이어서 유의한 결과가 도출되었다. 즉, ⓒ 부분을 해석하면 근속 연수[yrs]에 따라 받는 시간당 급여[wage]에 차이가 있다는 것을 의미한다.

H2 : 근속 연수[yrs]에 따라 받는 시간당 급여[wage]에는 차이가 있을 것이다. → 채택(o)

이어서 사후검정에 대한 결과를 알아보았다. 분산분석은 세 개 이상 집단의 평균의 차이가 유의한 지 검증하는 분석 방법이라고 소개했다. 그렇다면, 분산분석이 유의하다고 나왔을 때 어떤 집단의 평균이 높고 낮은지 알고 싶다면(대소비교를 하고 싶을 경우) 사후분석을 진행해야 한다. 초록색 점선 부분을 보면, 1집단의 시간당 급여가 4집단의 시간당 급여보다 낮은 것을 알 수 있다. 반대로 말하면, 4집단에 속한 근무자(21년~35년, 36년 이상 근무)의 급여가 1집단에 속한 근무자(5년 이하) 보다 높다는 것을 의미한다. 1집단에는 6~10년 근무자도 포함되어 있으나, 6~10년 근무자는 1과 2집단에 모두 걸쳐 있으므로 비교하기에 애매한 부분이 없지 않아 존재한다.

개인적으로는 사후검정이 분산분석 이후에 꼭 진행되어야 하는 분석방법이라고는 생각하나, 포스팅을 하면서 사후검정 결과에 관하여는 자세히 해석하지 않았다. 그 이유는 어떤 사후분석 방법을 택하느냐에 따라 그 결과가 달라질 수 있기 때문이다.

분산분석 그 자체의 결과는 동일하겠지만, 대소를 비교함에 있어서 사후분석 기법마다 그 결과에 차이를 보인다는 뜻이다. 그래서 어떤 논문에는 조금 더 설득력 있는 결과를 제시하기 위함인지(..?) 2개 이상의 사후분석 결과를 제시한 경우도 더러 있다. 아무쪼록 사후검정을 통해 대소간의 비교 결과를 제시할 줄 안다면 분산분석 결과만을 제시했을 때보다 적을 수 있는 시사점이 풍부해진다. 참고로 분산의 동질성이 충족되지 않았을 때(p>0.05) 사용할 수 있는 사후분석 기법도 있으니 참고해 보길 바란다.

분산이 동일한 경우에 사용할 수 있는 사후분석 방법:

▶ LSD :

비교 대상의 표본의 수가 동일하지 않아도 사용 가능한 방법
오차의 비율을 통제하지 않아 상대적으로 엄격하지 않은 기준이 적용되는 기법

▶ S-N-K(Student-Newman-Keuls)

비교 대상의 표본수가 동일한 경우에 사용
Tukey와 유사하지만 임계치가 다르고 기각 값에 차이가 있다는 특징을 보임
대체로 Tukey 보다는 검정력이 우수하다고 알려져있으며, S-N-K 방식은 모든 단계에서 실험 전체의 유의 수준을 적용하고 있음

▶ Waller-Duncan :

t-검정에 기반한 다중비교 방법으로 베이지안원리에 따라 제1종 오류와 제2종 오류율을 비교하고자 할 때 사용됨

▶ Bonferroni :

분산이 동일하되 비교 대상의 표본의 수가 동일하지 않아도 사용 가능한 기법
각각의 귀무가설에서 유의 수준을 수준의 개수로 나누는 방식으로 Tukey보다는 엄격하고, Scheffe보다 관대하다고 알려진 사후검정 방법
모수 또는 비모수 통계에 상관없이 응용 범위가 넓은 것이 특징이나, 비교대상이 늘어날수록 검정력이 약해질 수 있음

▶ Tukey

분산이 동일하고 비교 대상의 표본수가 동일한 경우에 사용
모든 집단 조합에 대하여 분석 가능하여 적용분야가 넓으나 표본의 수가 적으면 정확도가 함께 떨어짐

▶ Sidak:

비교 대상의 표본의 수가 동일하지 않아도 사용 가능한 기법
Sidak의 특징은 가능한 모든 집단에 대해서 조합을 만들며 그 조합을 분석하고 이에 관한 쌍대비교 결과를 제공하는 것이 특징임

▶ Tukey의 b :

스튜던트화 범위 분포를 사용하여 그룹 간의 쌍대비교를 수행하는 방식으로 사후검정이 이루어짐
Tukey 방식의 검정력은 S-N-K보다 떨어진다고 알려져 있으나 1종 오류 통제에 있어서는 오히려 효과적이며, Tukey와 S-N-K의 통계량을 평균내어 사용함

▶ Dunnett :

한 개의 대조군을 설정하고 여러 실험군과 비교하는 분석에 사용될 수 있는 사후분석 기법.
이는 하나의 집단을 기준으로 다른 집단들과의 차이 분석을 하고자 할 때 적합하지만 모든 집단 조합을 대상으로 검정하지는 않음

▶ Scheffe:

비교 대상의 표본 수가 동일하지 않아도 사용 가능한 기법(이번에 사용한 방법)
Scheffe는 F-분포에 기반하여 각 그룹들 간의 평균 값에 대하여 발생 가능한 짝들을 놓고 비교를 동시에 진행하는 방법임
따라서 Scheffe는 불균형 자료 속에서도 단순하고 복합적인 평균 비교가 가능하며, 보수적이고 엄격한 방식을 적용하고 싶을 때 사용됨

▶ Duncan :

분산이 동일하고 비교 대상의 표본 수가 동일한 경우에 사용하는 기법
Duncan은 집단을 분리하려는 성격이 매우 강하기 때문에 집단을 면밀히 나누어 비교하고 싶을 때 사용될 수 있음

▶ R-E-G-W의 F(Ryan-Einot-Gabriel-Welsch) :

비교 대상의 표본수가 동일한 경우에 사용하며, F 검정을 기준으로 하는 다중 단계감소 방법중 하나임

▶ R-E-G-W의 Q :

비교 대상의 표본수가 동일한 경우에 사용하며, 스튜던트화 범위를 기준으로 하는 다중 단계감소 방법임.

▶ Hochberg의 GT2 :

비교 대상의 표본의 수가 동일하지 않아도 사용 가능한 것이 특징이며, 스튜던트화 최대 계수를 사용하는 다중 비교 및 범위 검정 방법으로 Tukey의 정직 유의차 검정과 유사함

▶ Gabriel :

비교 대상의 표본의 수가 동일하지 않아도 사용 가능하며, Hochberg의 GT2보다 효과적으로 쌍대비교를 수행하는 방식으로 사후검정이 진행됨

분산이 동일하지 않은 경우(등분산을 가정하지 않음)에 사용할 수 있는 사후분석 방법:

▶ Tamhane의 T2 :

Games-Howell보다 엄격한 다중비교 방법을 제공하며, 제1종 오류 통제에는 조금 더 보수적인 결과를 제공함

▶ Dunnett의 T3 :

집단별 표본의 수가 동일할 때 사용하며, 집단별표본의 수가 50개 미만일 때에는 Games-Howell보다 대체로 검정력이 우수하고, 집단별 표본의 수가 50개 이상일 때는 Games-Howell보다 제1종 오류가 높아지는 경향이 있음

▶ Games-Howell :

Tukey의 사후분석 방법을 개선하기 위해 고안된 방법으로, Welch 방식의 자유도 기법을 응용한 형태의 사후분석 기법임
이는 집단의 표본수가 달라도 사용 가능하나 표본이 6개 미만일 때 제1종 오류의 확률이 높아짐

▶ Dunnett의 C :

집단의 분산 동질성이 충족되지 않았을 때 사용하는 건 마찬가지이나, 스튜던트화 범위를 기준으로 쌍대비교를 할 때 사용함

728x90

저작자표시 비영리 변경금지

현재글[SPSS#16] 일원배치분산분석(one-way ANOVA)과 사후검정에 관한 자세한 소개

# DAILY #방법론 #사회조사분석사 공부

[SPSS#16] 일원배치분산분석(one-way ANOVA)과 사후검정에 관한 자세한 소개

'방법론, 공부노트, TIP'의 다른글

티스토리툴바

[SPSS#16] 일원배치분산분석(one-way ANOVA)과 사후검정에 관한 자세한 소개

'방법론, 공부노트, TIP'의 다른글

관련글

티스토리툴바