독립표본 t-검정은 다른 말로 '독립표본 t-test'라고도 한다(영어로 하면 Independent sample t-test). 독립표본 t-검정은 두 집단 간 평균을 비교하고 싶을 때 사용할 수 있는 분석방법이다. 정확히는 두 집단이 있으면 이 두 집단 간의 평균의 차이가 통계적으로 유의한 지(즉, 통계적으로 평균의 차이가 있다고 말할 수 있는가?)를 알고 싶을 때 할 수 있는 분석이다.
먼저 예제파일을 열어보자. 분석을 위해 ‘grocery_coupons.sav’ 파일에서 일부 변수를 가지고 왔다. 그리고 좀 더 쉽게 알아보기 위해 영어로 작성된 레이블에 한국어 표현을 추가했다.
파일을 열어보면 심플하게 3개의 변수로 자료가 구성된 것을 알 수 있다. 먼저 [gender]는 성별을 가리키는 것으로 0=남성, 1=여성으로 코딩되어 있다. [veg]는 채식주의 여부를 나타내는 변수로 0=채식주의자 아님, 1=채식주의자로 이해할 수 있다. 마지막으로 [amtspent]는 amount of spent의 약자로 지출금액임을 알 수 있다. 화폐 단위는 편의상 달러($)로 칭하겠다. 여기서 [gender]과 [veg]는 각 각 두 개의 집단으로 구성된 명목척도이며, [amtspent]는 연속형 자료로 구성된 비율척도라는 것을 알 수 있다. 이 부분을 꼭 유념하고 다음으로 넘어가자.
- gender : 성별 - [0] 남성 [1] 여성
- veg : 채식주의자 여부 - [0] 채식주의자 아님 [1] 채식주의자 맞음
독립표본 t-검정의 순서는 다음과 같다. [분석 → 평균 비교(M) → 독립표본T검정]
여기서부터가 중요하다. 독립표본 t-검정의 가설의 형태는 보통 이러하다. [독립변수(명목척도)]에 따라 [종속변수(비율척도)]의 평균에 차이가 있을 것이다. 예를 들면...
H1 : 성별에 따라 마트에서 지출하는 금액에는 차이가 있을 것이다.
먼저 가설 1을 검증해 보자. 과연 성별[gender(남성 or 여성)]에 따라 마트에서 지출하는 금액[amtspent]에 차이가 있을까? 이 부분을 분석하려면 아래의 사진과 같이 변수를 투입해야 한다. 검정변수 칸에는 종속변수를 투입하되, 집단변수 칸에는 명목척도로 구성된(2집단 이어야 함) 독립변수를 넣어주면 된다.
앞서 이야기한 것처럼 독립표본 t-검정은 두 집단 간의 평균을 비교하고 싶을 때 사용할 수 있는 분석방법이다. 따라서 집단을 두 집단으로 정의하는 과정이 필요하다. 이를 위해 ‘집단 정의(D)’를 눌러준다.
알다시피 성별은 두 개의 집단으로 구성되어 있으며, [0] 남성 [1] 여성으로 코딩되어 있다. 그러므로 집단1에 ‘0(남성)’을, 집단2에 ‘1(여성)’을 넣어준다. 무조건 0과 1만 투입하는 것이 아니라, 내가 분석하고자 하는 데이터에서 실제로 코딩된 값을 넣어주는 것이 중요하다. 가령 내가 가지고 있는 데이터에서 4로 코딩한 집단은 남성이고, 6으로 코딩한 집단이 여성을 의미한다면, 사진에서 보이는 ‘집단 1’과 ‘집단 2’ 칸에는 각각 ‘4(남성)’와 ‘6(여성)’을 넣어주어야 하는 것이다.
여기까지 했으면 ‘계속’을 눌러 다음으로 넘어가자. 그러면 기존에 ‘?’로 되어 있던 집단변수가 0과 1로 변경된 것을 확인할 수 있다.
이 창에서 ‘옵션’은 크게 건드릴 부분이 없다. 곧바로 ‘확인’을 누르면 분석 결과를 확인할 수 있다. 먼저 집단통계량이 나온다. 이 부분은 남성과 여성별로 기술통계분석을 한 것과 동일한 결과이다. 여기서 종속변수인 ‘지출 금액’을 보면 평균적으로 남성이 $107.5761 여성이 $91.4168로 남성의 지출금액이 더 높은 것을 알 수 있다.
물론 눈에 보이는 평균을 비교할 때는 단순하게 기술통계분석만으로 평균 값을 확인해 어느 집단이 더 높고 낮은지 비교할 수 있지만, 독립표본 t-검정을 하는 이유는 과연 이렇게 눈에 보이는 평균의 차이가 통계적으로 유의하다고 말할 수 있는가를 검증하기 위해 하는 것이다. 즉, 남성의 지출 금액이 $107.5761로 여성의 지출금액 $91.4168보다 높은 건 누가 봐도 알 수 있는 사실이다. 하지만, 통계적 추론을 하기 위해서는 이러한 평균의 차이가 통계적으로 유의한 지 검증할 수 있어야 하는 것이다. 이러한 이유로 두 집단 간의 평균을 비교할 때 독립표본 t-검정이 활용된다.
그러면 통계적으로 두 집단 간의 평균의 차이가 있는지는 어떻게 알 수 있을까? 분석 결과 창에서 ‘독립표본 검정’이라고 되어 있는 부분을 살펴보면 된다. 분석결과 창에서 두 번째로 표시되는 바로 이 부분이다.
여기서 한 가지 기억해야 할 것!
Levene의 등분산 검정 유의확률이 0.05 이상이면 윗줄에 있는 결과 값으로 해석해야 하며, Levene의 등분산 검정 유의확률이 0.05 미만이면 아랫줄에 있는 결과 값으로 분석 결과를 해석해야 한다. 이 경우, Levene의 등분산검정 유의확률이 0.499(F=0.458)로 0.05 이상이므로 윗줄에 있는 결과 값(파란색 점선으로 표시한 부분)으로 해석하였다.
H1에 대한 독립표본 t-검정 결과를 해석하면 다음과 같다.
지출 금액은 성별에 따라 통계적으로 유의한 차이를 보였으며(t = 6.313, p < 0.001, df = 1402), 남성의 지출 평균이 $107.5761으로 여성의 지출 평균 $91.4168보다 $16.159만큼 높은 것으로 나타났다. 따라서 가설 H1은 채택되었다.
H1 : 성별에 따라 마트에서 지출하는 금액에는 차이가 있을 것이다. → 채택(O)
반면, 마트를 방문하는 고객이 채식주의자일 경우와 그렇지 않은 경우에서 마트에서 지출하는 금액에도 차이가 있지 않을까? 생각해 볼 수 있다. 이를 검증하기 위해 가설을 세워보자.
H2 : 채식주의 여부에 따라 마트에서 지출하는 금액에는 차이가 있을 것이다.
마찬가지로 독립표본 t-검정을 통해 이 가설의 채택 여부를 확인해보고자 한다. 위와 동일한 방법으로 분석을 진행하면 된다. [분석 → 평균 비교(M) → 독립표본T검정] 여기서 집단변수는 [veg]를 투입하고, 집단1에 ‘0(채식주의자 아님)’을, 집단2에 ‘1(채식주의자 맞음)’으로 세팅해 주면 된다.
확인을 눌러 결과창을 열어보자. 가장 먼저 Levene의 등분산 검정 결과를 확인해야 한다. 이때, Levene의 등분산 검정 유의확률(빨간색으로 표시한 부분)이 0.05 미만이므로 아랫줄에 있는 값(파란색으로 표시한 부분)으로 분석 결과를 해석해야 한다.
가설2(H2)에 대한 독립표본 t-검정 결과를 해석하면 다음과 같다.
채식주의자의 평균 지출금액은 $103.8045이며, 채식주의자가 아닌 마트 고객의 평균 지출금액은 $99.4777이다. 즉, 채식주의자의 평균 지출금액이 채식주의자가 아닌 마트 고객의 평균 지출금액 대비 $4.32684 높게 나타났으나, 이러한 평균 지출 금액은 채식주의자 여부에 따라 통계적으로 유의한 차이를 보이지 않았다(t = .0437).
H2 : 채식주의 여부에 따라 마트에서 지출하는 금액에는 차이가 있을 것이다. → 기각
이처럼 독립표본 t-검정은 그 방법이 단순하고 결과 또한 직관적이다. 중요한 건, 기술통계분석을 통해서도 변수의 평균을 얼마든지 구할 수 있고 어느 집단의 평균이 높고 낮은지 제시할 수 있지만, 독립표본 t-검정을 하게 되면 이러한 평균의 차이가 통계적으로 유의한 지도 알 수 있으므로 훨씬 발전된 형태의 분석 방법이라고 할 수 있다.