분석을 하다 보면 다양한 표본추출방법을 선택하기 마련이다. 그중에서도 오늘은 SPSS에서 무작위 층화표본추출과 군집표본추출을 어떻게 동시에 진행할 수 있는지 연습해보려고 한다. 거두절미하고 이 두 가지(층화표본추출/군집표본추출)의 방법 및 기본 원리를 알고 있다는 가정 하에 바로 SPSS로 들어가 보자. 오늘 사용할 데이터 파일은 ‘debate.sav’ 파일이다.
이전에 설명한 대로 코딩된 값이 아닌 값 레이블(설명)로 보고 싶다면, 다음과 같이 설정하고 보면 된다.
어떤 방법이던 편한 방법을 선택하면 된다는 사실~ 일단 데이터를 간단하게 살펴보자. 각각의 변수별로 코딩된 값은 다음을 의미한다
- agecat : 연령 카테고리 - [1] 31세 미만 [2] 31~45세 [3] 46~60세 [4] 60세 초과
- gender : 성별 - [0] 남성 [1] 여성
- pref1 : 토론 전 선호 옵션 - [1] Addison [2] Bouton [3] Cruz [4] Dean
- pref2 : 토론 후 선호 옵션 - [1] Addison [2] Bouton [3] Cruz [4] Dean
우선 층화 & 군집표본추출을 진행하기 위해서 [분석 → 복합표본 → 표본선택]에 들어가 준다.
그러면 다음과 같은 창이 확인된다(표본추출 마법사 시작). 파일명을 ‘표본추출 연습’이라고 적어주고 다음으로 넘어가자.
여기서부터가 중요하다. 계획했던 대로 표본추출을 진행하기 위해서 어떤 기준을 적용할 것인지 선택해주어야 한다. 나는 여기서 '계층화 기준'에 GENDER(성별)을 투입했고, '군집'에는 AGE CATEGORY(연령카테고리)를 투입했다. 즉, 성별을 기준으로는 층화표본추출을 진행하고, 연령을 기준으로는 군집표본추출을 진행하겠다는 의미이다. 물론 층화표본추출과 군집표본추출을 반드시 함께 진행할 필요는 없다. 이 부분은 연구에 따라 각각 진행해도 되는 부분이다.
이 부분은 따로 건드리지 않고 다음으로 넘어간다.
여기에서는 단위를 '빈도'로 정할 것인지 '비율'로 정할 것인지 선택하면 된다. 나는 연습으로 ‘빈도’를 선택하였고, 기준값에는 3을 넣어주었다.
다음은 저장할 변수를 선택하면 된다(필요에 따라 선택하자). 참고로 나는 아무것도 체크하지 않고 다음을 눌러주었다.
이제 '단계 2'를 추가할 것인지 묻는 창이 나오는데, 때마침 추가하고 싶은 변수가 있어서 ‘☑ 예 지금 단계 2를 추가합니다’에 체크해 주었다. 만일 여기서 추가할 부분이 없다면 그냥 넘어가도 좋다.
단계 2에서 계층화 기준에 ‘토론 전 선호도’를 의미하는 변수 [pref1]을 투입하였다. 만일 토론 후 선호도를 보고 싶다면 [pref2] 변수를 넣어주면 되겠지?
단계 2에서도, 단계 1과 마찬가지로 '유형'에 단순 무작위 표본추출을 선택해 주었다.
거의 다 왔다. 이 부분 역시 정해진 건 없다만, 실습을 위해 단위를 ‘빈도’에 설정하고 기준값을 3으로 부여하였다.
저장하고 싶은 변수가 있다면 여기서 선택해 주면 되는데.. 나는 아무것도 선택하지 않았다.
다음으로는 '단계 3'을 추가하고 싶은지 묻는 창이 나온다. 더 이상 추가하고 싶은 단계가 없으므로 패스~ 하였다. 만약에 더 세분화된 표본추출을 원한다면 단계 3에서 설정을 해주면 된다.
이제 거의 다 왔다. 표본을 작성하고 싶은 경우(즉, 표로 결과를 확인하고 싶으므로) ‘☑ 예’에 체크해주었다.
마지막으로 표본 데이터를 저장하고 싶은 위치를 설정해 주면 되는데.. 특별한 위치가 없다면 ‘☑ 활성 데이터 세트’에 그대로 두고 ‘마침’을 눌러준다.
드디어 나타나는 결과창!
단계 1, 단계 2 별로 어떤 표본추출방법을 적용했는지 알려주는 표가 보인다. 이 부분은 분석을 진행하면서 각자 선택해 준 옵션 방법이 있을 텐데.. 그 내용들이 표시된다고 보면 된다. 여기서는 내가 설계한 대로 표본추출 옵션을 제대로 지정하였는지 확인하는 목적으로 참고하면 될 듯하다.
그리고 나타나는 표!
이 결과로 층화표본추출과 군집표본추출을 동시에 진행했음을 확인할 수 있다. 요약하면, 가장 먼저 '성별(gender)'을 기준으로 층화표본추출을 진행하였으며, '연령대(agecat)'별로 군집표본추출 하였음을 알 수 있다. 또한, 실습 중 2단계에서 'pref1(토론 전 선호 지역)' 변수를 투입함으로써 추가적인 옵션에 따른 표본추출 결과도 함께 확인할 수 있었다.
그리고 원래 SPSS 데이터가 있는 창으로 돌아가면 안 보이던 변수가 새롭게 생성된 것을 확인할 수 있다.
각각의 변수와 값들이 무엇을 나타내는지는 다음의 레이블을 참고하면 된다 :)
이렇게 함으로써 이론으로만 접하고 들어보았던 표본추출 방법을 SPSS를 통해 실습해 보는 시간을 가졌다. 꽤 많은 책을 찾아봤지만 어떻게 해야 SPSS에서 층화표본추출과 군집표본추출을 동시에 할 수 있는지 알려주지는 않더라는...(속상). 그래서 여기저기 물어보면서 나름대로 시행착오를 겪으며 실습을 해볼 수 있었다. 혹시라도 이 포스팅에 문제가 있다면 댓글로 알려주시길 부탁드린다.