논문을 작성하거나 데이터 분석을 하다 보면 기술통계분석을 해야 하는 경우가 자주 있다. 대표적인 예로는, 인구통계학적 특성을 제시할 때 기술통계분석을 하곤 한다. 그 외에도 나는 이상 값을 확인하기 위한 목적으로(코딩을 제대로 했는지 한 번 더 점검하기 위함) 기술통계분석을 하기도 하고, 표준화점수 z-score를 편리하게 구하기 위해 기술통계분석을 하곤 한다.
기술통계분석을 하는 경우를 간단하게 요약하면 다음과 같다.
- 주요 변수의 평균값과 표준편차를 확인하고 싶을 때
- 주요 변수의 최대/최솟값을 확인하면서 잘못코딩된 값은 없는지 확인하고 싶을 때
- 왜도와 첨도를 알고 싶을 때
- 표준화점수를 분석에 사용하고 싶을 때 등..
이번에는 SPSS에서 샘플로 제공하는 ‘customer_subset.sav’ 파일로 기술통계분석 연습을 하였다. 바로 들어가 보자.
다음으로는 어떤 변수를 가지고 기술통계분석을 하고 싶은지 넣어준다. 이때, 표준화값(z-score)이 분석에 필요하다면 하단에 있는 ‘☑표준화 값을 변수로 저장’에 체크해주어야 한다.
바로 확인을 누르고 분석으로 넘어가도 되지만, ‘옵션’을 클릭하면 더욱 다양한 결과를 얻을 수 있다. 특히, 변수의 데이터 값들이 정규분포하는지 확인하는 지표 중 하나인 왜도와 첨도를 같이 논문에 제시하려면 ☑첨도와 ☑왜도를 꼭 체크해주어야 한다. 이 외에도.. 분석하는 변수가 많다면 표시하고 싶은 변수의 순서도 정할 수 있다. 각자 원하는 대로 체크했다면 '계속'을 눌러 확인
만약, 어떤 것을 클릭해야 할지 모르겠다면 ‘옵션’에서 모두 체크를 한 다음에 나오는 분석결과에서 필요한 것만 가져와서 사용해도 된다. 그러면 아래의 사진과 같이 이런 식으로 기술통계분석에 대한 결과창이 나타난다.
기술통계분석은 인구통계학적 특성을 표로 제시하고 싶을 때 유용하게 사용되는 분석방법이다. 표본의 수(N으로 표시된 부분, 실제로는 ‘n’이 맞는 표현)를 알게 해 주면서.. 각 변수의 최솟값과 최댓값 및 평균과 표준편차를 한 번에 제시하기 때문이다. 이 외에도 왜도와 첨도를 함께 알려주기 때문에 엑셀로 일일이 계산해야 하는 수고스러움을 덜어준다.
참고로 논문에서 평균은 ‘Mean(또는 M)’으로 표현하고, 표준편차는 ‘SD’로 줄여서 표현하기도 한다. 최대/최솟값은 각각 Max/Min 등으로 줄여서 나타내는 경우도 많으니 참고하면 좋겠다.
인구통계학적 특성에 관한 변수가 아니더라도 나는 연구에 사용되는 변수를 대상으로 기술통계분석을 반드시 진행하는 편이다. 왜냐하면 기술통계분석 과정을 거치면 내가 코딩한 값에 이상치가 있는지 확인할 수 있는 하나의 방법이 되기 때문이다. 즉, 어떤 때는 최댓값 5로 코딩을 해야 하는데 나도 사람인지라 55로 잘못 코딩하는 실수를 저지르곤 한다. 다행인 건 기술통계분석을 통해 내 잘못으로 인한 실수(이상치)를 발견한 적도 있었다. 이때는 아차! 싶었는데, 기술통계분석을 해보길 잘했다는 생각이 드는 순간이었다.
이 외에도, 나중에 조절효과를 분석하고 싶거나 팩터값을 연구에 사용해야 되는 경우가 생기는데.. 그때 기술통계분석을 통한 표준화점수가 유용하게 사용된다. 기술통계분석에 대한 이점과 활용방안은 다음에 또다시 설명하도록 하겠다.