SPSS 활용하기_실전연습

[SPSS#01] 코딩된 데이터 값의 결측값(결측치) 처리하는 방법

나눔의시작 2022. 12. 27. 13:00
728x90

01. GO-STAT 결측값 처리.sav
0.00MB

파일을 불러왔는데(또는 코딩했더니).. 다음과 같은 결측치가 있다면 연구자는 어떻게 해야 할까? 결측치 처리는 데이터 클리닝 작업 중 하나이다. 본격적인 분석을 하기 전 반드시 거쳐야 하는 데이터 상태의 점검 과정을 뜻한다. SPSS에서 변수에 코딩된 결측값(또는 결측치)을 처리하는 방법은 다음과 같다.

 

그런데 결측치는 왜 발생하지?

(응답자는 제대로 응답을 했지만) 연구자 실수로 코딩을 잘못했을수도 있고, 응답자가 처음부터 응답을 안 한 경우도 있을 것이며, 때로는 응답하기 곤란해서 비워두는 경우도 있다. 이처럼 결측치가 발생하는 경우의 수는 매우 다양하다. 그런데, 이 같은 결측치가 존재한다면 연구자 입장에서는 분석을 할 때 무척 고민되는 것이 사실이다. 그래서 오늘은 SPSS 상에서 결측치를 처리하는 대표적인 방법 몇 가지를 소개하고자 한다. 다른 방법을 알고 있으면 댓글 달아주면 감사하겠다.

 

문제의 결측치 파일이다. 물론 실습용으로 만들어본 파일이나 실제로 설문지를 받다보면 한숨이 나올 정도로 결측치가 많이 보일 때가 있다. 온라인상에서 설문지를 받은 경우가 아니고, 오프라인 상에서 면대면 설문지를 받는 경우에는 더더욱 그러하더라(내 경험) 아무튼..

 

 

1. 먼저는 해당되는 데이터 행을 삭제하는 방법이다.

무척 간단하다! 결측치가 포함되어 있는 행을 선택하고 우클릭 하여 지우는 방식이다. 쉽게 말하면 결측치 하나라도 있는 응답자의 데이터는 모조리 날려버리는 셈. 그런데 이런 방법은 결측치가 하나라도 있을 경우 해당 행을 전체 지워버리는 것이기 때문에 데이터 손실이 많아진다는 단점이 존재한다. 그리고 어렵게 받은 설문지라면 더더욱 그러하겠지? 겨우 설문지 하나 받았는데 결측치 하나 때문에 받은 응답을 사용하지 못하는 불상사가 생긴다 ㅠㅠ 

 

 

2. 두번째는 '결측치'를 지정하는 방법이다. 비어있는 결측치를 임의의 숫자 (나는 '9'로 코딩했음), 9는 결측값이라는 명령을 내려주는 원리이다. 방법은 다음과 같다. 일단 결측치가 있는 칸을 '9'로 바꿔준다.  당연한 거지만, 기존에 '9'로 코딩된 값이 있다면 이 값을 피해서 다른 숫자를 입력해주어야 한다(예 : 99, 999 등). 멀쩡하게 코딩되어 있는 숫자를 결측치로 처리하면 안 되니까.. 

 

하단의 '변수보기' 탭을 누른다음..

9를 결측값으로 지정하면 된다.

그럼 아래 사진과 같이 바뀌는 것을 볼 수 있다.

 

3. 그다음은 값 기능을 이용한 결측치 처리 방법이다. 보다시피 9로 코딩된 결측값 녀석들.. 무척 거슬린다.

 

'변수보기'탭에 들어가 값 레이블을 설정해볼 것이다.

 

(연구자가 임의로 지정한 거지만) 이렇게 하면 9라고 코딩된 값은 결측치를 나타내게 된다. 엄밀히 말하면 제대로 결측치를 처리하는 방법은 아니지만, 임시방편으로 '난 9를 결측치로 보겠어, 여러분도 9를 보면 결측치로 이해하세요' 란 뜻으로 보여질 수 있는 방법이다.

 

 

4. 대체 방법을 이용하는 것이다 (예 : 평균, 회귀 대체 등)

내가 사용한 데이터 파일은 명목척도로 구성된 응답자의 데이터만 있어서 사실 여기에는 적합하지 않은 방법일 수 있지만, 그래도 유용한 결측값 처리 방법 중 하나이니 소개하려고 한다. SPSS 상에서 제공하는 '결측값 대체' 기능을 활용한 방법이다.

 

다시 말하지만, 이 기능은 가급적이면 등간/비율 척도로 코딩된 응답자의 값에서 사용하길 권장한다. 그 이유는, 만약 명목척도로 구성된 성별을 평균값을 이용해 결측값을 대체하더라도, 1=남성, 2=여성 일 때, 1.2가 평균값이면 이는 무엇을 의미하는지 알 수도 없으며 이렇게 표현하는 것 자체가 아이러니한 일이기 때문이다. 그러므로 참고용으로 알고 있자.

 

여기서 어떤 방식으로 결측치를 대체하고 싶은지 연구자가 선택하면 된다. 보여주는 사진은 단순 예시이며, 당연한 것이지만 변수의 특성과 척도를 고려해서 연구자가 신중하게 선택해야 한다. 

 

 

이상으로 결측값(결측치) 처리 방법에 대해서 포스팅을 마친다. 이 외에도 SPSS 상에서 결측치를 처리하는 방법은 다양하게 존재할 수 있으나, 내가 소개한 방법만 알고 있어도 무난하리라고 본다 : )

 

그런데 포스팅하는 것이 쉽지 않구나 ㅠㅠ.. 시간도 많이 걸리고 쉽지 않은 작업이다. 도움이 되었다면 하트 꾹~ 눌러주시고, 아무쪼록 오늘 포스팅이 많은 이들에게 도움이 되길 바라며.. 이만!

 

728x90