방법론, 공부노트, TIP

[방법론] ▶ 표본추출방법 정리노트(확률+비확률)

나눔의시작 2019. 10. 28. 14:08
728x90

표본추출방법

모집단에 대한 관찰과 통계적 추론을 위해 관심 모집단의 부분 집합(표본)을 선택하는 통계학적 과정을 표본추출(sampling)이라고 한다. 대부분의 경우에서 모든 케이스를 조사하는 전수조사를 하기란 실질적으로 많은 어려움과 제약이 따르므로 대게 모집단을 대표할 만한 표본을 대상으로 조사를 한다. 그래서 표본 선정에 있어 샘플표본은 모집단을 대표할 수 있어야 하며, 조사자는 그러한 표본을 택하는 것이 매우 중요하다.

표본추출과정

표본추출 과정은 몇 가지 과정으로 구성된다. 첫 번째 단계는 목표 모집단을 정의하는 것이다. 모집단(population)은 연구자가 연구하고 싶은 특성을 지니고 있는 모든 사람들 혹은 항목들(분석 단위)이라고 정의될 수 있다. 분석 단위는 당신이 도출하고자 하는 과학적 추론을 위해 활용되는 개인, 집단, 조직, 나라, 물건이나 다른 독립체 등이 될 수 있다.

만일 수능 시험에 대한 근본적인 학습 동기를 알고 싶다면 누구를 모집단으로 보아야 할까? 아마 전국의 수능을 준비하는 수험생들이 이 조사의 모집단이 되어야 할 것이다. 만일 고등학교 담임선생님이나 교장선생님, 학부모가 모집단으로 되어서는 안 되는 것과 같은 이치이다.

표본추출 과정의 두 번째 단계는 표집틀(sampling frame)을 선택하는 것이다. 이것은 표본이 도출될 수 있는 목표 모집단의 접근 가능성을 의미한다. 예를 들어 당신의 목표 모집단이 전국에 수능 시험을 준비 중인 모든 수험생이라고 한다면 그들의 명단을 정확히 다 가지고 있기란 어려운 일이다. 그래서 조금 세부적으로 접근해서 전국의 몇 개 고등학교 고 3 학생이 이 연구(조사)의 표집 틀이 될 것이다. 

표집 틀 선정 시 주의해야 할 것은 표집 틀이 모집단을 전적으로 대표하지 않는다면, 표본에서 얻어진 결론은 일반화하기 어렵다는 것이다. 그래서 모집단의 특성을 잘 반영할 수 있는 표집 틀을 명확히 선정하는 것이 중요하다. 그리하여 표본추출 과정 마지막 단계는 잘 정의된 표본추출기법을 활용하여 표집 틀로부터 표본을 선택하는 것이다. 오늘 공부하고자 하는 내용이 바로 이 내용이다. 표본추출방법은 크게 두 가지 1) 확률 표본추출과 2) 비확률 표본추출로 나뉜다.

확률 표본추출(Probability Sampling)

확률 표본추출방법은 모집단에 속한 모든 단위가 표본으로 선택받을 확률을 동일하게 가지고 있는 경우이다. 그리고 이 과정에서 무작위(랜덤)로 추출되어야만 한다. 

 

1. 단순무작위표본추출법

이는 모집단의 모든 부분(표집 틀)이 표본으로 선택될 동일한 확률을 가지고 있는 경우이다. 무작위로 표본을 추출한다는 것은 사람이 아무 숫자나 떠올리고 추출하는 것이 아니다. 단순 무작위 표본추출을 위해 난수표나 컴퓨터를 활용한 무작위 배정을 통해 표본을 추출한다. 임의적인 수나 컴퓨터화된 임의 숫자 생성기를 활용하게 된다. 무작위로 표본이 뽑히기 때문에 표본은 편향되지 않으며 표본으로부터의 얻어진 결과를 통해 일반화시킬 수 있다. 

2. 체계적(계통) 표본추출법

체계적 표본추출법은 표집 틀에서 처음으로 추출하는 표본만 단순 무작위 표본추출법에 의해 뽑고 이후에 뽑게 될 표본은 매 k번째에 해당하는 표본을 추출하는 방법이다. 예를 들어, 무작위로 선택된 표본이 3번째 표본이고 이를 10 간격으로 표본을 추출한다고 가정하였을 때 표본이 추출되는 순서는 3, 13, 23, 33, 43... 순으로 될 것이다. 여기서 k는 N /n을 나타내는 것으로 표집 단위 N을 표본 n으로 나눈 비율이 된다.

3. 층화 표본추출법

층화 표본추출법은 어떠한 기준에 따라 모집단을 층 나누듯 범주화하고 이를 여러 소집단으로 구성하는 방법이다. 여기서 집단 내에서는 동질적이지만 집단 간에는 이질적인 특성을 지닌다. 예를 들어 고등학교 학생들의 독서량을 알아볼 때 고1, 고2, 고3 간에는 독서량이 다를 수 있지만 학습(1반, 2반, 3반,... 10반) 간에는 독서량의 차이가 없을 수 있다. 이때 이질적으로 나뉠 수 있는 특성은 바로 '학년'이 되는 것이다. 이렇게 서로 다른 층으로 나눌 수 있는 기준이 있을 때 그 특성을 기준으로 모집단을 소집단으로 구성한다. 그리고 그 안에서 단순 무작위 표본추출을 진행하면 된다. 

4. 군집 표본추출법

군집 표본추출법은 집단을 여러 집단으로 나누고 무작위로 선출된 군집의 모든 개체를 측정하는 방식으로 진행된다. 예를 들어 학군에 따른 고등학생들의 독서량을 살펴보고자 한다면 먼저 학군을 여러 그룹으로 나누어 군집화하고 각 학군에서 단순 임의 표본추출을 사용하여 표본을 추출한다. 그렇게 선출된 집단에서 전체를 조사하는 방식으로 진행된다. 예를 들면 고등학생 독서량을 알아보기 위해 전국 → 시/도 구/군 식으로 군집화 하고 이 중에서 무작위로 고등학교를 뽑았을 때 C 고등학교가 선택되었다면 C 고등학교 전체를 하나의 표본처럼 조사하는 방식이다.

비확률 표본추출(Non-Probability Sampling)

비확률 표본추출법은 모집단에 속한 모든 단위가 표본으로 선택받을 확률이 정확하게 결정되지 않은 상황의 표집 기법이다. 따라서 이 방법은 표집 편향에 영향을 받을 수 있다. 이는 모집단을 일반화하기 어렵다는 단점이 있다.

 

1. 편의 표본추출법

편의 표본추출법은 조사자 편의에 따라 모집단으로부터 접근성이 용이하고 편리한 방법을 통해 표본을 추출하는 방식이다. 측정도구의 타당성을 확인하려는 목적의 예비조사에서 편리하게 사용될 수 있다.

2. 판단 표본추출법

판단 표본추출법은 목적 표본추출법이라고도 하는데 이는 조사자의 주관에 따라 표본의 대상을 선정하는 것을 의미한다. 이때 표본은 모집단의 특성을 반영할 수 있는 사람들로 구성이 되어야 하고 이를 위해서 조사자의 주관적 견해가 중요한 기준으로 작용한다. 적은 수의 표본만으로도 모집단의 특성을 대표할 수 있다는 장점이 있다.

3. 할당 표본추출법

할당 표본추출법은 (확률) 층화 표본추출법과 같이 모집단이 상호 배타적인 하위집단으로 나눠져 있는 상태에서 하위집단을 선택한 후 그 안에서 작위적으로 표본을 추출하는 방법이다. 얼마나 할당해서 추출할지는 비례할당 추출법과 비비례할당 추출법에 따라 진행하면 된다. 언뜻 보면 층화 표본추출법과 비슷해 보이지만 층화 표본추출법은 무작위적으로 표본이 추출되는 한편, 할당 표본추출법은 작위적으로 표본이 추출된다는 점에서 차이를 보인다. 

4. 눈덩이 표본추출법

눈덩이 표본추출법은 초기 연구에서 조사자의 대상을 쉽게 찾기 어려울 때 전문가 집단의 추천이나 권유를 통해 첫 표본만 소개를 받아 조사를 진행하고 그 후 그 표본에서 건너 건너 아는 사람을 통해 눈덩이식으로 불어나 표본을 추출하는 방법이다. 이 방법은 접근하기 어려운 모집단을 대상으로 조사를 진행하거나 처음부터 표본 프레임을 선정하기 어려운 경우에서 유용하게 사용된다.

728x90