카테고리 없음

[수리능력(통계)] 변수와 척도

juniordev 2023. 4. 17. 23:16

사회조사

사회조사(통계조사)는 연구의 목적에 맞게 데이터를 수집하는 과정이다.

정확성과 표준화된 척도에 의한 측정이 매우 중요하다.

사회조사의 목적

연구대상 집단의 현상과 상태를 기술

관찰결과를 요약, 정리하여 모집단의 특성과 원인 기술

연구자가 제기한 질문에 대한 조사를 하고 그 해답을 얻을 수 있음

ex 1 : 한국 사람들이 점심 메뉴로 좋아하는 것은?

ex 2 : 한국 사람들의 몸무게는 어느정도인가? ( 필요한 것(척도) : 체중계 )

변수

연구자가 관심을 갖는 관찰 대상의 특성 또는 속성, 적어도 2개 이상의 서로 다른 값을 갖고 있어야함

  • 예시 : 좋아하는 음식에 관한 조사
    • 표본조사결과 (변수) : 냉면, 짜장면, 비빔밥, 칼국수
    • 표본조사결과 (상수) : 모두 냉면

변수의 종류

계수자료 : 수를 세는것 - 하나, 둘 세어서 나오는 자료 (ex : 음식)

측정자료 : 계측하는것 - 어떤 도구(ex : 체중계, 타이머)를 이용해 측정해서 나오는 자료 (ex : 몸무게)

비연속 변수 : 성별, 음식과 같이 제한된 몇 개의 값만 있는 변수

연속 변수 : 나이, 체중같이 최저~최고 사이의 연속된 값을 갖는 변수

계수자료 = 비연속 변수, 측정자료 = 연속 변수

독립, 종속 변수

독립변수 - 원인변수, 설명변수, 예측변수 : 연구자가 임의로 조작할 수 있는 변수

종속변수 - 결과변수, 피설명변수, 피예측변수 : 연구의 결과(독립변수에 의한 결과)로 나오는 변수

Q1. 교수방법에 따라 학업성취도의 차이
A1. 교수방법 ⇒ 독립변수, 학업성취도(학생이 내는거기 때문이지) ⇒ 종속변수

Q2. 교육수준에 따라 투표율에 차이가 있는가?
A2. 교육수준 ⇒ ?, 투표율 ⇒ ? ————> 교육수준 ⇒ 독립변수, 투표율 ⇒ 종속변수

측정

  • 연구자가 관심을 갖는 특성이 어떤 형태로든 관찰되어야 한다.
  • 관찰된 결과를 분류하고 값(숫자)를 할당해야한다. 관찰되지 못하면 통계처리가 되지 않는다.
  • 측정된 결과가 숫자가 아니면 통계처리가 곤란하다.
  • 자료를 측정하기 위해서는 측정하기 위한 도구(수단)이 필요하다 == 척도

척도의 종류

  • 명명(명목)척도
  • 서열척도
  • 등간척도
  • 비율척도

1. 명명(명목)척도 : 이름 또는 범주를 나타내는 척도 ( 카테고리로 구분하는 척도 )

  • 성별 (남/여), 국적(한/미/중), 직업(회사원/공무원/군인)
  • 학력 ( 중졸 이하 / 고졸 / 대졸 / 대학원졸 )
  • 숫자로 표현될 수 있지만 수량적 의미가 없다. => 질적인 의미만 신경쓰겠다.
  • 범주를 구분하는데 사용된다.

2. 서열(순위)척도 : 관찰대상이 지닌 속성에 따라 순위를 결정하는 척도

  • 올림픽의 메달, 세계 우수대학 순위, 학교 성적 석차 등
  • 속성에 대한 우열을 판단하지만 단순한 순위만 해당된다.
  • 1등이 2등보다 2배 좋다는 의미가 아니고 1등과 3등의 성적차이가 4등과 6등의 차이가 같다는 의미도 아님
  • 명명척도를 포함한다.

3. 등간척도 : 속성을 평가할 수 있는 균일한 간격을 두고 측정하는 척도

  • 속성의 차이를 양적 차이로 측정하기 위해 척도간 간격을 균일하게 분할하여 측정하는 척도
  • 관찰 대상의 속성을 정량적으로 측정
  • 사칙연산을 통한 비교 가능
  • 리커트척도 ( 매우 좋다, 좋다, 보통이다, 나쁘다, 매우 나쁘다 ) = 각자의 판단이 들어가서 편차가 존재할 수 있다.
  • 온도계에서 “0”의 의미는 물이 어는 지점이라는 뜻이지 온도가 없다는게 아니기 때문에 등간척도에 속한다.
  • 명명척도와 서열척도를 포함한다.

4. 비율척도 : 절대 영점이 있는 등간척도

  • 서열성, 등간성, 비율성 등 세 속성을 모두 가진 척도
  • 절대 영점이 있는 (절대적 기준이 있는) 등간척도
  • 사칙연산이 가능하고 평균을 산출하는것이 가능하다.
  • 체중계와 자가 해당되는 구간이다.
  • 명명척도, 서열척도, 등간척도를 모두 포함하고있다.
범주형 자료 연속형 자료
명명척도 서열척도 등간척도 비율척도
성별, 혈액형, 유/무 등수, 순서, 서열 온도, 리커트 체중, 거리, 시간
자료를 구분하는 이름 수량화 N, 등간 N, 평균 N 수량화 Y, 등간 Y, 평균 Y 수량화 Y, 등간 Y, 평균 Y
 X X 0의 의미 : 사회적 합의 0의 의미 : (존재가)없다
명명척도 범주 X X X
서열척도 범주 순위 X X
등간척도 범주 순위 등간 X
비율척도 범주 순위 등간 절대영점

Q : 리커트척도가 어떤 성격을 가지나요?

A : 명명척도 서열척도 등간척도의 성격을 가진다.

추론통계

전수동사와 표본조사

  • 전수조사
    • 모집단에 포함된 모든 요소가 실제로 분석할 대상인 경우 ( ex : 조선 역대 왕의 나이 )
    • 얻은 데이터 = 모수치
    • 중심경향치와 분산으로 집단의 특성 기술 ( 기술 통계 )
  • 표본조사
    • 모집단의 일부를 표본으로 추출해서 데이터를 측정하고 분석
    • 얻은 데이터 = 통계치
    • 표본으로 모집단의 성질을 추정 ( 추론 통계 )

표본추출

무작위 추출

  • 모집단에서 표본을 얻을 때 가장 중요한것
  • 데이터를 얻을 때 모집단에 포함된 요소를 무작위로 선택하는 법

무작위 추출의 종류

  • 단순 무작위 추출법 - 모든 요소를 목록으로 만들고, 난수를 이용해 표본 추출
  • 층화추출법 - 모집단을 몇 개의 층으로 미리 나눈 후, 각 층에서 필요한 수의 조사대상을 무작위 추출
    ex ) 모집단 = 중학생 ( 1학년 / 2학년 / 3학년 별로 추출 ) -> 각 학년별로 뽑을때도 비율을 확인하고 뽑아야한다.
  • 계통추출법 - 모집단에서 첫 번째 요소를 무작위로 추출하고 목록의 매 K번째 요소를 표본으로 추출

추론통계

  • 음식의 맛보기에 해당
  • 국자로 음식의 일부(표본)의 맛을 보고 조사하여 냄비 안의 음식(모집단)의 맛을 추정

시사점

  • 궁금한점은 국자로 뜬 음식(표본)이 아닌 냄비 안의 음식(모집단)이다.
  • 냄비 안의 음식을 다 먹고 맛을 조사하기는 곤란하다.
  • 국자로 뜬 약간의 음식으로 냄비 안의 음식맛을 거의 확인 가능하다.
  • 국자로 음식을 뜰 때엔 먼저 잘 섞어야 한다. ( = 무작위 추출을 잘 해야 한다 )

표본오차

  • 모집단의 평균과 표본의 평균 차이
  • 표본오차 = 표집오차 ( = 샘플링의 오차 )
  • 표본을 추출 할 때의 인위적 실수나 잘못으로 인한 오차가 아니라 데이터의 퍼짐이 잇는 모집단에서 확률적으로 무작위 표본을 추출하는 과정에서 발생하는(표집시 발생하는) 피할 수 없는 오차
  • 표준편차 = √데이터의평균 - 평균 거리

모집단 평균과 표본평균의 관계

  • 큰 수의 법칙 : 표본의 크기가 커질수록 표본 평균은 모집단의 평균에 근접해진다는 의미이다.
  • 중심 극한정리 : 표본의 크기가 커질수록 표본평균의 분포는 정규분포에 근사해진다.

모평균 추정치의 표본 오차

모평균 추정구간의 중심으로부터 허용할 최대 허용 오차

표본오차 = 오차의 한계 ( 오차의 한계 범위 )

95% = 1.96

자세한 사항은 https://blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=sea8525&logNo=110153178204 이 블로그에 게시되어있다. 한번 확인해보는게 좋을 것 같다.

신뢰구간 ( 오차범위와 같은 의미 )

  • 통계적인 추론을 할때 그 결론의 부정확한 정도
  • 통계적 추론은 모집단의 일부인 표본으로부터 전체 모집단의 성질을 추론함
    따라서 신뢰도가 100%는 아니다 ( = 신뢰도 95%인 이유)
  • 오차를 정량화하기 위해 신뢰구간의 개념 도입
  • 최대 허용 오차를 늘리면 신뢰도가 상승되지만 오차를 허용하는 범위도 넓게 사용한다는 의미가 된다.

정규분포의 성질

  • 평균값 ± 2σ 범위 내 전체의 95%가 존재
  • 95%의 신뢰구간
  • 95%의 확률로 이 구간에 모집단의 평균이 존재
  • 표본에서 구한 모집단 평균의 추정 값을 어느 정도 신뢰할 수 있는지를 나타냄
  • 신뢰구간이 좁다면 추정 값 가까이에 모집단 평균이 있다고 생각할 수 있다

모수의 추론

  • 미지수인 모수에 대한 추측, 추측치를 수치화된 정확도와 함께 제시하는것
  • 점추정 : 표본으로부터 모수의 값에 가깡루 것으로 예상되는 하나의 값을 제시한는것
  • 구간추정 : 표본으로부터 추정된 모수치를 포함할 것으로 예상되는 구간을 제시하는것
  • 구간추정은 점추정을 통한 하나의 추정 값에 오차의 개념을 추정하는것
  • 점추정을 보완하기 위한 방법으로 신뢰구간을 추정하는 작업
  • 신뢰도가 커지면 구간추정의 폭이 넓어지고 신뢰도가 작아지면 구간추정의 폭이 좁아짐

가설검증

  • 모집단의 실제 값이 얼마가 된다는 주장과 관련하여 표본의 정보를 이용해 가설의 합당성 여부를 판정하는 과정
  • 영가설 : 효과(차이) X
  • 대립가설 : 효과(차이) O
  • 가설검증의 과정
    • 영가설과 대립가설 설정
    • 유의 수준 설정 ( 95% 바깥 ( ±2σ 바깥쪽 ))
    • 표본을 수집, 통계량 계산, p값 계산
    • 영가설 채택 또는 기각