실력 향상 일지/23년 1학기 정리

[수리능력(통계)] 표본의 추출

juniordev 2023. 4. 13. 02:39

모수치(paramiter)

모집단의 사례, 평균(μ, 뮤), 표준편차(σ, 시그마)

모집단 전체의 특성을 반영한 수치, 기본적으로 알지 못하는것으로 가정

통계치(Statistics)

표본의 사례, 평균(m, 민), 표준편차(s, 에스)

표본의 특성을 반영한 수치, 기본적으로 표본을 이용하여 직접 계산

그리스어와 알파벳을 나눈 이유 = 표본과 모집단의 구분을 위해
표본의 샘플의 상태를 보고 모집단의 상태를 알아냄 - 통계의 역할

중심경향치와 분산

중심경향치 - 평균, 중앙값, 최빈값

분산 - 범위, 편차, 표준편차

중심경항치 vs 분산

중심경향치

자료에서 주로 관찰되는 경향을 파악하기 위해 사용된다.

  • 수집된 자료를 대표할 수 있는 값 ( 대표값 )
  • 자료의 중심이 되는 경향 ( 집중 경향 )
  • 최빈치 (Mode) : 수집된 자료중 가장 빈번하게 관찰되는 자료
  • 중앙치 (Median) : 자료 중 상하 각각 50%로 분할하는 지점의 값
  • 평균치 (Average or Mean) : 자료의 무게 중심점, 균형점

정규 분포 곡선 (normal distribution)

위의 정규분포곡선은 대칭이다 => 최빈치와 중앙치, 평균치가 같다. & 양쪽 무게가 동일하다, 거리가 같다.

값은 평균에 몰린다 => 중앙값과 최빈값이 가운데에 몰려있지않으면 제대로된 값이 아닐 가능성이 높다.

정적편포 & 부적편포

부적 편포 (-) 와 정적 편포 (+)

부적편포 → 평균 < 중앙값 < 최빈값

정적편포 → 최빈값 < 중앙값 < 평균

  • 편포를 이룰 시 중심경향치로 나타낼 수 없다.
  • 편포가 된 경우 최빈값(Mode)으로 중심경향을 판단할 수 있다.
  • 극한의 값이 평균의 영향을 적게 주게 하기 위해서는 표본을 늘려야 한다. = 표본의 크기가 굉장히 중요하다.

분산

  • 자료가 흩어져 있는 정도에 관한 정보
  • 범위(Range) : 자료에서 가장 큰 값에서 작은 값까지의 거리
    • 자료에서 가장 큰값에서 가장 작은 값까지의 거리
    • 최대값(거리) - 최소값(거리) + 1
    • 범위가 클수록 이질적, 작을수록 동질적
  • 편차(Deviation) :  평균으로부터 떨어진 거리, 편차의 합은 0
    • 개별 자료가 평균으로부터 떨어진 거리
    • 편차 = 개별값 - 평균
    • + 나 -의 값을 가짐
    • 모든 편차의 합은 0
  • 표준 편차 (Standard Deviation) : 평균으로부터 떨어진 평균적 거리
더보기

편차 구하는법

2 5 9 10 11 12 14

평균은 ? 9

각각 평균과의 차이는?

-7 -2 | 0 | 1 2 3 5

   -9       |      9

둘을 더하면? 0

만약 편차의 합이 0이 아니다? 내가 잘못 구한거다~

 

표준편차구하는법

편차의 평균을 구해야함 → 편차의 값을 제곱

49 4 0 1 4 9 25 / 7 = 14.xxxx

14.xxx를 그냥 냅둔다? 노농 이대로 냅두면 “평균적 면적”이 된다.

편차의 값을 제곱했으니까 14.xx에 루트를 씌운다리

루트를 씌워야 “평균적거리”가 된다.


A집단 : 5, 5, 5 | 평균 : 5, 범위 : 1, 편차 : 0, 표준편차 : 0

B집단 : 0, 5, 10 | 평균 : 5, 범위 : 11, 편차 : 5, 표준편차 : 4.xx

중심경향은 동일, 분산은 차이가 남

A집단은 매우 동질적, B집단은 매우 이질적인 집단


다음 데이터 (1, 4, 2, 5, 0)의 중앙값을 구하시오 → 0,1,2,4,5로 정렬 후 중앙값을 찾아야한다.

다음 데이터 (10, 40, 20, 50)의 중앙값을 구하시오 → 10,20,40,50로 정렬 후 중앙값이 (20+40)/2를 한 값이 된다.

평균

서울의 보통 가구 통계
서울 보통 가구의 평균

보통가구 = 전체 서울시를 조사해서 평균 가장의 나이, 평균 학력, 평균가구원수

  • 집단의 경향성을 고려하는 자료 요약에 대한 가장 대표적 개념으로 사용
  • 주로 표본을 얻기에 표본 평균이라고도 함
  • 데이터의 개별성은 버리고, 우연성은 줄어듬 ( 극한의 값이 집단을 만나며 (거의)버려지는 값이 된다는 의미 )
  • 데이터 집단의 중심 경향을 나타내는 수학적 척도
  • 비교 목적으로 활용된다. ex) 평가의 차이, 성별간 차이, 교재의 활용과 효과의 차이, 07년과 14년의 변화 흐름 차이 비교설명(위의 표)

최빈값

최빈값은 없거나, 한 개 이거나, 여러 개가 존재할 수 있다.

최빈값의 의미 - 대다수인것 (50% 이상인 것)

  • 평균은 극단적인 한개의 값에 의해 왜곡되기 쉬움 ( 계산시 모든 값이 포함되기 때문이다 )
  • 표본 수가 적은 경우 왜곡이 더 심하고 통계의 가치가 떨어진다.
  • 이럴경우 평균보다 중앙값이나 최빈값을 대표값으로 사용한다.
  • 중앙값은 가운데 값만 참조하므로 극단적인 값의 영향을 받지 않는다.

'실력 향상 일지 > 23년 1학기 정리' 카테고리의 다른 글

[수리능력(통계)] 분포와 편포  (2) 2023.04.17
[java] 3월 정리 - 2  (0) 2023.04.01
[Java] 3월 정리 - 1  (0) 2023.03.31