실력 향상 일지/23년 1학기 정리

[수리능력(통계)] 분포와 편포

juniordev 2023. 4. 17. 20:39

정규분포

샘플이던 모집단이던 데이터를 수집해서 히스토그램(프리퀀스)같은걸 만들었을 때의 특징

특징

  1. 평균 = 중앙값 = 최빈값
  2. 그래프가 평균을 기준으로 대칭하고 있다.
  3. 평균에 가까울수록 발생확률이 높고 멀어질수록 확률이 낮은 분포
  4. 최빈치가 하나인 단봉분포
  5. 분포의 양 끝은 x축에 점근

편차의 범위

+- 3 범위내의 값 ⇒ 99.7%

+- 2 범위내의 값 ⇒ 95.4%

+- 1 범위내의 값 ⇒ 68.3%

표본의 크기가 커지면 표본 평균이 확률분포는 정규분포에 수렴 즉, 정규분포는 이상적인 확률분포이다.

대표적인 확률분포

  • 자연현상을 표현한 이상적인 확률모형
  • 한국 남자의 키, 신생아의 몸무게, 수능점수 등 대부분의 자료 분포
  • 자연 질서의 표현
  • 모수 평균, 표준 편차, 연속 확률 분포

가우시안 분포(정규분포)

  • 독일 수학자 가우스가 정립
  • 사회의 많은 현상이 가우스 분포 (가우시안 분포)를 따르고 있음을 발견
  • 인간특성 및 자연현상 이해에 도움을 줌

표본의 크기가 충분하다면 표본평균의 분포는 정규분포를 따름, 표본의 크기는 30개를 넘겨서야 정규분포와 흡사해짐

Q. 평균 100점, 표준편차 20, 중간고사를 본 학생이 50명이라고 가정할때 홍경민 학생은 120점을 받았다. 홍경민보다 시험을 더 잘 본 사람은 모두 몇명이나 있을까?

A. 편차 = 원점수 - 평균 ⇒ 120 - 100 = 20

표준점수 = (원점수 - 평균) / 편차 ⇒ 20/20 = 1 ⇒ 표준편차의 “1”배 거리에 있었다.

즉, 위의 그림에서 u + 
σ 가 경민이의 위치이고 문제 자체는 u + 3σ안에 있는 사람의 수를 구하는 것이기에 경민이는 식을 계산해서 백분위로 따졌을때 84%에 위치하고있고 나머지 16%가 경민이보다 시험을 더 잘 본 사람이기 때문에 답은 8명이 된다.

즉 이런 문제가 나왔을 시엔 몇 표준편차가 떨어져 있나 가 메인인 문제인거 같다.

Q. 각 집단의 평균과 표준편차가 다른 데이터를 어떻게 비교할 수 있을까?

A.
정규분포를 표준화 ⇒ 표준정규분포
정규분포의 평균을 “0”, 표준편차를 1로만듬
개별 데이터에서 그 집단의 평균을 빼고 표준편차로 나눔
Z-Score란 평균이 0이고 표준편차가 1인 정규분포의 확률분포(표준화된 개별 데이터)
평균값에서 표준편차 몇 배 거리에 떨어져 있는가를 평가하는 수

표준 점수(Z) 구하는 공식

T = 50 + 10 * Z ( T점수 구하는 공식 )

첨도

  • 확률분포의 봉우리가 뾰족한 정도를 나타내는 정도
  • 관측치들이 어느 정도 집중적으로 중앙에 몰려있는가를 측정
  • 첨도값이 0이라면 정규분포이다.
  • +값 => 급첨, -값 => 평첨
  • -값일시 평평하고 +값일시 중앙에 몰려있는게 특징이다.

급첨, 평첨

'실력 향상 일지 > 23년 1학기 정리' 카테고리의 다른 글

[수리능력(통계)] 표본의 추출  (0) 2023.04.13
[java] 3월 정리 - 2  (0) 2023.04.01
[Java] 3월 정리 - 1  (0) 2023.03.31