실력 향상 일지 45

2. Python) 크롤링 과정

컴퓨터 하드웨어 정보를 잘 받아오기 위해 여러 사이트를 탐색해 봤지만 가격대와 인기순으로 잘 정리되어 있는 사이트는 다나와였다. 다나와페이지를 크롤링하기 위해 다나와 페이지의 구조를 탐색해 봤다. 구조가 위와 같이 되어있는 걸 확인했기에 필요한 정보에 대한 위치를 확인해봐야 했다. 첫 번째로 이미지의 정보가 필요했기에 이미지파일의 위치를 찾아야 했다. 이 위치에 이미지파일이 존재하는 걸 알았기에 구조에 맞춰서 이미지값을 가져오는 코드를 작성했다. img_link = li.select_one('div.thumb_image > a > img').get('data-original') if img_link == None: img_link = li.select_one('div.thumb_image > a > im..

1. 크롤링 준비

일단 알아봐야할것은 크롤링이란 무엇인가이다. 자세한 정보는 다른 블로그에 상세히 설명되어있기에 스킵하고, 간단히 말하자면 원하는 정보를 손하나 까딱안하고 뽑아내는 기술 정도로 서술할수 있을것같다. 일단 크롤링의 기본적인 순서는 다음과 같다. 1. 웹브라우저에서 원하는 정보를 갖고있는 웹사이트에서 검색을 통해 원하는 정보를 특정한다. 2. 원하는 포인트를 집기위해 F12를 눌러 개발자모드로 진입한다. 여기서 제목정보들을 얻기 위해서 코드를 까보며 특징을 파악해야한다. 그랬더니 위와같이 strong이라는 태그의 title이라는 클래스 안에 있는걸 알 수 있었다. 일단 이정도의 정보만 있으면 이 정보를 크롤링 할 준비가 끝났다.

[수리능력(통계)] 분포와 편포

정규분포 샘플이던 모집단이던 데이터를 수집해서 히스토그램(프리퀀스)같은걸 만들었을 때의 특징 특징 평균 = 중앙값 = 최빈값 그래프가 평균을 기준으로 대칭하고 있다. 평균에 가까울수록 발생확률이 높고 멀어질수록 확률이 낮은 분포 최빈치가 하나인 단봉분포 분포의 양 끝은 x축에 점근 편차의 범위 +- 3 범위내의 값 ⇒ 99.7% +- 2 범위내의 값 ⇒ 95.4% +- 1 범위내의 값 ⇒ 68.3% 표본의 크기가 커지면 표본 평균이 확률분포는 정규분포에 수렴 즉, 정규분포는 이상적인 확률분포이다. 대표적인 확률분포 자연현상을 표현한 이상적인 확률모형 한국 남자의 키, 신생아의 몸무게, 수능점수 등 대부분의 자료 분포 자연 질서의 표현 모수 평균, 표준 편차, 연속 확률 분포 가우시안 분포(정규분포) 독일..

[수리능력(통계)] 표본의 추출

모수치(paramiter) 모집단의 사례, 평균(μ, 뮤), 표준편차(σ, 시그마) 모집단 전체의 특성을 반영한 수치, 기본적으로 알지 못하는것으로 가정 통계치(Statistics) 표본의 사례, 평균(m, 민), 표준편차(s, 에스) 표본의 특성을 반영한 수치, 기본적으로 표본을 이용하여 직접 계산 그리스어와 알파벳을 나눈 이유 = 표본과 모집단의 구분을 위해 표본의 샘플의 상태를 보고 모집단의 상태를 알아냄 - 통계의 역할 중심경향치와 분산 중심경향치 - 평균, 중앙값, 최빈값 분산 - 범위, 편차, 표준편차 중심경항치 vs 분산 중심경향치 자료에서 주로 관찰되는 경향을 파악하기 위해 사용된다. 수집된 자료를 대표할 수 있는 값 ( 대표값 ) 자료의 중심이 되는 경향 ( 집중 경향 ) 최빈치 (Mod..