본문 바로가기
Python

1/23 - 기초 통계학 개념

by PETRA_94 2024. 1. 23.

[기억할 개념]

1. 데이터 리터러시에서의 통계의 역할
  : 쉬운 모델링 안에서도 가정 - 검증의 과정이 있기에, 검증하는 과정에서 자주 쓰임.
    여기서 통계는 결과를 신뢰하기 위한 최소한의 데이터 볼륨
    *평균적인 경향과 개개의 데이터를 구분하는 것이 매우 중요!

2. '확률적(Stochastic)이다.'라는 의미
  - 실제로 일이 일어나기 전까지, 확률적이라고 함. 또한 결정되지 않았기 때문에 비결정적임.
  - 대표적인 사례가 주가 차트로, 정규 분포로 모형화함.
  - 확률적 움직임을 체계적으로 수식화한 것 -> 분포(Distribution)라고 함.

3. 통계적 확률
  - 어떤 시행을 N번 반복할 때, 사건 A가 발생한 횟수를 n(A)라고 한다면 아래와 같이 표현
  - 시뮬레이션이 가능할 경우 유용하게 사용

4. 확률의 활용
  - 불확실성Uncertainty을 계량화
  - 예를 들어 소규모 샘플에서 일반적인 경향을 추정할 때, 통계를 이용하면 객관적이고 정확한 추정 가능

5. 왜도
  - 특정한 방향으로 데이터가 쏠려 있는 형태. 보통 꼬리를 당긴 것처럼 생겼다고 표현.
  - 왜도가 있으면 평균이 전체 데이터를 대표하지 못함.

6. 이상치
  - 다른 관측치와 유의하게 다른 데이터
  - 유의하다는 것의 의미가 다를 수 있기 때문에, 이상치의 분류는 데이터에 따라 크게 다르다는 것을 의미함.
  - 일반적으로  IQR과 2~3 표준편차를 사용
  - 정확한 수치는 소프트웨어마다 다르며, wiki에 정리된 것만 9가지

 

[느낀 점]

  • 기초 통계학 강의가 다소 핵심적인 개념을 넘어가고, 사담이 긴 형태의 강의인지라 듣기가 다소 지루하다. 그래서 이런 고민점을 새로 배정된 팀원에게 공유했는데, '데이터 전처리 시각화' 과정을 들으면 더 이해가 쉬울 거라고 했다. (물어보길 잘한 듯)
  • 내일 데이터 시각화 개인 과제가 나오는 날인데, 조금 걱정이다. 저번에도 SQL과 Python 개인 과제 풀이도 손도 못 댔는데 걱정이다. 
  • 사이드 프로젝트를 끝내고 몇주 텀을 두고, 빨리 부트캠프에 집중해야 하나 고민이 될 정도다.