1/23 - 기초 통계학 개념

[기억할 개념]

1. 데이터 리터러시에서의 통계의 역할
: 쉬운 모델링 안에서도 가정 - 검증의 과정이 있기에, 검증하는 과정에서 자주 쓰임.
여기서 통계는 결과를 신뢰하기 위한 최소한의 데이터 볼륨
*평균적인 경향과 개개의 데이터를 구분하는 것이 매우 중요!

2. '확률적(Stochastic)이다.'라는 의미
- 실제로 일이 일어나기 전까지, 확률적이라고 함. 또한 결정되지 않았기 때문에 비결정적임.
- 대표적인 사례가 주가 차트로, 정규 분포로 모형화함.
- 확률적 움직임을 체계적으로 수식화한 것 -> 분포(Distribution)라고 함.

3. 통계적 확률
- 어떤 시행을 N번 반복할 때, 사건 A가 발생한 횟수를 n(A)라고 한다면 아래와 같이 표현
- 시뮬레이션이 가능할 경우 유용하게 사용

4. 확률의 활용
- 불확실성Uncertainty을 계량화
- 예를 들어 소규모 샘플에서 일반적인 경향을 추정할 때, 통계를 이용하면 객관적이고 정확한 추정 가능

5. 왜도
- 특정한 방향으로 데이터가 쏠려 있는 형태. 보통 꼬리를 당긴 것처럼 생겼다고 표현.
- 왜도가 있으면 평균이 전체 데이터를 대표하지 못함.

6. 이상치
- 다른 관측치와 유의하게 다른 데이터
- 유의하다는 것의 의미가 다를 수 있기 때문에, 이상치의 분류는 데이터에 따라 크게 다르다는 것을 의미함.
- 일반적으로 IQR과 2~3 표준편차를 사용
- 정확한 수치는 소프트웨어마다 다르며, wiki에 정리된 것만 9가지

[느낀 점]

기초 통계학 강의가 다소 핵심적인 개념을 넘어가고, 사담이 긴 형태의 강의인지라 듣기가 다소 지루하다. 그래서 이런 고민점을 새로 배정된 팀원에게 공유했는데, '데이터 전처리 시각화' 과정을 들으면 더 이해가 쉬울 거라고 했다. (물어보길 잘한 듯)
내일 데이터 시각화 개인 과제가 나오는 날인데, 조금 걱정이다. 저번에도 SQL과 Python 개인 과제 풀이도 손도 못 댔는데 걱정이다.
사이드 프로젝트를 끝내고 몇주 텀을 두고, 빨리 부트캠프에 집중해야 하나 고민이 될 정도다.

저작자표시 비영리 변경금지 (새창열림)

'Python' 카테고리의 다른 글

1/26 - Pandas&Python; 기초 문법② & 개인과제 (0)	2024.01.26
1/25 - Pandas&Python; Python 기초 문법① (0)	2024.01.25
1/10 - Python 기초 학습 5일차 & Side Project (1)	2024.01.10
1/9 - Python 기초 학습 4일차 & Side Project (0)	2024.01.09
1/8 - Python 기초 학습 3일차 & 개인과제 제출 (2)	2024.01.09