본문 바로가기

python18

3/12 - 실전 프로젝트; 프로젝트 종료 [프로젝트]프로젝트명: Looker Ecommerce 한국 진출 프로젝트선택 주제: 커머스 데이터 품질 검사최종 주제: Looker 브랜드의 한국 진출을 위한 사업 방향 제시목적: 기존 데이터 정합성 검사 내 ‘소프트 스킬’을 강조한 스토리텔링을 가미목표: Looker 가상 브랜드의 한국 진출을 위한 데이터 분석과 사업 방향 제안진척도: 100% 완료데이터 출처: Looker Ecommerce BigQuery Dataset프로젝트 진행 현황데이터 분석 전략To-do LIST회의: 총 5차 진행 (미기록 포함)결과물[배운 점]생각보다 태블로 시각화와 PPT 시각화에 많은 시간이 걸렸다.더군다나 프로젝트 기간 중 SQLD 시험일이 겹쳐 있어 버거웠다. (사실 시험 일정 때문에 주말까지 총 4일을 확보했음에도.. 2024. 3. 22.
3/22 - Pandas; Python 기본 함수 및 개념 [기억할 개념] 1. pandas의 데이터 오브젝트 1-1. 인덱스(index) : 데이터프레임(DataFrame) 또는 시리즈(Series)의 각 행 또는 각 요소에 대한 식별자 DataFrame 자료구조에도 인덱스를 설정할 수 있음 0부터 시작하는 숫자 뿐아니라 임의로 문자로 적용할 수 있음 아예 처음부터 파일 불러올때 , 인덱스를 지정하는 것도 가능 1-2. 인덱스 관련 함수 set_index(): 특정 컬럼에 들어있는 값을 인덱스로 활용 # df가 가지고 있는 특정 컬럼명을 기준으로 인덱스를 설정하기 data = df.set_index('컬럼명') data.head() # 불러올때 인덱스 지정하기 pd.read_csv('./data/file.csv' , index_col = '컬럼정보') pd.r.. 2024. 3. 22.
3/22 - Pandas; Python 기본 세팅 csv 파일 불러오기 [기억할 개념] 1. vscode에서 세팅할 시, pandas와 numpy 불러오고, 시각화 툴도 가져오면 좋음 import seaborn as sns import pandas as pd import numpy as np 2. csv 파일 불러올 때 유의할 점: 파일 확장자 별로 지정해줘야 함 pd.read_csv('C:/Users/dnalf/OneDrive/바탕 화면/sparta_depth_pr/seoul_merge2.csv') data1 = pd.read_csv('C:/Users/dnalf/OneDrive/바탕 화면/sparta_depth_pr/seoul_merge2.csv') pd.read_excel('C:/Users/dnalf/OneDrive/바탕 화면/sparta_depth_pr/seoul_me.. 2024. 3. 22.
2/20 - 심화 프로젝트; 프로젝트 종료 [심화 프로젝트] 프로젝트명: 서울 상경 프로젝트 선택 주제: 서울시 전세 가격 예측 모델링 변형 최종 주제: 서울시 보증금 유형별 가격 적정치 모델링 – 페르소나 중심 목적: 서울시에서 치안이 좋고 보증금이 적정대인 적합한 자치구 선정 목표: 직접 설정한 페르소나에게 적합한 집을 후보 4개로 제시 진척도: 100% 완료 데이터 출처 카테고리 데이터명 출처 사용 용도 정부 (1) 서울시 등록인구 서울열린데이터광장 서울시 청년 인구 파악 (2) 서울시 상권 분석서비스 (상주인구 - 자치구/행정동) 서울열린데이터광장 서울시 청년 인구 파악 (3) 서울시 상권 분석서비스 (직장인구 - 자치구/행정동) 서울열린데이터광장 서울시 연령대별 직장인구 파악 (4) 역세권 공동주택 실거래정보 국가교통 데이터 오픈마켓 유.. 2024. 2. 20.
2/13 - 심화 프로젝트; 데이터 전처리 및 프로젝트 진행 현황 [심화 프로젝트 진행 현황] 데이터 분석 부문: 80% 완료 (데이터 전처리 100% 완료 / 명일 시각화 예정) 모델링 부문: 50% 완료 (서울 부동산 데이터 기준, 기타 데이터의 법정동-행정동 매칭 완료) 명일 해야할 사항 - 데이터 분석 부문: 시각화 집중 - 모델링 부문: 1) 2차 데이터 전처리(연도별/분기별 집계 함수 사용 예정, 컬럼 검수 필요) 2) 선형회귀 or 로지스틱회귀 모델링 [배운 점] 예측 모델링이 반드시 미래를 예측하는 모델링은 아니다. 모델링의 방법은 여러 가지가 있다. 사실 특정 변수의 적정 값이 맞는지 체크하는 모델링은 선형회귀와 로지스틱회귀를 사용하면 되는 아주 단순한 사실을 깨달았다. 팀원들의 능력이 상향평준화 되어 있어 일하기가 매우 편하다. 팀 합이 좋아서 다행이.. 2024. 2. 13.
2/6 - 머신러닝모델링; 데이터 전처리_이상치(Outlier) 처리 방법 [기억할 개념] 1. 이상치(Outlier)란: 보통 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값 1-1. Extreme Studentized Deviation(ESD) 이용 #최대값, 최소값 확인 print(upper_limit, lower_limit) #값 비교 tips_df[['total_bill']].head(3) #이상치 확인 (아래 조건에 부합=True 값만 추출) cond = (tips_df['total_bill'] > 46.4) cond tips_df[cond] 1-2. IQR(Inter Quantile Range)를 이용 #이상치 확인 (상한값 40.29보다 큰 값만 추출) cond2 = (tips_df['total_bill'] > uppner_limit2) tips_d.. 2024. 2. 6.
2/5 - 머신러닝모델링; 선형회귀&로지스틱회귀 [기억할 개념] 1. 선형회귀 1) 단순선형회귀: x 변수가 1개 from sklearn.linear_model import LinearRegression model_lr = LinearRegression() type(model_lr) x = body_df[['Weight']] y = body_df[['Height']] #데이터 훈련 model_lr .fit(x = x, y = y 해석 #y(키)는 x(몸무게)에 0.86을 곱한 뒤에 109.37을 더해라 2) 다중선형회귀: x 변수가 2개 #1. y= 0.86x + 109.37 #2. 위 식을 활용한 예측 칼럼 추가 #3. 에러값을 각각 계산(error) #4. 양수를 만들기 위해 제곱화 #5. 값을 모두 더함(MSE) #6. 그래프로 그리기 #예측값 .. 2024. 2. 5.
2/2 - Python; 개인과제 피드백 [피드백] * 오답문제만 오답이라고 채점 문제1) 오답 [잘하신 부분] map을 활용한 for 문 출력 [보완해야할 점] 1. 기준치값(n)을 함수의 두번째 전달인자로 받아 설계할 것2. if구문에서 20넘는 것은 과잉으로 잘 구현 했으나 else: 구문에서는 20보다 같거나 작은 것이 과잉으로 판단되었음. 이부분 오류 문제2) [잘하신 부분] 정규표현식 모듈 re와 함수 return 부분을 잘 적용함 [보완해야할 점] map과 print 를 함수 내에 작성하여 완성된 함수로 작성했으면 best 문제3) [잘하신 부분] 좀더 general 한 문제 ex 동명이인이 없는 참여자의 경우 해당 코드가 작성하지 않을 것이나 아이디어는 좋은 방법이라고 여겨짐. 문제를 조금 단순하게 설계한 것의 한계이며 정답은 맞.. 2024. 2. 2.
2024.01.26 부트캠프 6주차 - 주간 회고록 [6주차 기간]: 2024.01.22 ~ 01.26 (5일) [6주차 진척도]: Python 데이터 전처리 수강 100% 완료 / 기초 통계학 40% 완료 (주말 내 100% 수강 예정) [신규 팀 정보] : MBTI로 F와 T가 반반, I와 E가 반반, 그리고 20대와 30대가 반반이라 팀 이름을 '반반따리'로 정함. FACTS: [역할: 팀장] 이번 프로젝트에서도 또 팀장이 됐다. 금번 심화 프로젝트 기간에 설 연휴가 껴 있어서, 전략적으로 차주부터 주제와 데이터셋을 찾는 걸로 타임라인을 설정했다. 목표는 2/1(목) 전원이 찾아온 주제와 데이터셋을 모두 구글 스프레드 시트에 기재해 두고, 2/2(금)에 전원이 오프라인으로 모여 주제 설정과 방향성을 논의할 예정이다. 다만, 차주에 머신 러닝 모델링 .. 2024. 1. 26.