본문 바로가기

pandas7

3/22 - Pandas; Python 기본 함수 및 개념 [기억할 개념] 1. pandas의 데이터 오브젝트 1-1. 인덱스(index) : 데이터프레임(DataFrame) 또는 시리즈(Series)의 각 행 또는 각 요소에 대한 식별자 DataFrame 자료구조에도 인덱스를 설정할 수 있음 0부터 시작하는 숫자 뿐아니라 임의로 문자로 적용할 수 있음 아예 처음부터 파일 불러올때 , 인덱스를 지정하는 것도 가능 1-2. 인덱스 관련 함수 set_index(): 특정 컬럼에 들어있는 값을 인덱스로 활용 # df가 가지고 있는 특정 컬럼명을 기준으로 인덱스를 설정하기 data = df.set_index('컬럼명') data.head() # 불러올때 인덱스 지정하기 pd.read_csv('./data/file.csv' , index_col = '컬럼정보') pd.r.. 2024. 3. 22.
3/22 - DBeaver에서 파일 불러오기 오류 해결 안됨 [배운 점] DBeaver에서 csv 파일 import 시에 인코딩란에 euc-kr로 지정해줘야 한글이 깨지지 않음 SQL 가공이 필요할 때, csv 파일 모두 한글이라면 전처리가 되지 않음. (계속 오류 뜸) 일단 오늘 Pandas에서 SQL 처리하려 했는데 이것도 실패. DBeaver를 열어보니 업데이트하라고 또 오류. 프로그램 삭제하고 다시 다운 받음. 어찌어찌 DBeaver 실행하니 이젠 csv 파일이 말썽임. 오늘 발견한 SQL 오류만 체감 몇 만개임. 구글링해본 결과, csv 파일 모두 한글로 돼있어서 컬럼명 없다고 프로그램에서 ZiRal 염병 떠는 거 같음. (Jonna 예민 보스임) 1) SQL Error [1264] [22001]: Data truncation: Out of range v.. 2024. 3. 22.
3/22 - Pandas; Python 기본 세팅 csv 파일 불러오기 [기억할 개념] 1. vscode에서 세팅할 시, pandas와 numpy 불러오고, 시각화 툴도 가져오면 좋음 import seaborn as sns import pandas as pd import numpy as np 2. csv 파일 불러올 때 유의할 점: 파일 확장자 별로 지정해줘야 함 pd.read_csv('C:/Users/dnalf/OneDrive/바탕 화면/sparta_depth_pr/seoul_merge2.csv') data1 = pd.read_csv('C:/Users/dnalf/OneDrive/바탕 화면/sparta_depth_pr/seoul_merge2.csv') pd.read_excel('C:/Users/dnalf/OneDrive/바탕 화면/sparta_depth_pr/seoul_me.. 2024. 3. 22.
2/13 - 심화 프로젝트; 데이터 전처리 및 프로젝트 진행 현황 [심화 프로젝트 진행 현황] 데이터 분석 부문: 80% 완료 (데이터 전처리 100% 완료 / 명일 시각화 예정) 모델링 부문: 50% 완료 (서울 부동산 데이터 기준, 기타 데이터의 법정동-행정동 매칭 완료) 명일 해야할 사항 - 데이터 분석 부문: 시각화 집중 - 모델링 부문: 1) 2차 데이터 전처리(연도별/분기별 집계 함수 사용 예정, 컬럼 검수 필요) 2) 선형회귀 or 로지스틱회귀 모델링 [배운 점] 예측 모델링이 반드시 미래를 예측하는 모델링은 아니다. 모델링의 방법은 여러 가지가 있다. 사실 특정 변수의 적정 값이 맞는지 체크하는 모델링은 선형회귀와 로지스틱회귀를 사용하면 되는 아주 단순한 사실을 깨달았다. 팀원들의 능력이 상향평준화 되어 있어 일하기가 매우 편하다. 팀 합이 좋아서 다행이.. 2024. 2. 13.
2/7 - 심화 프로젝트; 데이터 1차 가공 및 프로젝트 진행 현황 [심화 프로젝트] 이미 우리 팀은 지난 주부터 세팅에 들어가기도 했고, 다들 머리 회전력이 좋아서 결정이 빨리 됨. 그리하여, 장황한 우리 팀의 프로젝트 진행 현황은 아래와 같음. 구글 스프레드 시트에 써뒀던 계획 그대로 노션에 옮겨둠. 캠프 내부에서 멘토링 받으라고 문서 샘플을 따로 줬는데, 굳이 이걸 써야 되나 싶음. 시간 아까움. 그래서 남들 다 보는 잡담방에 그대로 우리팀은 공식적으로 쓰지 않겠다고 담당 매니저한테 못 박아 둠. 팀 별로 튜터들이 배정됐는데, 처음엔 우리 팀이 정한 주제가 우리 팀을 제외하고 없었음. 그런데 갑자기 B07조에서 우리 팀과 같은 주제로 변경함. 무엇? 양아취들이신지? 전략가가 2명이나 있는 팀은 어떻게 분석하는지 제대로 보여줘야겠음. 이건 실력이 아니라 머리 싸움이다.. 2024. 2. 7.
2024.01.26 부트캠프 6주차 - 주간 회고록 [6주차 기간]: 2024.01.22 ~ 01.26 (5일) [6주차 진척도]: Python 데이터 전처리 수강 100% 완료 / 기초 통계학 40% 완료 (주말 내 100% 수강 예정) [신규 팀 정보] : MBTI로 F와 T가 반반, I와 E가 반반, 그리고 20대와 30대가 반반이라 팀 이름을 '반반따리'로 정함. FACTS: [역할: 팀장] 이번 프로젝트에서도 또 팀장이 됐다. 금번 심화 프로젝트 기간에 설 연휴가 껴 있어서, 전략적으로 차주부터 주제와 데이터셋을 찾는 걸로 타임라인을 설정했다. 목표는 2/1(목) 전원이 찾아온 주제와 데이터셋을 모두 구글 스프레드 시트에 기재해 두고, 2/2(금)에 전원이 오프라인으로 모여 주제 설정과 방향성을 논의할 예정이다. 다만, 차주에 머신 러닝 모델링 .. 2024. 1. 26.
1/26 - Pandas&Python; 기초 문법② & 개인과제 [기억할 개념]: Python - Pandas 1. concat(): 데이터프레임을 위아래로 or 좌우로 연결 예시 axis: 연결하고자 하는 축 방향 지정 기본값은 0 => 위아래로 연결하는 경우 해당 / 1로 설정 => 좌우로 연결 ignore_index: 연결된 데이터프레임의 인덱스 설정 false => 인덱스 유지 / true => 새로운 인덱스 생성 import pandas as pd # 두 개의 데이터프레임 생성 df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']}) df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']}) # 상하로 데이터프레임 연결 r.. 2024. 1. 26.