Data Science/Study 자료(31)
-
[pandas] 데이터 가로방향 통합 join()함수/ 인덱스 라벨
join()함수 사용법 데이터는 join()함수를 통해 가로방향으로 통합을 할 수 있다. 주의할점은 칼럼명이 겹치면 안된다는 걸 기억하자! 인덱스 라벨 index_label변수로 인덱스명을 지정해주고 pd.DataFrame()안에 index = index_label로 지정하면 인덱스번호가 바뀐다. 주의할점은 인덱스번호명이 다르면 NaN이 출력된다. 때문에 인덱스명이 같은지 확인해보는 작업을 필수로 진행해주자!
2024.01.08 -
[pandas] 데이터 통합 .append()오류해결
.append() 함수를 사용하면 AttributeError가 뜬다. 공식문서를 확인해보니 .append()는 판다스 버전 1.4.0이후로는 지원을 하지 않는다. print(pd.__version__) 위 코드를 통해서 버전을 확인할 수 있는데 현재 나는 2.1.4 버전을 사용중이었다. 결론은 pandas를 다운그레이드 하거나 변경된 명령어를 사용하면 된다. 변경된명령어는 concat()을 사용하면 된다고 쓰여있다. 통합할 데이터를 리스트[]형식으로 넣으면 된다. 하지만 인덱스가 뒤죽박죽 섞여있는게 보기 좋지 않다... 리스트 뒤에 ignore_index = True 를 써주면 정렬이 되는걸 볼 수 있다.
2024.01.08 -
멀티캠퍼스2주차-4/ Metplotlib, Seaborn시각화의 기본
import pandas as pd import matplotlib as mpl import seaborn as sns import matplotlib.pyplot as plt data1 = [10, 14, 19, 20, 25] #plt.plot(data1) fig, ax = plt.subplots() ax.plot(data1) plt.show() #객체지향 방식 plt.plot()과 같은 방법으로 그래프를 그리는것이 가능하지만, 그래프를 보기좋게 수정하는 과정을 이해하기위해서 객체지향 방식으로 그리는 습관을 들이는게 좋습니다. 수업을 들으며 내가 내린 데이터 분석과 시각화의 요점 데이터 분석과 시각화 메세지 전달이 중요 복잡한 시각화는 중요하지 않음 데이터 분석과 시각화 분석의 조합 #어느한곳에 취중되..
2024.01.05 -
멀티캠퍼스2주차-4/ 파일 입출력
파일 입출력 입력 read_csv : https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html 그 외 파일 형식 불러오기 자료 : https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html DATA_PATH = 'playground-series-s4e1/' train = pd.read_csv(DATA_PATH + 'train.csv') test = pd.read_csv(DATA_PATH + 'test.csv') submission = pd.read_csv(DATA_PATH + 'sample_submission.csv') train.head() pd.read_csv('경로') DATA_PAT..
2024.01.05 -
타이타닉/Titanic 텍스트 데이터 조작
1. 타이타닉 데이터 불러오기 2. 타이타닉 데이터의 이름 데이터를 모두 소문자로 변환 3. 타이타닉 데이터 'Name' 성만 추출 해보기 .split('') 괄호안에 무엇을 기준으로 나눌지 작성 리스트로 결과물이 나오는걸 확인 str.get() 괄호안에 추출할 문자의 인덱스를 넣으면됨(성과 이름의 리스트로 나누었기 때문에 성이 인덱스 0번 ) 4. Countess 승객 데이터 뽑기 불린을 이용하여 True/False를 나누어준다. True값만 추출한다. 5. 타이타닉 데이터에서 가장 긴 이름을 가진 사람 추출 .len() 함수를 이용하여 문자열의 갯수 파악 .idxmax() 함수를 이용하여 문자열의 갯수가 가장 많은 항목의 index번호를 추출 인덱스 번호(307)를 알았으니 .loc[] 함수를 이용해..
2024.01.05 -
데이터 추출 Test
내가 쓴답 강사님 말씀 - 라이브러리를 불러오고 난 후 버전확인 필수 print(f'Numpy Version : {np.__version__}') 강사님 말씀 -데이터 연습을 위해 데이터셋 샘플을 같이 들고다니면 도움이 됨 sns.get_dataset_name() 강사님 말씀 -loc # labal -iloc # index tips.loc[:2,:]와 tips.iloc[:2,:]의 결과값이 다른이유이다. loc는 labal로 쓰기 때문에 0,1,2가 추출되지만 iloc는 index로 인식을 하기 때문에 0,1만 추출이된다. 판다스를 통해 분석에서는 iloc를 쓰기 어렵기 때문에 loc로 쓰는 연습을 해야한다. 강사님 말씀 tips.loc[tips['day']=='Sun',['total_bill','tip..
2024.01.05