Data Science(40)
-
[시각화] seaborn, matplotlib다중차트 하나의 도화지에 담기
import matplotlib.pyplot as plt import seaborn as sns import pandas as pd import numpy as np tips 데이터를 불러와 사용했습니다. tips = sns.load_dataset("tips") fig, ax = plt.subplots() plt.show() 기본 그래프의 구성은 이렇게 되어있습니다. fig, ax = plt.subplots(nrows = 1, ncols = 2) plt.title('plt.title') plt.show() fig, ax = plt.subplots(nrows = 1, ncols = 2) 괄호안에 nrow,ncol로 그래프를 나눌수가 있습니다. plt.title('plt.title') 각 그래프의 타이틀을..
2024.01.08 -
[pandas] 데이터 불러오기 (엑셀,csv에 한글 포함)
!pip install openpyxl 엑셀파일을 불러오기위해 openpyxl라이브러리를 깔아준다. 엑셀파일을 불러오기위해 ()안에 경로만 적어준다. 엑셀은 시트가 나누어져 있는 경우 경로뒤에 sheet_name을 써주어야 한다. index_col은 인덱스번호대신 인덱스를 사용할 수 있는 명령어이다. csv파일 불러오기 주의 csv파일에 한글이 첨부되어 있는 경우 에러가 날때가 있는데 파일경로 뒤에 encoding = 'cp949'를 적으면 해결 할 수있다. 영어 이외의 언어에서 사용하면 된다.
2024.01.08 -
[pandas]가로방향 데이터 통합 merge() 실무에 자주 쓸 느낌
merge를 사용하면 중복된 칼럼이 있으면 하나면 표시하고 추가가 가능하다. 같은 데이터로 join을 사용하게 되면 이러한 에러가 뜨는것을 볼 수있는데 join을 사용하려면 칼럼명이 겹치면 안된다. 다음은 merge의 심화과정이다. on은 두정보를 결합하는 키로 사용될 공통열이다. 같은 코드에서 how만 바꾸어 보자. 현재 기준이 되는 데이터는df_left이고 how를 통해 key칼럼에 표시될 데이터를 고를 수있다. 두 데이터중 기준이되는 코드를 출력하려면 how = 'left'를 써주면된다. 반대로 key에 기준이 아닌 데이터를 넣으려면 how = 'right'를 사용한다. 전부 나타내려면 outer, 교집합되는 데이터는 inner를 사용한다. 중요한건 추후 실무에서 결측값을 배제할때 자주 사용할것 같..
2024.01.08 -
[pandas] 데이터 가로방향 통합 join()함수/ 인덱스 라벨
join()함수 사용법 데이터는 join()함수를 통해 가로방향으로 통합을 할 수 있다. 주의할점은 칼럼명이 겹치면 안된다는 걸 기억하자! 인덱스 라벨 index_label변수로 인덱스명을 지정해주고 pd.DataFrame()안에 index = index_label로 지정하면 인덱스번호가 바뀐다. 주의할점은 인덱스번호명이 다르면 NaN이 출력된다. 때문에 인덱스명이 같은지 확인해보는 작업을 필수로 진행해주자!
2024.01.08 -
[pandas] 데이터 통합 .append()오류해결
.append() 함수를 사용하면 AttributeError가 뜬다. 공식문서를 확인해보니 .append()는 판다스 버전 1.4.0이후로는 지원을 하지 않는다. print(pd.__version__) 위 코드를 통해서 버전을 확인할 수 있는데 현재 나는 2.1.4 버전을 사용중이었다. 결론은 pandas를 다운그레이드 하거나 변경된 명령어를 사용하면 된다. 변경된명령어는 concat()을 사용하면 된다고 쓰여있다. 통합할 데이터를 리스트[]형식으로 넣으면 된다. 하지만 인덱스가 뒤죽박죽 섞여있는게 보기 좋지 않다... 리스트 뒤에 ignore_index = True 를 써주면 정렬이 되는걸 볼 수 있다.
2024.01.08 -
멀티캠퍼스2주차-4/ Metplotlib, Seaborn시각화의 기본
import pandas as pd import matplotlib as mpl import seaborn as sns import matplotlib.pyplot as plt data1 = [10, 14, 19, 20, 25] #plt.plot(data1) fig, ax = plt.subplots() ax.plot(data1) plt.show() #객체지향 방식 plt.plot()과 같은 방법으로 그래프를 그리는것이 가능하지만, 그래프를 보기좋게 수정하는 과정을 이해하기위해서 객체지향 방식으로 그리는 습관을 들이는게 좋습니다. 수업을 들으며 내가 내린 데이터 분석과 시각화의 요점 데이터 분석과 시각화 메세지 전달이 중요 복잡한 시각화는 중요하지 않음 데이터 분석과 시각화 분석의 조합 #어느한곳에 취중되..
2024.01.05