[pandas]데이터 파악하는 명령어/ 데이터 삭제

2024. 1. 9. 13:30Data Science/Study 자료

데이터 둘러보기

import pandas as pd
df.info()

가장 간단한 방법 

RangeIndex: 전체갯수

각 칼럼별로 데이터가 있는지 확인해보고 결측값이 있는지 판단이 가능하다.

df.describe()

기술 통계량 제공

.value_counts()

ex)

df['Location'].value_counts() 

데이터프레임의 칼럼 안에 데이터갯수 파악 가능

 

데이터 삭제

 

중복되는 값이 존재할때

.drop_duplicates()

(keep = 'first' ,ignore_index = True, inplace = True)

ignore_index : 중복된 값을 제거하고 다시 인덱싱을 할것인지

inplace : 수정된 데이터프레임을 덮어씌울지 

keep : 중복되는 값중 어떤행을 유지할것 인지 (first 첫번째행 , last끝행, False전체 )

.drop()

ex)

df열삭제  = df.drop('매출액',axis =1)  

df행삭제  = df.drop(19,axis =0)

axis의 값에 따라 열과 행을 고를 수 있음

- axis = 1 은 열
- axis = 0 은 행

 

데이터정렬

.sort_values(by = [' '],ascending = False) 
# ascending = False 오름차순 ascending = True 내림차순

ascending은 오름차순 내림차순을 정하는 명령어이다.