Data Science/Study 자료(31)
-
[통계] 독립표본 t검정, 대응 표본 t검정
대응표본 : 정규분포를 가정 할 수 있다 정규성 검정통과 : 대응표본 t-검정 정규성 검정통과 실패 : 비모수 검정, 윌콕슨의 부호순위검정 독립표본 : 정규분포를 가정 할 수 있다 정규성 검정통과 : 독립비교 t-검정 정규성 검정통과 실패 : 맨위트니의 U검정 대응표본 t-검정 대응하는 데이터가 있고(관련이 있다), 데이터 차이에 정규분포를 가정 할 수있는 경우 평균값차이에 대한 검정입니다. ex) 근력운동을 하면 집중력이 향상되는 효과가 있다고 생각, 친구들에게 조사 A 학생은 친구 20명에게 1주일간 근력운동을 하게 함 (intervention, 개입) 운동 전후에 집중력을 측정하는 테스트 받게됨 귀무가설: 운동 전후 집중력 평균의 차이가 없을 것이다(전 = 후, 차이 = 0) 대립가설: 운동 전후 ..
2024.01.11 -
[통계] 통계적 가설검정
통계적 가설 검정이란 모집단의 모수에 관하여 두 가지 가설을 세우고 ,표본으로 부터 계산되는 통계량을 이용하여 어느 가설이 옳은지 판단하는 통계적방법 p값을 기준으로 수행하는 가설검정의 흐름 가설을 세운다 ▼ 유의수준을 결정한다 ▼ 검정통계량을 계산한다 ▼ p값을 계산한다 ▼ p값이 유의수준보다 큰가? ▼ ▼ Yes No 귀무가설 채택 귀무가설 기각(대립가설 채택) 가설 세우기 귀무가설 귀무가설은 일종의 '디폴트' 가설로, 특정 효과나 차이가 없다고 가정합니다. 통계적으로 검증하려는 주장이나 가설을 부정하는 명제입니다. 보통 H0로 표기하며, 예를 들어 두 집단 간의 평균 차이가 없다거나 효과가 없다는(동일하다) 등의 주장을 나타낼 수 있습니다. 대립가설 대립가설은 귀무가설을 반증하는 명제로, 어떤 효과..
2024.01.11 -
[pandas]데이터 파악하는 명령어/ 데이터 삭제
데이터 둘러보기 import pandas as pd df.info() 가장 간단한 방법 RangeIndex: 전체갯수 각 칼럼별로 데이터가 있는지 확인해보고 결측값이 있는지 판단이 가능하다. df.describe() 기술 통계량 제공 .value_counts() ex) df['Location'].value_counts() 데이터프레임의 칼럼 안에 데이터갯수 파악 가능 데이터 삭제 중복되는 값이 존재할때 .drop_duplicates() (keep = 'first' ,ignore_index = True, inplace = True) ignore_index : 중복된 값을 제거하고 다시 인덱싱을 할것인지 inplace : 수정된 데이터프레임을 덮어씌울지 keep : 중복되는 값중 어떤행을 유지할것 인지 (f..
2024.01.09 -
[시각화] seaborn, matplotlib다중차트 하나의 도화지에 담기
import matplotlib.pyplot as plt import seaborn as sns import pandas as pd import numpy as np tips 데이터를 불러와 사용했습니다. tips = sns.load_dataset("tips") fig, ax = plt.subplots() plt.show() 기본 그래프의 구성은 이렇게 되어있습니다. fig, ax = plt.subplots(nrows = 1, ncols = 2) plt.title('plt.title') plt.show() fig, ax = plt.subplots(nrows = 1, ncols = 2) 괄호안에 nrow,ncol로 그래프를 나눌수가 있습니다. plt.title('plt.title') 각 그래프의 타이틀을..
2024.01.08 -
[pandas] 데이터 불러오기 (엑셀,csv에 한글 포함)
!pip install openpyxl 엑셀파일을 불러오기위해 openpyxl라이브러리를 깔아준다. 엑셀파일을 불러오기위해 ()안에 경로만 적어준다. 엑셀은 시트가 나누어져 있는 경우 경로뒤에 sheet_name을 써주어야 한다. index_col은 인덱스번호대신 인덱스를 사용할 수 있는 명령어이다. csv파일 불러오기 주의 csv파일에 한글이 첨부되어 있는 경우 에러가 날때가 있는데 파일경로 뒤에 encoding = 'cp949'를 적으면 해결 할 수있다. 영어 이외의 언어에서 사용하면 된다.
2024.01.08 -
[pandas]가로방향 데이터 통합 merge() 실무에 자주 쓸 느낌
merge를 사용하면 중복된 칼럼이 있으면 하나면 표시하고 추가가 가능하다. 같은 데이터로 join을 사용하게 되면 이러한 에러가 뜨는것을 볼 수있는데 join을 사용하려면 칼럼명이 겹치면 안된다. 다음은 merge의 심화과정이다. on은 두정보를 결합하는 키로 사용될 공통열이다. 같은 코드에서 how만 바꾸어 보자. 현재 기준이 되는 데이터는df_left이고 how를 통해 key칼럼에 표시될 데이터를 고를 수있다. 두 데이터중 기준이되는 코드를 출력하려면 how = 'left'를 써주면된다. 반대로 key에 기준이 아닌 데이터를 넣으려면 how = 'right'를 사용한다. 전부 나타내려면 outer, 교집합되는 데이터는 inner를 사용한다. 중요한건 추후 실무에서 결측값을 배제할때 자주 사용할것 같..
2024.01.08