Data Science(40)
-
[통계] 통계 테스트용 문항
정규성 검정 시나리오: 어느 회사의 직원들의 월급 데이터가 있다. 이 데이터가 정규 분포를 따르는지 확인하고 싶다. 주어진 월급 데이터를 사용하여 정규성 검정을 수행하고 결과를 해석하기 가설설정 귀무가설 : 대립가설 : 코드 작성 후 p-value 값을 구하시고 정규성 여부를 조건문으로 구하세요 귀무가설, 대립가설, 정규성 만족 유무 print() 만들기 (형식 자유) 예) print("abc 만족합니다!") salaries = [3500, 4000, 4000, 4500, 5000, 5000, 5500, 6000, 6500, 7000] 귀무가설 : 데이터는 정규성을 만족합니다. 대립가설 : 데이터는 정규성을 만족하지 않습니다. from scipy import stats t_statistic, p_valu..
2024.01.21 -
Bank Churn 은행 데이터 분석 프로젝트 2024.01.17
-
[통계] 회귀분석
회귀분석의 정의 하나 또는 그이상의 독립변수들이 종속변수의 미치는 영향을 주정할 수 있는 통계 기법 독립변수의 갯수가 하나 : 단순 선형 회귀분석 독립변수의 갯수가 두개 이상 : 다중 회귀분석 종속변수 : 영향을 받는 변수 독립변수 : 영향을 주는 변수 나는 그래프를 통해서 이해를 했는데 글보다 그게 더 편했다 . 종속변수를 y에 두고 독립변수를 x에 두어, x값이 y값에게 영향을 미치는 것을 분석하는것으로 이해를 하였다. 실제 값들을 살펴보면 기울기나 절편, p-value, 결정계수등 수치로 이해를 해야하는 경우가 많았기 때문이다. 단순선형회귀분석 최소제곱법으로 기울기와 절편을 구하여 그래프상에 표시할수 있다. 중요한건 최소제곱법이 쓰인다는것을 인지하고 결과값은 코드를 통해 전달되기때문에 과정이 크게 ..
2024.01.12 -
[통계] 독립표본 t검정, 대응 표본 t검정
대응표본 : 정규분포를 가정 할 수 있다 정규성 검정통과 : 대응표본 t-검정 정규성 검정통과 실패 : 비모수 검정, 윌콕슨의 부호순위검정 독립표본 : 정규분포를 가정 할 수 있다 정규성 검정통과 : 독립비교 t-검정 정규성 검정통과 실패 : 맨위트니의 U검정 대응표본 t-검정 대응하는 데이터가 있고(관련이 있다), 데이터 차이에 정규분포를 가정 할 수있는 경우 평균값차이에 대한 검정입니다. ex) 근력운동을 하면 집중력이 향상되는 효과가 있다고 생각, 친구들에게 조사 A 학생은 친구 20명에게 1주일간 근력운동을 하게 함 (intervention, 개입) 운동 전후에 집중력을 측정하는 테스트 받게됨 귀무가설: 운동 전후 집중력 평균의 차이가 없을 것이다(전 = 후, 차이 = 0) 대립가설: 운동 전후 ..
2024.01.11 -
[통계] 통계적 가설검정
통계적 가설 검정이란 모집단의 모수에 관하여 두 가지 가설을 세우고 ,표본으로 부터 계산되는 통계량을 이용하여 어느 가설이 옳은지 판단하는 통계적방법 p값을 기준으로 수행하는 가설검정의 흐름 가설을 세운다 ▼ 유의수준을 결정한다 ▼ 검정통계량을 계산한다 ▼ p값을 계산한다 ▼ p값이 유의수준보다 큰가? ▼ ▼ Yes No 귀무가설 채택 귀무가설 기각(대립가설 채택) 가설 세우기 귀무가설 귀무가설은 일종의 '디폴트' 가설로, 특정 효과나 차이가 없다고 가정합니다. 통계적으로 검증하려는 주장이나 가설을 부정하는 명제입니다. 보통 H0로 표기하며, 예를 들어 두 집단 간의 평균 차이가 없다거나 효과가 없다는(동일하다) 등의 주장을 나타낼 수 있습니다. 대립가설 대립가설은 귀무가설을 반증하는 명제로, 어떤 효과..
2024.01.11 -
[pandas]데이터 파악하는 명령어/ 데이터 삭제
데이터 둘러보기 import pandas as pd df.info() 가장 간단한 방법 RangeIndex: 전체갯수 각 칼럼별로 데이터가 있는지 확인해보고 결측값이 있는지 판단이 가능하다. df.describe() 기술 통계량 제공 .value_counts() ex) df['Location'].value_counts() 데이터프레임의 칼럼 안에 데이터갯수 파악 가능 데이터 삭제 중복되는 값이 존재할때 .drop_duplicates() (keep = 'first' ,ignore_index = True, inplace = True) ignore_index : 중복된 값을 제거하고 다시 인덱싱을 할것인지 inplace : 수정된 데이터프레임을 덮어씌울지 keep : 중복되는 값중 어떤행을 유지할것 인지 (f..
2024.01.09