파이썬/파이썬 데이터 분석 새로비 2018. 12. 26. 22:01
| 가설 검정( Hypothesis Testing ) 가설 검정은 증명된 바 없는 주장이나 가설을 표본 통계량에 입각하여 진위 여부를 판단하는 통계적 추론 방식입니다. 통계적 근거에 기반한 가설 검정은 우리가 세운 어떤 가설에 대해 완벽하게 증명하지 못합니다. 하지만 그 가설이 어느정도 신뢰할 수 있는 지에 대한 어떤 측정값을 우리에게 제공해 줄 수 있습니다. 가설 검정은 귀무 가설(null hypothesis)과 대립 가설(alternative hypothesis)을 설정하여 현재 세운 가설이 맞는지 아닌지를 가늠합니다. 귀무가설은 어떠한 차이가 없거나 의미 있는 차이가 없는 경우의 가설, 관습적이고 보수적인 주장이며 기각(reject)이 목표인 가설을 말합니다. null hypothesis란 용어로 ..
더 읽기
파이썬/파이썬 데이터 분석 새로비 2018. 12. 15. 17:33
| 판다스(Pandas) Timestamp, Period 판다스(Pandas)에서는 Timestamp, Period를 이용하여 시계열 데이터를 쉽게 다룰 수 있는 기능을 제공합니다. 다음 예제는 그 기능들을 이용하여 시계열 데이터를 만들고 처리하는 파이썬 코드들입니다. import pandas as pd import numpy as np time1 = pd.Timestamp('9/1/2016 10:05AM') print(time1) ''' 2016-09-01 10:05:00 ''' period = pd.Period('3/5/2016') print(period) ''' 2016-03-05 ''' # timestamp 인덱스 t1 = pd.Series(list('abc'), [pd.Timestamp('201..
파이썬/파이썬 데이터 분석 새로비 2018. 12. 14. 23:32
| 판다스 피벗 테이블(Pandas Pivot Table) 판다스에서는 DataFrame의 피벗 테이블(Pivot Table)을 만들 수 있는 기능을 제공한다. 아래 코드는 판다스를 통해 피벗 테이블을 어떻게 만들 수 있는지를 알아 볼 수 있는 예제들이다. import pandas as pd import numpy as np df = pd.read_csv('cars.csv') print(df.head()) ''' YEAR Make Model ... RATING (km) TIME (h) 0 2012 MITSUBISHI i-MiEV ... NaN 100 7 1 2012 NISSAN LEAF ... NaN 117 7 2 2013 FORD FOCUS ELECTRIC ... NaN 122 4 3 2013 MITS..
파이썬/파이썬 데이터 분석 새로비 2018. 12. 14. 22:48
| 파이썬 카테고리 타입 및 cut을 이용한 범위 나누기 파이썬에서는 데이터프레임(DataFrame)을 이루는 시리즈(Series) 타입 자료구조를 카테고리 타입(Category Type)으로 캐스팅하여 데이터 분석에 용이하게 쓸 수 있도록 할 수 있습니다. 또한 cut 메서드를 사용하여 데이터를 특정한 값의 범위로 나누어 그룹화하는 것도 가능합니다. 아래는 그에 대한 예제를 모아놓은 것입니다. import pandas as pd import numpy as np df = pd.DataFrame(['A+', 'A', 'A-', 'B+', 'B', 'B-', 'C+', 'C', 'C-', 'D+', 'D'], index=['excellent', 'excellent', 'excellent', 'good', ..
파이썬/파이썬 데이터 분석 새로비 2018. 12. 14. 00:41
| 파이썬 집계함수 groupby groupby는 SQL 문의 group 처럼 어느 특정 컬럼을 묶어 그에 대한 집계연산을 지원하는 함수입니다. 데이터프레임에서 인덱스 혹은 컬럼에 대하여 그 컬럼을 기준으로 그룹을 묶고 난 후 sum 이나 avg 같은 집계 함수를 통해 원하는 데이터를 추출 할 수 있습니다. 다음은 groupby에 대한 예제를 정리한 것입니다. import pandas as pd import numpy as np df = pd.read_csv('census.csv') # SUMLEV이 50인 데이터를 데이터프레임에서 추출 df = df[df['SUMLEV']==50] print(df) ''' SUMLEV REGION ... RNETMIG2014 RNETMIG2015 1 50 3 ... 2..