Data analysis

데이터 분석 전 아주 기본적인 전처리를 해봅시다! 데이터 전처리에 앞서. 전체적인 순서를 정리해보면 아래와 같습니다. (코랩기준!!) -사실 간단한 전처리는 코랩보다 jupyter notebook으로 로컬에서 직접 작업하는 것이 좀 더 편리한 것 같습니다. 1. 내 로컬 파일을 Colab에 업로드하기 dkfl8151.tistory.com/4?category=831673 Colab환경에서 데이터 분석 진행하기! (데이터 불러오기) chrome.google.com/webstore/detail/open-in-colab/iogfkhleblhcpcekbiedikdehleodpjo Open in Colab Open a Github-hosted notebook in Google Colab chrome.google.c..
범주형 변수를 컴퓨터가 인식할 수 있게 해주기 위해서는 따로 encoding 과정을 거쳐야 한다. 범주형 변수란? - 연속형 변수가 아닌 것을 의미한다. 연속하지 않기 때문에 그래프로 표현하게 되면 아래 그래프와 같이 뚝뚝 끊기게 나타난다. ex ) grade , state , job 대표적으로는 One - Hot Encoding Ordinal - Encoding Label Encoding Target Encoding Binary Encoding 등 다용한 종류가 존재한다. 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하며 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식이다. (고유 값의 개수만큼 컬럼을 만든다는 특징이 있다. ) pd.get_dummies..
들어가기전, 오차와 잔차의 정의를 알고 시작하자!! 예측값 : 만들어진 모델이 추정하는 값 (보통y) 잔차 : 표본집단에서의 예측값과 관측값 차이 오차 : 모집단에서의 예측값과 관측값 차이 www.kaggle.com/c/house-prices-advanced-regression-techniques/overview House Prices - Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 목표 : 주택 판매 가격 예측! 선형회귀로 예측을 하기전에 해야할 것이 있다. 1. 통계정보를 활용하기 - 가장 간단하고 직관적인 방법 df[..
회귀분석이란? -> 변수들간의 관계를 파악함으로써 어떤 특정한 변수의 값을 다른 변수들로 설명하고 예측하는 통계적 기법. Y를 설명하는 변수 X를 한개만 사용하여 오차를 최소화하는 직선을 생성하는 분석 방법. 일차함수(linear function)으로 생각하면 더 이해하기 쉽다. y = ax + b a: 기울기 b: 절편 기본적인 일차함수의 식을 이해하고 회귀 분석을 그래프로 표현해보자. 일차함수와 비교하자면 오차항이 추가가 되었다. (오차항과 잔차는 다른 개념이다!!) 관찰된 자료의 모든 오차항의 합은 0이라는 가정을 해야한다. 또한, 관찰된 자료는 최소 3개 이상이어야 한다. (2개 뿐이라면 그대로 이어지면 되기 때문) -독립변수 : 변하지 않는 고유의 변수 값 -종속변수 : 독립변수(x)에 따라서 ..
NumPy를 이용한 선형대수 import numpy as pd np.arry([]) 이는 list 안에 list를 담는 list와는 또 다른 데이터 구조이며 2차원 list, 2차원 array, 2차원 matrix 등으로 표현 되기도 합니다. 1D vs 2D NumPy Arrays 행과 열의 명확한 구분을 하기 위해서는 2D array를 사용해야한다. a = np.array([[1,2,3]]) a = np.array([[1],[2],[3]]) 한 [ ] 의 묶음이 한 행이라 생각하면 된다! NumPy Array와 Matrix는 다릅니다. np.mat(';') NumPy에는 martrix라는 클래스 또한 있지만, 이후에 제거될 것으로 고려 중인 항목이니 사용하길 권장하지 않는다. 그냥 matrix라는게 있..
우리는 주어진 데이터를 regression을 통해 여러가지를 도출해 낼 수 있다. 그럼. 과연 데이터를 어떻게 python에서 표현하고, 저장하고, 계산 할 수 있을 것인가. Matrix (행렬) 고등학교 수학에서 부터 계속 써온 행렬이다 ! 행렬의 형태가 헷갈릴 때에는 행 : 층 열 : 순서 이렇게 기억하면 편하다 ! 행렬의 곱셈 (Matrix multiplication) 행렬의 곱셈에서는 어떻게 곱해지는가 보다 더 먼저 생각해야하는 것은 결과물의 shape(차원)이다. 곱셈에서는 앞에 있는 열과 뒤에있는 행의 크기가 같아야만 연산이 가능하다.!! 예를들어 > (4 , 4) X (4 , 2) => (4 , 2) 중간에 같은 4가 있으면 그 4를 생략. 앞 행과 뒷 열을 괄호안에 써주면 곱셈 후 차원의 ..
import pandas as pd #새로운 데이터프레임 생성 df = pd.DataFrame({'a': [1,2,3,4,5], 'b': [2,4,6,8,10]}) #a와 b의 데이터 요약 df.describe() Mean / Median / Mode Range Var / SD Kurtosis Skewness import numpy as np v = np.random.randint(0, 100, 20) pd.DataFrame(v).describe() seed() 함수 :: seed 생성 np.random.seed(0) 0과 같거나 큰 정수(int)를 넣어준다! 난수를 생성할 때 일종의 기준이 되는 것 : Seed -> 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수..
가설검정(Hypothesis Test) 주어진 상황에 대해서, 하고자 하는 주장이 맞는지 안닌지를 판정하는 과정. 모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지 여부를 판정함. 귀무가설(H0) - 옳고, 틀리다와 상관없이 표본관찰 -> '이 자료는 이러할 것이다' ex)00카페에서 제일 많이 팔리는 음료는 딸기바나나스무디 일 것이다. 대립가설(H1) - 귀무가설에 대립되는 가설 -> 귀무가설이 기각될 때 받아들여지는 가설 ex)00카페에서 제일 많이 팔리는 음료는 딸기바나나스무디 아니다. 귀무가설 귀각(reject) : 가설이 참일 확률이 극히 적어 처음부터 버릴 것이 예상되는 가설. 대립(대안)가설 채택(accept): 연구를 통해 입증되기를 기대하는 예상. 또는 ..
chrome.google.com/webstore/detail/open-in-colab/iogfkhleblhcpcekbiedikdehleodpjo Open in Colab Open a Github-hosted notebook in Google Colab chrome.google.com colab이란 ? 줄여서 'Colab'이라고도 하는 Colaboratory를 사용하면 브라우저에서 Python을 작성하고 실행할 수 있습니다. Colab은 다음과 같은 이점을 자랑합니다. 구성이 필요하지 않음 -> cmd에서 라이브러리를 일일히 설치 안해주어도 된다!! 주피터 단점 보완! GPU 무료 액세스 -> deep learning에 매우 유용!! 간편한 공유 -> 깃허브, 구글 드라이브, 내컴퓨터 어디든 바로 사본 전..
EDA 란? (Exploratort data analysis) 존 튜키라는 통계학자가 창안한 자료 분석 방법론이다. 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발. 쉽게 말하자면, 데이터를 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정! EDA에 가장 중요한점은 바로 직!관!성! . 한눈에 데이터 추이가 눈에 보여야 한다. 위 그래프는 아동학대에 관한 프로젝트를 진행하면서 데이터 전처리를 하기 전 인사이트를 도출하기 위해 수행했던 EDA이다. 보통 한 프로젝트에 시각화를 최소한 20개 이상을 진행해야. 목표를 제대로 정할 수 있다 생각한다. 위 프로젝트 같은 경우에는 변수(컬럼)이 80가지가 넘었다. 모델학습을 진행할때 변수를 선택하는 과정도 아..
ERE
'Data analysis' 카테고리의 글 목록