EDA 란?
(Exploratort data analysis)
존 튜키라는 통계학자가 창안한 자료 분석 방법론이다.
주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발.
쉽게 말하자면, 데이터를 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정!

EDA에 가장 중요한점은 바로 직!관!성! . 한눈에 데이터 추이가 눈에 보여야 한다.
위 그래프는 아동학대에 관한 프로젝트를 진행하면서 데이터 전처리를 하기 전 인사이트를 도출하기 위해 수행했던 EDA이다. 보통 한 프로젝트에 시각화를 최소한 20개 이상을 진행해야. 목표를 제대로 정할 수 있다 생각한다.
위 프로젝트 같은 경우에는 변수(컬럼)이 80가지가 넘었다.
모델학습을 진행할때 변수를 선택하는 과정도 아주 중요하기 때문에 EDA과정은 빼놓을 수가 없다.
필요한 이유
1. 주요 변수 추리기
많은 양의 변수가 들어간다면 모델 정확도가 떨어질 수 밖에 없다.
2. Feature engineering
다음에 더 자세히 다루겠지만 Feature engineering은 데이터 전처리에 있어서 가장 중요한 부분이다.
인사이트를 가진 변수를 새로 생성해야하는데, EDA를 통해서 근거를 마련할 수 있기 때문에
꼭 EDA 과정을 거쳐야 한다.
3. 데이터 패턴파악
수집한 데이터가 어떤 부분이 소실되어 결측값으로 나타나는지. 어떠한 변수에 이상치를 가지고 있는지
한마디로 시각화를 통해서 변수의 상관관계를 파악하기에 아주 유용하다.
Colab
AI 부트캠프에서는 모든 코드작성을 colab에서 진행한다.
Colab환경에서 데이터 분석 진행하기! (데이터 불러오기)
chrome.google.com/webstore/detail/open-in-colab/iogfkhleblhcpcekbiedikdehleodpjo Open in Colab Open a Github-hosted notebook in Google Colab chrome.google.com colab이란 ? 줄여서 'Colab'이라고도 하는..
dkfl8151.tistory.com
Github
매일 session에 대한 과제는 깃허브를 통해서 제출하게 된다.
'Data analysis > Data Process' 카테고리의 다른 글
Matrix Calculation(Matrix multiplication)/행렬의 연산 Python으로 구현하기 (0) | 2021.01.13 |
---|---|
선형대수 in AI (벡터와 매트릭스vectors and Matrices)/python 파이썬 (0) | 2021.01.13 |
Hypothesis Test(가설검정) / Python 코드구현/random.seed()/난수 (0) | 2021.01.11 |
Hypothesis Test(가설검정) / 기술통계 vs 추론통계 / python 파이썬! (0) | 2021.01.11 |
Colab환경에서 데이터 분석 진행하기! (데이터 불러오기) (0) | 2021.01.04 |
EDA 란?
(Exploratort data analysis)
존 튜키라는 통계학자가 창안한 자료 분석 방법론이다.
주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발.
쉽게 말하자면, 데이터를 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정!

EDA에 가장 중요한점은 바로 직!관!성! . 한눈에 데이터 추이가 눈에 보여야 한다.
위 그래프는 아동학대에 관한 프로젝트를 진행하면서 데이터 전처리를 하기 전 인사이트를 도출하기 위해 수행했던 EDA이다. 보통 한 프로젝트에 시각화를 최소한 20개 이상을 진행해야. 목표를 제대로 정할 수 있다 생각한다.
위 프로젝트 같은 경우에는 변수(컬럼)이 80가지가 넘었다.
모델학습을 진행할때 변수를 선택하는 과정도 아주 중요하기 때문에 EDA과정은 빼놓을 수가 없다.
필요한 이유
1. 주요 변수 추리기
많은 양의 변수가 들어간다면 모델 정확도가 떨어질 수 밖에 없다.
2. Feature engineering
다음에 더 자세히 다루겠지만 Feature engineering은 데이터 전처리에 있어서 가장 중요한 부분이다.
인사이트를 가진 변수를 새로 생성해야하는데, EDA를 통해서 근거를 마련할 수 있기 때문에
꼭 EDA 과정을 거쳐야 한다.
3. 데이터 패턴파악
수집한 데이터가 어떤 부분이 소실되어 결측값으로 나타나는지. 어떠한 변수에 이상치를 가지고 있는지
한마디로 시각화를 통해서 변수의 상관관계를 파악하기에 아주 유용하다.
Colab
AI 부트캠프에서는 모든 코드작성을 colab에서 진행한다.
Colab환경에서 데이터 분석 진행하기! (데이터 불러오기)
chrome.google.com/webstore/detail/open-in-colab/iogfkhleblhcpcekbiedikdehleodpjo Open in Colab Open a Github-hosted notebook in Google Colab chrome.google.com colab이란 ? 줄여서 'Colab'이라고도 하는..
dkfl8151.tistory.com
Github
매일 session에 대한 과제는 깃허브를 통해서 제출하게 된다.
'Data analysis > Data Process' 카테고리의 다른 글
Matrix Calculation(Matrix multiplication)/행렬의 연산 Python으로 구현하기 (0) | 2021.01.13 |
---|---|
선형대수 in AI (벡터와 매트릭스vectors and Matrices)/python 파이썬 (0) | 2021.01.13 |
Hypothesis Test(가설검정) / Python 코드구현/random.seed()/난수 (0) | 2021.01.11 |
Hypothesis Test(가설검정) / 기술통계 vs 추론통계 / python 파이썬! (0) | 2021.01.11 |
Colab환경에서 데이터 분석 진행하기! (데이터 불러오기) (0) | 2021.01.04 |