Note1 : EDA (데이터 탐색과정이란,,?)

2021. 1. 4. 15:09· Data analysis/Data Process
목차
  1. Colab
  2. Github

EDA 란? 

(Exploratort data analysis)

존 튜키라는 통계학자가 창안한 자료 분석 방법론이다. 

주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발.

쉽게 말하자면, 데이터를 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정! 

프로젝트로 만들었던 eda

EDA에 가장 중요한점은 바로 직!관!성! . 한눈에 데이터 추이가 눈에 보여야 한다. 

 

위 그래프는 아동학대에 관한 프로젝트를 진행하면서 데이터 전처리를 하기 전 인사이트를 도출하기 위해 수행했던 EDA이다. 보통 한 프로젝트에 시각화를 최소한 20개 이상을 진행해야. 목표를 제대로 정할 수 있다 생각한다.

위 프로젝트 같은 경우에는 변수(컬럼)이 80가지가 넘었다.

모델학습을 진행할때 변수를 선택하는 과정도 아주 중요하기 때문에 EDA과정은 빼놓을 수가 없다. 

 

필요한 이유

 

1. 주요 변수 추리기

많은 양의 변수가 들어간다면 모델 정확도가 떨어질 수 밖에 없다.

 

2. Feature engineering

다음에 더 자세히 다루겠지만 Feature engineering은 데이터 전처리에 있어서 가장 중요한 부분이다. 

인사이트를 가진 변수를 새로 생성해야하는데, EDA를 통해서 근거를 마련할 수 있기 때문에 

꼭 EDA 과정을 거쳐야 한다. 

 

3. 데이터 패턴파악

수집한 데이터가 어떤 부분이 소실되어 결측값으로 나타나는지. 어떠한 변수에 이상치를 가지고 있는지 

한마디로 시각화를 통해서 변수의 상관관계를 파악하기에 아주 유용하다. 

 

Colab

AI 부트캠프에서는 모든 코드작성을 colab에서 진행한다. 

dkfl8151.tistory.com/4

 

Colab환경에서 데이터 분석 진행하기! (데이터 불러오기)

chrome.google.com/webstore/detail/open-in-colab/iogfkhleblhcpcekbiedikdehleodpjo Open in Colab Open a Github-hosted notebook in Google Colab chrome.google.com colab이란 ? 줄여서 'Colab'이라고도 하는..

dkfl8151.tistory.com

 

Github

매일 session에 대한 과제는 깃허브를 통해서 제출하게 된다. 

 

https://youtu.be/Bd35Ze7-dIw

 

'Data analysis > Data Process' 카테고리의 다른 글

Matrix Calculation(Matrix multiplication)/행렬의 연산 Python으로 구현하기  (0) 2021.01.13
선형대수 in AI (벡터와 매트릭스vectors and Matrices)/python 파이썬  (0) 2021.01.13
Hypothesis Test(가설검정) / Python 코드구현/random.seed()/난수  (0) 2021.01.11
Hypothesis Test(가설검정) / 기술통계 vs 추론통계 / python 파이썬!  (0) 2021.01.11
Colab환경에서 데이터 분석 진행하기! (데이터 불러오기)  (0) 2021.01.04
  1. Colab
  2. Github
'Data analysis/Data Process' 카테고리의 다른 글
  • 선형대수 in AI (벡터와 매트릭스vectors and Matrices)/python 파이썬
  • Hypothesis Test(가설검정) / Python 코드구현/random.seed()/난수
  • Hypothesis Test(가설검정) / 기술통계 vs 추론통계 / python 파이썬!
  • Colab환경에서 데이터 분석 진행하기! (데이터 불러오기)
ERE
ERE
You Only Live Once
삶'은 아리You Only Live Once
ERE
삶'은 아리
ERE
전체
오늘
어제
  • 개발 (55)
    • Data Platform Engineering (4)
      • HBase 운영 (0)
    • Web (27)
      • MSA Full-Stack 과정 (20)
      • Git & 배포 (7)
    • CS (1)
      • 네트워크 (0)
    • Data analysis (10)
      • Data Process (10)
      • Model (0)
    • 회고 (6)
      • 지원후기 (6)
    • 알고리즘 (3)
      • 리트코드 (3)
      • 백준 (0)
      • 프로그래머스 (0)
    • LEE AHRI (0)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 재학대
  • 데청캠
  • 데이터청년켐퍼스
  • 선형회귀#파이썬#머신러닝#캐글
  • 파이썬
  • 범주형변수
  • 데이터청년캠퍼스
  • nhn 아카데미
  • SQL
  • 카카오추천팀
  • AI아카데미
  • HTML #CSS #웹기초
  • stop words
  • pull requests
  • 선형회귀 #통계 #데이터사이언스
  • 빅리더
  • HBASE
  • master/slave
  • Python
  • 맥북
  • Ai
  • spacy
  • 품사임베딩
  • nhn academy
  • 빅리더AI
  • Kdata
  • AI논문
  • 영상텍스트추출
  • 빅리더AI아카데미
  • 리트코드

최근 댓글

최근 글

hELLO · Designed By 정상우.v4.2.0
ERE
Note1 : EDA (데이터 탐색과정이란,,?)
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.