Colab환경에서 데이터 분석 진행하기! (데이터 불러오기)

2021. 1. 4. 16:46· Data analysis/Data Process
목차
  1. *파일 불러오기 *
  2. 1. 디렉토리 내 파일 불러오기
  3. pd.read_csv()
  4. 2. URL을 이용해 파일 불러오기
  5. pd.read_csv('url')
  6.  
  7. 3. 업로드를 통해 파일 불러오기
  8. 4. 구글 드라이브에서 파일 불러오기

chrome.google.com/webstore/detail/open-in-colab/iogfkhleblhcpcekbiedikdehleodpjo

 

Open in Colab

Open a Github-hosted notebook in Google Colab

chrome.google.com

colab이란 ?

줄여서 'Colab'이라고도 하는 Colaboratory를 사용하면 브라우저에서 Python을 작성하고 실행할 수 있습니다. Colab은 다음과 같은 이점을 자랑합니다.

  • 구성이 필요하지 않음 -> cmd에서 라이브러리를 일일히 설치 안해주어도 된다!! 주피터 단점 보완!
  • GPU 무료 액세스 -> deep learning에 매우 유용!!
  • 간편한 공유 -> 깃허브, 구글 드라이브, 내컴퓨터 어디든 바로 사본 전송 !

상단바 퍼즐모양에서 설치된 것을 확인 가능!

*파일 불러오기 *

파일을 불러오는 방법에는 크게 4가지가 있다.

1. 디렉토리 내 파일 불러오기

제일 일반적으로 쓰이는 방법. csv와 excel은 거의 동일함으로 csv에 대해서만 코드를 진행.

파일불러오기전 무조건 써줘야할 라이브러리

import pandas as pd
import numpy as np

pd.read_csv()

#dataframe 을 df라는 변수명으로 지정

df = pd.read_csv('파일명.csv')

이때, 파일명은 디렉토리를 지정해 줘야한다.

encoding = 'cp949' / encoding = 'utf-8'

unicode에러가 뜬다면 둘 중에 하나를 쓰는것도 방법이다 .

예를들면.



UnicodeDecodeError: 'cp949' codec can't decode byte 0xec in position 144: illegal multibyte sequence

 

df = pd.read_csv('파일명.csv',encoding = 'cp949')

#또는
df = pd.read_csv('파일명.csv',encoding = 'utf-8')

 

2. URL을 이용해 파일 불러오기

 

pd.read_csv('url')

#변수에 'url' 넣기
csv_url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/stocks/Travel.csv'

df = pd.read_csv(csv_url)

#또는

url = https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/stocks/Travel.csv

df = pd.read_csv('url')

 

3. 업로드를 통해 파일 불러오기

 

csv파일을 자체적으로 만들 때 아주 유용하다.

이 방법의 장점은 디렉토리를 따로 지정 안해주어도 된다는것!

from google.colab import files
uploaded = files.upload()

# 파일 업로드 후 
df = pd.read_csv('파일명.csv')

4. 구글 드라이브에서 파일 불러오기

 

colab의 장점 중 하나는 구글 드라이브로 편한 공유가 가능하다는 점. 큰 용량의 파일도 쉽게 불러 올 수가 있다.

from google.colab import drive
drive.mount('/content/gdrive')

링크 클릭 -> 구글 로그인 필요!

드라이브 접근 허용 후 링크 복사

위 빈칸에 붙여넣기 후 실행.

%cd /content/gdrive/My\ Drive/

my\drive에 접근할 수 있게 된다.

#기본 디렉토리는 my drive(./)
df = pd.read_csv('./파일명.csv', encoding = 'utf-8')

파일은 내 드라이브 내부에 넣어놓으면 된다.

만약, 프로젝트 폴더가 생성된 상태라면

프로젝트 폴더 안에 여러 csv등 데이터 파일을 넣은 후,

%cd/content/gdrive/my\drive/프로젝트 폴더명

으로 코드실행해주면 된당!

'Data analysis > Data Process' 카테고리의 다른 글

Matrix Calculation(Matrix multiplication)/행렬의 연산 Python으로 구현하기  (0) 2021.01.13
선형대수 in AI (벡터와 매트릭스vectors and Matrices)/python 파이썬  (0) 2021.01.13
Hypothesis Test(가설검정) / Python 코드구현/random.seed()/난수  (0) 2021.01.11
Hypothesis Test(가설검정) / 기술통계 vs 추론통계 / python 파이썬!  (0) 2021.01.11
Note1 : EDA (데이터 탐색과정이란,,?)  (0) 2021.01.04
  1. *파일 불러오기 *
  2. 1. 디렉토리 내 파일 불러오기
  3. pd.read_csv()
  4. 2. URL을 이용해 파일 불러오기
  5. pd.read_csv('url')
  6.  
  7. 3. 업로드를 통해 파일 불러오기
  8. 4. 구글 드라이브에서 파일 불러오기
'Data analysis/Data Process' 카테고리의 다른 글
  • 선형대수 in AI (벡터와 매트릭스vectors and Matrices)/python 파이썬
  • Hypothesis Test(가설검정) / Python 코드구현/random.seed()/난수
  • Hypothesis Test(가설검정) / 기술통계 vs 추론통계 / python 파이썬!
  • Note1 : EDA (데이터 탐색과정이란,,?)
ERE
ERE
You Only Live Once
ERE
삶'은 아리
ERE
전체
오늘
어제
  • 개발 (55)
    • Data Platform Engineering (4)
      • HBase 운영 (0)
    • Web (27)
      • MSA Full-Stack 과정 (20)
      • Git & 배포 (7)
    • CS (1)
      • 네트워크 (0)
    • Data analysis (10)
      • Data Process (10)
      • Model (0)
    • 회고 (6)
      • 지원후기 (6)
    • 알고리즘 (3)
      • 리트코드 (3)
      • 백준 (0)
      • 프로그래머스 (0)
    • LEE AHRI (0)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 데청캠
  • 재학대
  • 선형회귀#파이썬#머신러닝#캐글
  • SQL
  • Ai
  • 데이터청년켐퍼스
  • nhn 아카데미
  • master/slave
  • pull requests
  • 범주형변수
  • stop words
  • 카카오추천팀
  • 맥북
  • 데이터청년캠퍼스
  • spacy
  • Python
  • Kdata
  • 품사임베딩
  • 선형회귀 #통계 #데이터사이언스
  • 영상텍스트추출
  • 빅리더
  • HTML #CSS #웹기초
  • AI아카데미
  • 빅리더AI
  • nhn academy
  • 리트코드
  • 빅리더AI아카데미
  • 파이썬
  • AI논문
  • HBASE

최근 댓글

최근 글

hELLO · Designed By 정상우.v4.2.0
ERE
Colab환경에서 데이터 분석 진행하기! (데이터 불러오기)
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.