전체 글

You Only Live Once
앞으로 하루에 3문제 씩 Top 100문제를 풀 예정이다! leetcode.com/problemset/top-100-liked-questions/ 화이팅!!
코드스테이츠 AI 부트캠프 2기가 최근에 새로 시작된 기념으로 후기를 남겨볼까 한다. 커리큘럼 총 7개월 과정동안 5개의 Section을 거치게 된다. Section1: 데이터 프레임 다루기 / 통계적 추론 Section2: ML / 선형회귀 / 랜덤포레스트, 의사결정트리, CV, Boosting 기법 등 Section3 : 환경설정 / data engineering / 파이썬 / 스크래핑/Flask등 .. -------------------------------------------------------------------------------------------------- 여기까지가 . 지금까지 한 것들 앞으로 남은 것은 Section4 : 아마 딥러닝 / 자연어 처리가 되지 않을 까 싶다 Se..
이번 나의 과제. 과제 레포를 포크해야 합니다. 'git-merge' 브랜치에 최소한 한 개 이상의 커밋을 남겨야 합니다. 'git-branch' 브랜치에 'git-merge' 브랜치를 머지해야 합니다. 'git-merge' 가 머지된 'git-branch' 브랜치를 포킹된 본인 레포에 반영이 되어야 합니다. 'git-branch' 브랜치를 과제 레포로 pull request 를 보내야 합니다 사용해야 명령어. commit merge push 1.새로운 branch 생성하기 branch는 주로 언제 사용할까? ?? baranch는 분기라는 뜻으로 현재시점을 미래의 여러 분기로 나눠 관리하겠다는 뜻이다. - 어떠한 프로젝트를 관리할 때 또는 원본을 임의로 건드리기가 두려울 때. 나만의 새로운 작업공간을 만..
www.youtube.com/watch?v=FXDjmsiv8fI 정말 쉽게 설명해준 강좌이다. ! Clone 깃 허브에서 fork 하여 내 레포지토리로 이동 시킨 후 작업을 하고 싶을때! git clone "주소" vs code에서는 폴더별로 관리하기 때문에 clone한 폴더 내에서 git init을 해주어야 한다. git init 참고로 모든 작업은 git bash창을 따로 띄어도 되지만. vs code내 터미널 powersell, bash 둘 다 가능하다! git config --global user.name"내 이름" git config --global user.email"내 메일주소" 커밋하기 전 상태보기 git status 그렇다면 조금이라도 수정하거나, 폴더내에 새로운 파일을 생성하고 저장을 ..
범주형 변수를 컴퓨터가 인식할 수 있게 해주기 위해서는 따로 encoding 과정을 거쳐야 한다. 범주형 변수란? - 연속형 변수가 아닌 것을 의미한다. 연속하지 않기 때문에 그래프로 표현하게 되면 아래 그래프와 같이 뚝뚝 끊기게 나타난다. ex ) grade , state , job 대표적으로는 One - Hot Encoding Ordinal - Encoding Label Encoding Target Encoding Binary Encoding 등 다용한 종류가 존재한다. 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하며 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식이다. (고유 값의 개수만큼 컬럼을 만든다는 특징이 있다. ) pd.get_dummies..
들어가기전, 오차와 잔차의 정의를 알고 시작하자!! 예측값 : 만들어진 모델이 추정하는 값 (보통y) 잔차 : 표본집단에서의 예측값과 관측값 차이 오차 : 모집단에서의 예측값과 관측값 차이 www.kaggle.com/c/house-prices-advanced-regression-techniques/overview House Prices - Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 목표 : 주택 판매 가격 예측! 선형회귀로 예측을 하기전에 해야할 것이 있다. 1. 통계정보를 활용하기 - 가장 간단하고 직관적인 방법 df[..
회귀분석이란? -> 변수들간의 관계를 파악함으로써 어떤 특정한 변수의 값을 다른 변수들로 설명하고 예측하는 통계적 기법. Y를 설명하는 변수 X를 한개만 사용하여 오차를 최소화하는 직선을 생성하는 분석 방법. 일차함수(linear function)으로 생각하면 더 이해하기 쉽다. y = ax + b a: 기울기 b: 절편 기본적인 일차함수의 식을 이해하고 회귀 분석을 그래프로 표현해보자. 일차함수와 비교하자면 오차항이 추가가 되었다. (오차항과 잔차는 다른 개념이다!!) 관찰된 자료의 모든 오차항의 합은 0이라는 가정을 해야한다. 또한, 관찰된 자료는 최소 3개 이상이어야 한다. (2개 뿐이라면 그대로 이어지면 되기 때문) -독립변수 : 변하지 않는 고유의 변수 값 -종속변수 : 독립변수(x)에 따라서 ..
NumPy를 이용한 선형대수 import numpy as pd np.arry([]) 이는 list 안에 list를 담는 list와는 또 다른 데이터 구조이며 2차원 list, 2차원 array, 2차원 matrix 등으로 표현 되기도 합니다. 1D vs 2D NumPy Arrays 행과 열의 명확한 구분을 하기 위해서는 2D array를 사용해야한다. a = np.array([[1,2,3]]) a = np.array([[1],[2],[3]]) 한 [ ] 의 묶음이 한 행이라 생각하면 된다! NumPy Array와 Matrix는 다릅니다. np.mat(';') NumPy에는 martrix라는 클래스 또한 있지만, 이후에 제거될 것으로 고려 중인 항목이니 사용하길 권장하지 않는다. 그냥 matrix라는게 있..
우리는 주어진 데이터를 regression을 통해 여러가지를 도출해 낼 수 있다. 그럼. 과연 데이터를 어떻게 python에서 표현하고, 저장하고, 계산 할 수 있을 것인가. Matrix (행렬) 고등학교 수학에서 부터 계속 써온 행렬이다 ! 행렬의 형태가 헷갈릴 때에는 행 : 층 열 : 순서 이렇게 기억하면 편하다 ! 행렬의 곱셈 (Matrix multiplication) 행렬의 곱셈에서는 어떻게 곱해지는가 보다 더 먼저 생각해야하는 것은 결과물의 shape(차원)이다. 곱셈에서는 앞에 있는 열과 뒤에있는 행의 크기가 같아야만 연산이 가능하다.!! 예를들어 > (4 , 4) X (4 , 2) => (4 , 2) 중간에 같은 4가 있으면 그 4를 생략. 앞 행과 뒷 열을 괄호안에 써주면 곱셈 후 차원의 ..
import pandas as pd #새로운 데이터프레임 생성 df = pd.DataFrame({'a': [1,2,3,4,5], 'b': [2,4,6,8,10]}) #a와 b의 데이터 요약 df.describe() Mean / Median / Mode Range Var / SD Kurtosis Skewness import numpy as np v = np.random.randint(0, 100, 20) pd.DataFrame(v).describe() seed() 함수 :: seed 생성 np.random.seed(0) 0과 같거나 큰 정수(int)를 넣어준다! 난수를 생성할 때 일종의 기준이 되는 것 : Seed -> 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수..
ERE
삶'은 아리