회귀분석이란?
-> 변수들간의 관계를 파악함으로써 어떤 특정한 변수의 값을 다른 변수들로 설명하고 예측하는 통계적 기법.

<단순 선형 회귀 분석(Simple Linear Regression Analysis)>
Y를 설명하는 변수 X를 한개만 사용하여 오차를 최소화하는 직선을 생성하는 분석 방법.
일차함수(linear function)으로 생각하면 더 이해하기 쉽다.
y = ax + b
a: 기울기
b: 절편
기본적인 일차함수의 식을 이해하고
회귀 분석을 그래프로 표현해보자.

일차함수와 비교하자면 오차항이 추가가 되었다.
(오차항과 잔차는 다른 개념이다!!)
관찰된 자료의 모든 오차항의 합은 0이라는 가정을 해야한다.
또한, 관찰된 자료는 최소 3개 이상이어야 한다.
(2개 뿐이라면 그대로 이어지면 되기 때문)
-독립변수 : 변하지 않는 고유의 변수 값
-종속변수 : 독립변수(x)에 따라서 변하는 변수의 값
여러 Data Point 속에서 오차가 최소가 되게 그려지는 직선이 회귀선이라 생각하면 된다.
일반적으로 Y는 예측하고자 하는 변수의 값이다.
예를들면.
X : 시험공부에 투자한 시간.
Y : 시험점수
------------------------------------
X : 운동 시간
Y : 칼로리 소모량

yt=β0+β1xt+εt.
β1: 기울기
β0: 절편
εt: 오차
<다중 선형 회귀 분석(Multiple Linear Regression)>
Y : 주택 임대료 (예측값)
X : 지어진 연도 , 지하철 역과의 거리 , 방의 개수 .. 등 다양한 요소
일반적으로 예측을 위해서 고려해야하는 변수X는 하나가 아니다.
여러 개의 변수 X를 포함하는 것을 다중선형회귀 라고 한다.
시각화는 아래와 같다.

변수가 3개 이상이 된다면 인간의 인지 능력으로 시각화를 이해하는 것은 거의 불가능 하다.
Scikit-learn/선형회귀(Linear Regression) in Python 예제 / 캐글(kaggle) 데이터 사용/Predictive Model
들어가기전, 오차와 잔차의 정의를 알고 시작하자!! 예측값 : 만들어진 모델이 추정하는 값 (보통y) 잔차 : 표본집단에서의 예측값과 관측값 차이 오차 : 모집단에서의 예측값과 관측값 차이 www.ka
dkfl8151.tistory.com
'Data analysis > Data Process' 카테고리의 다른 글
Category_encoders / ML in Python / 범주형 변수 변환 (0) | 2021.02.15 |
---|---|
Scikit-learn/선형회귀(Linear Regression) in Python 예제 / 캐글(kaggle) 데이터 사용/Predictive Model (0) | 2021.02.14 |
Matrix Calculation(Matrix multiplication)/행렬의 연산 Python으로 구현하기 (0) | 2021.01.13 |
선형대수 in AI (벡터와 매트릭스vectors and Matrices)/python 파이썬 (0) | 2021.01.13 |
Hypothesis Test(가설검정) / Python 코드구현/random.seed()/난수 (0) | 2021.01.11 |
회귀분석이란?
-> 변수들간의 관계를 파악함으로써 어떤 특정한 변수의 값을 다른 변수들로 설명하고 예측하는 통계적 기법.

<단순 선형 회귀 분석(Simple Linear Regression Analysis)>
Y를 설명하는 변수 X를 한개만 사용하여 오차를 최소화하는 직선을 생성하는 분석 방법.
일차함수(linear function)으로 생각하면 더 이해하기 쉽다.
y = ax + b
a: 기울기
b: 절편
기본적인 일차함수의 식을 이해하고
회귀 분석을 그래프로 표현해보자.

일차함수와 비교하자면 오차항이 추가가 되었다.
(오차항과 잔차는 다른 개념이다!!)
관찰된 자료의 모든 오차항의 합은 0이라는 가정을 해야한다.
또한, 관찰된 자료는 최소 3개 이상이어야 한다.
(2개 뿐이라면 그대로 이어지면 되기 때문)
-독립변수 : 변하지 않는 고유의 변수 값
-종속변수 : 독립변수(x)에 따라서 변하는 변수의 값
여러 Data Point 속에서 오차가 최소가 되게 그려지는 직선이 회귀선이라 생각하면 된다.
일반적으로 Y는 예측하고자 하는 변수의 값이다.
예를들면.
X : 시험공부에 투자한 시간.
Y : 시험점수
------------------------------------
X : 운동 시간
Y : 칼로리 소모량

yt=β0+β1xt+εt.
β1: 기울기
β0: 절편
εt: 오차
<다중 선형 회귀 분석(Multiple Linear Regression)>
Y : 주택 임대료 (예측값)
X : 지어진 연도 , 지하철 역과의 거리 , 방의 개수 .. 등 다양한 요소
일반적으로 예측을 위해서 고려해야하는 변수X는 하나가 아니다.
여러 개의 변수 X를 포함하는 것을 다중선형회귀 라고 한다.
시각화는 아래와 같다.

변수가 3개 이상이 된다면 인간의 인지 능력으로 시각화를 이해하는 것은 거의 불가능 하다.
Scikit-learn/선형회귀(Linear Regression) in Python 예제 / 캐글(kaggle) 데이터 사용/Predictive Model
들어가기전, 오차와 잔차의 정의를 알고 시작하자!! 예측값 : 만들어진 모델이 추정하는 값 (보통y) 잔차 : 표본집단에서의 예측값과 관측값 차이 오차 : 모집단에서의 예측값과 관측값 차이 www.ka
dkfl8151.tistory.com
'Data analysis > Data Process' 카테고리의 다른 글
Category_encoders / ML in Python / 범주형 변수 변환 (0) | 2021.02.15 |
---|---|
Scikit-learn/선형회귀(Linear Regression) in Python 예제 / 캐글(kaggle) 데이터 사용/Predictive Model (0) | 2021.02.14 |
Matrix Calculation(Matrix multiplication)/행렬의 연산 Python으로 구현하기 (0) | 2021.01.13 |
선형대수 in AI (벡터와 매트릭스vectors and Matrices)/python 파이썬 (0) | 2021.01.13 |
Hypothesis Test(가설검정) / Python 코드구현/random.seed()/난수 (0) | 2021.01.11 |