Lecture 2 : Linear Regression and Gradient Descent (1)

기초인공지능 2020. 10. 16. 16:01

CONTENTS

Linear Regression with Mean Square Error (MSE)
Gradient Descent Algorithms
- ( Batch Gradient Descent / Stochastic Gradient Descent / Mini-batch Gradient Descent)

Least Square Estimation을 사용하여 구한 최적의 w 벡터 값, 즉 솔루션을 Pseudo Inverse Solution이라고 한다.

이는 Fast, analytic 한, 즉 closed form의 solution이다. 하지만 multicollinearity issue가 존재한다면 closed 형태의

솔루션을 구할 수 없다는 문제와, k 또는 n이 매우 커지게 되면 computational burden이 급증한다는 문제가 있다.

따라서 이번 장에서는 새로운 Gradient Descent라는 방식을 사용하여 최적의 w 벡터(솔루션) 을 구해본다.

Linear Regression Review

n : feature vector X의 dimension. Q는 instance의 갯수

s값은 우리가 만든 모델을 사용하여 예측한 값.

Mean Square Error(MSE)

k 번째 instance의 오차값( 실제값과 모델을 사용한 예측값 사이의 오차) 는 desired output d 에서 computed output s

를 뺸 값이다. 따라서 총 Q개의 Instance가 존재하기 때문에 이러한 에러값 또한 Q개가 존재한다.

k번째 instance의 square error (0.5가 곱해진건 단순 정수배)

mean square error €는 이러한 Q개의 instance의 에러값들의 평균값(averaging) 혹은 기대값(expectation)을 의미한다.

표현의 편의를 위하여, vector P를 desired output d와 input vector X 간의 cross correlation이라고 정의하자.

d 는 scalar (1,1)이고 X는 (n,1) 이기 때문에 P의 결과는 (n,1)이 되는데, bias term을 고려해준다면,

n+1이 된다.

cf> Cross correlation이란?

서로 다른 신호 간에 상관성(correlation)의 척도를 의미한다. Sliding dot product or Sliding inner product라고도 불린다.

또한 matrix R을 input correlation matrix로 정의해준다.

ex)

P는 desired output d와 3-dimension input vector X를 사용하여 구할 수 있다. 또한 R은 3-dimension input vector들을

이용하여 구한다.

만약에 General Linear Regression을 사용한다면?? ex) 3-dimension feature vector & polyorder = 2를 사용.

Input Vector X는 (3,1) 크기의 벡터였지만, GLR을 사용한다면 9개의 basis function을 갖는다. 따라서(9,1) 크기의 X로

변환해준 뒤 위와 마찬가지로 P 벡터와 R 벡터를 구해주면 된다.

이제 MSE를 정의해준 matrix와 vector들을 사용하여 전개해보면 다음과 같다.

따라서 위의 식과 같이 Mean Square Error의 공식 €는 구하고하자는 변수 W에 대한 2차식(Quadratic Function)이 된다.

결론) MSE를 최소화 시키는 optimal weight vector (W)를 구하는 것이 목표이다.

Closed form으로 최적의 weight vector를 구할 수 있다.

Supervised Learning by Iteration

목표는 weight vector w를 구해서 regression model인 f( )를 찾아내는 것이다. 따라서, instance들에 대한 각각의

error를 구해주고, 이를 줄여주는 방향으로 W vector를 최적화 시켜준다.

Gradient Descent

Global minimum을 만들어 줄 때의 weight w를 반복하여 찾아간다.

p는 몇번째 iteration 인가를 나타내고 i는 feature vector의 dimension을 나타낸다. x = [x1 x2 .... xd]로 d 차원의

feature vector를 input으로 사용한다면, i는 1,2,3,...,d 까지 존재할 것(bias 없다고 가정시)

에타(n) = learning rate. => 너무 클 경우에는 global minimum으로 수렴하지 않고 oscillate할 가능성이 크다.

하지만 또 너무 작을 경우에는 수렴하기 위해서 너무 많은 수의 iteration을 필요로 할 것이다.

저작자표시 비영리 변경금지 (새창열림)

'기초인공지능' 카테고리의 다른 글

Lecture 2 : Linear Regression and Gradient Descent (3) (0)	2020.10.16
Lecture 2 : Linear Regression and Gradient Descent (2) (0)	2020.10.16
Lecture 1 : Regression & LSE (3) (0)	2020.10.16
Lecture 1 : Regression & LSE (2) (0)	2020.10.16
Lecture 1 : Regression & LSE (1) (1)	2020.10.15

ABOUT ME

Hokni's EE Hokni's EE

Linear Regression Review

Mean Square Error(MSE)

Supervised Learning by Iteration

Gradient Descent

'기초인공지능' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Linear Regression Review

Mean Square Error(MSE)

Supervised Learning by Iteration

Gradient Descent

'기초인공지능' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바