ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Lecture 2 : Linear Regression and Gradient Descent (1)
    기초인공지능 2020. 10. 16. 16:01

    CONTENTS

    • Linear Regression with Mean Square Error (MSE)
    • Gradient Descent Algorithms
      • ( Batch Gradient Descent / Stochastic Gradient Descent / Mini-batch Gradient Descent)

    Least Square Estimation을 사용하여 구한 최적의 w 벡터 값, 즉 솔루션을 Pseudo Inverse Solution이라고 한다.

     

    이는 Fast, analytic 한, 즉 closed form의 solution이다. 하지만 multicollinearity issue가 존재한다면 closed 형태의 

     

    솔루션을 구할 수 없다는 문제와, k 또는 n이 매우 커지게 되면 computational burden이 급증한다는 문제가 있다.

     

    따라서 이번 장에서는 새로운 Gradient Descent라는 방식을 사용하여 최적의 w 벡터(솔루션) 을 구해본다.

     


    Linear Regression Review

    Given Dataset

    n : feature vector X의 dimension.  Q는 instance의 갯수

    s값은 우리가 만든 모델을 사용하여 예측한 값.

     

    Mean Square Error(MSE)

    k 번째 instance의 오차값( 실제값과 모델을 사용한 예측값 사이의 오차) 는 desired output d 에서 computed output s

     

    를 뺸 값이다. 따라서 총 Q개의 Instance가 존재하기 때문에 이러한 에러값 또한 Q개가 존재한다.

    k번째 instance의 square error (0.5가 곱해진건 단순 정수배)

    mean square error €는 이러한 Q개의 instance의 에러값들의 평균값(averaging) 혹은 기대값(expectation)을 의미한다.

    Mean Square Error

     

    표현의 편의를 위하여, vector P를 desired output d와 input vector X 간의 cross correlation이라고 정의하자.

     

     

     

    d 는 scalar (1,1)이고 X는 (n,1) 이기 때문에 P의 결과는 (n,1)이 되는데, bias term을 고려해준다면,

     

    n+1이 된다.

     

     


    cf> Cross correlation이란?

     

    서로 다른 신호 간에 상관성(correlation)의 척도를 의미한다. Sliding dot product or Sliding inner product라고도 불린다.


    또한 matrix R을 input correlation matrix로 정의해준다.

    ex)

    P는 desired output d와 3-dimension input vector X를 사용하여 구할 수 있다. 또한 R은 3-dimension input vector들을

     

    이용하여 구한다.

     

    만약에 General Linear Regression을 사용한다면??  ex) 3-dimension feature vector & polyorder = 2를 사용.

     

    Input Vector X는 (3,1) 크기의 벡터였지만, GLR을 사용한다면 9개의 basis function을 갖는다. 따라서(9,1) 크기의 X로 

     

    변환해준 뒤 위와 마찬가지로 P 벡터와 R 벡터를 구해주면 된다.

     

     


    이제 MSE를 정의해준 matrix와 vector들을 사용하여 전개해보면 다음과 같다.

    따라서 위의 식과 같이 Mean Square Error의 공식 €는 구하고하자는 변수 W에 대한 2차식(Quadratic Function)이 된다.

     

    결론) MSE를 최소화 시키는 optimal weight vector (W)를 구하는 것이 목표이다.

     

    Closed form으로 최적의 weight vector를 구할 수 있다.

     

     

    Supervised Learning by Iteration

     

    목표는 weight vector w를 구해서 regression model인 f( )를 찾아내는 것이다. 따라서, instance들에 대한 각각의

     

    error를 구해주고, 이를 줄여주는 방향으로 W vector를 최적화 시켜준다.

     

     

    Gradient Descent

    Gradient Descent의 원리

     

    Global minimum을 만들어 줄 때의 weight w를 반복하여 찾아간다.

    p는 몇번째 iteration 인가를 나타내고 i는 feature vector의 dimension을 나타낸다. x = [x1 x2 .... xd]로 d 차원의 

     

    feature vector를 input으로 사용한다면, i는 1,2,3,...,d 까지 존재할 것(bias 없다고 가정시)

     

    에타(n) = learning rate. => 너무 클 경우에는 global minimum으로 수렴하지 않고 oscillate할 가능성이 크다.

     

    하지만 또 너무 작을 경우에는 수렴하기 위해서 너무 많은 수의 iteration을 필요로 할 것이다.

    댓글

Designed by Tistory.