ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Lecture 4 : Bayesian Classifiers (1)
    기초인공지능 2020. 10. 16. 20:37

    CONTENTS

    • Bayes Discriminant Function
      • Linear Discrimiant Analysis (LDA)
      • Quadratic Discriminant Analysis (QDA)
    • Naive Bayes Classifier

    Review

    d-dimensional random vector는 d개의 랜덤변수로 이루어진 vector를 의미한다.

     

    즉, X = [X1, X2, ... , Xd]  총 d개의 랜덤변수 Xi가 vector X의 성분을 이룬다.

     

    랜덤변수들은 그 평균과 variance로 표현이 가능하다.

     

    Vector Mean :

     

    ex) X = [length heigh weight] ^T 이면 u1은 length의 평균, u2는 height의 평균, u3는 weight의 평균

     

    Covariance Matrix :

    (k,k) 성분의 의미 => k번째 랜던변수 Xk의 variance를 의미한다.  

     

    (i,j) 성분의 의미 => i번째 랜덤변수 Xi와 j번쨰 랜덤변수 Xj간의 correlation

     

    Univariate Gaussian Distribution :

    단일 변수 ~ 가우시안 분포

    Multivariate Gaussian Distribution :

    feature vector의 차원이 2인 경우

     

    위의 matrix는 random vectord의 covariance matrix를 의미한다. 따라서 multivariate gaussian 분포같은 경우엔

     

    mean vector와 covariance matrix를 사용하여 표현한다.

     

     

    Distribution shape of random variables

    feature plane에 variable들이 어떤 식으로 분포하는지, 어떤 shape를 갖고 분포되는지는 해당 random vector의

     

    covariance matrix에 따라 달라진다.

     

    1. Spherical contour(shape)

     Covariance matrix의 (1,1) 성분 => X1 랜덤변수의 variance(분산)

     Covariance matrix의 (2,2) 성분 => X2 랜덤변수의 variance(분산)

     Covariacne matrix의 (1,2) & (2,1) 성분 => X1과 X2의 correlation

    2. Elliptical contour

      3. Elliptical Countour

     

    Discriminant Functions

    discriminant function을 만들어서 사용하는 경우, 함수적인 형태를 만들 수 있기 때문에 더 간단하게 계산이 가능하고,

     

    또한 decision boundary를 수식적으로 구하는 것이 가능하다.

     

    클래스의 갯수만큼에 해당되는 discriminant function을 만들어서 어떠한 action을 취할지를 결정한다.

    c개의 클래스가 존재 => c개의 discriminant function이 존재한다.

     

    따라서 input vector X를 c개의 discriminant function에 모두 넣어보고 그 output 값들을 비교하여 

     

    discriminant function을 최대로 만들어주는 discriminant function을 선택한다.

     

    1. Minimum Rist case :

    최대값을 갖는 discriminant function는 최소값을 갖는 conditional risk에 대응시킨다.

    Conditional Risk

    2. Minimum Error-Rate case :

    최대값을 갖는 discriminant function을 최대값을 갖는 posterior probability에 대응시킨다.

     

    Maximum Posterior Probability function에 자연로그를 취한다

    위와같이 discriminant function은 다양하게 존재할 수 있지만, 가장 큰 discriminant function을 구한다는 

     

    decision rule은 모두 동등하다.

     

    Decision Rule using discriminant function

    이러한 decision rule을 기반으로, feature space를 구분해주면 decision boundary를 구할 수 있다.

     

    Decision boundary는 hyperplane일수도, curvature surface일 수도 있다.

     

     

    댓글

Designed by Tistory.