티스토리 뷰

해당 글은 Stanford CS class  CS231n: Convolutional Neural Networks for Visual Recognition 강의를 기반으로 하고 있습니다.

(출처 :http://cs231n.stanford.edu/syllabus.html) Video 강의와 강의 note를 가지고 정리하고 있습니다.


Regularization

이전 정리에서 모델의 성능을 평가할 때, 'Weight parameter가 잘 학습되어 총 loss 값이 0에 가까운가'를 기준으로 한다는 것을 배웠습니다. 그런데 여기서 주의할 점이 있습니다. 우리가 만든 모델의 loss 를 0으로 만드는 W parameter matrix가 오직 하나만 존재할까요? 예를 들어 총 loss 값을 0으로 만드는 아주 정확하게 클래스 분류 결과를 낳는 W parameter가 있다고 해봅시다. 우리가 계속 봐오던 linear classifier를 생각해보면,  loss를 0으로 만드는 수많은   가 존재할 수 있습니다. (>1)


이전 정리에서 배운 Multiclass SVM의 경우 max(0, error_class - correct_class +1) 을 비교하여 loss 값을 도출하는데, W를 사용한 모델의 loss 값을 max(0, 3 - 5 + 1) + max(0, 1 - 5 + 1) 이라고 가정해볼까요? 2W는 기존의 W parameter matrix의 각 element에 2를 곱한 parameter입니다. 2W parameter를 사용하여 loss 값을 도출하게 되면, max(0, 6 - 10 + 1) + max(0, 2 - 10 + 1)로 W를 사용한 경우와 마찬가지로 2W parameter를 사용한 모델의 loss 역시 0 의 값을 갖는 좋은 성능의 모델임을 알 수 있습니다. 


그렇다면 어떤  중, 어떤 W를 선택해야 하는가? 하는 모호함을 해결하는 데에 사용하는 기법이 바로 Regularization입니다. Regularization은 낮은 loss 값을 낳는 수많은 W parameter 중, 가장 simple한 W를 찾는 것을 목적으로 합니다. 여기서 simple하다는 것은, 새로운 data에도 낮은 loss 값을 갖도록 함을 의미합니다. 복잡하고 정교하게 튜닝한 W가 training data에 대해서는 loss 0 결과를 낳는다해도, 새로운 데이터에 대해서는 높은 loss 값을 갖게되는 경우가 많습니다. overfitting된 경우죠.


즉, 굉장히 좋은 성능의 loss를 낳는 수많은 W들 중에서, Overfitting 을 피하면서 잘 학습된 W parameter를 찾기위해 수행하는 것이 Regularization입니다. 



Data loss와 W parameter에 대한 조정값인 R(W)가 합쳐진 아래 식이 Loss function의 full form입니다.




아래 식은 Multiclass SVM Loss function의 full form 입니다. 람다 hyperparamet는 validation set을 사용하여, cross validation으로 결정한다는 것!






Regularization penalty R(W) 종류

Regularization 종류는 다양하나, 일반적으로 L2 norm을 사용합니다.  


W parameter의 모든 element들을 제곱한 값의 합이니, W element 값이 클수록 loss 를 올리게 되는군요. 큰 값을 가지는 W parameter에 penalty를 주는 Regularization loss 입니다.




L2 norm 외에도 일반적으로 사용되는 Regularization form




(출처:http://www.chioka.in/differences-between-the-l1-norm-and-the-l2-norm-least-absolute-deviations-and-least-squares/)





※ Regularization은 input data에 관련한 것이 아님. 학습 parameter W에 대해서 적용하는 loss





Optimization

The goal of optimization is to find W that minimizes the loss function.


W를 찾기위해 뉴럴네트워크에서 도입한 방법은 negative Gradient를 쫓는 것입니다. 

(--*GRADIENT 정리 CHAIN RULE 정리 NEXT*--)

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함