- 결론적으로는 RNN이 가지는 vanishing gradient 문제를 예방하는데 tanh가 그나마 가장 적절하기 때문이다.
- tanh가 어떻게 RNN의 vanishing gradient 문제를 예방할 수 있는지 알아보기 위해 sigmoid와 tanh의 미분값을 비교해보자.
- sigmoid
- tanh
- sigmoid와 tanh의 미분값을 살펴보면,
- sigmoid와 tanh 모두 0과 1 사이의 미분값을 가지지만
- tanh의 미분 최댓값이 sigmoid에 비해 상대적으로 더 크다는 것을 확인할 수 있다.
- gradient vanishing은 0에 가까운 값을 연쇄적으로 곱하는 경우에 그 가능성이 더욱 커지기 때문에, gradient vanishing에 있어 미분값이 상대적으로 더 큰 tanh가 sigmoid보다 이점을 가지게 되는 것이다.
Reference
'NLP' 카테고리의 다른 글
[NLP] Huggingface hub에 모델 공유하기 (0) | 2023.05.05 |
---|
댓글