NLP
[NLP] RNN은 왜 활성화함수로 tanh를 사용할까?
iamzieun
2023. 4. 2. 18:02
- 결론적으로는 RNN이 가지는 vanishing gradient 문제를 예방하는데 tanh가 그나마 가장 적절하기 때문이다.
- tanh가 어떻게 RNN의 vanishing gradient 문제를 예방할 수 있는지 알아보기 위해 sigmoid와 tanh의 미분값을 비교해보자.
- sigmoid
- tanh
- sigmoid와 tanh의 미분값을 살펴보면,
- sigmoid와 tanh 모두 0과 1 사이의 미분값을 가지지만
- tanh의 미분 최댓값이 sigmoid에 비해 상대적으로 더 크다는 것을 확인할 수 있다.
- gradient vanishing은 0에 가까운 값을 연쇄적으로 곱하는 경우에 그 가능성이 더욱 커지기 때문에, gradient vanishing에 있어 미분값이 상대적으로 더 큰 tanh가 sigmoid보다 이점을 가지게 되는 것이다.
Reference