앞선 포스팅에서 model training을 하는 방법으로 미분을 통해 optimal 값을 구하는 방법을 사용했다. 해당 식은 loss function E가 단순할 때 사용할 수 있는 방법이었다. 이번 포스팅에서는 loss function이 복잡할 때 사용하는 gradient descent에 대해 공부해 보도록 하자. 이 경우에는 조금씩 update해 가며 점진적으로 찾는 방법을 써야한다. 다음과 같이 함수가 복잡할 때는 미분값이 0이 되는 극솟값이 굉장히 많다. 극솟값들을 local minima라고 하고 그 중에서도 가장 작은 값을 global minima라고 한다. 궁극적으로 우리가 찾고 싶은 최솟값은 global minima다.하지만 우리는 해당 값을 바로 찾을 수 없고 극솟값을 찾았다 해도 그 값..