
더 크고 깊을 뿐 LeNet-5와 비슷하며 처음으로 합성곱 층 위에 풀링층을 쌓지 않고 바로 합성곱층끼리 쌓았다.
⇒ 이게 왜 좋은거지
과대적합을 줄이기 위해 두 가지 규제 기법을 사용했다.
C1과 C3층의 ReLU 단계 후에 바로 LRN이라 부르는 경쟁적인 정규화 단계를 사용하였다.
: 가장 강하게 활성화된 뉴런이 다른 특성맵 위에 있는 같은 위치의 뉴런을 억제한다. 이는 특성 맵을 각기 특별하게 다른 것과 구분되게 하고 더 넓은 시각에서 특징을 탐색하도록 만들어 일반화 성능을 향상시킨다.

처음에 입력 신호가 네 개의 다른 층에 주입된다. 모든 합성곱 층은 ReLU 활성화 함수를 사용한다. 위쪽의 합성곱층은 각기 다른 커널 크기를 사용하여 다른 크기의 패턴을 잡는다.
모든 층은 스트라이드 1과 same 패딩을 사용하므로 출력의 높이와 너비가 모두 입력과 같다. 이렇게 하면 모든 출력을 깊이 연결 층에서 깊이 방향으로 연결할 수 있다.
⇒ 이게 뭔소리야 다양한 특징으로 추출하기 위한 거 (33, 55가 보통 성능이 좋다)
⇒ 1*1은 무슨 역할인지 찾아보기
관련 자료:
기존 구조의 문제: VGG처럼 깊은 네트워크는 일반적으로 성능이 더 좋아진다. 하지만 네트워크 깊이가 너무 깊어지면 성능이 오히려 하락한다. 예를 들어 56층 네트워크는 20층 네트워크보다 더 높은 학습 오류를 보인다. 이는 기울기 소실/폭증 문제로 인해 발생한다.
⇒ 여태까지는 가중치 초기화 방법과 배치 정규화로 이 문제를 해결해왔다.
하지만 Residual Network (ResNet)은 **skip connection**을 추가해 기울기가 원활히 흐를 수 있도록 만들어 학습을 더 안정적으로 하고 빠른 수렴을 돕는다.