CNN 변형 모델

LeNet-5

손글자 인식에 널리 사용됨

합성곱 층과 풀링층을 쌓고 밀집층이 뒤따른다. 최신 분류 CNN과 가장 크게 차이나는 점은 활성화 함수이다. 요즘에는 tanh 대신 ReLU를 사용하고 RBF 대신에 소프트맥스를 사용한다.

AlexNet

더 크고 깊을 뿐 LeNet-5와 비슷하며 처음으로 합성곱 층 위에 풀링층을 쌓지 않고 바로 합성곱층끼리 쌓았다.

⇒ 이게 왜 좋은거지

과대적합을 줄이기 위해 두 가지 규제 기법을 사용했다.
- 훈련하는 동안 F10과 F9의 출력에 **드롭아웃을 50% 비율**로 적용하였다.
- 훈련 이미지를 랜덤하게 여러 간격으로 이동하거나 수평으로 뒤집고 조명을 바꾸는 식으로 데이터 증식을 수행했다.
C1과 C3층의 ReLU 단계 후에 바로 LRN이라 부르는 경쟁적인 정규화 단계를 사용하였다.

: 가장 강하게 활성화된 뉴런이 다른 특성맵 위에 있는 같은 위치의 뉴런을 억제한다. 이는 특성 맵을 각기 특별하게 다른 것과 구분되게 하고 더 넓은 시각에서 특징을 탐색하도록 만들어 일반화 성능을 향상시킨다.

GoogLeNet

톱-5 오류율을 7% 이하로 낮추었다. 왜??? ⇒ 네트워크가 이전 CNN보다 훨씬 더 깊기 때문에.
인셉션 모듈이라는 서브 네트워크를 가지고 있어서 GoogLeNet이 이전의 구조보다 훨씬 효과적으로 파라미터를 사용한다.

처음에 입력 신호가 네 개의 다른 층에 주입된다. 모든 합성곱 층은 ReLU 활성화 함수를 사용한다. 위쪽의 합성곱층은 각기 다른 커널 크기를 사용하여 다른 크기의 패턴을 잡는다.
모든 층은 스트라이드 1과 same 패딩을 사용하므로 출력의 높이와 너비가 모두 입력과 같다. 이렇게 하면 모든 출력을 깊이 연결 층에서 깊이 방향으로 연결할 수 있다.

⇒ 이게 뭔소리야 다양한 특징으로 추출하기 위한 거 (33, 55가 보통 성능이 좋다)

⇒ 1*1은 무슨 역할인지 찾아보기

관련 자료:

1x1 convolution

인셉션 모듈

ResNet (잔차 네트워크)

기존 구조의 문제: VGG처럼 깊은 네트워크는 일반적으로 성능이 더 좋아진다. 하지만 네트워크 깊이가 너무 깊어지면 성능이 오히려 하락한다. 예를 들어 56층 네트워크는 20층 네트워크보다 더 높은 학습 오류를 보인다. 이는 기울기 소실/폭증 문제로 인해 발생한다.

⇒ 여태까지는 가중치 초기화 방법과 배치 정규화로 이 문제를 해결해왔다.

하지만 Residual Network (ResNet)은 **skip connection**을 추가해 기울기가 원활히 흐를 수 있도록 만들어 학습을 더 안정적으로 하고 빠른 수렴을 돕는다.

residual Network의 관점

ResNet 논문에서는 단순히 기울기 소실 때문이 아니라 최적화 자체가 어려워 성능이 낮아진다고 보았다.