Skip Connection

더 많은 레이어를 사용하더라도 네트워크를 우리가 원하는대로 학습시킬 수 있는가? 의 문제에 대해 항상 vanishing gradient 문제에 부딪혔는데, 이러한 문제는 대부분 nomalized initialization(가중치 초기화 기법), intermediate normaliztion layers(중간 정규화 계층)에 의해서 해결되어 왔다. 하지만 깊은 네트워크에서 이러한 방법을 이용하더라도 gradient vanishin 문제를 완전히 해결하지는 못한다.

스킵 커넥션=잔차연결

인공 신경망, 특히 CNN에서 핵심적인 역할을 하는 구조적 혁신. 특정 레이어의 출력이 다음 레이어로만 연결되는 것이 아니라, 여러 레이어를 건너뛰어 그 이후의 레이어에 직접 연결되는 구조를 말한다.
이는 VGG같은 전통적인 모델이 바로 이전 레이어의 출력만 사용하는 것과 대비된다.
쉽게 비유하자면 여러 단계를 거쳐야 하는 복잡한 업무에서 중간 과정을 건너뛰고 초기 정보를 최종 단계에 직접 전달하여 정보의 왜곡이나 손실을 막는 것과 같다.
신경망을 훈련시킬 떄는 **목적함수 h(x)**를 모델링하는 것이 목표이다. 만약 입력 x를 네트워크의 출력에 더한다면 (즉 스킵 연결을 추가하면) 네트워크는 h(x) 대신 f(x)=h(x)-x를 학습하게 되는데, 이것이 잔차학습이다.

<aside>

💡이게 뭔 소리야?
1. 일반 신경망 (스킵 커넥션 없음)
  
  일반적인 신경망 블록은 입력 x를 받아 복잡한 변환을 거쳐 목표값 h(x)를 직접 만들어내야 한다.
  - 입력: x
  - 네트워크가 할 일: 입력 x를 목표 h(x)로 바꾸는 완벽한 함수 F(x)를 학습하기
  - 학습 목표: F(x)=h(x)
    - 즉 네트워크는 처음부터 끝까지 모든 것을 책임지고 h(x)라는 복잡한 함수를 통째로 학습해야 한다.
2. 잔차 신경망 (스킵 커넥션 있음)
  
  스킵 커넥션이 추가된 잔차 블록은 네트워크가 h(x)를 직접 만드는 것이 아니라, 입력 x에서 h(x)가 되기 위해 필요한 변화량 또는 차이만을 학습하도록 한다.
  - 입력: x
  - 네트워크가 할 일: 차이에 해당하는 함수 F(x)를 학습한다.
  - 최종 출력: 네트워크의 출력 F(x)에 입력 x를 더한 F(x)+x
  - 학습 목표: F(x)+x=h(x)
    - 이 식을 네트워크가 학습하는 F(x)에 대해 정리해보면 F(x)=h(x)-x가 된다.
    - 여기서 h(x) - x가 바로 잔차(Residual), 즉 목표와 입력의 '차이'
</aside>

x ──┐───────────────► (+) ──► y
    │                   ▲
    └─► [Conv/BN/ReLU] ─┘      # 이 박스가 F(x)

그럼 이걸 왜써??

기울기 소실 문제 완화
- 신경망이 깊어질수록 역전파 과정에서 기울기가 점차 작아져 0에 가까워지는 현상이 발생한다. 이 경우 모델 앞단에 있는 레이어들은 가중치를 거의 업데이트하지 못해 학습이 제대로 이루어지지 않는다.
- 스킵 커넥션은 입력 데이터를 출력 쪽에 직접 더해줌으로써 기울기가 건너뛰는 경로(shortcut)를 통해 앞단까지 효과적으로 전달될 수 있도록 돕는다.
성능 저하 문제 해결
- 이론적으로는 네트워크의 층이 깊어질수록 더 복잡한 특징을 학습하여 성능이 좋아져야 하지만 싶어진 네트워크는 최적화되기 어렵기 때문에 성능 저하 현상이 발생한다.
- 스킵 커넥션은 최소한 입력값을 그대로 출력하는 항등 함수 학습을 매우 쉽게 만든다. 즉 추가된 레이어가 성능을 향상시키지 못할 경우 스킵 커넥션을 통해 들어온 입력값을 그대로 다음으로 전달하여 최소한 이전 레이어의 성능 수준은 보장한다.
- 모델은 입력값과의 차이만을 학습하면 되므로 학습이 훨씬 수월해진다.

Long Skip Connection

short skip connections는 얕은 layers에서 그래디언트 플로우를 위한 shortcut를 제공하지만 이외의 이유로 skip connection을 사용하는 경우가 있다.

예를 들어 의미 분할(Semantic Segamentation)같은 작업에서는 세밀한 정보가 필요하다. 고차원 레이어의 출력은 너무 추상적이라 세부 표현이 부족하기 때문에 인코더의 출력(feature map)을 디코더에 직접 연결하는 Long skip connection이 필요하다.
- 인코더와 디코더?
Long skip connection은 다운샘플링 과정에서 잃은 공간 정보를 복구해준다. 인코더의 다양한 해상도 수준의 특징들을 디코더가 다시 합쳐 세밀한 공간 정보를 회복한다.
즉 long skip connection이 없다면 세밀한 부분을 회복할 수 없고 구조는 정확하더라도 디테일이 부족해진다.

<aside>

💡Short vs Long

Short skip→ 학습 과정에서 기울기 소실 문제 완화, 빠른 수렴
Long skip→ 세밀한 디테일 복구, 특히 세그멘테이션에서 중요하다.
두 가지 모두 사용할 때 성능이 가장 좋다. </aside>
세그멘테이션?