더 많은 레이어를 사용하더라도 네트워크를 우리가 원하는대로 학습시킬 수 있는가? 의 문제에 대해 항상 vanishing gradient 문제에 부딪혔는데, 이러한 문제는 대부분 nomalized initialization(가중치 초기화 기법), intermediate normaliztion layers(중간 정규화 계층)에 의해서 해결되어 왔다. 하지만 깊은 네트워크에서 이러한 방법을 이용하더라도 gradient vanishin 문제를 완전히 해결하지는 못한다.

스킵 커넥션=잔차연결

x ──┐───────────────► (+) ──► y
    │                   ▲
    └─► [Conv/BN/ReLU] ─┘      # 이 박스가 F(x)

그럼 이걸 왜써??

  1. 기울기 소실 문제 완화
  2. 성능 저하 문제 해결

Long Skip Connection

short skip connections는 얕은 layers에서 그래디언트 플로우를 위한 shortcut를 제공하지만 이외의 이유로 skip connection을 사용하는 경우가 있다.

<aside>

💡Short vs Long