Transformer | Notion

📒자료

https://medium.com/@hugmanskj/transformer의-큰-그림-이해-기술적-복잡함-없이-핵심-아이디어-파악하기-5e182a40459d

https://www.blossominkyung.com/deeplearning/transfomer-positional-encoding

https://www.blossominkyung.com/deeplearning/transformer-mha

https://www.blossominkyung.com/deeplearning/transfomer-last

https://medium.com/@mansoorsyed05/understanding-transformers-architecture-c571044a1c21

https://wikidocs.net/31379

Attention is All you Need : https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

🎯핵심 키워드

self-attention, positional encoding, Mulit-Head Attention, Scaled dot-product Attention, Cross Attention

기존 모델의 한계

기존의 RNN 모델: 순차적 처리로 인한 병렬화의 어려움으로 장거리 의존성 문제 (기울기 소실)
기존의 seq2seq 모델: 인코더-디코더 구조로 구성되어있다.
- 인코더: 입력 시퀀스를 하나의 벡터 표현으로 압축
- 디코더: 이 벡터 표현을 통해 출력 시퀀스를 만들어냄
하지만 이런 구조는 인코더가 입력 시퀀스를 하나의 벡터로 압축하는 과정에서 입력 시퀀스의 정보가 일부 손실된다.

⇒이를 보정하기 위해 어텐션이 사용됨

<aside>

💡트랜스포머의 핵심 아이디어:

이 어텐션을 RNN의 보정을 위한 용도로서 사용하는 것이 아니라 어텐션만으로 인코더와 디코더를 만들어보면 어떨까?

</aside>

구조

트랜스포머는 RNN을 사용하지 않지만 기존의 seq2seq처럼 인코더-디코더 구조를 유지하고 있다.

차이점: 이전 seq2seq 구조에서는 인코더와 디코더에서 각각 하나의 RNN이 t개의 시점(time step)을 가지는 구조였다면 이번에는 인코더와 디코더라는 단위가 N개로 구성되는 구조이다.

Positional Encoding