지배적으로 많이 사용되는 시퀀스 변환 모델은 인코더와 디코더를 포함하며 복잡한 Recurrent / Convolutional NN으로 구성된다. 가장 좋은 성능을 내는 모델도 인코더와 디코더를 attention mechanism으로 연결하는 구조이다.
이 논문에선 Recurrent/Convolutional 구조를 완전히 없애고 Attention mechanism에 기반한, 새롭고 간단한 네트워크 구조 - Transformer를 소개한다. 기계번역 상의 성능을 비교했을 때 더 병렬화 쉽고, 적게 train해도 더 좋은 성능을 내었다.