Introduction & Background
Introduction
LSTM, GRU ๋ฑ์ Recurrent Model์ ๊ธฐ๊ณ๋ณ์ญ/์ธ์ด๋ชจ๋ธ๋ง ๋ฑ์ SOTA ์ ๊ทผ ๋ฐฉ์์์ ์ฌ์ฉ๋์ด์๋ค. ๋ง์ ์ฐ๊ตฌ๋ฅผ ํตํด ์ฑ๋ฅ์ ๊ฐ์ ํด์๋ค.
Recurrent Model์ ๊ธฐํธ์ ์์น๋ฅผ ์ธ์๋ก ํ๋ฉฐ ๊ทธ ์์๋๋ก hidden state ๋ฅผ ์์ฑํ๋ค. ์ด๋ ๊ฒ ์์๋๋ก ์ํ์ค๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ ๊ธฐ๋ณธ์ ์ผ๋ก ๋ณ๋ ฌํ๊ฐ ์ฝ์ง ์๋๋ฉฐ, ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋๋ฐ ๋ฉ๋ชจ๋ฆฌ์ ์ผ๋ก ์ทจ์ฝํ๋ค. Factorization Trick์ด๋ Conditional Computation์ ํตํด ์ต๊ทผ ๋์ ๋๋ ๊ฐ์ ์ ์ด๋ค๋์ง๋ง, ๊ธฐ๋ณธ์ ์ธ ์ ์ฝ์ ์์ง ๋จ์์๋ค.
Factorization Trick - ์ค๋ช ์ถ๊ฐ ์์
Conditional Computation - ์ค๋ช ์ถ๊ฐ ์์
Attention Mechanism์ ๊ฐ๋ ฅํ ์ํ์ค ๋ชจ๋ธ๋ง๊ณผ ๋ณํ ๋ชจ๋ธ์์ ํ์์ ์ผ๋ก ์ฌ์ฉ๋์ด ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ๊ฑฐ๋ฆฌ(์ ๊ฐ์ ๊ฑฐ๋ฆฌ)์ ์ํฅ์ ๋ฐ์ง ์์ผ๋ฉด์๋ ์ ์ถ๋ ฅ์ ์์กด์ฑ์ ๋ชจ๋ธ๋งํ ์ ์๊ฒ ํ๋ค. ๊ทธ๋ฌ๋ ๋ช ๊ฐ์ง ๊ฒฝ์ฐ๋ฅผ ์ ์ธํ๋ฉด Attention Mechanism์ ํญ์ Recurrent Network์ ํจ๊ป ์ฌ์ฉ๋์๋ค.
์ด ๋ ผ๋ฌธ์์, recurrent ํ ์์ฐจ์ ๊ตฌ์กฐ๋ฅผ ์์ ๋ ๋์ ๋ชจ๋ Attention Mechanism์ผ๋ก ๋์ฒดํจ์ผ๋ก์จ ๋ชจ๋ธ ์ ์ฒด์์ ์ ์ถ๋ ฅ์ ์์กด์ฑ์ ๋ง๋ค ์ ์๋ Transformer ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค. Transformer๋ ์ฝ๊ฒ ๋ณ๋ ฌํ ๊ฐ๋ฅํ๋ฉฐ ๊ธฐ๊ณ๋ฒ์ญ ํ์ง์์ ์๋ก์ด SOTA์ ๋๋ฌํ ์ ์๋ค.
Attention Mechanism์ ๊ธฐ์กด seq2seq์์ ์ถ๋ ฅ์ด ์ ๋ ฅ์ ๋ ์ง์คํ ์ ์๋๋ก ๊ณ ์๋ ๋ฉ์ปค๋์ฆ์ด๋ค. ๋ค์ ๋งํ๋ฉด training data์ ์ ์ถ๋ ฅ ์ฌ์ด์ ์์กด์ฑ์ ๊ฐํํ๋ค.
Background
RNN๊ณผ ๊ฐ์ ์์ฐจ์ ์ฐ์ฐ์ ์ค์ด๊ธฐ ์ํด ์ฐ๊ตฌ์๋ค์ด ๋ ธ๋ ฅํด, Extended Neural GPU, ByteNet, ConvS2S๊ฐ ํ์ํ๋ค. ๊ทธ๋ฌ๋ ์ด๋ค์ ๋ชจ๋ ๊ธฐ๋ณธ์ ์ผ๋ก CNN์ ์ฌ์ฉํ๋ค. ์ด ๋ชจ๋ธ๋ค์ ์์์ ๋ ๊ธฐํธ ์์น ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด์ ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ์์น ์ฌ์ด์ ๊ฑฐ๋ฆฌ์ ๋ฐ๋ผ ๊ณ์ฐ๋์ด ๋์ด๋๋ค. ์ํ์ค ์ ๊ธฐํธ์ ๊ฑฐ๋ฆฌ์ ๋ฐ๋ผ ์ฐ์ฐ๋์ ConvS2S๋ ์ ํ์ ์ผ๋ก, ByteNet์ ๋ก๊ทธํจ์์ ์ผ๋ก ๋์ด๋๋ค.
ConvS2S๋ ์ธ์ฝ๋์ 1-D CNN์ ์ฌ์ฉํ๋ฏ๋ก ์ธ์ฝ๋ฉ ๊ณผ์ ์์ ๋ ์ด์ด๋ง๋ค ์ฐจ์์ด ์ ํ์ ์ผ๋ก ์์ถ๋๋ค. ๋ฐ๋ผ์ ๊ฑฐ๋ฆฌ์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ์ฐ์ฐ ์๊ฐ์ด ์ฆ๊ฐํ๋ค.
ByteNet์ ํ ๋ ์ด์ด๋ฅผ ๊ฑฐ์น ๋๋ง๋ค dilation์ ๋ ๋ฐฐ๋ก ์ ์ฉํ๋ฏ๋ก ํ ๋ ์ด์ด๋ง๋ค ๋ ๋ฐฐ ๋จผ ๊ฑฐ๋ฆฌ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ์์ถํ ์ ์๋ค. ๋ฐ๋ผ์ log2์ ๋ฐ๋ผ ์๊ฐ์ด ์ฆ๊ฐํ๋ค.
์ด๋ฐ ๋ฌธ์ ์ ์ ๊ธด ๋ฌธ์ฅ์์ ๋จผ ๊ฑฐ๋ฆฌ์ ์๋ ๊ธฐํธ ์ฌ์ด์ ๋ฐ์ดํฐ์ ์์กด์ฑ์ ๋ง๋๋ ๋ฐ ์ด๋ ค์์ด ์๋ค. Transformer์์ , ์ด ๊ณผ์ ์ด ์์ ์๊ฐ ์์์ ์ผ์ ํ๊ฒ ๋์ํ๋ค. Attention-weighted position์ ํ๊ท ๋ด๊ธฐ ๋๋ฌธ์ ์ํ์ค์ ๋ถํด๋ฅ์ ๋จ์ด์ง์ง๋ง, ์ด ์ ์ ๋ณด์ํ๊ธฐ ์ํด Multi-Head Attention ์ ์ฌ์ฉํ๋ค.
Self-Attention์ ์ํ์ค์ ํน์ง์ ์ถ์ถํ๊ธฐ ์ํด ๊ฐ์ ์ํ์ค์ ๋ค๋ฅธ ์์น์ ๊ธฐํธ์ ๋ํด attention์ ์คํํ๋ ๊ธฐ๋ฒ์ด๋ค. ์ด ๊ธฐ๋ฒ์ ์ง๊ธ๊น์ง ๋ ํด ๋ฌธ์ ์ ์ถ์์ ์์ฝ ๋ฌธ์ ๋ฑ์์ ๋ฌธ์ฅ์ ๋ํํ๋ ํน์ง์ ์ถ์ถํ๊ธฐ ์ํด ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉ๋์ด ์๋ค.
์ํ์ค ๊ธธ์ด์ ๋ฐ๋ฅธ recurrence๊ฐ ์๋ Recurrent Attention Mechanism์ ๊ธฐ๋ฐํ ๊ธฐ์กด end-to-end ๋ฉ๋ชจ๋ฆฌ ๋คํธ์ํฌ์์ ๊ฐ๋จํ ์ธ์ด ๋ฌธ์ ์ ์ธ์ด ๋ชจ๋ธ๋ง์ ์ ์ํํ๋ค.
Sequential ์ฐ์ฐ์ ๋ณ๋ ฌํ๊ฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ์์ ๋ ค๋ ๋ง์ ๋ ธ๋ ฅ์ด ์์์
๊ทธ๋ฌ๋ ๊ทธ๊ฒ๋ CNN์ ์ฌ์ฉํด ๊ธด ์ํ์ค์ ๋ฐ์ดํฐ ๊ด๊ณ๋ฅผ ๊ณ์ฐํ๋ ๋ฐ ์ฐ์ฐ๋์ด ๋์ฑ ๋ง์์ง
๋ฐ๋ผ์ Self-Attention / Multi-Head Attention์ ์ด์ฉํด ์ด ์ ์ ๋ณด์ํ์
Last updated
Was this helpful?