Introduction & Background

Introduction

LSTM, GRU ๋“ฑ์˜ Recurrent Model์€ ๊ธฐ๊ณ„๋ณ€์—ญ/์–ธ์–ด๋ชจ๋ธ๋ง ๋“ฑ์˜ SOTA ์ ‘๊ทผ ๋ฐฉ์‹์—์„œ ์‚ฌ์šฉ๋˜์–ด์™”๋‹ค. ๋งŽ์€ ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•ด์™”๋‹ค.

Recurrent Model์€ ๊ธฐํ˜ธ์˜ ์œ„์น˜๋ฅผ ์ธ์ž๋กœ ํ•˜๋ฉฐ ๊ทธ ์ˆœ์„œ๋Œ€๋กœ hidden state ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ์ˆœ์„œ๋Œ€๋กœ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ๋ณ‘๋ ฌํ™”๊ฐ€ ์‰ฝ์ง€ ์•Š๋Š๋ฉฐ, ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š”๋ฐ ๋ฉ”๋ชจ๋ฆฌ์ ์œผ๋กœ ์ทจ์•ฝํ•˜๋‹ค. Factorization Trick์ด๋‚˜ Conditional Computation์„ ํ†ตํ•ด ์ตœ๊ทผ ๋ˆˆ์— ๋„๋Š” ๊ฐœ์„ ์„ ์ด๋ค„๋ƒˆ์ง€๋งŒ, ๊ธฐ๋ณธ์ ์ธ ์ œ์•ฝ์€ ์•„์ง ๋‚จ์•„์žˆ๋‹ค.

Factorization Trick - ์„ค๋ช… ์ถ”๊ฐ€ ์˜ˆ์ •

Conditional Computation - ์„ค๋ช… ์ถ”๊ฐ€ ์˜ˆ์ •

Attention Mechanism์€ ๊ฐ•๋ ฅํ•œ ์‹œํ€€์Šค ๋ชจ๋ธ๋ง๊ณผ ๋ณ€ํ™˜ ๋ชจ๋ธ์—์„œ ํ•„์ˆ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜์–ด ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์˜ ๊ฑฐ๋ฆฌ(์…€ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ)์— ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š์œผ๋ฉด์„œ๋„ ์ž…์ถœ๋ ฅ์˜ ์˜์กด์„ฑ์„ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ช‡ ๊ฐ€์ง€ ๊ฒฝ์šฐ๋ฅผ ์ œ์™ธํ•˜๋ฉด Attention Mechanism์€ ํ•ญ์ƒ Recurrent Network์™€ ํ•จ๊ป˜ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์—์„œ, recurrent ํ•œ ์ˆœ์ฐจ์  ๊ตฌ์กฐ๋ฅผ ์—†์• ๋Š” ๋Œ€์‹  ๋ชจ๋‘ Attention Mechanism์œผ๋กœ ๋Œ€์ฒดํ•จ์œผ๋กœ์จ ๋ชจ๋ธ ์ „์ฒด์—์„œ ์ž…์ถœ๋ ฅ์˜ ์˜์กด์„ฑ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š” Transformer ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. Transformer๋Š” ์‰ฝ๊ฒŒ ๋ณ‘๋ ฌํ™” ๊ฐ€๋Šฅํ•˜๋ฉฐ ๊ธฐ๊ณ„๋ฒˆ์—ญ ํ’ˆ์งˆ์—์„œ ์ƒˆ๋กœ์šด SOTA์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋‹ค.

Attention Mechanism์€ ๊ธฐ์กด seq2seq์—์„œ ์ถœ๋ ฅ์ด ์ž…๋ ฅ์— ๋” ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ณ ์•ˆ๋œ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด๋‹ค. ๋‹ค์‹œ ๋งํ•˜๋ฉด training data์˜ ์ž…์ถœ๋ ฅ ์‚ฌ์ด์— ์˜์กด์„ฑ์„ ๊ฐ•ํ™”ํ•œ๋‹ค.

Background

RNN๊ณผ ๊ฐ™์€ ์ˆœ์ฐจ์  ์—ฐ์‚ฐ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ž๋“ค์ด ๋…ธ๋ ฅํ•ด, Extended Neural GPU, ByteNet, ConvS2S๊ฐ€ ํƒ„์ƒํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋“ค์€ ๋ชจ๋‘ ๊ธฐ๋ณธ์ ์œผ๋กœ CNN์„ ์‚ฌ์šฉํ•œ๋‹ค. ์ด ๋ชจ๋ธ๋“ค์€ ์ž„์˜์˜ ๋‘ ๊ธฐํ˜ธ ์œ„์น˜ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด์„  ์ž…๋ ฅ ๋ฐ ์ถœ๋ ฅ์œ„์น˜ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ์— ๋”ฐ๋ผ ๊ณ„์‚ฐ๋Ÿ‰์ด ๋Š˜์–ด๋‚œ๋‹ค. ์‹œํ€€์Šค ์ƒ ๊ธฐํ˜ธ์˜ ๊ฑฐ๋ฆฌ์— ๋”ฐ๋ผ ์—ฐ์‚ฐ๋Ÿ‰์€ ConvS2S๋Š” ์„ ํ˜•์ ์œผ๋กœ, ByteNet์€ ๋กœ๊ทธํ•จ์ˆ˜์ ์œผ๋กœ ๋Š˜์–ด๋‚œ๋‹ค.

ConvS2S๋Š” ์ธ์ฝ”๋”์— 1-D CNN์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ ์ธ์ฝ”๋”ฉ ๊ณผ์ •์—์„œ ๋ ˆ์ด์–ด๋งˆ๋‹ค ์ฐจ์›์ด ์„ ํ˜•์ ์œผ๋กœ ์••์ถ•๋œ๋‹ค. ๋”ฐ๋ผ์„œ ๊ฑฐ๋ฆฌ์— ๋”ฐ๋ผ ์„ ํ˜•์ ์œผ๋กœ ์—ฐ์‚ฐ ์‹œ๊ฐ„์ด ์ฆ๊ฐ€ํ•œ๋‹ค.

ByteNet์€ ํ•œ ๋ ˆ์ด์–ด๋ฅผ ๊ฑฐ์น  ๋•Œ๋งˆ๋‹ค dilation์„ ๋‘ ๋ฐฐ๋กœ ์ ์šฉํ•˜๋ฏ€๋กœ ํ•œ ๋ ˆ์ด์–ด๋งˆ๋‹ค ๋‘ ๋ฐฐ ๋จผ ๊ฑฐ๋ฆฌ์— ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ log2์— ๋”ฐ๋ผ ์‹œ๊ฐ„์ด ์ฆ๊ฐ€ํ•œ๋‹ค.

์ด๋Ÿฐ ๋ฌธ์ œ์ ์€ ๊ธด ๋ฌธ์žฅ์—์„œ ๋จผ ๊ฑฐ๋ฆฌ์— ์žˆ๋Š” ๊ธฐํ˜ธ ์‚ฌ์ด์˜ ๋ฐ์ดํ„ฐ์˜ ์˜์กด์„ฑ์„ ๋งŒ๋“œ๋Š” ๋ฐ ์–ด๋ ค์›€์ด ์žˆ๋‹ค. Transformer์—์„ , ์ด ๊ณผ์ •์ด ์ƒ์ˆ˜ ์‹œ๊ฐ„ ์•ˆ์—์„œ ์ผ์ •ํ•˜๊ฒŒ ๋™์ž‘ํ•œ๋‹ค. Attention-weighted position์„ ํ‰๊ท ๋‚ด๊ธฐ ๋•Œ๋ฌธ์— ์‹œํ€€์Šค์˜ ๋ถ„ํ•ด๋Šฅ์€ ๋–จ์–ด์ง€์ง€๋งŒ, ์ด ์ ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด Multi-Head Attention ์„ ์‚ฌ์šฉํ•œ๋‹ค.

Self-Attention์€ ์‹œํ€€์Šค์˜ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ™์€ ์‹œํ€€์Šค์˜ ๋‹ค๋ฅธ ์œ„์น˜์˜ ๊ธฐํ˜ธ์— ๋Œ€ํ•ด attention์„ ์‹คํ–‰ํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค. ์ด ๊ธฐ๋ฒ•์€ ์ง€๊ธˆ๊นŒ์ง€ ๋…ํ•ด ๋ฌธ์ œ์™€ ์ถ”์ƒ์  ์š”์•ฝ ๋ฌธ์ œ ๋“ฑ์—์„œ ๋ฌธ์žฅ์„ ๋Œ€ํ‘œํ•˜๋Š” ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•ด ํšจ๊ณผ์ ์œผ๋กœ ์‚ฌ์šฉ๋˜์–ด ์™”๋‹ค.

์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ฅธ recurrence๊ฐ€ ์•„๋‹Œ Recurrent Attention Mechanism์— ๊ธฐ๋ฐ˜ํ•œ ๊ธฐ์กด end-to-end ๋ฉ”๋ชจ๋ฆฌ ๋„คํŠธ์›Œํฌ์—์„œ ๊ฐ„๋‹จํ•œ ์–ธ์–ด ๋ฌธ์ œ์™€ ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ์ž˜ ์ˆ˜ํ–‰ํ–ˆ๋‹ค.

  1. Sequential ์—ฐ์‚ฐ์€ ๋ณ‘๋ ฌํ™”๊ฐ€ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฅผ ์—†์• ๋ ค๋Š” ๋งŽ์€ ๋…ธ๋ ฅ์ด ์žˆ์—ˆ์Œ

  2. ๊ทธ๋Ÿฌ๋‚˜ ๊ทธ๊ฒƒ๋„ CNN์„ ์‚ฌ์šฉํ•ด ๊ธด ์‹œํ€€์Šค์˜ ๋ฐ์ดํ„ฐ ๊ด€๊ณ„๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐ ์—ฐ์‚ฐ๋Ÿ‰์ด ๋”์šฑ ๋งŽ์•„์ง

  3. ๋”ฐ๋ผ์„œ Self-Attention / Multi-Head Attention์„ ์ด์šฉํ•ด ์ด ์ ์„ ๋ณด์™„ํ•˜์ž

Last updated