๋ค์ด๊ฐ๋ฉฐ
ย ย ย 5์ฃผ์ฐจ ๊ฐ์์ ์ ์ด๋ค์๋ค. ์ด๋ฒ์ฅ์์๋ MLP์ ์ ๋ฐ์ ์ธ ๊ณผ์ ์ ๋ํ ๋ด์ฉ์ด์๊ณ , ๊ทธ์ค์์ Forward Pass, Backward Pass์ ๋ํ ๋ด์ฉ์ด ์ฃผ์ ๋ด์ฉ์ด์๋ค. ๊ทธ๋ฆฌ๊ณ ์ต์ ์ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ํ Optimizer ์, ํ์ต์๋์ ์์ ๋๋ฅผ ์ํด ์ฌ์ฉํ๋ Batch Normalization ๋ด์ฉ๋ ํฌํจ ๋์๋ค. ๊ฐ์ฅ ๋ฉ๋ถ์ค๋ ๊ฐ์์๋ ๊ฒ ๊ฐ๋ค. ๊ฐ์ ํผ์ด๊ทธ๋ฃน ๋ถ๋ค๋ ๋ชจ๋ ๋์ํ์๋ค. ๊ทธ๋๋ ๊ณต์ ๋ ์ ํ๋ธ ๊ฐ์๋ ๋ธ๋ก๊ทธ๋ฑ์ ๋ณด๋ฉด์ ์กฐ๊ธ์ด๋๋ง ์ดํด๋๋ฅผ ๋์ด๋๋ฐ ๋์์ด ๋ ๊ฒ ๊ฐ๋ค.
5์ฃผ์ฐจ
- Backward Pass
- Optimizer
- ์ธ์ฐ์ง ์๊ณ ๋ฐฐ์ฐ๋ ๋ชจ๋ธ
- Batch Normalization
- (์ค์ต) MLP MNIST classification (2)
Backward Pass
Back Propagation ์ด๋?
- loss๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ parameter๋ฅผ ์กฐ์ ํ๊ธฐ์ํด ๊ฐ parameter์ ๋ํ loss์ ํธ๋ฏธ๋ถ ๊ฐ์ ๊ณ์ฐํ์ฌ ์ด๋ฅผ ์ด์ฉํด parameter๋ฅผ update
- ํธ๋ฏธ๋ถ(Partial Derivative): MLP์ ๊ฐ์ ๋ค๋ณ์ ํจ์๋ ๊ฐ ๋ณ์๋ค์ด ๋ณตํฉ์ ์ผ๋ก ํจ์์ ์ํฅ์ ์ฃผ๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ๋ณ์๋ค์ ๊ฐ์ ์์๋ก ๋ ์ํ์์ ํน์ ๋ณ์์ ๋ํ ๋ํจ์ ๊ฐ์ ๊ณ ๋ ค
- Chain Rule: ์ฐ์ ๋ฒ์น์ ํ์ฉํ์ฌ, Forward Pass ์ ์ ์ฅํ์๋ Local Gradient์ Back Propagation์ผ๋ก ์ญ์ผ๋ก ๋ด๋ ค์จ Global Gradient ๊ฐ์ ์ด์ฉํ์ฌ ์ ์ฒด Loss ์ ํธ๋ฏธ๋ถ ๊ฐ์ ๊ตฌํ ์ ์๋ค.
Forward Pass - Backward Pass
-
MLP์ ์ฐ์ฐ๋ค์ matrix multiplication๊ณผ nonlinear activation function ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋์ ๊ฐ์ด ๊ตฌ๋ถ๊ฐ๋ฅ
-
Forward Pass ๋ค์ basic operation 4๊ฐ์ง๋ฅผ ๋ณด๊ณ , Backward Pass๋ฅผ ํ ๋ ์๋ฌ ์๊ทธ๋์ด ์ด๋ป๊ฒ ์ ๋ฌ๋๋์ง ์ดํด๋ณด์.
-
Nonlinear Activation Function
-
Activation function์ backward pass๋ฅผ ์ํด์๋ ํด๋น node์์ ๊ฐ ํจ์์ ๋ฏธ๋ถ๊ฐ์ด ํ์.
- Sigmoid, ReLu …
-
Optimizer
- gradient descent๋ฅผ ํตํด์ loss์ ๋ํด์ ์ต์ parameter ๊ฐ์ ๊ตฌํ๊ธฐ ์ํด์ ์ฌ๋ฌ๋ฒ ์ ๋ฐ์ดํธ๋ฅผ ์งํํ๋ค.
- Deep Learning ์์๋ parameter space๋ ์ฐจ์์ด ๊ต์ฅํ ํฌ๋ค. -> global optimal point ์ฐพ๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅ.
- saddle point(๋ง ์์ฅ์ ๋ชจ์)๋ฅผ ํผํ๊ณ local minima๋ฅผ ์ฐพ๋๋ฐ ๋ชฉํ๋ก ํ๋ค.
Gradient-based Methods
- First-order Optimization Methods
- Parameter๋ฅผ loss function gradient์ ๋ฐ๋๋ฐฉํฅ์ผ๋ก update ํ์ฌ loss function์ด ๋ ์์ paramter๋ฅผ ์ป์
- mini-batch๋ฅผ ์ด์ฉ
-
Stocahstic Gradient Descent SGD
- Parameter๋ฅผ gradient ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก update
- ๊ฐ์ฅ๋น ๋ฅด๊ณ ์ฝ๊ฒ ์ ์ฉ๊ฐ๋ฅํ๋ saddle points์ ๋น ์ง๊ธฐ ์ฌ์
- Gradeint์ noise๊ฐ ๋ง์ด ๋ฐ์, update์ ๋ฐฉํฅ์ด ์ง๋ํ๊ธฐ ์ฌ์
-
Momentum
- gradeint๊ฐ ๋น ๋ฅด๊ฒ ๋ณํ๋ ๊ฒ์ ๋ง์ผ๋ฉฐ ์ผ๊ด๋ ๋ฐฉํฅ์ผ๋ก update ์ ๋
- Hyper-parameter momentum factor๊ฐ ์ถ๊ฐ ๋จ
-
AdaGrad
- Update ๋ฐฉํฅ์ด ๊ณผํ๊ฒ ์ง๋ํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด prameter-wise update
- history๋ฅผ ํตํด parameter-wise learning rate ์ ์ฉ
- Update ์์ด ๋ง์ parameter์ update๋ฅผ ์ค์ด๊ณ , update๊ฐ ๋ง์ด ์งํ๋์ง ์์ parameter์ update๋ฅผ ๋๋ฆผ
- learning rate๊ฐ ๊ณ์ ๊ฐ์ํ์ฌ, Deap Learning์์ ์ฌ์ฉํ๊ธฐ ์ด๋ ต๋ค.
-
RMSprop
- AdaGrad์ gradient accumulation S์ momentum์ ์ ์ฉ
- ๋๋ฌด ๋จผ ๊ณผ๊ฑฐ์ gradient์ ํจ๊ณผ๋ฅผ ์ค์
-
Adam
- ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋จ
- RMSprop๊ณผ momentum์ ์กฐํฉ
- Bias correction์ด๋ผ๋ ๊ธฐ๋ฒ์ ํตํด ๊ฐ momentum์ด ์ด๋ฐ์ ๋ถ์์ ํ๊ฒ ์๋ํ๋ ๊ฒ์ ๋ฐฉ์ง
-
Learning Rate Scheduling
- ํ์ต์ด ์งํ๋ ์๋ก parameter๊ฐ ์ต์ ๊ฐ์ผ๋ก ๋ค๊ฐ๊ฐ๊ธฐ ๋๋ฌธ์ learning rate๋ฅผ ์ค์ฌ ๋ ์ ํํ ์๋ ด์ ์๋
- Linear decay, step decay, exponential decay
-
Parameter Initialization
- ์ด๊ธฐ parameter ์ค์ ๋ ์ค์ํ๋ค.
์ธ์ฐ์ง ์๊ณ ๋ฐฐ์ฐ๋ ๋ชจ๋ธ
-
Regularization
- Overfitting์ ๋ง๊ธฐ ์ํ ๊ธฐ๋ฒ
- Overfitting: ๋ฐ์ดํฐ์ ์กด์ฌํ๋ noise๊น์ง ํ์ตํจ์ ๋ฐ๋ผ ํ์ต ๋ฐ์ดํฐ๊ฐ ์๋ ๋ฐ์ดํฐ์ ๋ํด ์ ํํ ์ถ๋ก ์ ํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ
- Norm Regularizations
- Early Stopping
- Validation set์ ์ฑ๋ฅํฅ์์ด ๋ ์ด์ ๋ํ๋์ง ์์๋ ํ์ต์ ๋ฉ์ถ๋ ๊ธฐ๋ฒ
- ํ์ง๋ง ์ค์ ํ์ต์ validation ์ฑ๋ฅ์ด ํ์ฐธ ์ค๋ฅด์ง ์์๋๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ฃผ์๊ฐ ํ์
- Ensemble Methods
- ๋ค์ํ hyper-parmeter ์กฐ์ + randomness
- Dropout
- ๋งค๋ฒ forward pass๋ฅผ ํ ๋๋ง๋ค ์ ์ฒด parameter ์ค ์ผ๋ถ๋ฅผ masking
- ๋ชจ๋ธ ์ ์ฒด parameter ์ค ์ผ๋ถ๋ฅผ ์ด์ฉํด์๋ ์ข์ ์ฑ๋ฅ์ ์ป์์ ์๋๋ก ์ ๋
- batch normalizaion? ์ด ๋น์ทํ ํจ๊ณผ๋ฅผ ๋ธ๋ค
Batch Normalization
-
ํ์ต์์ ๋, ํ์ต์๋์ ๋ง์ ๊ฐ์ ์ ์ค ์๊ณ ๋ฆฌ์ฆ
-
Activation Distribution Assumption
- ๋ชจ๋ธ ์์ฒด์ ๋ํ ๋ถ์๊ณผ ์ฌ๋ฌ ์ ์ฉํ ์๊ณ ๋ฆฌ์ฆ ๋๋ถ๋ถ activation๊ณผ parameter ๋ถํฌ์ ๋ํด Gaussian์ ๊ฐ์
- ์ค์ ๋ก๋ ์ด Gaussian ๋ถํฌ๋ฅผ ๋ฐ๋ฅด์ง ์๋๋ค. -> ํ์ต์๋๊ฐ ๋๋ ค์ง๊ณ ํ์ต๋ฐฉํฅ์ด ์ผ์ ํ์ง ์๋ค.
- ์ด๋ฅผ ์ํด mini-batch ๋จ์๋ก activation์ normalize ํ์ฌ ์ํ๋ ๋ถํฌ๋ก ๋ง๋ค์ด์ค๋ค.
-
Batch Normalizaition
- ๊ฐ layer์ activation์ batch ๋จ์๋ก normalize๋ฅผ ํ์ฌ ์ํ๋ ๋ถํฌ๋ก ๋ง๋ค์ด ์ค
- RNA๋ lstm์ ๊ฒฝ์ฐ ๋ชจ๋ธ์ ํน์ฑ์ ์ฌ์ฉ์ด ์ด๋ ต๋ค.
- ํ์ต ๊ณผ์ ์์๋ mini-batch ์ ์ฒด์ ์ ๋ณด๋ฅผ ์ด์ฉํด batch-statics๋ฅผ ๊ณ์ฐํ์ฌ normalize์ ์ฌ์ฉ